0.2 數據分析
數據分析指的是將數據轉化為價值的一個完整過程。作為一個完整過程,數據分析應該有很多環節。用看病來類比數據分析,是一個不錯的例子,如圖0.1所示。

圖0.1 數據分析過程與看病過程類比
為了理解數據分析,首先要弄清楚數據分析與其他相關概念的區別。數據分析還沒有公認的定義,百度的解釋是:數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
在使用中,數據分析可幫助人們做出判斷,以便采取適當行動。
下面用賓州大學知名的Dennis Lin教授提到過的一個例子,顯示數據分析與我們到底有多么緊密相關。這是一封大數據情書,信中寫道:
親愛的齊:
我們的感情,一年來正沿著健康的道路蓬勃發展。這主要表現在:
1)我們共通信121封,平均3.01天一封。其中你給我的信51封,占42.1%;我給你的信70封,占57.9%。每封信平均1502字,最長的達5215字,最短的也有624字。
2)約會共98次,平均3.7天一次。其中你主動約我38次,占38.7%;我主動約你60次,占61.3%。每次約會平均3.8小時,最長達6.4小時,最短的也有1.6小時。
3)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。
以上充分證明一年來的交往我們形成了戀愛的共識,我們愛情的主流是互相了解、互相關心、互相幫助的,是平等的、互利的。
這封情書就是一個現實生活中利用數據進行分析的范例,如果情書通篇只談我有多么愛你,往往是一封空洞的書信。但是如果在情書中加入量化的數據,能夠大大增加情書的說服力。
為了理解數據分析,接下來比較一下與數據分析相關的概念。
0.2.1 數據分析不同于信息化系統
信息化是以現代通信、網絡、數據庫技術為基礎,將所研究對象的各要素匯總至數據庫,供特定人群生活、工作、學習、輔助決策等和人類息息相關的各種行為相結合的一種技術,使用該技術后,可以極大地提高各種行為的效率,為推動人類社會進步提供極大的技術支持。
數據分析與信息化系統對比見表0.1。
表0.1 數據分析與信息化系統對比

0.2.2 數據分析不同于統計分析
統計分析是指運用統計方法及與分析對象有關的知識,從定量與定性的結合上進行的研究活動。它是繼統計設計、統計調查、統計整理之后的一項十分重要的工作,是在前幾個階段工作的基礎上通過分析達到對研究對象更深刻的認識。它又是在一定的選題下,集分析方案的設計、資料的搜集和整理而展開的研究活動。系統、完善的資料是統計分析的必要條件。
運用統計方法、定量與定性的結合是統計分析的重要特征。隨著統計方法的普及,不僅統計工作者可以搞統計分析,各行各業的工作者都可以運用統計方法進行統計分析。只將統計工作者參與的分析活動稱為統計分析的說法嚴格說來是不正確的。提供高質量、準確而又及時的統計數據和高層次、有一定深度、廣度的統計分析報告是統計分析的產品。從一定意義上講,提供高水平的統計分析報告是統計數據經過深加工的最終產品,這里的深加工指數據挖掘方法。
統計分析還是就數據分析數據,還不能講數據的故事。數據分析與統計分析對比見表0.2。
表0.2 數據分析與統計分析對比

0.2.3 數據分析不同于數據挖掘
在許多時候,數據分析和數據挖掘常常一起出現,許多人容易把這兩個概念搞混淆。
所謂數據挖掘(Data Mining,DM)是指從大量不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、有用的信息和知識的過程。其表現形式為概念、規則、模式等形式。挖掘的結果是數據分析報告的素材,挖掘得越深,數據故事講得就越精彩。數據挖掘技術是做數據分析達人的基本功。
數據分析與數據挖掘對比見表0.3
表0.3 數據分析與數據挖掘對比

在企業運轉過程中,數據分析和數據挖掘的需求持續不斷,兩者相輔相成,不可或缺,同等重要。
0.2.4 數據分析不同于數據管理
隨著計算機技術的發展,數據管理經歷了人工管理、文件系統和數據庫系統三個發展階段。在數據庫系統中所建立的數據結構,更充分地描述了數據間的內在聯系,便于數據修改、更新與擴充,同時保證了數據的獨立性、可靠性、安全性與完整性,減少了數據冗余,故提高了數據共享程度及數據管理效率。
數據管理只依賴于數據本身,與業務場景、思維習慣無關。數據管理是一種技能,而數據分析是一種藝術。
數據管理數據源一般要求數據是結構化的,數據分析的數據源可以是結構化、半結構化和非結構化的。
數據分析不同于數據管理,數據分析輸入的是數據,輸出是用于決策的數據分析報表,而數據管理輸入的是數據,輸出的還是數據。
0.2.5 數據分析不同于商業智能
數據分析只是一種工具(一種系統化分析問題的方式),可以很簡單,也可以很復雜。
商業智能則是一種產品/服務,這個產品/服務可能包含報表、分析、管理等利用計算機和編程技術自動化一些商業過程的行為。
舉例子:水果店老板利用商業智能做出來的報表或儀表盤觀測自己商店的人流量、購買量、購買時間,及時調整自己的庫存和銷售節奏。
過去人們做生意,依靠的是直覺和經驗?,F在在計算機的幫助下,可以利用數據分析減少試錯,減少錯誤決策帶來的成本,明白生意好的因由。而商業智能將這一切盡可能地自動化和簡化。
商業智能常常被理解為企業內部現有數據轉化為指導商業決策的平臺或系統。類似于ERP、CRM等系統一樣的企業級信息化應用。常見的系統有Business Object、Cognos和Hyperon等。
從企業分工的角度來講,通常商業智能部(BI)會涵蓋大數據產品、數據分析和數據倉庫3個部分。所以,數據分析僅僅是BI中的一個部分。
數據分析應用于各個部門,通常更多是零散的應用和局部的應用;BI通常是企業級的應用,更宏觀。
數據分析通常針對某個問題,運用一定的方法進行分析、歸納、演繹并得出結論;商業智能更多側重于流程化、規范化和智能化的應用。
數據分析的工具包括R、SAS等挖掘工具,也包括Webtrekk、GA等統計分析工具,更包含Excel等初級工具,只要能實現分析都可以使用;BI通常包括SAP、Oracle、甲骨文等大型公司提供的工具,一般小工具都不能應用。
0.2.6 數據分析的內容
數據分析的內容可根據業務需求有所側重,圖0.2給出了分析內容的9個方面。

圖0.2 數據分析目標的深度示意圖
(1)數據可視化
數據分析不使用圖表是難以想象的,數據可視化的作用、技術、工具可參考第18章。
下面以客戶咨詢情況分析為例,說明可視化的必要性:
“在1205692件客戶咨詢中,咨詢話音基本業務423058次,占咨詢總量的35.09%;咨詢新業務367978次,占咨詢總量的30.52%;咨詢終端2635次,占咨詢總量的0.22%;咨詢服務及營業網點99109次,占咨詢總量的8.22%;咨詢網絡26896次,占咨詢總量的2.23%;咨詢卡類業務7792次,占咨詢總量的0.65%;咨詢計費原則4636次,占咨詢總量的0.38%;咨詢營銷活動211312次,占咨詢總量的17.53%;咨詢其他業務62276次,占咨詢總量的5.16%?!?/p>
上面的文字描述可以用圖0.3表示。

圖0.3 客戶咨詢情況分析可視化示例
(2)PPT式報告
在程序員的世界里,講究“No more talk,Show me the code”,在數據分析師世界里,講究“Show me the report”。PPT式報告是了解情況的最簡形式,好的數據分析報告是企業決策的重要依據,專業的數據分析報告能體現分析師的職場價值。具體細節參見0.4.4節和第17章。
(3)數據認知
當拿到一個數據集時,你通常會怎么做?你腦子里好不容易蹦出的那個答案正確嗎?這個問題或許能讓不少人尷尬。分析與探索是對數據的認知,將遵循如下順序:數據源質量→數據類型→數據集質量→平均水平→數據分布→量變關系→多維交叉。細節參考7.2節和7.3節。
(4)業務洞察
業務洞察可以為組織提供快速的評估和路線圖,幫助組織識別機遇和規劃轉型路徑以實現其分析舉措和目標。業務分析可以通過分析,幫助組織開啟實現價值和競爭優勢的新途徑。
(5)精準營銷
精準營銷大致意思就是充分利用各種新式媒體,將營銷信息推送到比較準確的受眾群體中,從而既節省營銷成本,又能起到最大化的營銷效果。這里的新式媒體,一般意義上指的是除報紙、雜志、廣播、電視之外的媒體。
(6)用戶畫像
用戶畫像是對現實世界中“用戶”的“數學建?!薄?/p>
一方面是描述用戶,沒有說人,是說明它跟業務密切相關,它是從業務中抽象出來的,因此來源于現實,高于現實。
另一方面,用戶畫像是一種模型,是通過分析挖掘用戶盡可能多的數據信息得到的,它是從數據中來,但對數據做過了抽象,比數據要高,后面所有用戶畫像的內容都是基于這個展開的。比如月光族,這個是挖掘分析出來的,不是說原來的數據中包含月光族這個標簽。
(7)行業分析
行業是由許多同類企業構成的群體。如果只進行企業分析,雖然可以知道某個企業的經營和財務狀況,但不能知道其他同類企業的狀況,無法通過比較知道企業在同行業中的位置。而這在充滿著高度競爭的現代經濟中是非常重要的。另外,行業所處生命周期的位置制約著或決定著企業的生存和發展。
(8)趨勢預測
趨勢是指市場運動的方向,有三個方向:上升方向、下降方向和水平方向。
趨勢的類型(規模)分為:
主要趨勢(一年以上);
次要趨勢(三個星期到數月);
短暫趨勢(兩三個星期)。
(9)數據挖掘
數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。細節可參考第8~16章。
- 漫話大數據
- 計算機組成原理與接口技術:基于MIPS架構實驗教程(第2版)
- Python絕技:運用Python成為頂級數據工程師
- 從0到1:數據分析師養成寶典
- Visual Studio 2015 Cookbook(Second Edition)
- 文本數據挖掘:基于R語言
- R數據科學實戰:工具詳解與案例分析(鮮讀版)
- 算法與數據中臺:基于Google、Facebook與微博實踐
- 云原生數據中臺:架構、方法論與實踐
- SQL Server 2012數據庫管理教程
- 計算機組裝與維護(微課版)
- 數據庫查詢優化器的藝術:原理解析與SQL性能優化
- Spring Boot 2.0 Cookbook(Second Edition)
- Oracle 11g數據庫管理與開發基礎教程
- Scratch Cookbook