官术网_书友最值得收藏!

1.2 數據分析六部曲

概括地講,數據分析的過程主要包括:明確分析目的和內容、數據收集、數據預處理、數據分析、數據展現和報告撰寫六個步驟,如圖1.1所示。

圖1.1 數據分析過程

1.2.1 明確分析目的和內容

在進行數據分析之前,數據分析師應對需要分析的項目進行詳細了解,或者自己本身就對此分析項目所涉及的行業(yè)有比較深刻的了解,即使對其內部的運行規(guī)律做不到了如指掌,至少也要了解整體框架。數據分析的對象是誰?數據分析的商業(yè)目的是什么?最后的結果要解決什么樣的業(yè)務問題?數據分析師對這些問題都要了然于心。對數據分析目的的把握,是數據分析項目成敗的關鍵。只有對數據分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因為不同的數據分析目的所選擇的數據分析方法是不同的。在企業(yè)中做數據分析時首先要明白自己想要干什么,和提出數據分析需求的部門及負責人去溝通,了解他們到底想要做什么,只有目標明確了,數據分析才能進行下去。當然,有的時候數據分析的目標不是很清晰,但肯定要有一個大致的方向,在數據分析的過程中要慢慢總結。

1.2.2 數據收集

當我們選定了數據分析的目標或大致目標之后,一個重要的問題就出現了:如何才能準確、有效地收集數據,從而客觀、全面地反映所要研究的問題的真實狀況。數據收集是一個按照確定的數據分析和框架內容,有目的地收集、整合相關數據的過程,它是數據分析的基礎。通常數據收集的方法包括觀察法、訪談法、問卷法、測驗法和數據庫獲取法等。在商業(yè)數據分析中,數據收集一般都來源于數據庫,也就是直接到數據庫中獲取數據,該辦法需要使用到數據庫工具一一SQL語言。如今是信息化時代,任何有一定規(guī)模的企業(yè)或事業(yè)單位,都會有自己的管理信息系統(tǒng),他們的商業(yè)數據都存放在數據庫中,數據分析師在取得數據時,最便宜也是最方便的方法就是直接到數據庫中收集數據,這就需要掌握SQL語言,它是數據分析中最重要的一個工具。

講到SQL語言就不得不提數據庫管理系統(tǒng)了,數據庫管理系統(tǒng)包括兩個部分,一個是數據的存儲,另一個是數據的服務。數據存儲一般涉及計算機領域的內容,數據分析師不用過多涉及;而對于數據的服務,數據分析師則需要了解一些基礎的知識。由于數據庫提供數據的服務,提供服務肯定要有服務員,而和服務員對話就需要用語言,所以SQL語言就是數據庫提供服務的服務員所能理解的語言。這種語言有其特定的語法,學習SQL語言就要學習它特有的語法結構。SQL語言的語法有很多,例如建立數據庫、新建數據表、插入數據、查詢數據、刪除數據等,對數據分析師來講,只需要掌握如何查詢數據的語法就可以了,至于具體的查詢語法這里就不敘述了,讀者可查詢相關書籍。也就是說,數據分析師在學習SQL語言時,只需要關注學習的重點,即重點學習SQL語言的查詢語法,而無須完全掌握所有SQL語言的語法,即不需要成為一名優(yōu)秀的數據庫工程師。最后再次強調數據分析師一定要掌握SQL語言的查詢語法,因為許多企業(yè)在招聘數據分析人才時都對這方面的技能有要求,而這也是數據收集一個非常重要的手段。

1.2.3 數據預處理

數據預處理是指對收集到的數據進行加工、整理,以便開展數據分析,它是數據分析前必不可少的階段。數據預處理的過程概括起來包括數據審查、數據清理、數據轉換和數據驗證四個步驟。

第一步:數據審查

該步驟檢查數據的數量(記錄數)是否滿足分析的最低要求,變量值的內容是否與研究目的要求一致,是否全面,包括利用描述性統(tǒng)計分析,檢查各個變量的數據類型,變量值的最大值、最小值、平均數、中位數等,數據個數、缺失值或空值個數等。

第二步:數據清理

該步驟針對數據審查過程中發(fā)現的明顯錯誤值、缺失值、異常值、可疑數據,選用適當的方法進行“清理”,使“臟”數據變?yōu)椤案蓛簟睌祿WC后續(xù)的數據分析得出可靠的結論。當然,數據清理還包括對重復記錄進行刪除。

第三步:數據轉換

數據分析強調分析對象的可比性,但不同變量值由于計量單位等不同,往往造成數據不可比。對一些統(tǒng)計指標進行綜合評價時,如果統(tǒng)計指標的性質、計量單位不同,則容易引起分析結果出現較大誤差,再加上分析過程中其他的一些要求,需要在分析前對數據進行變換,包括無量綱化處理、線性變換、匯總和聚集、適度概化、規(guī)范化,以及屬性構造等。

第四步:數據驗證

該步驟的目的是初步評估和判斷數據是否滿足統(tǒng)計分析的需要,從而決定是否需要增加或減少數據量。可以利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗等方法對數據的準確性進行驗證,確保不把錯誤和有偏差的數據帶入到數據分析模型中。

上述四個步驟是一個逐步深入、由表及里的過程。先是從表面上查找容易發(fā)現的問題(例如數據記錄個數、最大值、最小值、缺失值或空值個數等),接著對發(fā)現的問題進行處理,即數據清理;然后提高數據的可比性,對數據進行一些變換,使數據在形式上滿足分析的需要;最后則是進一步檢測數據內容是否滿足分析需要,診斷數據的真實性及數據之間的協(xié)調性等,確保優(yōu)質的數據進入分析階段。數據預處理階段在整個數據分析過程中占據極為重要的位置,從工作量上看,它占數據數據分析全部工作量的30%~50%,因為在做數據分析時,我們根據數據分析的目標,不是一次性就能把問題解決的,而是需要反復去取數據、清洗數據,將業(yè)務邏輯轉變成可被分析的量化的數據。一般的統(tǒng)計軟件都會提供相應的功能進行數據預處理,例如SPSS軟件中的數據探索功能。

1.2.4 數據分析

到了這個階段,要想駕馭數據、分析數據,就需要選用特定的數據分析方法,熟練操作數據分析工具,實現從數據到知識的分析過程,從而解決商業(yè)問題。其一要熟悉常用的數據分析方法,最基本的是要了解例如方差、回歸、因子、聚類、分類、時間序列等數據分析方法的原理、使用范圍、優(yōu)缺點和結果的解釋;其二要熟悉“1+1”種數據分析工具,其中的一種數據分析工具是指Excel,Excel是一個最常用也是最簡單的數據分析工具。現在許多公司都以Excel結合SQL做數據分析。當我們對Excel增加新的插件后,就可以進行數理統(tǒng)計和數據挖掘了。然而,由于Excel是一個大眾化的數據分析工具,使用它進行數據分析有較多不嚴謹的地方,一般在學術研究中很少使用它。另一種數據分析工具是指要熟悉一個專業(yè)的分析軟件,便于進行專業(yè)的數據分析、數據建模等。專業(yè)的數據分析工具主要包括SPSS、SAS、MATLAB、R等。

SPSS是世界上最早采用圖形菜單驅動界面的統(tǒng)計軟件,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它幾乎將所有的功能都以統(tǒng)一、規(guī)范的界面展現出來,例如使用Windows的窗口方式展示各種管理和分析數據方法的功能,使用對話框展示出各種功能的選擇項。用戶只要掌握一定的Windows操作技能,粗通統(tǒng)計分析原理,就可以使用該軟件為特定的科研工作服務。SPSS有兩套軟件,即SPSS Statistics和SPSS Modeler,兩者直接的區(qū)別在于處理數據量的不同,Statistics的處理數據量有限,而Modeler的處理數據量可以是海量的,也就是現在所謂的大數據。從功能上講兩者還有很多的區(qū)別:Statistics主要就是統(tǒng)計分析,是以統(tǒng)計學的理論為主的,它側重在統(tǒng)計分析功能的應用;而Modeler不僅包括統(tǒng)計分析的功能,同時也有機器學習和人工智能,它更側重于挖掘潛在的知識,為業(yè)務做指導。

R軟件是一套完整的數據處理、計算和制圖軟件系統(tǒng)。其功能包括:數據存儲和處理系統(tǒng);數組運算工具(其向量、矩陣運算功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言,可操控數據的輸入和輸出,實現分支、循環(huán),并且用戶可自定義功能。R軟件因其開源性、強大的統(tǒng)計計算等功能而受到統(tǒng)計人員的青睞。R軟件具備高效的數據處理和存儲功能,擅長數據矩陣操作,并且提供了大量適用于數據分析的工具,支持各種數據可視化輸出。R軟件的一大優(yōu)勢是分析人員可利用簡單的R程序語言描述處理過程,以構建強大的分析功能。

MATLAB是由美國MathWorks公司生產的商品化應用軟件,該軟件具有良好的用戶界面和實時的人機交互環(huán)境,使用該軟件可以進行程序設計、統(tǒng)計分析和數據挖掘。一般的統(tǒng)計分析功能都可以在MATLAB軟件中實現,當然,有的時候要適當進行代碼的設計。MATLAB軟件的一大特色就是提供了眾多的應用函數,這些函數豐富了軟件的功能,也方便了用戶。經過多年的改版和更新,MATLAB的用戶界面越來越接近Windows的標準界面,操作也越來越簡單,編程環(huán)境也更加人性化,開發(fā)者編寫的程序不用編譯也能運行,同時也具有良好的程序調試和糾錯功能,這些都為MATLAB的廣泛使用提供了重要的支持。雖然MATLAB功能強大且界面友好,但由于其商業(yè)性質不同于WEKA和R的開源性質,用戶使用正版MATLAB軟件時需要支付一定的費用。在MATLAB軟件中,提供了隨機森林算法的接口,和R軟件一樣,用戶需要對其參數進行設置,有些應用還需要進行適當的編程才能使用該算法。

SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能僅限于統(tǒng)計分析,直到現在,統(tǒng)計分析功能仍是它的重要組成部分和核心功能。在數據處理和統(tǒng)計分析領域,SAS系統(tǒng)被譽為國際上的標準軟件系統(tǒng),并在1996—1997年度被評選為建立數據庫的首選產品,堪稱統(tǒng)計軟件界的“巨無霸”。SAS是由大型機系統(tǒng)發(fā)展而來的,其核心操作方式就是程序驅動。經過多年的發(fā)展,SAS現在已經成為一套完整的計算機語言,其用戶界面也充分體現了這一特點。SAS采用MDI(多文檔界面),用戶在PGM視窗中輸入程序,分析結果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統(tǒng)計分析、預測、建模和模擬抽樣等。

1.2.5 數據展現

一般情況下,數據分析的結果都是通過圖、表的方式來呈現的,俗話說“字不如表,表不如圖”。借助數據展現手段,能更直觀地讓數據分析師表述想要呈現的信息、觀點和建議。數據展現常用的圖形包括餅形圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。

1.2.6 報告撰寫

最后一個階段就是撰寫數據分析報告,這是對整個數據分析成果的一個呈現。通過分析報告,可以把數據分析的目的、過程、結果及方案完整呈現出來,以為達成商業(yè)目的提供參考。

一份好的數據分析報告,首先需要有一個好的分析框架,并且結構清晰、主次分明、圖文并茂,能夠讓讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內容。圖文并茂可以令數據更加生動、活潑,提高視覺沖擊力,有助于讀者更形象、直觀地看清楚問題和結論,從而產生思考。

另外,數據分析報告需要有明確的結論、建議和解決方案,不僅僅是找出問題,更重要的是解決問題,否則稱不上是好的數據分析,同時也失去了報告的意義,數據分析的初衷就是為了滿足商業(yè)目的。

主站蜘蛛池模板: 扶沟县| 石泉县| 福泉市| 长阳| 土默特左旗| 新蔡县| 尤溪县| 泗水县| 深泽县| 开原市| 嘉义县| 安乡县| 怀仁县| 英超| 平山县| 贵港市| 波密县| 诸暨市| 沧源| 乌兰浩特市| 江北区| 杭锦后旗| 靖安县| 桐庐县| 梨树县| 永登县| 贵州省| 涞源县| 奉节县| 清水县| 阿克| 伊宁市| 泸水县| 瓮安县| 蓝田县| 基隆市| 安化县| 壶关县| 无锡市| 巴彦县| 平山县|