- 胸有成竹!數據分析的SPSS和SAS EG進階(第2版)
- 經管之家主編 常國珍等編著
- 3008字
- 2021-10-29 11:58:02
1.3 數據分析的方法論
數據分析是一個從數據中提取信息,進而推進和優化決策的過程。數據分析往往目的性很強,能夠為商業或公共事業決策提供服務。數據分析作為交叉學科,主要包括維度分析、建模分析和應用分析(業務目標)3個層面,如圖1-13所示。維度分析部分,要求數據分析師具有分析研究對象的專業知識;建模分析部分,要求數據分析師具有統計和數據挖掘的專業知識。一個大型的數據分析項目會涉及行業學術專家、業務專家、數據分析師和IT人員。其中,業務專家提出業務目標、業務理解,并提供目前的營銷與反饋信息;學術專家提供相關領域研究最新進展,并進行維度分析;數據分析師進行數據理解、清洗和建模;IT人員提供取數支持和項目實施支持。

圖1-13
摘自:SAS公司《SAS數據挖掘技術概覽》
1.3.1 數據挖掘的項目管理方法論:CRISP-DM
CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的數據挖據項目總結而來,并被SPSS公司大力推廣。CRISP-DM方法論將數據挖掘項目生命周期分為6個階段,它們分別是業務理解、數據理解、數據準備、建模、模型評估和模型發布,如圖1-14所示。在實際項目進行過程中,由于使用者的目標、背景和興趣不同,有可能打亂各階段順承的關系。

圖1-14
圖1-14呈現了通用數據挖掘方法論(CRISP-DM)流程的6個階段。各個階段的順序不是保持不變的。有時需要在不同階段之間向前和向后移動。這取決于每個階段的結果和下一個階段的具體任務。箭頭指出了各個階段間最為重要的、頻繁的關聯。
在圖1-14中,最外圈的循環表示數據挖掘本身的循環特征。數據挖掘是項持續的工作。在上一個流程和解決方案中獲得的經驗與教訓,可以給下一個項目提供指導。下面簡短地介紹了每個階段的要點。
(1)業務理解
該初始階段集中在從商業角度理解項目的目標和要求,通過理論分析轉化為數據挖掘可操作的問題,制訂實現目標的初步計劃。
(2)數據理解
數據理解階段開始于原始數據的收集,然后是熟悉數據、標明數據質量問題、探索對數據的初步理解、發覺有趣的子集以形成對探索關系的假設。
(3)數據準備
數據準備階段包括所有從原始的、未加工的數據構造數據挖掘所需信息的活動。數據準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求,獲取所需要的信息,需要對數據進行轉換和清洗。
(4)建模
在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行校準,以達到最優值。通常對同一個數據挖掘問題類型,會有多種建模技術。一些技術對數據格式有特殊的要求。因此,常常需要返回到數據準備階段。
(5)模型評估
在模型最后發布前,根據商業目標評估模型和檢查建立模型的各個步驟。此階段關鍵目的是,判斷是否存在一些重要的商業問題仍未得到充分考慮。
(6)模型發布
模型完成后,由模型使用者(客戶)根據當時背景和目標完成情況,決定如何在現場使用模型。比如,在網頁的實時個人化中或營銷數據的重復評分中。
1.3.2 數據整理與建模的方法論:SEMMA
SAS公司的數據挖掘項目實施方法論,對CRISP-DM方法中的數據準備和建模環節進行了拓展,被稱為SEMMA方法,如圖1-15所示。

圖1-15
摘自:SAS公司《SAS數據挖掘技術概覽》
5個步驟中的主要任務,如圖1-16所示。

圖1-16
摘自:SAS公司《SAS數據挖掘技術概覽》
(1)數據整理(抽樣)
涉及數據采集、數據合并與抽樣的操作,目的是為了構造分析用到的數據。分析人員根據維度分析獲得的結果作為整理數據的依據,將散落在公司內部與外部的數據進行整合。
(2)樣本探索
這個步驟有兩個任務,第一個是對數據質量的探索。變量質量方面涉及錯誤值(年齡=-30)、恰當性(客戶的某些業務指標為缺失值,實際上是沒有這個業務,值應該為“0”)、缺失值(沒有客戶的收入信息)、一致性(收入單位為人民幣,而支出單位為美元)、平穩性(某些數據的均值變化過于劇烈)、重復值(相同的交易被記錄兩次)和及時性(銀行客戶的財務數據更新的滯后時長)等方面。這部分的探索主要解決,變量是錯誤時是否可以修改、是否可以使用的問題。比如,缺失值很多,平穩性、及時性很差的變量不能用于后續的數據分析,而缺失值較少的變量需要進行缺失值的填補。第二個是對變量分布形態的探索。對變量分布形態的探索主要是對變量偏態和極端值進行探索。由于后續的統計分析大多是使用參數統計方法,這要求連續變量分布最好是對稱分布的,這就需要我們了解每個連續變量的分布情況,并制訂好變量修改的方案。
(3)變量修改
根據變量探索的結論,需要對數據質量問題和變量分布情況分別作變量修改。數據質量問題的修改涉及改正錯誤編碼、缺失值填補、單位統一等操作。變量分布情況的修改涉及函數轉換和標準化方法,具體的修改方法需要與后續的統計建模方法相結合。
(4)建模
根據分析的目的選取合適的模型,這部分內容在“數據分析方法分類介紹”已經作了詳細的闡述,這里不再贅述。
(5)模型檢驗(評估)
這里指模型的樣本內驗證,即使用歷史數據對模型表現的優劣進行評估。比如,對有監督學習、會使用ROC曲線和提升度等技術指標評估模型的預測能力。
1.3.3 SAS EG和SPSS任務菜單編排與SEMMA之間的關系
SAS EG的任務菜單在編排上和SEMMA流程盡量保持一致。拋開“過濾與排序”和“查詢生成器”,其菜單排列從左至右按照整理、探索、建模的順序排布,缺少的修改部分的內容由“查詢生成器”來完成,如圖1-17所示。由于“查詢生成器”基本上覆蓋了結構化查詢語言(SQL)的全部操作,不但可以進行修改操作,還可以完成整理、探索的功能。“數據”菜單中的任務絕大多數是對表的操作,這部分內容在本系列圖書中的《如虎添翼!數據處理的SAS EG實現》會有詳細說明。“秩分析”和“數據標準化”屬于變量轉換的操作內容,這兩個操作會在變量探索、主成分分析和聚類的部分章節做詳細的描述。
“描述”菜單包括了所有的單變量、雙變量描述統計功能,并且提供了常用的作圖功能。特別值得一提的是匯總表功能,該功能調用SAS BASE中的“TABULATE”過程步,可以靈活地制作各種報表。“圖形”菜單提供了訂制化的圖形制作功能,其中涵蓋了絕大部分的常用圖形,如圖1-18所示(左邊)。本書將會在第2章重點講解。
“分析”菜單中的內容可以分為三部分,如圖1-18所示(右邊)。第一部分是回歸與多元統計部分,可以進行方差分析、線性回歸、二分類因變量的邏輯回歸、廣義線性模型、混合線性模型、相關分析、典型相關分析、主成分分析、因子分析、聚類分析和判別分析,這部分經常被稱為建模。本書將會在第3章和第4章進行詳細講解;第二部分是工業質量控制部分,這部分內容屬于數據探索的內容,由于在商業分析中運用較少,因此本書不進行講解;第三部分是時間序列部分,包括時間序列分解、ARIMA建模和面板數據分析模塊,本書將會在第5章進行講解。

圖1-17

圖1-18
SPSS的任務菜單在編排上和SEMMA流程大致保持一致。“數據”菜單大部分都是數據表一級的操作,如圖1-19所示。比如“合并文件”實現了表的縱向和橫向連接;“轉置”實現了“拆分列”與“堆疊列”的操作。“轉換”菜單均屬于變量修改的內容,實現了變量一級的操作。

圖1-19
“分析”菜單包含了樣本探索與建立模型兩方面的工作,如圖1-20所示。和SAS EG相比,SPSS的菜單顯得比較混亂,這主要是因為SPSS沒有堅持SEMMA的風格排布菜單,而是按照統計方法的學習路徑排布。學習的時候,一般先學習“描述統計”,之后是T檢驗和方差分析,即“比較均值”,之后是回歸分析,分類模型與降維,預測與生存分析一般是某個專業的人學習的。而“分析”菜單的后幾項屬于分析方法的高級運用,雖然屬于描述的范疇,但是需要掌握好統計建模的能力之后,才可以很好地使用。

圖1-20