官术网_书友最值得收藏!

1.4 數據挖掘方法論

下面講解最為常用的CRISP-DM方法論和SEMMA方法論。

1.CRISP-DM方法論

CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的數據挖掘項目總結而來,并被SPSS公司大力推廣。CRISP-DM方法論將數據挖掘項目的生命周期分為6個階段,分別是商業理解、數據理解、數據準備、建模、評估和準備工作,如圖1-16所示。在實際項目進行過程中,由于使用者的目標背景和興趣不同,有可能打亂各階段順承的關系。

圖1-16呈現了CRISP-DM方法執行流程的6個階段。各個階段的順序不是保持不變的,有時需要在某個階段向前或向后移動,這取決于每個階段的結果和下一個階段的具體任務。箭頭指出了各個階段之間的關聯。

在圖1-16中,最外圈的循環表示數據挖掘本身的循環特征。數據挖掘是一項持續的工作。在上一個流程和解決方案中獲得的經驗與教訓,可以給下一個項目提供指導。下面簡要介紹每個階段的特點。

圖1-16 CRISP-DM方法論

1)商業理解。該階段的特點是從商業角度理解項目的目標和要求,通過理論分析找出數據挖掘可操作問題,制訂實現目標的初步計劃。

2)數據理解。該階段開始于原始數據的收集,然后是熟悉數據、標明數據質量問題、探索對數據的初步理解、發掘有趣的子集,以形成對探索關系的假設。

3)數據準備。該階段包括所有從原始的、未加工的數據構造數據挖掘所需信息的活動。數據準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求,獲取所需要的信息,同時對數據進行轉換和清洗。

4)建模。該階段主要是選擇和應用各種建模技術,同時對參數進行校準,以達到最優值。通常,同一類數據挖掘問題會有多種建模技術。一些技術對數據格式有特殊的要求,因此常常需要返回到數據準備階段。

5)評估。在模型最后發布前,根據商業目標評估模型和檢查模型建立的各個步驟。此階段的關鍵目的是,確認重要的商業問題都得到充分考慮。

6)準備工作。模型完成后,由模型使用者(客戶)根據當時的背景和目標完成情況,決定如何在現場使用模型。

2.SEMMA方法論

除了CRISP-DM方法論,SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內容十分相似,流程為定義業務問題、環境評估、數據準備、循環往復的挖掘過程、上線發布、檢視。其中循環往復的挖掘過程包含探索、修改、建模、評估和抽樣5個步驟,如圖1-17所示。

圖1-17 SEMMA方法論

1)抽樣。該步驟涉及數據采集、數據合并與抽樣操作,目的是構造分析時用到的數據。分析人員將根據維度分析獲得的結果作為分析的依據,將散落在公司內部與外部的數據進行整合。

2)探索。這個步驟有兩個任務,第一個是對數據質量的探索。變量質量方面涉及錯誤值(年齡=-30)、不恰當(客戶的某些業務指標為缺失值,實際上是沒有這個業務,值應該為“0”)、缺失值(沒有客戶的收入信息)、不一致(收入單位為人民幣,而支出單位為美元)、不平穩(某些數據的均值變化過于劇烈)、重復(相同的交易被記錄兩次)和不及時(銀行客戶的財務數據更新滯后)等。探索步驟主要解決錯誤的變量是否可以修改、是否可以使用的問題。比如,缺失值很多,平穩性、及時性很差的變量不能用于后續的數據分析,而缺失值較少的變量需要進行缺失值填補。第二個是對變量分布形態的探索。對變量分布形態的探索主要是對變量偏態和極端值進行探索。由于后續的統計分析大多是使用參數統計方法,這要求連續變量最好是對稱分布的,這就需要我們了解每個連續變量的分布情況,并制定好變量修改的方案。

3)修改。根據變量探索的結論,對數據質量問題和分布問題涉及的變量分別做修改。數據質量問題涉及的修改包括錯誤編碼改正、缺失值填補、單位統一等操作。變量分布問題涉及的修改包括函數轉換和標準化,具體的修改方法需要與后續的統計建模方法相結合。

4)建模。根據分析的目的選取合適的模型,這部分內容在1.3節已經做了詳細的闡述,這里不再贅述。

5)評估。這里指模型的樣本內驗證,即使用歷史數據對模型表現的優劣進行評估。比如,對有監督學習使用ROC曲線和提升度等技術指標評估模型的預測能力。

主站蜘蛛池模板: 甘洛县| 定日县| 榆社县| 台山市| 苗栗县| 奉节县| 淳安县| 个旧市| 阳谷县| 迁西县| 靖安县| 精河县| 呼玛县| 重庆市| 九龙城区| 浮山县| 阜宁县| 合江县| 甘谷县| 巴林右旗| 苍山县| 白玉县| 象州县| 广水市| 民县| 海林市| 富裕县| 南安市| 榆树市| 句容市| 上蔡县| 浠水县| 平原县| 伊宁市| 余庆县| 无棣县| 屯门区| 泌阳县| 沁源县| 尉犁县| 江北区|