官术网_书友最值得收藏!

1.3 數(shù)據(jù)挖掘的通用流程

目前,數(shù)據(jù)挖掘的通用流程包含目標分析、數(shù)據(jù)抽取、數(shù)據(jù)探索、數(shù)據(jù)預處理、分析與建模、模型評價。需要注意的是:這6個流程的順序并不是嚴格不變的,可根據(jù)實際項目的情況進行不同程度的調整。

1.3.1 目標分析

針對具體的數(shù)據(jù)挖掘應用需求,先要明確本次的挖掘目標是什么,以及系統(tǒng)完成數(shù)據(jù)挖掘后能達到什么樣的效果。因此必須分析應用領域,包括應用領域中的各種知識和應用目標,了解相關領域的有關情況,熟悉背景知識,弄清用戶需求。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須對目標有一個清晰明確的定義,即確定到底想干什么。

1.3.2 數(shù)據(jù)抽取

在明確了數(shù)據(jù)挖掘的目標后,接下來就需要從業(yè)務系統(tǒng)中抽取出一個與挖掘目標相關的樣本數(shù)據(jù)子集。抽取數(shù)據(jù)的標準包括相關性、可靠性、有效性,而且無需動用全部企業(yè)數(shù)據(jù)。精選數(shù)據(jù)樣本不僅能減少數(shù)據(jù)處理量、節(jié)省系統(tǒng)資源,而且能使想要尋找的規(guī)律突顯出來。

進行數(shù)據(jù)取樣時,一定要嚴格把控質量。任何時候都不能忽視數(shù)據(jù)的質量,即使是從數(shù)據(jù)倉庫中進行數(shù)據(jù)取樣,也不要忘記檢查其質量。因為數(shù)據(jù)挖掘是要探索企業(yè)運作的內在規(guī)律,所以如果原始數(shù)據(jù)有誤,就很難從中探索出規(guī)律,就算真的從中探索出了什么“規(guī)律”,再依此去指導工作,也很可能會造成誤導。若從正在運行的系統(tǒng)中進行數(shù)據(jù)取樣,則更要注意數(shù)據(jù)的完整性和有效性。

衡量取樣數(shù)據(jù)質量的標準包括:資料完整無缺,各類指標項齊全;數(shù)據(jù)準確無誤,反映的都是正常(而不是異常)狀態(tài)下的水平。

對于獲取到的數(shù)據(jù),可再從中抽樣。抽樣的方式是多種多樣的,常見的方式如下。

(1)隨機抽樣。在采用隨機抽樣方式時,數(shù)據(jù)集中的每一組觀測值都有相同的被抽中概率。例如,按10%的比例對一個數(shù)據(jù)集進行隨機抽樣,則每一組觀測值都有10%的概率被抽取到。

(2)等距抽樣。如果按5%的比例對一個有100組觀測值的數(shù)據(jù)集進行等距抽樣,有,那么抽取的就是第20、40、60、80、100組這5組觀測值。

(3)分層抽樣。在進行分層抽樣操作時,需要先將樣本總體分成若干層(或分成若干個子集)。每層中的觀測值都具有相同的被選中概率,但對不同的層可設定不同的概率。這樣的抽樣結果通常具有更好的代表性,進而使模型具有更好的擬合精度。

(4)按起始順序抽樣。這種抽樣方式是從輸入數(shù)據(jù)集的起始處開始抽樣,對于抽樣的數(shù)量,可以給定一個百分比,或直接給定選取觀測值的組數(shù)。

(5)分類抽樣。前述幾種抽樣方式并不考慮抽取樣本的具體取值,分類抽樣則依據(jù)某種屬性的取值來選擇數(shù)據(jù)子集,如按客戶名稱分類、按地址區(qū)域分類等。分類抽樣的方式就是前面所述的幾種方式,只是抽樣時以類為單位。

1.3.3 數(shù)據(jù)探索

前面所敘述的數(shù)據(jù)取樣,或多或少是人們帶著對如何實現(xiàn)數(shù)據(jù)挖掘目的的主觀認識進行操作的。當拿到一個樣本數(shù)據(jù)集后,它是否達到設想的要求,其中有沒有什么明顯的規(guī)律和趨勢,有沒有出現(xiàn)從未設想過的數(shù)據(jù)狀態(tài),屬性之間有什么相關性,它可分成哪些類別等,這些都是需要先進行探索的內容。

對所抽取的樣本數(shù)據(jù)進行探索、審核和必要的加工處理,是保證最終挖掘模型的質量所必需的操作??梢哉f,挖掘模型的質量不會優(yōu)于抽取的樣本的質量。數(shù)據(jù)探索和預處理的目的是保證樣本數(shù)據(jù)的質量,從而為保證模型質量打下基礎。

數(shù)據(jù)探索主要包括數(shù)據(jù)校驗、分布分析、對比分析、周期性分析、貢獻度分析、相關性分析等,有關介紹詳見第3章。

1.3.4 數(shù)據(jù)預處理

當采樣數(shù)據(jù)的表達形式不一致時,如何進行數(shù)據(jù)變換、數(shù)據(jù)合并等都是數(shù)據(jù)預處理要解決的問題。

由于采樣數(shù)據(jù)中常常包含許多含有噪聲、不完整甚至不一致的數(shù)據(jù),因此需要對數(shù)據(jù)進行預處理以改善數(shù)據(jù)質量,并最終達到完善數(shù)據(jù)挖掘結果的目的。

數(shù)據(jù)預處理主要包括重復值處理、缺失值處理、異常值處理、簡單函數(shù)變換、數(shù)據(jù)標準化、數(shù)據(jù)離散化、獨熱編碼、數(shù)據(jù)合并等,有關介紹詳見第4章。

1.3.5 分析與建模

樣本抽取和預處理都完成后,需要考慮本次建模屬于數(shù)據(jù)挖掘應用中的哪類問題(分類與回歸、聚類、關聯(lián)規(guī)則、智能推薦還是時間序列),還需考慮選用哪種算法進行模型構建更為合適。

其中,分類與回歸算法主要包括線性模型、決策樹、最近鄰分類、支持向量機、神經(jīng)網(wǎng)絡、集成算法等;聚類算法主要包括K-Means聚類、密度聚類、層次聚類等;關聯(lián)規(guī)則主要包括Apriori、FP-Growth等;智能推薦主要包括基于內容推薦、協(xié)同過濾推薦算法等;時間序列模型主要包括AR模型、MA模型、ARMA模型、ARIMA模型等。

1.3.6 模型評價

在建模過程中會得出一系列的分析結果,模型評價的目的之一就是依據(jù)這些分析結果,從訓練好的模型中尋找出一個表現(xiàn)最佳的模型,并結合業(yè)務場景對模型進行解釋和應用。

適用于分類與回歸模型、聚類分析模型、智能推薦模型的評價方法是不同的,具體評價方法見第5章。

主站蜘蛛池模板: 泗水县| 江津市| 乌拉特前旗| 什邡市| 英德市| 资兴市| 延长县| 石河子市| 枝江市| 石首市| 平江县| 东平县| 乐陵市| 晋中市| 澄城县| 阿荣旗| 沾化县| 绥中县| 芒康县| 山东省| 宁明县| 乾安县| 娄底市| 万盛区| 天气| 德化县| 双江| 芜湖县| 扎囊县| 温州市| 洛浦县| 富裕县| 大足县| 城固县| 高安市| 宣恩县| 河间市| 三门县| 镇巴县| 蒙城县| 宁陕县|