- 企業架構與IT戰略規劃設計教程
- 郭樹行
- 3256字
- 2019-10-31 11:21:22
3.2 數據分類
3.2.1 什么是數據分類
數據分類是數據挖掘技術的重要方面,也是企業信息化標準制定的基本要求。分類是指在已有數據的基礎上學會一個分類函數或構造一個分類器,把數據庫中的記錄映射到某事先指定類的過程。
數據倉庫、數據庫或者其他信息庫中隱藏著許多可以為商業、科研等活動的決策提供其所需要的知識。分類與預測是兩種數據分析形式,它們可以用來抽取能夠描述重要數據集合或預測未來數據趨勢的模型。分類方法(classification)用于預測數據對象的離散類別(categorical label);預測方法(prediction)用于預測數據對象的連續取值。
分類技術在很多領域都有應用,例如可以通過客戶分類構造一個分類模型來對銀行貸款進行風險評估;當前的市場營銷中很重要的一個特點是強調客戶細分。客戶類別分析的功能也在于此,采用數據挖掘中的分類技術,可以將客戶分成不同的類別。比如,呼叫中心設計時可以分為呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶及其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應用如文獻檢索和搜索引擎中的自動文本分類技術;安全領域有基于分類技術的入侵檢測等。機器學習、專家系統、統計學和神經網絡等領域的研究人員已經提出了許多具體的分類預測方法。
3.2.2 企業數據分類方法
最初的數據挖掘分類應用大多都是在這些方法及基于內存基礎上所構造的算法。目前數據挖掘方法都要求具有基于外存以處理大規模數據集合的能力且具有可擴展能力。下面對幾種主要的分類方法做個簡要介紹。
1.決策樹
決策樹歸納是經典的分類算法。它采用自頂向下遞歸的各個擊破方式構造決策樹,樹的每一個節點上使用信息增益度量選擇測試屬性。可以從生成的決策樹中提取規則。
2.KNN法
KNN法(K-Nearest Neighbor)即K最近鄰法,最初由Cover和Hart于1968年提出,是一個理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個樣本在特征空間中的K個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
KNN法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量的相鄰樣本有關。因此,采用這種方法可以較好地避免樣本的不平衡問題。另外,由于KNN法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN法較其他方法更為適合。
該方法的不足之處是計算量較大,因為對每一個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯,事先去除對分類作用不大的樣本。
另外還有一種Reverse KNN法,能降低KNN算法的計算復雜度,提高分類的效率。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產生誤分。
3.SVM法
SVM法即支持向量機(Support Vector Machine)算法,由Vapnik等人于1995年提出,具有相對優良的性能指標。該方法是建立在統計學理論基礎上的機器學習方法。通過學習算法,SVM可以自動尋找出那些對分類有較好區分能力的支持向量,由此構造出的分類器可以使類與類的間隔最大化,因而有較好的適應能力和較高的分準率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結果。
SVM法的目的在于尋找一個超平面H(d),該超平面可以將訓練集中的數據分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法亦被稱為最大邊緣(maximum margin)算法。待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結果沒有影響,SVM法對小樣本情況下的自動分類有著較好的分類結果。
4.VSM法
VSM法即向量空間模型(Vector Space Model)法,由Salton等人于20世紀60年代末提出。這是最早也是最出名的信息檢索方面的數學模型。其基本思想是將文檔表示為加權的特征向量:D=D(T1, W1; T2, W2; …; Tn, Wn),然后通過計算文本相似度的方法來確定待分樣本的類別。當文本被表示為空間向量模型的時候,文本的相似度就可以借助特征向量之間的內積來表示。
在實際應用中,VSM法一般事先依據語料庫中的訓練樣本和分類體系建立類別向量空間。當要對一篇待分樣本進行分類的時候,只需要計算待分樣本和每一個類別向量的相似度即內積,然后選取相似度最大的類別作為該待分樣本所對應的類別。
由于VSM法中需要事先計算類別的空間向量,而該空間向量的建立又很大程度的依賴于該類別向量中所包含的特征項。根據研究發現,類別中所包含的非零特征項越多,其包含的每個特征項對于類別的表達能力越弱。因此,VSM法相對其他分類方法而言,更適合于專業文獻的分類。
5.Bayes法
Bayes法是一種在已知先驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。
設訓練樣本集分為M類,記為C={c1, …, ci, …cM},每類的先驗概率為P(ci), i=1, 2, …, M。當樣本集非常大時,可以認為P(ci)=ci類樣本數/總樣本數。對于一個待分樣本X,其歸于cj類的類條件概率是P(X/ci),則根據Bayes定理,可得到cj類的后驗概率P(ci/X):

若P(ci/X)=Max jP(cj/X),其中:
i=1,2, …, M; j=1,2, …, M
則有

式3-2是最大后驗概率判決準則,將式3-1代入式3-2,則有
若P(X/ci)P(ci)=Maxj〔P(X/cj)P(cj)〕,其中:
i=1,2, …, M; j=1,2, …, M,
則
X∈ci
這就是常用到的Bayes分類判決準則。經過長期的研究,Bayes分類方法在理論上論證得比較充分,在應用上也是非常廣泛的。
Bayes法的薄弱環節在于實際情況下,類別總體的概率分布和各類樣本的概率分布函數(或密度函數)常常是不知道的。為了獲得它們,就要求樣本足夠大。另外,Bayes法要求表達文本的主題詞相互獨立,這樣的條件在實際文本中一般很難滿足,因此該方法往往在效果上難以達到理論上的最大值。
6.神經網絡
神經網絡分類算法的重點是構造閾值邏輯單元,一個值邏輯單元就是一個對象,它可以輸入一組加權系數的量,對它們進行求和,如果這個和達到或者超過了某個閾值,則輸出一個量。如有輸入值X1, X2, …, Xn和它們的權系數:W1, W2, …, Wn,對計算出的Xi*Wi求和,產生了激發層a=(X1*W1)+(X2*W2)+…+(Xi*Wi)+…+(Xn*Wn),其中Xi是各條記錄出現頻率或其他參數,Wi是實時特征評估模型中得到的權系數。神經網絡是基于經驗風險最小化原則的學習算法,有一些固有的缺陷,比如層數和神經元個數難以確定,容易陷入局部極小,還有“過學習”現象,這些本身的缺陷在SVM法中可以得到很好的解決。
3.2.3 企業數據分類規范
企業數據分類規范是企業數據標準的一個組成部分,即全部企業數據執行同一個數據分類標準。
企業數據分類規范需要:
(1)滿足各種數據需求對數據組織的要求。
(2)獨立于具體的數據模型和數據分布。
(3)有利于數據的維護和擴充。
企業數據分類規范根據以下指導原則進行分類。
(1)根據國際已有標準分類框架對數據進行分類,如國際電信管理論壇(ITMF)的SID數據框架。
(2)根據國家已有標準分類框架對數據進行分類,如產品缺陷與安全管理國家標準體系框架(草案)。
(3)根據行業已有標準分類框架對數據進行分類。
(4)根據企業已有實際情況對數據進行分類。
(5)根據企業的目標IT架構對數據進行分類,如QB/CU 030—2002《中國聯通綜合電信業務支撐系統CDMA專業計費子系統技術規范V1.0》。
3.2.4 案例分析:某通信行業集團公司數據分類實例
實際中,具體的數據分類可作靈活處理。例如,某通信行業集團公司數據分類如圖3-7所示,分為客戶、市場營銷、產品、服務、資源、合作伙伴和企業管理等七類數據。

圖3-7 數據分類
圖3-7所示分類框架的數據實體釋義如下。
1.客戶主題域
客戶主題域數據實體釋義如表3-1所示。
表3-1 客戶主題域數據實體釋義

2.產品主題域
產品主題域數據實體釋義如表3-2所示。
表3-2 產品主題域數據實體釋義

3.市場營銷主題域
市場營銷主題域數據實體釋義如表3-3所示。
表3-3 市場營銷主題域數據實體釋義

4.合作伙伴主題域
合作伙伴主題域數據實體釋義如表3-4所示。
表3-4 合作伙伴主題域數據實體釋義

5.服務主題域
服務主題域數據實體釋義如表3-5所示。
表3-5 服務主題域數據實體釋義

6.資源主題域
資源主題域數據實體釋義如表3-6所示。
表3-6 資源主題域數據實體釋義

7.企業管理主題域
企業管理主題域數據實體釋義如表3-7所示。
表3-7 企業管理主題域數據實體釋義
