官术网_书友最值得收藏!

2.1.6 過濾方法

過濾方法不需要依賴機器學習算法,只使用統計學指標對特征進行選擇,并且一般分為單變量多變量兩類。單變量過濾方法不需要考慮特征間的相互關系,而多變量過濾方法則需要考慮。常用的單變量過濾方法基于特征變量和目標變量之間的相關性或互信息。單變量過濾方法按照特征變量和目標變量之間的相關性對特征進行排序,過濾掉最不相關的特征變量。這類方法的優點是計算效率高、不易過擬合。由于單變量過濾方法只考慮單特征變量和目標變量的相關性,過濾方法可能選出冗余的特征,因此單變量過濾方法主要用于預處理。多變量過濾方法有基于特征相關性和一致性的特征選擇,可以在一定程度上避免冗余特征。


對于單變量過濾方法來說,最簡單的方法是計算覆蓋率(即某特征在訓練集中出現的比例),若特征的覆蓋率很小,則可以將其剔除。其次是方差篩選,方差大的特征,可以認為它是比較有用的。而如果方差較小,比如小于1,那么這個特征對我們算法的作用可能沒有那么大。還有最極端的情況,如果某個特征方差為0,即針對所有樣本,該特征的取值都是一樣的,那么它對我們的模型訓練沒有任何作用,可以直接舍棄。在實際應用中,我們會指定一個方差的閾值,當方差小于這個閾值時,特征會被篩掉。


第三個是相關系數,主要用在輸出連續值的監督學習算法中。我們分別計算所有訓練集中各個特征與輸出值之間的相關系數,設定一個閾值,并選擇相關系數較大的部分特征,例如皮爾森(Pearson)相關系數、斯皮爾曼(Spearman)相關系數等。皮爾森相關系數用于度量兩個變量之間的線性關系,斯皮爾曼相關系數則用于衡量兩個變量是否存在相同的單調性。其中,皮爾森相關系數定義為兩個變量的協方差和標準差的商:

其中xy表示兩個隨機變量,cov(x, y)表示協方差,σxσy 表示對應的標準差。斯皮爾曼相關系數是秩相關的非參數度量,兩變量間的斯皮爾曼相關性等于這兩個變量的秩值之間的皮爾森相關性。

其中di表示兩列特征相同位置上元素對應秩的差值,n表示樣本總數。

第四個可以使用的方法是假設檢驗,比如卡方檢驗??ǚ綑z驗可以檢驗某個特征分布和輸出值分布之間的相關性。通常的做法是:假設特征變量和目標變量之間相互獨立,選擇適當檢驗方法計算統計量,然后根據統計量P值做出統計推斷。我們可以給定卡方值的閾值P,選擇卡方值較大的部分特征。除了卡方檢驗,我們還可以使用F檢驗和t檢驗,它們都是使用假設檢驗的方法,只是使用的統計分布不是卡方分布,而是F分布和t分布而已。


第五個是互信息(KL散度),即從信息熵的角度分析各個特征和輸出值之間的關系評分。其中,X表示一列特征的取值,Y表示標簽(label)的取值,px, y)表示聯合概率分布函數。互信息值越大,說明該特征和輸出值之間的相關性越大,也就越需要保留。

以上是一些常用的單變量過濾方法,還有一些多變量過濾方法。第一個是最小冗余最大相關性(minimum Redundancy Maximum Relevance, mRMR)。由于單變量過濾方法考慮單特征變量和目標變量之間的相關性,因此選擇的特征子集可能過于冗余。mRMR方法在進行特征選擇的時候考慮了特征之間的冗余性,具體做法是對與已選擇特征相關性較高的冗余特征進行懲罰。mRMR方法可以使用多種相關性的度量指標,例如互信息、相關系數以及其他距離或者相似度分數。假如選擇互信息作為特征變量和目標變量之間相關性的度量指標,那么特征集合S和目標變量c之間的相關性可以定義為特征集合中所有單個特征變量fi和目標變量c的互信息值Ifi; c)的平均值:

S中所有特征的冗余性為所有特征變量之間的互信息的平均值:

mRMR準則定義為:

mRMR= maxs[DS, c-RS)]

通過求解上述優化問題就可以得到特征子集。在一些特定的情形下,mRMR算法可能對特征的重要性估計不足,它沒有考慮到特征之間的組合可能與目標變量相關。如果單個特征的分類能力都比較弱,而進行組合后分類能力很強,那么這時mRMR方法的效果一般比較差(例如目標變量由特征變量進行XOR運算得到)。mRMR是一種典型的進行特征選擇的增量貪心策略:某個特征一旦被選擇了,在后續的步驟中便不會刪除。mRMR可以改寫為全局的二次規劃的優化問題(即特征集合為特征全集的情況):

其中,α為平滑系數,F為特征變量和目標變量的相關性向量,H為度量特征變量之間冗余性的矩陣。QPFS可以通過二次規劃求解,并且偏向于選擇熵比較小的特征,這是因為特征自身的冗余性。另外一種全局的基于互信息的方法是基于條件相關性的:

SPECCMI = max x[x T Qx],滿足 ‖x‖ = 1, x i ≥0

其中,Qi, i=If i; c), Qi, j=If i; c|f j), ij。SPECCMI方法的優點是可以通過求解矩陣Q的主特征向量來求解,而且可以處理二階特征組合。


另外一種是相關特征選擇(Correlation Feature Selection, CFS)。相關特征選擇基于以下假設來評估特征集合的重要性:好的特征集合包含與目標變量非常相關的特征,但這些特征之間彼此不相關。對于包含k個特征的集合,CFS準則定義如下:

其中,是特征變量和目標變量之間的相關性,是不同特征變量之間的相關性,這里的相關性不一定是皮爾森相關系數或斯皮爾曼相關系數。


過濾方法其實是更廣泛的結構學習的一種特例。特征選擇旨在找到與具體目標變量相關的特征集合,而結構學習需要找到所有變量之間的相互聯系,并將這些聯系通常表示為一個圖。最常見的結構學習算法假設數據由一個貝葉斯網絡生成,這時結構為一個有向圖模型。特征選擇中過濾方法的最優解是目標變量節點的馬爾可夫毯,在貝葉斯網絡中,每一個節點有且僅有馬爾可夫毯。

主站蜘蛛池模板: 庆城县| 梓潼县| 隆林| 汽车| 永丰县| 安康市| 达拉特旗| 宁波市| 眉山市| 天长市| 三台县| 牟定县| 洛川县| 雅江县| 类乌齐县| 白河县| 吉首市| 阳谷县| 普兰店市| 穆棱市| 咸宁市| 上蔡县| 全南县| 南涧| 永川市| 乐平市| 井冈山市| 曲沃县| 乐平市| 司法| 沙坪坝区| 特克斯县| 清新县| 定兴县| 新乡市| 共和县| 福建省| 康保县| 饶河县| 贺兰县| 农安县|