- 信息內容安全管理及應用
- 李建華主編
- 594字
- 2021-10-27 15:46:42
4.3 特征子集的選擇
特征子集的選擇就是從原有輸入空間,即抽取出的所有特征項的集合,選擇一個子集合組成新的輸入空間。輸入空間也稱為特征集合。選擇的標準是要求這個子集盡可能完整地保留文本類別區分能力,而舍棄那些對文本分類無貢獻的特征項。
機器學習領域存在多種特征選擇方法。Guyon等人對特征子集選擇進行了詳盡討論,分析比較了目前常用的三種特征選擇方式:過濾(Filter)、組合(Wrappers)與嵌入(Embedded)。文本分類問題由于訓練樣本多、特征維數高的特點決定了目前在實際應用中以過濾方式為主,并且采用的是評級方式,即對每個特征項進行單獨的判斷(Single Feature Ranking),以決定該特征項是否會保留下來,而沒有考慮其他更全面的搜索方式,以降低運算量。在對所有特征項進行單獨評價后,可以選擇給定評價函數大于某個閾值的子集組成新的特征集合,也可用評價函數值最大的特定數量特征項來組成特征集。
特征子集的選擇涉及文本中的定量信息,一些相關參數定義見表4-1。
表4-1 文檔及特征項各參數的含義

可以知道,參數間滿足如下關系:

式(4-1)表示樣本總數等于各類別樣本數之和。式(4-2)表示對只包含任一特征項t的樣本集合也滿足類似的關系。

式(4-3)表示n(t)和互補,式(4-4)表示這種關系也適用于任意給定的文本類別。

式(4-5)和式(4-6)給出了tf和tf(t)的計算方法。其中,m為特征項的個數。
利用這些參數,結合統計、信息論等學科知識,即可進行特征子集的選擇。最簡單的方式是停用詞過濾。