官术网_书友最值得收藏!

4.3 特征子集的選擇

特征子集的選擇就是從原有輸入空間,即抽取出的所有特征項的集合,選擇一個子集合組成新的輸入空間。輸入空間也稱為特征集合。選擇的標準是要求這個子集盡可能完整地保留文本類別區分能力,而舍棄那些對文本分類無貢獻的特征項。

機器學習領域存在多種特征選擇方法。Guyon等人對特征子集選擇進行了詳盡討論,分析比較了目前常用的三種特征選擇方式:過濾(Filter)、組合(Wrappers)與嵌入(Embedded)。文本分類問題由于訓練樣本多、特征維數高的特點決定了目前在實際應用中以過濾方式為主,并且采用的是評級方式,即對每個特征項進行單獨的判斷(Single Feature Ranking),以決定該特征項是否會保留下來,而沒有考慮其他更全面的搜索方式,以降低運算量。在對所有特征項進行單獨評價后,可以選擇給定評價函數大于某個閾值的子集組成新的特征集合,也可用評價函數值最大的特定數量特征項來組成特征集。

特征子集的選擇涉及文本中的定量信息,一些相關參數定義見表4-1。

表4-1 文檔及特征項各參數的含義

可以知道,參數間滿足如下關系:

式(4-1)表示樣本總數等于各類別樣本數之和。式(4-2)表示對只包含任一特征項t的樣本集合也滿足類似的關系。

式(4-3)表示nt)和互補,式(4-4)表示這種關系也適用于任意給定的文本類別。

式(4-5)和式(4-6)給出了tf和tf(t)的計算方法。其中,m為特征項的個數。

利用這些參數,結合統計、信息論等學科知識,即可進行特征子集的選擇。最簡單的方式是停用詞過濾。

主站蜘蛛池模板: 准格尔旗| 阿拉善右旗| 沭阳县| 颍上县| 石城县| 晋中市| 安徽省| 武夷山市| 霍州市| 永胜县| 安达市| 日土县| 敖汉旗| 峡江县| 绵竹市| 陇川县| 沽源县| 仁怀市| 镇雄县| 波密县| 韶山市| 日照市| 双辽市| 屏东县| 长乐市| 平乡县| 边坝县| 呼和浩特市| 北京市| 靖西县| 高阳县| 柞水县| 德庆县| 门源| 池州市| 昂仁县| 通山县| 上杭县| 措勤县| 名山县| 彩票|