官术网_书友最值得收藏!

4.3.1 停用詞過濾

停用詞過濾(Stop Word Elimination)基于對自然語言的如下觀察,即存在一些幾乎在所有樣本中都出現但是對分類沒有貢獻的特征項。例如,當以詞作為特征項時英語中的冠詞、介詞、連詞和代詞等,這些詞的作用在于連接其他表示實際內容的詞以組成結構完整的語句。

停用詞詞表可以手工建立,也可以通過統計自動生成。英語領域有手工建立領域無關和面向具體領域的停用詞詞表,一般停用詞表中含有數十個到數百個停用詞。漢語的停用詞表相比英語的要少一些。對于特征項抽取時采用亞詞級別的n元模型情況,應當先進行停用詞過濾,然后再對文本內容進行n元模型的構建。對于多詞級別采用相鄰詞構成特征項的情況,也可先進行停用詞去除。

除手工建立停用詞詞表,還可采用統計方法,統計某一個特征項t在訓練樣本中出現的頻率(nt)或tf(t)),達到限定閾值后則認為該特征項在所有類別或大多數文本中頻繁出現,對分類沒有貢獻能力,因此作為停用詞而被去除。

針對具體應用還可以建立領域相關的停用詞表,或者用于調整領域無關停用詞表。例如,漢字“的”字,通常可以作為停用詞,但在某些領域,有可能“的”字是某個專有名詞的一部分,這時就需要將其從停用詞表中去除,或調整停用策略。

主站蜘蛛池模板: 沈丘县| 莒南县| 德清县| 沙洋县| 大同县| 宜宾市| 漾濞| 宁都县| 万全县| 湖北省| 离岛区| 洞口县| 轮台县| 呼和浩特市| 锦屏县| 丹江口市| 贺州市| 班玛县| 孟村| 昌都县| 邻水| 商河县| 利川市| 晋宁县| 三台县| 微山县| 杭锦后旗| 讷河市| 喀喇沁旗| 浦城县| 乳源| 蒙自县| 阳朔县| 钟山县| 逊克县| 布尔津县| 淅川县| 阿拉善左旗| 贡嘎县| 二连浩特市| 犍为县|