- 信息內容安全管理及應用
- 李建華主編
- 500字
- 2021-10-27 15:46:43
4.3.1 停用詞過濾
停用詞過濾(Stop Word Elimination)基于對自然語言的如下觀察,即存在一些幾乎在所有樣本中都出現但是對分類沒有貢獻的特征項。例如,當以詞作為特征項時英語中的冠詞、介詞、連詞和代詞等,這些詞的作用在于連接其他表示實際內容的詞以組成結構完整的語句。
停用詞詞表可以手工建立,也可以通過統計自動生成。英語領域有手工建立領域無關和面向具體領域的停用詞詞表,一般停用詞表中含有數十個到數百個停用詞。漢語的停用詞表相比英語的要少一些。對于特征項抽取時采用亞詞級別的n元模型情況,應當先進行停用詞過濾,然后再對文本內容進行n元模型的構建。對于多詞級別采用相鄰詞構成特征項的情況,也可先進行停用詞去除。
除手工建立停用詞詞表,還可采用統計方法,統計某一個特征項t在訓練樣本中出現的頻率(n(t)或tf(t)),達到限定閾值后則認為該特征項在所有類別或大多數文本中頻繁出現,對分類沒有貢獻能力,因此作為停用詞而被去除。
針對具體應用還可以建立領域相關的停用詞表,或者用于調整領域無關停用詞表。例如,漢字“的”字,通常可以作為停用詞,但在某些領域,有可能“的”字是某個專有名詞的一部分,這時就需要將其從停用詞表中去除,或調整停用策略。
推薦閱讀
- Web漏洞分析與防范實戰:卷1
- 信息安全導論(在線實驗+在線自測)
- 科技安全:戰略實踐與展望
- Metasploit Penetration Testing Cookbook(Third Edition)
- Metasploit Penetration Testing Cookbook(Second Edition)
- 工業互聯網安全
- 白帽子講Web安全(紀念版)
- 網絡安全應急管理與技術實踐
- 計算機病毒分析與防范大全(第3版)
- Spring Security(Third Edition)
- 計算機網絡安全基礎(第5版)
- 隱私計算
- 軟件安全保障體系架構
- 學電腦安全與病毒防范
- Instant Java Password and Authentication Security