- 自然語言處理導論
- 張奇等
- 213字
- 2023-11-17 16:47:08
2.2 詞語規范化
在對自然語言文本進行分析前,通常需要對文本進行規范化處理。文本的規范化處理主要包含句子切分、詞語切分、詞語規范化等步驟。由于絕大部分語言的句子結束符數量有限,符號歧義性相對容易處理,因此句子切分通過詞典結合模板或者有監督分類算法都可以達到較高的準確率。詞語規范化(Word Normalization)任務是將詞或詞形轉化為標準形式,針對有多種形式的詞使用一種單一的形式進行表示。本節中主要討論詞語的規范化問題,包括詞語切分、詞形還原和詞干提取。