- 自然語言處理導論
- 張奇等
- 508字
- 2023-11-17 16:47:09
2.2.3 詞干提取
詞干提取(Stemming)是詞形分析的簡化版本,目標是將具有詞形變化(通常是屈折或派生)的詞還原為其詞干(Word Stem)。與詞形分析不同,詞干提取并不要求還原的詞干一定與其語言學詞根完全一致,只需要將相關的詞映射為統一的詞干,甚至詞干本身可能并不是一個詞。例如,詞干提取算法Porter Stemmer[46]將argue、argued、argues、arguing以及argus都轉換為argu。
最簡單的詞干提取算法可以通過查詢詞表的方法獲得詞的詞干,這種方法依賴詞典所能覆蓋的詞數量,并且需要及時更新以應對不斷出現的新詞。另外一種常見的算法是后綴剝離(Suffix Stripping),通過定義一組規則,將特定的后綴從詞形中刪除。
例如:如果單詞以“ed”結尾,則刪除“ed”。
如果單詞以“ing”結尾,則刪除“ing”。
如果單詞以“ly”結尾,則刪除“ly”。
后綴剝離算法雖然可以很好地處理詞的規則變形,但是無法處理特殊變形(如ran、took等)。后綴替代(Suffix Substitution)算法可以在一定程度上解決上述問題。與后綴剝離不同,后綴替代是指定義規則將單詞后綴替換為另外一個后綴。
例如:如果單詞以“ational”結尾,則替換為“ate”(relational →relate)。
如果單詞以“ing”結尾,則替換為“?”(working →work)。
如果單詞以“zzes”結尾,則替換為“z”(quizzes →quiz)。
Porter Stemmer就采用了這種后綴替代的方法進行詞干提取。