官术网_书友最值得收藏!

2.2.3 詞干提取

詞干提取(Stemming)是詞形分析的簡化版本,目標是將具有詞形變化(通常是屈折或派生)的詞還原為其詞干(Word Stem)。與詞形分析不同,詞干提取并不要求還原的詞干一定與其語言學詞根完全一致,只需要將相關的詞映射為統一的詞干,甚至詞干本身可能并不是一個詞。例如,詞干提取算法Porter Stemmer[46]將argue、argued、argues、arguing以及argus都轉換為argu。

最簡單的詞干提取算法可以通過查詢詞表的方法獲得詞的詞干,這種方法依賴詞典所能覆蓋的詞數量,并且需要及時更新以應對不斷出現的新詞。另外一種常見的算法是后綴剝離(Suffix Stripping),通過定義一組規則,將特定的后綴從詞形中刪除。

例如:如果單詞以“ed”結尾,則刪除“ed”。

如果單詞以“ing”結尾,則刪除“ing”。

如果單詞以“ly”結尾,則刪除“ly”。

后綴剝離算法雖然可以很好地處理詞的規則變形,但是無法處理特殊變形(如ran、took等)。后綴替代(Suffix Substitution)算法可以在一定程度上解決上述問題。與后綴剝離不同,后綴替代是指定義規則將單詞后綴替換為另外一個后綴。

例如:如果單詞以“ational”結尾,則替換為“ate”(relational →relate)。

如果單詞以“ing”結尾,則替換為“?”(working →work)。

如果單詞以“zzes”結尾,則替換為“z”(quizzes →quiz)。

Porter Stemmer就采用了這種后綴替代的方法進行詞干提取。

主站蜘蛛池模板: 梁河县| 英德市| 卢龙县| 阿荣旗| 涞水县| 满洲里市| 高青县| 桐城市| 兴化市| 杭州市| 高台县| 龙门县| 垣曲县| 清远市| 镇康县| 榆社县| 南召县| 太谷县| 融水| 修水县| 塔城市| 延吉市| 井陉县| 铜山县| 玉山县| 栾川县| 金阳县| 定边县| 两当县| 隆林| 额敏县| 红河县| 永靖县| 荣成市| 徐闻县| 扬州市| 上犹县| 朝阳市| 武乡县| 镇宁| 衡东县|