- 自然語言處理導論
- 張奇等
- 594字
- 2023-11-17 16:47:09
2.2.2 詞形還原
詞形還原(Lemmatization)是指將詞的各種變化形式還原為其詞根的過程。通過詞形還原可以實現詞語的規范化,將詞的不同變化形式統一為詞根。
例如,原始輸入句:They are working on interesting tasks
詞形還原后:they be work on interesting task
詞形還原可以通過詞形分析來完成。詞形分析(Morphological Parsing)是指將一個詞分解成語素的過程。最簡單的方法是詞典查表法,將每一個詞的所有詞形變化都存儲下來,使用時直接匹配查找。對于英語來說,構建包含絕大多數詞形的詞典能夠有效地支撐許多應用場景。由于用詞方式的變化和新詞的不斷出現,需要對該詞典進行及時維護。但是,對于某些語言(特別是土耳其語、阿拉伯語等黏著語系的語言)來說,枚舉所有詞的詞形變化是不可能的。
例如:土耳其語詞匯uygarla?t?ramad?klar?m?zdanm??s?n?zcas?na是由以下10項變化組合而成的[45]。
uygar +la +tr +ama +dk +lar +mz +dan +m +snz +casna
civilized +BEC +CAUS +NABL +PART +PL +P1PL +ABL +PAST +2PL +AsIf其中,除了詞根uygar,其他語素的含義如下:
+BEC “變成”(become)
+CAUS 標識使役動詞
+NABL “不能”(not able)
+PART 過去分詞
+PL 名詞復數
+P1PL 第一人稱復數所有格
+ABL 表明來源的離格(ablative(from/among)case maker)
+PAST 帶過去時的間接引語(indirect/inferential past)
+AsIf 從限定動詞派生出的副詞
可以看到,在一些語言中,由于詞形變化的復雜性,一個詞的原形可能衍生出很多不同的詞。采用詞典匹配的方法很難達到較好的分析效果。因此,需要更有效率的詞形分析算法。典型的詞形分析算法包括基于有限狀態轉換機(Finite State Transducer,FST)的方法、融合詞典和有限狀態轉換機的方法及統計機器學習方法等。