官术网_书友最值得收藏!

2.2.2 詞形還原

詞形還原(Lemmatization)是指將詞的各種變化形式還原為其詞根的過程。通過詞形還原可以實現詞語的規范化,將詞的不同變化形式統一為詞根。

例如,原始輸入句:They are working on interesting tasks

詞形還原后:they be work on interesting task

詞形還原可以通過詞形分析來完成。詞形分析(Morphological Parsing)是指將一個詞分解成語素的過程。最簡單的方法是詞典查表法,將每一個詞的所有詞形變化都存儲下來,使用時直接匹配查找。對于英語來說,構建包含絕大多數詞形的詞典能夠有效地支撐許多應用場景。由于用詞方式的變化和新詞的不斷出現,需要對該詞典進行及時維護。但是,對于某些語言(特別是土耳其語、阿拉伯語等黏著語系的語言)來說,枚舉所有詞的詞形變化是不可能的。

例如:土耳其語詞匯uygarla?t?ramad?klar?m?zdanm??s?n?zcas?na是由以下10項變化組合而成的[45]

uygar +la +tr +ama +dk +lar +mz +dan +m +snz +casna

civilized +BEC +CAUS +NABL +PART +PL +P1PL +ABL +PAST +2PL +AsIf其中,除了詞根uygar,其他語素的含義如下:

+BEC “變成”(become)

+CAUS 標識使役動詞

+NABL “不能”(not able)

+PART 過去分詞

+PL 名詞復數

+P1PL 第一人稱復數所有格

+ABL 表明來源的離格(ablative(from/among)case maker)

+PAST 帶過去時的間接引語(indirect/inferential past)

+AsIf 從限定動詞派生出的副詞

可以看到,在一些語言中,由于詞形變化的復雜性,一個詞的原形可能衍生出很多不同的詞。采用詞典匹配的方法很難達到較好的分析效果。因此,需要更有效率的詞形分析算法。典型的詞形分析算法包括基于有限狀態轉換機(Finite State Transducer,FST)的方法、融合詞典和有限狀態轉換機的方法及統計機器學習方法等。

主站蜘蛛池模板: 军事| 出国| 淮南市| 灌云县| 新余市| 德化县| 上高县| 甘洛县| 秀山| 乌海市| 普兰店市| 陵川县| 惠来县| 云梦县| 建始县| 东乌| 嘉禾县| 元氏县| 彭阳县| 衡水市| 南宫市| 巴楚县| 堆龙德庆县| 思南县| 龙川县| 民和| 墨江| 清水河县| 涞源县| 绥化市| 舞阳县| 库车县| 朝阳市| 宜城市| 盱眙县| 灵璧县| 河间市| 漳州市| 什邡市| 固原市| 台北县|