官术网_书友最值得收藏!

2.2 詞語規范化

在對自然語言文本進行分析前,通常需要對文本進行規范化處理。文本的規范化處理主要包含句子切分、詞語切分、詞語規范化等步驟。由于絕大部分語言的句子結束符數量有限,符號歧義性相對容易處理,因此句子切分通過詞典結合模板或者有監督分類算法都可以達到較高的準確率。詞語規范化(Word Normalization)任務是將詞或詞形轉化為標準形式,針對有多種形式的詞使用一種單一的形式進行表示。本節中主要討論詞語的規范化問題,包括詞語切分、詞形還原和詞干提取。

主站蜘蛛池模板: 鹤山市| 汉源县| 舟山市| 灵璧县| 上饶县| 南靖县| 长沙市| 翁源县| 礼泉县| 富源县| 福泉市| 隆德县| 保亭| 峨眉山市| 奎屯市| 鄂托克前旗| 保靖县| 文昌市| 沙洋县| 永城市| 铁力市| 垫江县| 吉安市| 本溪市| 藁城市| 中西区| 巫溪县| 夏邑县| 平安县| 太仓市| 彰化县| 深圳市| 崇左市| 瓦房店市| 布拖县| 太谷县| 庐江县| 牡丹江市| 来安县| 额敏县| 昭苏县|