官术网_书友最值得收藏!

第2章 詞匯分析

詞匯是語言知識中的重要環節。在語言學中,(Word)是形式和意義相結合的單位[43],也是語言中能夠獨立運用的最小單位。掌握一個詞,意味著知道其讀音和語義。在書面語中,正字法(Orthography)也是詞形式的一種表達。例如,英文單詞“cat”具有的語義是“貓”,讀音為“/k?t/”。由于詞是語言運用的基本單位,在自然語言處理算法中,詞通常也是基本單元。因此,對詞的處理也是自然語言處理中重要的底層任務,是句法分析、文本分類、語言模型等任務的基礎。

本章首先介紹語言學中與詞相關的基本概念,然后在此基礎上介紹詞語規范化相關算法、中文分詞算法和詞性標注算法。

主站蜘蛛池模板: 海晏县| 柳林县| 通渭县| 雷州市| 天长市| 房产| 涪陵区| 柏乡县| 阆中市| 漳州市| 张家川| 扶绥县| 苏尼特左旗| 左权县| 万州区| 唐山市| 五莲县| 夹江县| 蒙自县| 梨树县| 阳朔县| 贺兰县| 仙游县| 全州县| 同心县| 乐清市| 讷河市| 潍坊市| 德保县| 儋州市| 亚东县| 三穗县| 离岛区| 高青县| 平阴县| 颍上县| 苏尼特左旗| 乌海市| 聂荣县| 壤塘县| 昆山市|