第2章 詞匯分析
詞匯是語言知識中的重要環節。在語言學中,詞(Word)是形式和意義相結合的單位[43],也是語言中能夠獨立運用的最小單位。掌握一個詞,意味著知道其讀音和語義。在書面語中,正字法(Orthography)也是詞形式的一種表達。例如,英文單詞“cat”具有的語義是“貓”,讀音為“/k?t/”。由于詞是語言運用的基本單位,在自然語言處理算法中,詞通常也是基本單元。因此,對詞的處理也是自然語言處理中重要的底層任務,是句法分析、文本分類、語言模型等任務的基礎。
本章首先介紹語言學中與詞相關的基本概念,然后在此基礎上介紹詞語規范化相關算法、中文分詞算法和詞性標注算法。