- 信息內容安全管理及應用
- 李建華主編
- 1703字
- 2021-10-27 15:46:42
4.2.4 漢語的語義特征抽取
1.漢語分詞
漢語是一種孤立語,不同于印歐語系的很多具有曲折變化的語言,漢語的詞匯只有一種形式而沒有諸如復數等變化。此外,漢語不存在顯式(類似空格)的詞邊界標志,因此需要研究中文(漢語和中文對應的概念不完全一致。在不引起混淆情況下,文本未進行明確區分而依照常用習慣選擇使用)文本自動切分為詞序列的漢語分詞技術。漢語分詞方法最早采用了最大匹配法,即與詞表中最長的詞優先匹配的方法,依據掃描語句的方向,可以分為正向最大匹配(Maximum Match,MM)、反向最大匹配(Reverse Maximum Match,RMM)以及雙向最大匹配(Bi-directional Maximum Match,BMM)等多種形式。
梁南元的研究結果表明,在詞典完備、不借助其他知識的條件下,最大匹配法的錯誤切分率為1次/169字~1次/245字。該研究實現于1987年,以現在的條件來看當時的實驗規模可能偏小,另外,如何判定分詞結果是否正確也有較大的主觀性。最大匹配法由于思路直觀、實現簡單、切分速度快等優點,應用較為廣泛。采用最大匹配法進行分詞遇到的基本問題是切分歧義的消除問題和未登錄詞(新詞)的識別問題。
為了消除歧義,研究人員嘗試了多種人工智能領域的方法,如松弛法、擴充轉移網絡、短語結構文法、專家系統方法、神經網絡方法、有限狀態機方法、隱馬爾科夫模型、Brill式轉換法等。這些分詞方法從不同角度總結歧義產生的可能原因,并嘗試建立歧義消除模型,達到一定的準確度。然而,由于這些方法未能實現對中文詞的真正理解,也沒有找到一個可以妥善處理各種分詞相關語言現象的機制,因此目前尚沒有廣泛認可的完善的消除歧義的方法。
未登錄詞識別是漢語分詞時遇到的另一個難題。未登錄詞也稱為新詞,是指分詞時所用詞典中未包含的詞,常見的有人名、地名、機構名稱等專有名詞,以及各專業領域的名詞術語。這些詞不包含在分詞詞典中,當其又對分類有貢獻時,就需要考慮如何進行有效識別。孫茂松、鄒嘉彥的相關研究指出,在通用領域文本中,未登錄詞對分詞精度的影響超過了歧義切分。
未登錄詞識別可以從統計和專家系統兩個角度進行:統計方法從大規模語料中獲取高頻連續漢字串,作為可能的新詞;專家系統方法則是從各類專有名詞庫中總結相關類別新詞的構建特征、上下文特點等規則。當前對于未登錄詞的識別研究相對于歧義消除更不成熟。
孫茂松、鄒嘉彥認為分詞問題的解決方向是建設規模大、精度高的中文語料資源,以此作為進一步提高漢語分詞技術的研究基礎。
對于文本分類應用的分詞問題,還需要考慮分詞顆粒度問題。該問題考慮存在詞匯嵌套情況時的處理策略。例如“文本分類”可以看作是一個單獨的詞,也可以看作是“文本”和“分類”兩個詞。應該依據具體的應用來確定分詞顆粒度。
2.漢語亞詞
在亞詞級別,漢語處理也存在一些與英語不同之處。一方面,漢語中比詞級別更低的文字其組成部分是字,與英文中單詞含有的字母數量相比偏少,詞長度以2~4個字為主。對搜狗輸入法中34萬條詞表進行統計,不同長度詞所占詞表比例分別為兩字詞35%,三字詞34%,四字詞27%,其余長度共4%。
另一方面,漢語包含的漢字數量遠遠多于英文字母數量,(GB 2312-1980)《信息交換用漢字編碼字符集》共收錄6763個常用漢字(GB 2312-1980)另有682個其他符號,(GB 18030-2005)《信息技術中文編碼字符集》收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字),該標準還是屬于收錄漢字較少的編碼標準。在實際計算中,漢語的2元模型已超過了英文中5元模型的組合數量67632(45,738,169)>265(11,881,376)。
因此,漢語采用n元模型就陷入了一個兩難境地:n較小時(n=1)缺乏足夠的語義表達能力,n較大時(n為2或3)則不僅計算困難,而且n的取值已經使得n元模型的長度達到甚至超過詞的長度,又失去了英文中用以彌補錯誤拼寫的功能。因此,漢語的n元模型往往用于其他用途,在中文信息處理中,可以利用二元或三元漢字模型來進行詞的統計識別,這種做法基于一個假設,即詞內字串高頻同現,而并不組成詞的字串低頻出現。
在網絡內容安全中,n元模型也有重要的應用,對于不可信來源的文本可以采用二元分詞方法(即二元漢字模型),例如“一二三四”的二元分詞結果為“一二”“二三”和“三四”。這種表示方法可以在一定程度上消除信息發布者故意利用常用分詞的切分結果來躲避過濾的情況。