澳门金牛网官方网站

書名：信息內容安全管理及應用
作者名：李建華主編
本章字數(shù)： 1148字
更新時間： 2021-10-27 15:46:42

4.2.2 亞詞級別語義特征

亞詞級別（Sub-Word Level）也稱為字素級別（Graphemic Level）。英文中比詞級別更低的文字組成單位是字母，漢語中則是單字。

英文有26個字母，每個字母有大小寫兩種形式。英文中大小寫的區(qū)別并不在于內容方面，因此在文本表示時通常合并大小寫形式，以簡化處理模型。

1.n元模型

亞詞級別常用的索引方式是n元模型（n－Grams）。n元模型將文本表示為重疊的n個連續(xù)字母（對應中文情況為單字）的序列作為特征項。例如，單詞“shell”的3元模型為“she”“hel”和“ell”（考慮前后空格，還包括“_sh”和“l(fā)l_”兩種情況）。英文中采用n元模型有助于降低錯誤拼寫帶來的影響：一個較長的單詞，某個字母拼寫錯誤時，如果以詞作為特征項，則錯誤的拼寫形式和正確的詞沒有任何聯(lián)系，采用n元模型表示，當n小于單詞長度時，錯誤拼寫與正確拼寫之間會有部分n元模型相同；另一方面，考慮英文中復數(shù)、詞性、詞格、時態(tài)等詞形變化問題，n元模型也起到了與降低錯誤拼寫影響類似的作用。

采用n元模型時需要考慮數(shù)值n的選擇問題。n＜3時無法提供足夠的區(qū)分能力。只考慮26個字母的情況，n＝3時有263＝17576個三元組，n＝4時有264＝456976個四元組。n取值越大，可表示的信息越豐富，然而隨著n的增大，特征項數(shù)目以指數(shù)函數(shù)方式迅速增長。因此，在實際應用中大多取n為3或4（隨著計算機硬件技術的增長，以及網(wǎng)絡的發(fā)展對信息流通的促進，已經(jīng)有n取更大數(shù)值的實際應用）。僅考慮單詞平均長度情況，本文統(tǒng)計一份GRE常用詞匯表，7444個單詞的平均長度為7.69個字母，考慮到不同單詞在真實文本中出現(xiàn)頻率不同，統(tǒng)計reuters-21578（路透社語料庫），單詞的平均長度為4.98個字母，再加上長度較短單詞的使用頻率較高，而拼寫的錯誤詞匯一般長度較長，可見，采用n為3或4可以部分彌補錯誤拼寫與詞形變化帶來的干擾，并且有足夠的表示能力。

2.多詞級別語義特征

多詞級別（Multi-Word Level）指用多個詞作為文本的特征項。多詞級別可以比詞級別表示更多的語義信息。隨著時代的發(fā)展，一些詞組也出現(xiàn)得越來越多，例如，對于“machine learning”“network content security”“text classification”“information filtering”這些術語，采用單詞進行表示，會損失一些語義信息，甚至短語與單個詞在語義方面有較大區(qū)別。隨著計算機處理能力的快速增長，處理文本的技術也越來越成熟，多詞作為特征項也有更大的可行性。

多詞級別中的一種思路是應用名詞短語作為特征項，這種方法也稱作短語語法指標（Syntactic Phrase Indexing）；另外一種思路則不考慮詞性，只從統(tǒng)計角度根據(jù)詞之間較高的同現(xiàn)頻率（Co-occur Frequency）來選取特征項。

采用名詞短語或者同現(xiàn)高頻詞作為特征項，需要考慮特征空間的稀疏性問題。詞與詞可能的組合結果很多，僅以兩個詞的組合為例，根據(jù)統(tǒng)計，一個網(wǎng)絡信息檢索原型系統(tǒng)包含的兩詞特征項就達10億項，而且許多詞之間的搭配是沒有語義的，絕大多數(shù)組合在實際文本中出現(xiàn)的頻率很低，這些都是影響多詞級別索引實用性的因素。

官术网_书友最值得收藏!

信息內容安全管理及應用

4.2.2 亞詞級別語義特征