官术网_书友最值得收藏!

4.2.2 亞詞級別語義特征

亞詞級別(Sub-Word Level)也稱為字素級別(Graphemic Level)。英文中比詞級別更低的文字組成單位是字母,漢語中則是單字。

英文有26個字母,每個字母有大小寫兩種形式。英文中大小寫的區(qū)別并不在于內容方面,因此在文本表示時通常合并大小寫形式,以簡化處理模型。

1.n元模型

亞詞級別常用的索引方式是n元模型(n-Grams)。n元模型將文本表示為重疊的n個連續(xù)字母(對應中文情況為單字)的序列作為特征項。例如,單詞“shell”的3元模型為“she”“hel”和“ell”(考慮前后空格,還包括“_sh”和“l(fā)l_”兩種情況)。英文中采用n元模型有助于降低錯誤拼寫帶來的影響:一個較長的單詞,某個字母拼寫錯誤時,如果以詞作為特征項,則錯誤的拼寫形式和正確的詞沒有任何聯(lián)系,采用n元模型表示,當n小于單詞長度時,錯誤拼寫與正確拼寫之間會有部分n元模型相同;另一方面,考慮英文中復數(shù)、詞性、詞格、時態(tài)等詞形變化問題,n元模型也起到了與降低錯誤拼寫影響類似的作用。

采用n元模型時需要考慮數(shù)值n的選擇問題。n<3時無法提供足夠的區(qū)分能力。只考慮26個字母的情況,n=3時有263=17576個三元組,n=4時有264=456976個四元組。n取值越大,可表示的信息越豐富,然而隨著n的增大,特征項數(shù)目以指數(shù)函數(shù)方式迅速增長。因此,在實際應用中大多取n為3或4(隨著計算機硬件技術的增長,以及網(wǎng)絡的發(fā)展對信息流通的促進,已經(jīng)有n取更大數(shù)值的實際應用)。僅考慮單詞平均長度情況,本文統(tǒng)計一份GRE常用詞匯表,7444個單詞的平均長度為7.69個字母,考慮到不同單詞在真實文本中出現(xiàn)頻率不同,統(tǒng)計reuters-21578(路透社語料庫),單詞的平均長度為4.98個字母,再加上長度較短單詞的使用頻率較高,而拼寫的錯誤詞匯一般長度較長,可見,采用n為3或4可以部分彌補錯誤拼寫與詞形變化帶來的干擾,并且有足夠的表示能力。

2.多詞級別語義特征

多詞級別(Multi-Word Level)指用多個詞作為文本的特征項。多詞級別可以比詞級別表示更多的語義信息。隨著時代的發(fā)展,一些詞組也出現(xiàn)得越來越多,例如,對于“machine learning”“network content security”“text classification”“information filtering”這些術語,采用單詞進行表示,會損失一些語義信息,甚至短語與單個詞在語義方面有較大區(qū)別。隨著計算機處理能力的快速增長,處理文本的技術也越來越成熟,多詞作為特征項也有更大的可行性。

多詞級別中的一種思路是應用名詞短語作為特征項,這種方法也稱作短語語法指標(Syntactic Phrase Indexing);另外一種思路則不考慮詞性,只從統(tǒng)計角度根據(jù)詞之間較高的同現(xiàn)頻率(Co-occur Frequency)來選取特征項。

采用名詞短語或者同現(xiàn)高頻詞作為特征項,需要考慮特征空間的稀疏性問題。詞與詞可能的組合結果很多,僅以兩個詞的組合為例,根據(jù)統(tǒng)計,一個網(wǎng)絡信息檢索原型系統(tǒng)包含的兩詞特征項就達10億項,而且許多詞之間的搭配是沒有語義的,絕大多數(shù)組合在實際文本中出現(xiàn)的頻率很低,這些都是影響多詞級別索引實用性的因素。

主站蜘蛛池模板: 乐都县| 拉萨市| 江陵县| 吴桥县| 铁岭县| 南昌县| 陵水| 邢台县| 庄河市| 洞头县| 于都县| 绵阳市| 常山县| 临夏县| 南乐县| 深水埗区| 黎平县| 两当县| 甘德县| 永顺县| 大厂| 泽州县| 民勤县| 甘泉县| 固阳县| 玉田县| 资中县| 西和县| 开江县| 洱源县| 仲巴县| 梓潼县| 凌源市| 上栗县| 沧源| 疏附县| 射洪县| 北海市| 邮箱| 祥云县| 广昌县|