- 信息內容安全管理及應用
- 李建華主編
- 1148字
- 2021-10-27 15:46:42
4.2.2 亞詞級別語義特征
亞詞級別(Sub-Word Level)也稱為字素級別(Graphemic Level)。英文中比詞級別更低的文字組成單位是字母,漢語中則是單字。
英文有26個字母,每個字母有大小寫兩種形式。英文中大小寫的區(qū)別并不在于內容方面,因此在文本表示時通常合并大小寫形式,以簡化處理模型。
1.n元模型
亞詞級別常用的索引方式是n元模型(n-Grams)。n元模型將文本表示為重疊的n個連續(xù)字母(對應中文情況為單字)的序列作為特征項。例如,單詞“shell”的3元模型為“she”“hel”和“ell”(考慮前后空格,還包括“_sh”和“l(fā)l_”兩種情況)。英文中采用n元模型有助于降低錯誤拼寫帶來的影響:一個較長的單詞,某個字母拼寫錯誤時,如果以詞作為特征項,則錯誤的拼寫形式和正確的詞沒有任何聯(lián)系,采用n元模型表示,當n小于單詞長度時,錯誤拼寫與正確拼寫之間會有部分n元模型相同;另一方面,考慮英文中復數(shù)、詞性、詞格、時態(tài)等詞形變化問題,n元模型也起到了與降低錯誤拼寫影響類似的作用。
采用n元模型時需要考慮數(shù)值n的選擇問題。n<3時無法提供足夠的區(qū)分能力。只考慮26個字母的情況,n=3時有263=17576個三元組,n=4時有264=456976個四元組。n取值越大,可表示的信息越豐富,然而隨著n的增大,特征項數(shù)目以指數(shù)函數(shù)方式迅速增長。因此,在實際應用中大多取n為3或4(隨著計算機硬件技術的增長,以及網(wǎng)絡的發(fā)展對信息流通的促進,已經(jīng)有n取更大數(shù)值的實際應用)。僅考慮單詞平均長度情況,本文統(tǒng)計一份GRE常用詞匯表,7444個單詞的平均長度為7.69個字母,考慮到不同單詞在真實文本中出現(xiàn)頻率不同,統(tǒng)計reuters-21578(路透社語料庫),單詞的平均長度為4.98個字母,再加上長度較短單詞的使用頻率較高,而拼寫的錯誤詞匯一般長度較長,可見,采用n為3或4可以部分彌補錯誤拼寫與詞形變化帶來的干擾,并且有足夠的表示能力。
2.多詞級別語義特征
多詞級別(Multi-Word Level)指用多個詞作為文本的特征項。多詞級別可以比詞級別表示更多的語義信息。隨著時代的發(fā)展,一些詞組也出現(xiàn)得越來越多,例如,對于“machine learning”“network content security”“text classification”“information filtering”這些術語,采用單詞進行表示,會損失一些語義信息,甚至短語與單個詞在語義方面有較大區(qū)別。隨著計算機處理能力的快速增長,處理文本的技術也越來越成熟,多詞作為特征項也有更大的可行性。
多詞級別中的一種思路是應用名詞短語作為特征項,這種方法也稱作短語語法指標(Syntactic Phrase Indexing);另外一種思路則不考慮詞性,只從統(tǒng)計角度根據(jù)詞之間較高的同現(xiàn)頻率(Co-occur Frequency)來選取特征項。
采用名詞短語或者同現(xiàn)高頻詞作為特征項,需要考慮特征空間的稀疏性問題。詞與詞可能的組合結果很多,僅以兩個詞的組合為例,根據(jù)統(tǒng)計,一個網(wǎng)絡信息檢索原型系統(tǒng)包含的兩詞特征項就達10億項,而且許多詞之間的搭配是沒有語義的,絕大多數(shù)組合在實際文本中出現(xiàn)的頻率很低,這些都是影響多詞級別索引實用性的因素。
- Android應用安全實戰(zhàn):Frida協(xié)議分析
- SASE原理、架構與實踐
- 信息系統(tǒng)安全檢測與風險評估
- INSTANT Metasploit Starter
- 反黑命令與攻防從新手到高手(微課超值版)
- Building a Home Security System with BeagleBone
- Instant Java Password and Authentication Security
- 網(wǎng)絡安全設計、配置與管理大全
- 解密數(shù)據(jù)恢復
- 數(shù)據(jù)安全與流通:技術、架構與實踐
- 網(wǎng)絡關鍵設備安全檢測實施指南
- 華為Anti-DDoS技術漫談
- Kali Linux高級滲透測試(原書第4版)
- CTF網(wǎng)絡安全競賽入門教程
- 互聯(lián)網(wǎng)域名國際化與安全技術導論