- 信息內(nèi)容安全管理及應(yīng)用
- 李建華主編
- 1803字
- 2021-10-27 15:46:41
4.2.1 詞級別語義特征
詞級別(Word Level)以詞作為基本語義特征。詞是語言中最小的且可以獨立運用的有意義的語言單位,即使在不考慮上下文的情況下,詞仍然可以表達一定的語義。以詞作為基本語義特征,在文本分類、信息檢索系統(tǒng)中工作良好,詞也是實際應(yīng)用中最常見的基本語義特征。
英文中以詞為基本語義特征的優(yōu)點之一是易于實現(xiàn),利用空格與標點符號即可將連續(xù)文本切分為詞。如果進一步簡化,忽略詞之間邏輯語義關(guān)系以及詞與詞之間的順序,這時文本被映射為一個詞袋(Bag of Words)。詞袋模型中只有詞及其出現(xiàn)的次數(shù)被保留下來。圖4-1為一個詞袋轉(zhuǎn)換示例。

圖4-1 詞袋轉(zhuǎn)換示例
以詞為基本語義特征時會受到一詞多義與多詞同義的影響。前者指同一單詞可用于描述不同對象,后者指同一事物存在多種描述形式。雖然一詞多義與多詞同義現(xiàn)象在通常的文本信息中并非罕見,且難以在詞特征索引級別有效解決,但是這種現(xiàn)象對分類的不良影響卻較小。例如,英文中常見的book、bank等詞匯存在一詞多義現(xiàn)象。在網(wǎng)絡(luò)內(nèi)容安全中判斷一個文本是否含有不良信息時卻并不易受其影響。對使用詞作為基本語義特征有較好的分類效果,Whorf進行過分析,認為在語言的進化過程中,詞作為語言的基礎(chǔ)單位朝著能優(yōu)化反映表達內(nèi)容、主題的方向發(fā)展,因此詞有力地表示了分類問題的先驗分布。
英文以詞為特征項時,需要考慮復(fù)數(shù)、詞性、詞格、時態(tài)等詞形變化問題。這些變化形式在一般情況下對于文本分類沒有貢獻,有效識別其原始形式合并為統(tǒng)一特征項,有利于降低特征數(shù)量,并避免單個詞表達為多種形式帶來的干擾。
詞特征可進行計算的因素有很多,最常用的有詞頻、詞性等。
1.詞頻
文本中的中頻詞往往具有代表性,高頻詞區(qū)分能力較小,而低頻詞或極少出現(xiàn)的詞也常常可以作為關(guān)鍵特征詞。所以,詞頻是特征抽取中必須考慮的重要因素,并且在不同方法中有不同的應(yīng)用公式。
2.詞性
中文中能標識文本特性的往往是文本中的實詞,如名詞、動詞、形容詞等。而文本中的一些虛詞,如感嘆詞、介詞、連詞等,對于標識文本的類別特性沒有貢獻,也就是對確定文本類別沒有意義的詞。如果把這些對文本分類沒有意義的虛詞作為文本特征詞,將會帶來很大噪音,從而直接降低文本分類的效率和準確率。因此,在抽取文本特征時,應(yīng)首先考慮剔除這些對文本分類沒有用處的虛詞。而在實詞中,又以名詞和動詞對于文本的類別特性的表現(xiàn)力最強,所以可以只抽取文本中的名詞和動詞作為文本的一級特征詞。
3.文檔、詞語長度
一般情況下,詞的長度越短,其語義越泛。一般來說,中文中詞長較長的詞往往反映比較具體、下位的概念,而短的詞常常表示相對抽象、上位的概念。一般說來,短詞具有較高的頻率和更多的含義,是面向功能的;而長詞的頻率較低,是面向內(nèi)容的。增加長詞的權(quán)重,有利于詞匯進行分割,從而更準確地反映出特征詞在文章中的重要程度。詞語長度通常不被研究者重視。但是在實際應(yīng)用中發(fā)現(xiàn),關(guān)鍵詞通常是一些專業(yè)學(xué)術(shù)組合詞匯,長度較一般詞長。考慮候選詞的長度,會突出長詞的作用。長度項也可以使用對數(shù)函數(shù)來平滑詞匯間長度的劇烈差異。通常來說,長詞含義更明確,更能反映文本主題,適合作為關(guān)鍵詞,因此對包含在長詞中低于一定過濾閾值的短詞進行了過濾。所謂過濾閾值,就是指進行過濾短詞的后處理時,短詞的權(quán)重和長詞的權(quán)重的比的最大值。如果低于過濾閾值,則過濾短詞,否則保留短詞。
4.詞語直徑
詞語直徑(Diameter)是指詞語在文本中首次出現(xiàn)的位置和末次出現(xiàn)的位置之間的距離。詞語直徑是根據(jù)實踐提出的一種統(tǒng)計特征。根據(jù)經(jīng)驗,如果某個詞在文本開頭處提到,結(jié)尾又提到,那么它對該文本來說,是個很重要的詞。不過統(tǒng)計結(jié)果顯示,關(guān)鍵詞的直徑分布出現(xiàn)了兩極分化的趨勢,在文本中僅僅出現(xiàn)了1次的關(guān)鍵詞占全部關(guān)鍵詞的14.184%。所以,詞語直徑是比較粗糙的度量特征。
5.首次出現(xiàn)位置
Frank在Kea算法中使用候選詞首次出現(xiàn)位置(First Location)作為Bayes概率計算的一個主要特征,稱之為距離(Distance)。簡單的統(tǒng)計可以發(fā)現(xiàn),關(guān)鍵詞一般在文章中較早出現(xiàn),因此出現(xiàn)位置靠前的候選詞應(yīng)該加大權(quán)重。實驗數(shù)據(jù)表明,首次出現(xiàn)位置和詞語直徑兩個特征只選擇一個使用就可以了。由于文獻數(shù)據(jù)加工問題導(dǎo)致中國學(xué)術(shù)期刊全文數(shù)據(jù)庫的全文數(shù)據(jù)不僅包含文章本身,還包含了作者、作者機構(gòu)以及引文信息,針對這個特點,使用首次出現(xiàn)位置這個特征,可以盡可能減少全文數(shù)據(jù)的附加信息造成的不良影響。
6.詞語分布偏差
詞語分布偏差(Deviation)所考慮的是詞語在文章中的統(tǒng)計分布。在整篇文章中分布均勻的詞語通常是重要的詞。
- DevSecOps敏捷安全
- 腦洞大開:滲透測試另類實戰(zhàn)攻略
- Mastering Kali Linux for Advanced Penetration Testing
- 學(xué)電腦安全與病毒防范
- 網(wǎng)絡(luò)安全應(yīng)急響應(yīng)實戰(zhàn)
- 無線傳感器網(wǎng)絡(luò)安全與加權(quán)復(fù)雜網(wǎng)絡(luò)抗毀性建模分析
- 復(fù)雜信息系統(tǒng)網(wǎng)絡(luò)安全體系建設(shè)指南
- 聯(lián)邦學(xué)習(xí)原理與算法
- 隱私保護機器學(xué)習(xí)
- 黑客攻防從入門到精通:實戰(zhàn)篇(第2版)
- INSTANT Microsoft Forefront UAG Mobile Configuration Starter
- BeagleBone for Secret Agents
- Blockchain Development with Hyperledger
- 中國網(wǎng)絡(luò)空間安全前沿科技發(fā)展報告(2018)
- 深入探索區(qū)塊鏈