- 信息內(nèi)容安全管理及應(yīng)用
- 李建華主編
- 997字
- 2021-10-27 15:46:41
4.1 文本特征的抽取概述
文本特征抽取對文本內(nèi)容的過濾和分類、聚類處理、自動(dòng)摘要以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個(gè)特征評估函數(shù)計(jì)算各個(gè)特征的評分值,然后按評分值對這些特征進(jìn)行排序,選取若干個(gè)評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。
目前,通常采用向量空間模型(請參考4.2節(jié))來描述文本向量。但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將非常大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計(jì)算開銷,使整個(gè)處理過程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出最具代表性的文本特征。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。
目前,有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。特征項(xiàng)必須具備一定的特性:
1)特征項(xiàng)要能夠確實(shí)標(biāo)識文本內(nèi)容。
2)特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力。
3)特征項(xiàng)的個(gè)數(shù)不能太多。
4)特征項(xiàng)的分離要比較容易實(shí)現(xiàn)。
在中文文本中可以采用字、詞或短語作為表示文本的特征項(xiàng)。相比較而言,詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng),稱作特征詞。
特征詞作為文檔的中間表示形式,用來實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。如果把所有的詞都作為特征項(xiàng),那么特征向量的維數(shù)將過于巨大,從而導(dǎo)致計(jì)算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計(jì)算,提高文本處理的速度和效率。
特征抽取的方式有四種:
1)用映射或變換的方法把原始特征變換為較少的新特征。
2)從原始特征中挑選出一些最具代表性的特征。
3)根據(jù)專家知識挑選最有影響的特征。
4)用數(shù)學(xué)的方法進(jìn)行抽取,找出最具分類信息的特征。這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動(dòng)分類挖掘系統(tǒng)的應(yīng)用。
隨著網(wǎng)絡(luò)知識組織、人工智能等學(xué)科的發(fā)展,文本特征抽取將向著數(shù)字化、智能化、語義化的方向深入發(fā)展,在社會(huì)知識管理方面發(fā)揮更大的作用。
- 云原生安全:攻防實(shí)踐與體系構(gòu)建
- 腦洞大開:滲透測試另類實(shí)戰(zhàn)攻略
- 計(jì)算機(jī)病毒分析與防范大全(第3版)
- 數(shù)據(jù)安全實(shí)踐指南
- 從實(shí)踐中學(xué)習(xí)Kali Linux滲透測試
- 互聯(lián)網(wǎng)企業(yè)安全高級指南
- End to End GUI Development with Qt5
- 無線傳感器網(wǎng)絡(luò)安全與加權(quán)復(fù)雜網(wǎng)絡(luò)抗毀性建模分析
- Disaster Recovery Using VMware vSphere Replication and vCenter Site Recovery Manager
- Mastering Metasploit
- INSTANT Kali Linux
- 黑客攻防從入門到精通:命令版
- CCNA Security 210-260 Certification Guide
- 隱私計(jì)算與密碼學(xué)應(yīng)用實(shí)踐
- Hands-On Spring Security 5 for Reactive Applications