官术网_书友最值得收藏!

2.1.5 文本特征

文本特征不能簡(jiǎn)單地當(dāng)作類別特征來(lái)處理。一段文本是由單詞組成句子,再由句子組成段落,并按照一定的詞法、句法和文法來(lái)生成,而且還應(yīng)用了修辭手段,蘊(yùn)含情感信息。后面的第9章會(huì)詳細(xì)介紹常用的文本處理手段,這里只介紹一些簡(jiǎn)單的文本特征提取方法。


詞袋


詞袋(bag of words)特征將文本轉(zhuǎn)換成向量,其中包含詞匯表內(nèi)每個(gè)單詞或字出現(xiàn)的次數(shù)。詞袋向量是“平面”的,因?yàn)樗话魏卧嫉奈谋窘Y(jié)構(gòu)。也就是說(shuō),詞袋特征僅記錄了每個(gè)單詞出現(xiàn)的次數(shù),但卻不記錄這些單詞出現(xiàn)的位置和順序。


bag-of-n-gram


bag-of-n-gram是詞袋特征的延伸。n=1時(shí)就是基本的詞袋特征,也被稱為一元模型n-gram實(shí)際上就是將文本中連續(xù)的n個(gè)詞作為一個(gè)詞組,并統(tǒng)計(jì)詞組出現(xiàn)的頻率。n-gram保留了文本的更多原始序列結(jié)構(gòu),故bag-of-n-gram可以提供更多信息。但這是有代價(jià)的,理論上k個(gè)獨(dú)特的詞,就可能有k個(gè)獨(dú)立的2-gram(也稱為bigram)。在實(shí)踐中,因?yàn)椴皇敲總€(gè)單詞后都可以跟一個(gè)單詞,因此并沒(méi)有那么多。盡管如此,通常n-gram(n>1)也要比單詞更多。這意味著詞袋特征會(huì)有更大的維度,并且有稀疏的特征空間;這也意味著n-gram的計(jì)算、存儲(chǔ)和建模成本會(huì)變高。n越大,信息越豐富,但成本也越高。


過(guò)濾清洗特征


我們?nèi)绾吻逦貙⑿畔脑肼曋蟹蛛x出來(lái)?使用過(guò)濾方法,通過(guò)原始分詞和計(jì)數(shù)來(lái)生成簡(jiǎn)單詞表或n-gram列表的技術(shù)將變得更加可用。以下是幾種常見(jiàn)的過(guò)濾方法。


? 停用詞:分類和檢索任務(wù)通常不需要對(duì)文本有深入的理解,文本中的大量代詞、冠詞和介詞通常是沒(méi)有價(jià)值的。Python的NLP軟件包和NLTK等都包含了由多種語(yǔ)言的語(yǔ)言學(xué)家所定義的停用詞列表,各種停用詞列表也可以在網(wǎng)上找到。

? 高頻詞:突出顯示在語(yǔ)料庫(kù)中出現(xiàn)多次的常用單詞可以揭示很多信息。一方面有助于擴(kuò)充停用詞表,另一方面可以幫助分析用詞習(xí)慣和提取情感助語(yǔ)等。

? 稀有詞:根據(jù)任務(wù)的不同,可能還需要篩選出稀有詞。對(duì)于統(tǒng)計(jì)模型而言,僅出現(xiàn)在一個(gè)或兩個(gè)文檔中的單詞更像噪聲而非有用信息,而且稀有詞還會(huì)產(chǎn)生額外的計(jì)算開(kāi)銷。重尾分布在現(xiàn)實(shí)世界的數(shù)據(jù)中非常普遍。許多統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間隨特征數(shù)量線性變化,并且一些模型的時(shí)間成本是二次冪級(jí)的,或者更差。稀有詞會(huì)產(chǎn)生大量的計(jì)算和存儲(chǔ)成本,而且不會(huì)帶來(lái)額外的收益。


TF-IDF


原本的詞袋模型其實(shí)表征的是詞袋中每一個(gè)詞在某個(gè)文檔中的出現(xiàn)次數(shù),但如果某個(gè)詞在所有樣本中都出現(xiàn)了很多次,那么該詞的特征值就失去了良好的特征表達(dá)能力,因此就出現(xiàn)了TF-IDF,以平衡權(quán)值。TF-IDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。TF-IDF實(shí)際上是TF×IDF,包括詞頻(Term Frequen-cy, TF)和逆文檔頻率(Inverse Document Frequency, IDF)。如果一個(gè)單詞出現(xiàn)在許多文檔中,則其逆文檔頻率接近1。如果單詞出現(xiàn)在較少文檔中,則逆文檔頻率要高得多。

主站蜘蛛池模板: 中方县| 光泽县| 鄂托克前旗| 仙游县| 千阳县| 宽甸| 池州市| 营山县| 仪征市| 湖北省| 石屏县| 呼图壁县| 弋阳县| 蓬莱市| 桂平市| 民勤县| 合作市| 延安市| 银川市| 三河市| 榆树市| 吉林省| 宜宾县| 四平市| 克什克腾旗| 新沂市| 教育| 文山县| 宝丰县| 阿拉善盟| 林周县| 汝州市| 马公市| 开平市| 尼勒克县| 广州市| 集贤县| 开远市| 深州市| 邹城市| 米林县|