- 機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Sophon平臺(tái)的機(jī)器學(xué)習(xí)理論與實(shí)踐
- 星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)
- 1134字
- 2020-01-07 16:02:43
2.1.5 文本特征
文本特征不能簡(jiǎn)單地當(dāng)作類別特征來(lái)處理。一段文本是由單詞組成句子,再由句子組成段落,并按照一定的詞法、句法和文法來(lái)生成,而且還應(yīng)用了修辭手段,蘊(yùn)含情感信息。后面的第9章會(huì)詳細(xì)介紹常用的文本處理手段,這里只介紹一些簡(jiǎn)單的文本特征提取方法。
詞袋
詞袋(bag of words)特征將文本轉(zhuǎn)換成向量,其中包含詞匯表內(nèi)每個(gè)單詞或字出現(xiàn)的次數(shù)。詞袋向量是“平面”的,因?yàn)樗话魏卧嫉奈谋窘Y(jié)構(gòu)。也就是說(shuō),詞袋特征僅記錄了每個(gè)單詞出現(xiàn)的次數(shù),但卻不記錄這些單詞出現(xiàn)的位置和順序。
bag-of-n-gram
bag-of-n-gram是詞袋特征的延伸。n=1時(shí)就是基本的詞袋特征,也被稱為一元模型。n-gram實(shí)際上就是將文本中連續(xù)的n個(gè)詞作為一個(gè)詞組,并統(tǒng)計(jì)詞組出現(xiàn)的頻率。n-gram保留了文本的更多原始序列結(jié)構(gòu),故bag-of-n-gram可以提供更多信息。但這是有代價(jià)的,理論上k個(gè)獨(dú)特的詞,就可能有k個(gè)獨(dú)立的2-gram(也稱為bigram)。在實(shí)踐中,因?yàn)椴皇敲總€(gè)單詞后都可以跟一個(gè)單詞,因此并沒(méi)有那么多。盡管如此,通常n-gram(n>1)也要比單詞更多。這意味著詞袋特征會(huì)有更大的維度,并且有稀疏的特征空間;這也意味著n-gram的計(jì)算、存儲(chǔ)和建模成本會(huì)變高。n越大,信息越豐富,但成本也越高。
過(guò)濾清洗特征
我們?nèi)绾吻逦貙⑿畔脑肼曋蟹蛛x出來(lái)?使用過(guò)濾方法,通過(guò)原始分詞和計(jì)數(shù)來(lái)生成簡(jiǎn)單詞表或n-gram列表的技術(shù)將變得更加可用。以下是幾種常見(jiàn)的過(guò)濾方法。
? 停用詞:分類和檢索任務(wù)通常不需要對(duì)文本有深入的理解,文本中的大量代詞、冠詞和介詞通常是沒(méi)有價(jià)值的。Python的NLP軟件包和NLTK等都包含了由多種語(yǔ)言的語(yǔ)言學(xué)家所定義的停用詞列表,各種停用詞列表也可以在網(wǎng)上找到。
? 高頻詞:突出顯示在語(yǔ)料庫(kù)中出現(xiàn)多次的常用單詞可以揭示很多信息。一方面有助于擴(kuò)充停用詞表,另一方面可以幫助分析用詞習(xí)慣和提取情感助語(yǔ)等。
? 稀有詞:根據(jù)任務(wù)的不同,可能還需要篩選出稀有詞。對(duì)于統(tǒng)計(jì)模型而言,僅出現(xiàn)在一個(gè)或兩個(gè)文檔中的單詞更像噪聲而非有用信息,而且稀有詞還會(huì)產(chǎn)生額外的計(jì)算開(kāi)銷。重尾分布在現(xiàn)實(shí)世界的數(shù)據(jù)中非常普遍。許多統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間隨特征數(shù)量線性變化,并且一些模型的時(shí)間成本是二次冪級(jí)的,或者更差。稀有詞會(huì)產(chǎn)生大量的計(jì)算和存儲(chǔ)成本,而且不會(huì)帶來(lái)額外的收益。
TF-IDF
原本的詞袋模型其實(shí)表征的是詞袋中每一個(gè)詞在某個(gè)文檔中的出現(xiàn)次數(shù),但如果某個(gè)詞在所有樣本中都出現(xiàn)了很多次,那么該詞的特征值就失去了良好的特征表達(dá)能力,因此就出現(xiàn)了TF-IDF,以平衡權(quán)值。TF-IDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。TF-IDF實(shí)際上是TF×IDF,包括詞頻(Term Frequen-cy, TF)和逆文檔頻率(Inverse Document Frequency, IDF)。如果一個(gè)單詞出現(xiàn)在許多文檔中,則其逆文檔頻率接近1。如果單詞出現(xiàn)在較少文檔中,則逆文檔頻率要高得多。
- 基于LabWindows/CVI的虛擬儀器設(shè)計(jì)與應(yīng)用
- 機(jī)艙監(jiān)測(cè)與主機(jī)遙控
- 工業(yè)機(jī)器人工程應(yīng)用虛擬仿真教程:MotoSim EG-VRC
- 視覺(jué)檢測(cè)技術(shù)及智能計(jì)算
- Arduino &樂(lè)高創(chuàng)意機(jī)器人制作教程
- Ceph:Designing and Implementing Scalable Storage Systems
- 從零開(kāi)始學(xué)PHP
- Learning Apache Apex
- Photoshop CS4數(shù)碼照片處理入門(mén)、進(jìn)階與提高
- 漢字錄入技能訓(xùn)練
- 人工智能云平臺(tái):原理、設(shè)計(jì)與應(yīng)用
- 自適應(yīng)學(xué)習(xí):人工智能時(shí)代的教育革命
- 基于元胞自動(dòng)機(jī)的人群疏散系統(tǒng)建模與分析
- Containerization with Ansible 2
- 輸送技術(shù)、設(shè)備與工業(yè)應(yīng)用