- Python 深度學(xué)習(xí)
- 呂云翔 劉卓然 關(guān)捷雄等編著
- 1640字
- 2021-04-14 11:54:19
3.2 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)
模型與最優(yōu)化算法的選擇,很大程度上取決于能得到什么樣的數(shù)據(jù)。如果數(shù)據(jù)集中樣本點(diǎn)只包含模型的輸入x,則需要采用非監(jiān)督學(xué)習(xí)算法;如果這些樣本點(diǎn)以〈x,y〉輸入-輸出二元組的形式出現(xiàn),則可以采用監(jiān)督學(xué)習(xí)算法。
3.2.1 監(jiān)督學(xué)習(xí)
在監(jiān)督學(xué)習(xí)中,我們根據(jù)訓(xùn)練集中的觀測(cè)樣本點(diǎn)來(lái)優(yōu)化模型f(·),使得給定測(cè)試樣例x′作為模型輸入,輸出
盡可能接近正確輸出y′。
監(jiān)督學(xué)習(xí)算法主要適用于兩大類(lèi)問(wèn)題:回歸和分類(lèi)。它們的區(qū)別在于,回歸問(wèn)題的輸出是連續(xù)值,分類(lèi)問(wèn)題的輸出是離散值。
1.回歸
回歸問(wèn)題在生活中非常常見(jiàn),其最簡(jiǎn)單的形式是一個(gè)連續(xù)函數(shù)的擬合。如果一個(gè)購(gòu)物網(wǎng)站想要計(jì)算出其在某個(gè)時(shí)期的預(yù)期收益,研究人員會(huì)將相關(guān)因素,如廣告投放量、網(wǎng)站流量、優(yōu)惠力度等,納入自變量,根據(jù)現(xiàn)有數(shù)據(jù)擬合函數(shù),得到未來(lái)某一時(shí)刻的預(yù)測(cè)值。
回歸問(wèn)題中通常使用均方損失函數(shù)作為度量模型效果的指標(biāo),最簡(jiǎn)單的求解例子是最小二乘法。
2.分類(lèi)
分類(lèi)也是生活中非常常見(jiàn)的一類(lèi)問(wèn)題,如從金融市場(chǎng)的交易記錄中分類(lèi)出正常的交易記錄以及潛在的惡意交易。
度量分類(lèi)問(wèn)題的指標(biāo)通常為準(zhǔn)確率(Accuracy):對(duì)于測(cè)試集中D個(gè)樣本,有k個(gè)被正確分類(lèi),有D-k個(gè)被錯(cuò)誤分類(lèi),則準(zhǔn)確率的計(jì)算方式為:

然而在一些特殊的分類(lèi)問(wèn)題中,屬于各類(lèi)的樣本并不是均一分布,甚至出現(xiàn)概率相差很多個(gè)數(shù)量級(jí)的情況,這就是不平衡類(lèi)問(wèn)題。在不平衡類(lèi)問(wèn)題中,準(zhǔn)確率沒(méi)有多大意義。例如,檢測(cè)一批產(chǎn)品是否為次品時(shí),若次品出現(xiàn)的頻率為1%,那么即使某個(gè)模型完全不能識(shí)別次品,只要它每次都“蒙”這件產(chǎn)品不是次品,它仍然能夠達(dá)到99%的準(zhǔn)確率。顯然我們需要一些別的指標(biāo)。
通常在不平衡類(lèi)問(wèn)題中,使用F-度量來(lái)作為評(píng)價(jià)模型的指標(biāo)。以二元不平衡分類(lèi)問(wèn)題為例,這種分類(lèi)問(wèn)題往往是異常檢測(cè),模型的好壞往往取決于能否很好地檢出異常,同時(shí)盡可能不誤報(bào)異常。其中定義占樣本少數(shù)的類(lèi)為正類(lèi)(Positive class),占樣本多數(shù)的類(lèi)為負(fù)類(lèi)(Negative class),預(yù)測(cè)只可能出現(xiàn)以下4種狀況。
● 將正類(lèi)樣本預(yù)測(cè)為正類(lèi)(True Positive, TP)。
● 將負(fù)類(lèi)樣本預(yù)測(cè)為正類(lèi)(False Positive, FP)。
● 將正類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)(False Negative, FN)。
● 將負(fù)類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)(True Negative, TN)。
定義召回率(Recall):

召回率度量了在所有的正類(lèi)樣本中,模型正確檢出的比率,因此也被稱(chēng)為查全率。
定義精確率(Precision):

精確率度量了在所有被模型預(yù)測(cè)為正類(lèi)的樣本中,正確預(yù)測(cè)的比率,因此也被稱(chēng)查準(zhǔn)率。
F-度量是在召回率與精確率之間調(diào)和平均數(shù);有時(shí)候在實(shí)際問(wèn)題上,若我們更看重其中某一個(gè)度量,還可以給它加上一個(gè)權(quán)值α,稱(chēng)為度量:

當(dāng)α=1時(shí):

可以看到,如果模型“不夠警覺(jué)”,沒(méi)有檢測(cè)出一些正類(lèi)樣本,那么召回率就會(huì)受損;而如果模型傾向于“濫殺無(wú)辜”,精確率就會(huì)下降。因此較高的F-度量意味著模型傾向于“不冤枉一個(gè)好人,也不放過(guò)一個(gè)壞人”,是一個(gè)較為適合不平衡類(lèi)問(wèn)題的指標(biāo)。
可用于分類(lèi)問(wèn)題的模型很多,如Logistic回歸分類(lèi)器、決策樹(shù)、支持向量機(jī)、感知器、神經(jīng)網(wǎng)絡(luò)等。
3.2.2 非監(jiān)督學(xué)習(xí)
在非監(jiān)督學(xué)習(xí)中,數(shù)據(jù)集中只有模型的輸入,并不提供正確的輸出y(i)作為監(jiān)督信號(hào)。
非監(jiān)督學(xué)習(xí)通常用于這樣的分類(lèi)問(wèn)題:給定一些樣本的特征值,而不給出它們正確的分類(lèi),也不給出所有可能的類(lèi)別,而是通過(guò)學(xué)習(xí)確定這些樣本可以分為哪些類(lèi)別、它們各自屬于哪一類(lèi)。因此,這一類(lèi)問(wèn)題被稱(chēng)為聚類(lèi)。
非監(jiān)督學(xué)習(xí)得到的模型效果應(yīng)使用何種指標(biāo)衡量呢?由于通常沒(méi)有正確的輸出y,我們采取如下方法度量其模型效果。
● 直觀檢測(cè):這是一種非量化的方法。例如對(duì)文本的主題進(jìn)行聚類(lèi),我們可以在直觀上判斷屬于同一類(lèi)的文本是否具有某個(gè)共同的主題,是否有明顯的語(yǔ)義上的共同點(diǎn)。由于這種評(píng)價(jià)非常主觀,通常不采用。
● 基于任務(wù)的評(píng)價(jià):如果聚類(lèi)得到的模型被用于某個(gè)特定的任務(wù),我們可以維持該任務(wù)中其他的設(shè)定不變,而使用不同的聚類(lèi)模型,通過(guò)某種指標(biāo)度量該任務(wù)的最終結(jié)果來(lái)間接判斷聚類(lèi)模型的優(yōu)劣。
● 人工標(biāo)注測(cè)試集:有時(shí)候采用非監(jiān)督學(xué)習(xí)的原因是人工標(biāo)注成本過(guò)高,導(dǎo)致標(biāo)注數(shù)據(jù)缺乏,只能使用無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練。在這種情況下,可以人工標(biāo)注少量的數(shù)據(jù)作為測(cè)試集,用于建立量化的評(píng)價(jià)指標(biāo)。
- Google Apps Script for Beginners
- DevOps with Kubernetes
- 深入淺出WPF
- 微服務(wù)設(shè)計(jì)原理與架構(gòu)
- Java程序設(shè)計(jì)與計(jì)算思維
- Scratch 3.0少兒編程與邏輯思維訓(xùn)練
- Python GUI Programming Cookbook
- 小程序,巧運(yùn)營(yíng):微信小程序運(yùn)營(yíng)招式大全
- Apache Kafka Quick Start Guide
- 軟件品質(zhì)之完美管理:實(shí)戰(zhàn)經(jīng)典
- Java零基礎(chǔ)實(shí)戰(zhàn)
- RocketMQ實(shí)戰(zhàn)與原理解析
- Python預(yù)測(cè)分析與機(jī)器學(xué)習(xí)
- VMware vSphere 5.5 Cookbook
- SAS編程演義