官术网_书友最值得收藏!

  • Python 深度學(xué)習(xí)
  • 呂云翔 劉卓然 關(guān)捷雄等編著
  • 1640字
  • 2021-04-14 11:54:19

3.2 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)

模型與最優(yōu)化算法的選擇,很大程度上取決于能得到什么樣的數(shù)據(jù)。如果數(shù)據(jù)集中樣本點(diǎn)只包含模型的輸入x,則需要采用非監(jiān)督學(xué)習(xí)算法;如果這些樣本點(diǎn)以〈x,y〉輸入-輸出二元組的形式出現(xiàn),則可以采用監(jiān)督學(xué)習(xí)算法。

3.2.1 監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中,我們根據(jù)訓(xùn)練集中的觀測(cè)樣本點(diǎn)來(lái)優(yōu)化模型f(·),使得給定測(cè)試樣例x′作為模型輸入,輸出盡可能接近正確輸出y′。

監(jiān)督學(xué)習(xí)算法主要適用于兩大類(lèi)問(wèn)題:回歸和分類(lèi)。它們的區(qū)別在于,回歸問(wèn)題的輸出是連續(xù)值,分類(lèi)問(wèn)題的輸出是離散值。

1.回歸

回歸問(wèn)題在生活中非常常見(jiàn),其最簡(jiǎn)單的形式是一個(gè)連續(xù)函數(shù)的擬合。如果一個(gè)購(gòu)物網(wǎng)站想要計(jì)算出其在某個(gè)時(shí)期的預(yù)期收益,研究人員會(huì)將相關(guān)因素,如廣告投放量、網(wǎng)站流量、優(yōu)惠力度等,納入自變量,根據(jù)現(xiàn)有數(shù)據(jù)擬合函數(shù),得到未來(lái)某一時(shí)刻的預(yù)測(cè)值。

回歸問(wèn)題中通常使用均方損失函數(shù)作為度量模型效果的指標(biāo),最簡(jiǎn)單的求解例子是最小二乘法。

2.分類(lèi)

分類(lèi)也是生活中非常常見(jiàn)的一類(lèi)問(wèn)題,如從金融市場(chǎng)的交易記錄中分類(lèi)出正常的交易記錄以及潛在的惡意交易。

度量分類(lèi)問(wèn)題的指標(biāo)通常為準(zhǔn)確率(Accuracy):對(duì)于測(cè)試集中D個(gè)樣本,有k個(gè)被正確分類(lèi),有D-k個(gè)被錯(cuò)誤分類(lèi),則準(zhǔn)確率的計(jì)算方式為:

然而在一些特殊的分類(lèi)問(wèn)題中,屬于各類(lèi)的樣本并不是均一分布,甚至出現(xiàn)概率相差很多個(gè)數(shù)量級(jí)的情況,這就是不平衡類(lèi)問(wèn)題。在不平衡類(lèi)問(wèn)題中,準(zhǔn)確率沒(méi)有多大意義。例如,檢測(cè)一批產(chǎn)品是否為次品時(shí),若次品出現(xiàn)的頻率為1%,那么即使某個(gè)模型完全不能識(shí)別次品,只要它每次都“蒙”這件產(chǎn)品不是次品,它仍然能夠達(dá)到99%的準(zhǔn)確率。顯然我們需要一些別的指標(biāo)。

通常在不平衡類(lèi)問(wèn)題中,使用F-度量來(lái)作為評(píng)價(jià)模型的指標(biāo)。以二元不平衡分類(lèi)問(wèn)題為例,這種分類(lèi)問(wèn)題往往是異常檢測(cè),模型的好壞往往取決于能否很好地檢出異常,同時(shí)盡可能不誤報(bào)異常。其中定義占樣本少數(shù)的類(lèi)為正類(lèi)(Positive class),占樣本多數(shù)的類(lèi)為負(fù)類(lèi)(Negative class),預(yù)測(cè)只可能出現(xiàn)以下4種狀況。

● 將正類(lèi)樣本預(yù)測(cè)為正類(lèi)(True Positive, TP)。

● 將負(fù)類(lèi)樣本預(yù)測(cè)為正類(lèi)(False Positive, FP)。

● 將正類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)(False Negative, FN)。

● 將負(fù)類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)(True Negative, TN)。

定義召回率(Recall):

召回率度量了在所有的正類(lèi)樣本中,模型正確檢出的比率,因此也被稱(chēng)為查全率。

定義精確率(Precision):

精確率度量了在所有被模型預(yù)測(cè)為正類(lèi)的樣本中,正確預(yù)測(cè)的比率,因此也被稱(chēng)查準(zhǔn)率。

F-度量是在召回率與精確率之間調(diào)和平均數(shù);有時(shí)候在實(shí)際問(wèn)題上,若我們更看重其中某一個(gè)度量,還可以給它加上一個(gè)權(quán)值α,稱(chēng)為度量:

當(dāng)α=1時(shí):

可以看到,如果模型“不夠警覺(jué)”,沒(méi)有檢測(cè)出一些正類(lèi)樣本,那么召回率就會(huì)受損;而如果模型傾向于“濫殺無(wú)辜”,精確率就會(huì)下降。因此較高的F-度量意味著模型傾向于“不冤枉一個(gè)好人,也不放過(guò)一個(gè)壞人”,是一個(gè)較為適合不平衡類(lèi)問(wèn)題的指標(biāo)。

可用于分類(lèi)問(wèn)題的模型很多,如Logistic回歸分類(lèi)器、決策樹(shù)、支持向量機(jī)、感知器、神經(jīng)網(wǎng)絡(luò)等。

3.2.2 非監(jiān)督學(xué)習(xí)

在非監(jiān)督學(xué)習(xí)中,數(shù)據(jù)集中只有模型的輸入,并不提供正確的輸出y(i)作為監(jiān)督信號(hào)。

非監(jiān)督學(xué)習(xí)通常用于這樣的分類(lèi)問(wèn)題:給定一些樣本的特征值,而不給出它們正確的分類(lèi),也不給出所有可能的類(lèi)別,而是通過(guò)學(xué)習(xí)確定這些樣本可以分為哪些類(lèi)別、它們各自屬于哪一類(lèi)。因此,這一類(lèi)問(wèn)題被稱(chēng)為聚類(lèi)

非監(jiān)督學(xué)習(xí)得到的模型效果應(yīng)使用何種指標(biāo)衡量呢?由于通常沒(méi)有正確的輸出y,我們采取如下方法度量其模型效果。

● 直觀檢測(cè):這是一種非量化的方法。例如對(duì)文本的主題進(jìn)行聚類(lèi),我們可以在直觀上判斷屬于同一類(lèi)的文本是否具有某個(gè)共同的主題,是否有明顯的語(yǔ)義上的共同點(diǎn)。由于這種評(píng)價(jià)非常主觀,通常不采用。

● 基于任務(wù)的評(píng)價(jià):如果聚類(lèi)得到的模型被用于某個(gè)特定的任務(wù),我們可以維持該任務(wù)中其他的設(shè)定不變,而使用不同的聚類(lèi)模型,通過(guò)某種指標(biāo)度量該任務(wù)的最終結(jié)果來(lái)間接判斷聚類(lèi)模型的優(yōu)劣。

● 人工標(biāo)注測(cè)試集:有時(shí)候采用非監(jiān)督學(xué)習(xí)的原因是人工標(biāo)注成本過(guò)高,導(dǎo)致標(biāo)注數(shù)據(jù)缺乏,只能使用無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練。在這種情況下,可以人工標(biāo)注少量的數(shù)據(jù)作為測(cè)試集,用于建立量化的評(píng)價(jià)指標(biāo)。

主站蜘蛛池模板: 惠州市| 舟曲县| 辉南县| 平谷区| 调兵山市| 宿迁市| 汶上县| 扬中市| 垫江县| 融水| 三明市| 忻城县| 务川| 定南县| 花莲市| 五家渠市| 商城县| 陆丰市| 正宁县| 广安市| 囊谦县| 巴马| 蒲江县| 微山县| 唐山市| 黄陵县| 五河县| 出国| 益阳市| 公主岭市| 堆龙德庆县| 石棉县| 密云县| 杨浦区| 横山县| 汪清县| 深圳市| 乌鲁木齐市| 浠水县| 曲松县| 绥化市|