类似于steam的游戏平台

書(shū)名： Python 深度學(xué)習(xí)
作者名：呂云翔劉卓然關(guān)捷雄等編著
本章字?jǐn)?shù)： 1640字
更新時(shí)間： 2021-04-14 11:54:19

3.2 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)

模型與最優(yōu)化算法的選擇，很大程度上取決于能得到什么樣的數(shù)據(jù)。如果數(shù)據(jù)集中樣本點(diǎn)只包含模型的輸入x，則需要采用非監(jiān)督學(xué)習(xí)算法；如果這些樣本點(diǎn)以〈x,y〉輸入-輸出二元組的形式出現(xiàn)，則可以采用監(jiān)督學(xué)習(xí)算法。

3.2.1 監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中，我們根據(jù)訓(xùn)練集中的觀測(cè)樣本點(diǎn)來(lái)優(yōu)化模型f(·)，使得給定測(cè)試樣例x′作為模型輸入，輸出盡可能接近正確輸出y′。

監(jiān)督學(xué)習(xí)算法主要適用于兩大類(lèi)問(wèn)題：回歸和分類(lèi)。它們的區(qū)別在于，回歸問(wèn)題的輸出是連續(xù)值，分類(lèi)問(wèn)題的輸出是離散值。

1.回歸

回歸問(wèn)題在生活中非常常見(jiàn)，其最簡(jiǎn)單的形式是一個(gè)連續(xù)函數(shù)的擬合。如果一個(gè)購(gòu)物網(wǎng)站想要計(jì)算出其在某個(gè)時(shí)期的預(yù)期收益，研究人員會(huì)將相關(guān)因素，如廣告投放量、網(wǎng)站流量、優(yōu)惠力度等，納入自變量，根據(jù)現(xiàn)有數(shù)據(jù)擬合函數(shù)，得到未來(lái)某一時(shí)刻的預(yù)測(cè)值。

回歸問(wèn)題中通常使用均方損失函數(shù)作為度量模型效果的指標(biāo)，最簡(jiǎn)單的求解例子是最小二乘法。

2.分類(lèi)

分類(lèi)也是生活中非常常見(jiàn)的一類(lèi)問(wèn)題，如從金融市場(chǎng)的交易記錄中分類(lèi)出正常的交易記錄以及潛在的惡意交易。

度量分類(lèi)問(wèn)題的指標(biāo)通常為準(zhǔn)確率（Accuracy）：對(duì)于測(cè)試集中D個(gè)樣本，有k個(gè)被正確分類(lèi)，有D-k個(gè)被錯(cuò)誤分類(lèi)，則準(zhǔn)確率的計(jì)算方式為：

然而在一些特殊的分類(lèi)問(wèn)題中，屬于各類(lèi)的樣本并不是均一分布，甚至出現(xiàn)概率相差很多個(gè)數(shù)量級(jí)的情況，這就是不平衡類(lèi)問(wèn)題。在不平衡類(lèi)問(wèn)題中，準(zhǔn)確率沒(méi)有多大意義。例如，檢測(cè)一批產(chǎn)品是否為次品時(shí)，若次品出現(xiàn)的頻率為1%，那么即使某個(gè)模型完全不能識(shí)別次品，只要它每次都“蒙”這件產(chǎn)品不是次品，它仍然能夠達(dá)到99%的準(zhǔn)確率。顯然我們需要一些別的指標(biāo)。

通常在不平衡類(lèi)問(wèn)題中，使用F-度量來(lái)作為評(píng)價(jià)模型的指標(biāo)。以二元不平衡分類(lèi)問(wèn)題為例，這種分類(lèi)問(wèn)題往往是異常檢測(cè)，模型的好壞往往取決于能否很好地檢出異常，同時(shí)盡可能不誤報(bào)異常。其中定義占樣本少數(shù)的類(lèi)為正類(lèi)（Positive class），占樣本多數(shù)的類(lèi)為負(fù)類(lèi)（Negative class），預(yù)測(cè)只可能出現(xiàn)以下4種狀況。

● 將正類(lèi)樣本預(yù)測(cè)為正類(lèi)（True Positive, TP）。

● 將負(fù)類(lèi)樣本預(yù)測(cè)為正類(lèi)（False Positive, FP）。

● 將正類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)（False Negative, FN）。

● 將負(fù)類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)（True Negative, TN）。

定義召回率（Recall）：

召回率度量了在所有的正類(lèi)樣本中，模型正確檢出的比率，因此也被稱(chēng)為查全率。

定義精確率（Precision）：

精確率度量了在所有被模型預(yù)測(cè)為正類(lèi)的樣本中，正確預(yù)測(cè)的比率，因此也被稱(chēng)查準(zhǔn)率。

F-度量是在召回率與精確率之間調(diào)和平均數(shù)；有時(shí)候在實(shí)際問(wèn)題上，若我們更看重其中某一個(gè)度量，還可以給它加上一個(gè)權(quán)值α，稱(chēng)為度量：

當(dāng)α=1時(shí)：

可以看到，如果模型“不夠警覺(jué)”，沒(méi)有檢測(cè)出一些正類(lèi)樣本，那么召回率就會(huì)受損；而如果模型傾向于“濫殺無(wú)辜”，精確率就會(huì)下降。因此較高的F-度量意味著模型傾向于“不冤枉一個(gè)好人，也不放過(guò)一個(gè)壞人”，是一個(gè)較為適合不平衡類(lèi)問(wèn)題的指標(biāo)。

可用于分類(lèi)問(wèn)題的模型很多，如Logistic回歸分類(lèi)器、決策樹(shù)、支持向量機(jī)、感知器、神經(jīng)網(wǎng)絡(luò)等。

3.2.2 非監(jiān)督學(xué)習(xí)

在非監(jiān)督學(xué)習(xí)中，數(shù)據(jù)集中只有模型的輸入，并不提供正確的輸出y⁽ⁱ⁾作為監(jiān)督信號(hào)。

非監(jiān)督學(xué)習(xí)通常用于這樣的分類(lèi)問(wèn)題：給定一些樣本的特征值，而不給出它們正確的分類(lèi)，也不給出所有可能的類(lèi)別，而是通過(guò)學(xué)習(xí)確定這些樣本可以分為哪些類(lèi)別、它們各自屬于哪一類(lèi)。因此，這一類(lèi)問(wèn)題被稱(chēng)為聚類(lèi)。

非監(jiān)督學(xué)習(xí)得到的模型效果應(yīng)使用何種指標(biāo)衡量呢？由于通常沒(méi)有正確的輸出y，我們采取如下方法度量其模型效果。

● 直觀檢測(cè)：這是一種非量化的方法。例如對(duì)文本的主題進(jìn)行聚類(lèi)，我們可以在直觀上判斷屬于同一類(lèi)的文本是否具有某個(gè)共同的主題，是否有明顯的語(yǔ)義上的共同點(diǎn)。由于這種評(píng)價(jià)非常主觀，通常不采用。

● 基于任務(wù)的評(píng)價(jià)：如果聚類(lèi)得到的模型被用于某個(gè)特定的任務(wù)，我們可以維持該任務(wù)中其他的設(shè)定不變，而使用不同的聚類(lèi)模型，通過(guò)某種指標(biāo)度量該任務(wù)的最終結(jié)果來(lái)間接判斷聚類(lèi)模型的優(yōu)劣。

● 人工標(biāo)注測(cè)試集：有時(shí)候采用非監(jiān)督學(xué)習(xí)的原因是人工標(biāo)注成本過(guò)高，導(dǎo)致標(biāo)注數(shù)據(jù)缺乏，只能使用無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練。在這種情況下，可以人工標(biāo)注少量的數(shù)據(jù)作為測(cè)試集，用于建立量化的評(píng)價(jià)指標(biāo)。

官术网_书友最值得收藏!

Python 深度學(xué)習(xí)

3.2 監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)

3.2.1 監(jiān)督學(xué)習(xí)

3.2.2 非監(jiān)督學(xué)習(xí)