- 生成對(duì)抗網(wǎng)絡(luò)GAN:原理與實(shí)踐
- 言有三 郭曉洲
- 1570字
- 2023-11-09 18:51:30
1.1.1 監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)模型(也可以理解為一個(gè)映射函數(shù)),使模型能夠?qū)θ我饨o定的輸入生成一個(gè)相應(yīng)的預(yù)測(cè)輸出。模型的輸入為隨機(jī)變量X,輸出為一個(gè)隨機(jī)變量Y。每個(gè)具體的輸入都是一個(gè)實(shí)例,由一個(gè)特征向量x表示,實(shí)例對(duì)應(yīng)的輸出由向量y表示。我們將所有可能的輸入特征向量構(gòu)成的集合稱為特征空間(輸入空間),將所有可能的輸出向量構(gòu)成的集合稱為輸出空間。一般輸出空間的大小遠(yuǎn)遠(yuǎn)小于輸入空間。監(jiān)督學(xué)習(xí)的本質(zhì)是學(xué)習(xí)從輸入到輸出的映射的統(tǒng)計(jì)規(guī)律。
我們列舉3種常見的監(jiān)督學(xué)習(xí)任務(wù)——回歸、分類和標(biāo)注,它們主要的區(qū)別在于變量的取值類型。
1)當(dāng)輸入變量和輸出變量均為連續(xù)值變量時(shí)對(duì)應(yīng)回歸任務(wù),它主要用于學(xué)習(xí)輸入變量和輸出變量之間的數(shù)值映射關(guān)系。常見的回歸任務(wù)有價(jià)格預(yù)測(cè)、趨勢(shì)預(yù)測(cè)等。常見的處理回歸任務(wù)的機(jī)器學(xué)習(xí)模型有最小二乘回歸、非線性回歸等。
2)無論輸入變量是離散值還是連續(xù)值,當(dāng)輸出變量為有限個(gè)離散值時(shí)對(duì)應(yīng)分類任務(wù)。分類任務(wù)是人們討論和應(yīng)用得最廣泛的任務(wù),它通常用于分門別類。常見的分類任務(wù)有圖像類別識(shí)別、音頻分類、文本分類等。常見的處理分類任務(wù)的機(jī)器學(xué)習(xí)模型有k近鄰、樸素貝葉斯、決策樹、邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。
3)當(dāng)輸入變量和輸出變量均為變量序列時(shí)對(duì)應(yīng)標(biāo)注任務(wù),它是分類問題的一種推廣,用于學(xué)習(xí)輸入序列和輸出序列的映射關(guān)系。典型的標(biāo)注任務(wù)有自然語言處理中的詞性標(biāo)注、信息抽取等。常見的處理標(biāo)注任務(wù)的機(jī)器學(xué)習(xí)模型有隱馬爾可夫模型和條件隨機(jī)場(chǎng)等。
無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)最大的區(qū)別就是有無標(biāo)簽信息。在監(jiān)督學(xué)習(xí)中,訓(xùn)練模型的任務(wù)是學(xué)習(xí)輸入特征x到標(biāo)簽y的映射,而無監(jiān)督學(xué)習(xí)中只有樣本的特征向量x,故無監(jiān)督學(xué)習(xí)的任務(wù)是對(duì)數(shù)據(jù)進(jìn)行深入“挖掘”,其本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律或潛在結(jié)構(gòu)。對(duì)于無監(jiān)督學(xué)習(xí)的深入研究對(duì)深度學(xué)習(xí)的復(fù)興起到了關(guān)鍵的作用。
我們列舉3種常見的無監(jiān)督學(xué)習(xí)任務(wù):降維、聚類、概率模型估計(jì)。
1)降維任務(wù)主要用于處理數(shù)據(jù)的高維度問題。真實(shí)數(shù)據(jù)的特征維度過大容易造成模型的擬合度與可用性降低,我們可以通過降維算法對(duì)高維度數(shù)據(jù)進(jìn)行“壓縮”,使之變成低維度向量,從而提高數(shù)據(jù)的可用性。常用的算法有主成分分析、因子分析、隱含狄利克雷分布等,早期的自編碼器也可用于數(shù)據(jù)降維。
2)聚類任務(wù)主要用于將樣本依據(jù)一定的規(guī)則進(jìn)行類別分配,即通過衡量樣本之間的距離、密度等指標(biāo),將關(guān)系“近”的樣本聚為同一類,以此實(shí)現(xiàn)樣本的自動(dòng)分類。常用的算法有層次聚類、k-means聚類、譜聚類等。
3)在概率模型估計(jì)任務(wù)中,對(duì)于一個(gè)可以生成樣本的概率模型,我們使用樣本對(duì)概率模型的結(jié)構(gòu)、參數(shù)進(jìn)行學(xué)習(xí),使得概率模型生成的樣本與訓(xùn)練樣本最相似。其中概率密度估計(jì)任務(wù)便是對(duì)隨機(jī)變量X的概率密度函數(shù)p(X)進(jìn)行學(xué)習(xí),常用的算法有極大似然估計(jì)、生成對(duì)抗網(wǎng)絡(luò)、變分自編碼器等。這部分內(nèi)容非常豐富,是本書關(guān)注的核心內(nèi)容。
與無監(jiān)督學(xué)習(xí)相比,監(jiān)督學(xué)習(xí)除了擁有額外的標(biāo)簽信息外,還需要有測(cè)試樣本。也就是說,機(jī)器學(xué)習(xí)模型在訓(xùn)練集中學(xué)習(xí)“規(guī)律”,然后對(duì)測(cè)試集使用這種“規(guī)律”來評(píng)價(jià)模型的效果。另外,無監(jiān)督學(xué)習(xí)擁有比監(jiān)督學(xué)習(xí)更好的拓展性,它能夠在完成訓(xùn)練目標(biāo)的同時(shí),額外學(xué)習(xí)到樣本的表示,而這些表示可以直接用于其他任務(wù)。
半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的一種方式,即只有小部分訓(xùn)練樣本帶有標(biāo)簽信息,而大多數(shù)訓(xùn)練樣本的標(biāo)簽信息空缺。半監(jiān)督學(xué)習(xí)包括直推和歸納兩類模式。兩者的區(qū)別在于需要預(yù)測(cè)標(biāo)簽的樣本是否出現(xiàn)在訓(xùn)練集中。直推半監(jiān)督學(xué)習(xí)只對(duì)給定的訓(xùn)練數(shù)據(jù)進(jìn)行處理,它使用訓(xùn)練數(shù)據(jù)集中有類別標(biāo)簽和無類別標(biāo)簽的樣本進(jìn)行訓(xùn)練,預(yù)測(cè)其中無標(biāo)簽樣本的標(biāo)簽信息;歸納半監(jiān)督學(xué)習(xí)不僅預(yù)測(cè)訓(xùn)練數(shù)據(jù)集中無標(biāo)簽樣本的標(biāo)簽,還預(yù)測(cè)未知樣本的標(biāo)簽。半監(jiān)督學(xué)習(xí)一般用于四類學(xué)習(xí)場(chǎng)景:半監(jiān)督分類、半監(jiān)督回歸、半監(jiān)督聚類、半監(jiān)督降維。
- 智能制造系統(tǒng)中的建模與仿真:系統(tǒng)工程與仿真的融合
- 深度學(xué)習(xí)與計(jì)算機(jī)視覺:項(xiàng)目式教材
- 劫持
- 人工智能時(shí)代生存指南
- 突破邊界:AI大模型驅(qū)動(dòng)數(shù)智化能力變革
- 模式識(shí)別與智能計(jì)算:Matlab技術(shù)實(shí)現(xiàn)(第2版)
- PyTorch深度學(xué)習(xí)應(yīng)用實(shí)戰(zhàn)
- 深度學(xué)習(xí)必學(xué)的十個(gè)問題:理論與實(shí)踐
- 向AI提問的藝術(shù):提示工程入門與應(yīng)用
- 聯(lián)邦學(xué)習(xí)技術(shù)及實(shí)戰(zhàn)
- 人工智能注意力機(jī)制:體系、模型與算法剖析
- 機(jī)器學(xué)習(xí)實(shí)踐指南:案例應(yīng)用解析
- 如何創(chuàng)造思維:人類思想所揭示出的奧秘
- 文心一言:人人都能上手的AI工具
- 秒懂AI寫作:讓你輕松成為寫作高手