- Python快樂(lè)編程:人工智能深度學(xué)習(xí)基礎(chǔ)
- 千鋒教育高教產(chǎn)品研發(fā)部編著
- 1766字
- 2022-07-27 18:55:55
1.2.2 深度學(xué)習(xí)的3個(gè)層次
在《論語(yǔ)·陽(yáng)貨》中提到“性相近也,習(xí)相遠(yuǎn)也”,這句話同樣適用于機(jī)器學(xué)習(xí)領(lǐng)域。機(jī)器學(xué)習(xí)的對(duì)象是數(shù)據(jù),數(shù)據(jù)是否帶有標(biāo)簽,會(huì)對(duì)機(jī)器學(xué)習(xí)最后習(xí)得的“習(xí)性”產(chǎn)生影響,“習(xí)染積久”的環(huán)境不一樣,其表現(xiàn)出來(lái)的“習(xí)性”也有所不同,大致可分為3類。
1.監(jiān)督學(xué)習(xí)(Supervised Learning)
美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系的韓家煒(Jiawei Han)教授認(rèn)為監(jiān)督學(xué)習(xí)可以被看作“分類”(classification)的代名詞。計(jì)算機(jī)從有標(biāo)簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),然后給定某個(gè)新數(shù)據(jù),預(yù)測(cè)這個(gè)新數(shù)據(jù)的標(biāo)簽,標(biāo)簽(label)是指某個(gè)事物所屬的類別。可以參考圖1.6中的內(nèi)容輔助理解監(jiān)督學(xué)習(xí)的過(guò)程。

圖1.6 監(jiān)督學(xué)習(xí)的形式
在監(jiān)督學(xué)習(xí)下,計(jì)算機(jī)就像一個(gè)“學(xué)生”,根據(jù)“老師”給出的帶有標(biāo)簽的數(shù)據(jù)進(jìn)行學(xué)習(xí)。圖1.6中,老師告訴學(xué)生,圖片里是一只狗,計(jì)算機(jī)便會(huì)總結(jié)圖中“狗”的特征,并將符合這些特征的事物定義為“狗”。如果換一張不同的“狗”,計(jì)算機(jī)能夠識(shí)別出這是一只“狗”,那么便可以說(shuō)這是一次成功的標(biāo)簽分類。但機(jī)器學(xué)習(xí)顯然不可能僅從一張圖中便習(xí)得準(zhǔn)確辨識(shí)“狗”的技能。計(jì)算機(jī)可能無(wú)法識(shí)別新的“狗”或者識(shí)別成其他動(dòng)物,這時(shí)“老師”就會(huì)糾正計(jì)算機(jī)的偏差,并告訴計(jì)算機(jī)這個(gè)也是“狗”。通過(guò)大量的反復(fù)訓(xùn)練讓計(jì)算機(jī)習(xí)得不同的“狗”具有的共同特征,這樣,再遇到新的“狗”時(shí),計(jì)算機(jī)就更可能給出正確的答案。
簡(jiǎn)單來(lái)說(shuō),監(jiān)督學(xué)習(xí)的工作,就是通過(guò)有標(biāo)簽的數(shù)據(jù)訓(xùn)練,構(gòu)建一個(gè)模型,然后通過(guò)構(gòu)建的模型,給新數(shù)據(jù)添加上特定的標(biāo)簽。
事實(shí)上,機(jī)器學(xué)習(xí)的目標(biāo)可以概括為:讓計(jì)算機(jī)通過(guò)學(xué)習(xí)不斷完善構(gòu)建的模型,讓構(gòu)建的模型更好地適用于“新樣本”,而不是僅僅在訓(xùn)練樣本上工作得更好。通過(guò)訓(xùn)練構(gòu)建的模型適用于新樣本的能力,稱為泛化(generalization)能力。
2.無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)
無(wú)監(jiān)督學(xué)習(xí)中模型所學(xué)習(xí)的數(shù)據(jù)都是無(wú)標(biāo)簽的,根據(jù)類別未知的訓(xùn)練樣本解決模式識(shí)別中的各種問(wèn)題。無(wú)監(jiān)督學(xué)習(xí)可以被看作聚類(cluster)的近義詞,可以結(jié)合圖1.7理解無(wú)監(jiān)督學(xué)習(xí)的過(guò)程。

圖1.7 無(wú)監(jiān)督學(xué)習(xí)的形式
簡(jiǎn)單來(lái)說(shuō),給定一批數(shù)據(jù),但不告訴計(jì)算機(jī)這批數(shù)據(jù)是什么,讓計(jì)算機(jī)自己通過(guò)學(xué)習(xí)構(gòu)建出這批數(shù)據(jù)的模型,至于能學(xué)到什么,取決于數(shù)據(jù)自身所具備的特性。俗話說(shuō)“物以類聚,人以群分”,這可以看作是在“無(wú)監(jiān)督學(xué)習(xí)”環(huán)境下構(gòu)建模型的過(guò)程,一開(kāi)始我們并不知道這些“類”和“群”中元素的標(biāo)簽,經(jīng)過(guò)長(zhǎng)期的歸納和總結(jié),我們將具有共同特征的事物歸為一個(gè)“類”或“群”。以后再遇到新的事物,就根據(jù)它的特征更接近哪個(gè)“類”或“群”,就“預(yù)測(cè)”它屬于哪個(gè)“類”或“群”,從而完成對(duì)新數(shù)據(jù)的“分類”或“分群”,與此同時(shí),通過(guò)學(xué)習(xí)構(gòu)筑的模型也進(jìn)一步完善。
3.半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)
半監(jiān)督學(xué)習(xí)方法同時(shí)使用了有標(biāo)簽數(shù)據(jù)和非標(biāo)簽數(shù)據(jù)。學(xué)生從小學(xué)到大學(xué)一直接受著來(lái)自學(xué)校和家庭的教育,老師和家長(zhǎng)一直在教給學(xué)生明辨是非的方法,學(xué)生在此期間不斷改善自身的性情,讓自己成為一個(gè)品行優(yōu)秀的人。這個(gè)過(guò)程可以被看作處于“監(jiān)督學(xué)習(xí)”的環(huán)境中。當(dāng)學(xué)生成年、畢業(yè)以后離開(kāi)了家長(zhǎng)和學(xué)校的“監(jiān)督”,沒(méi)有人再對(duì)其行為對(duì)與錯(cuò)進(jìn)行監(jiān)督。此時(shí)只能靠自己之前積累的經(jīng)驗(yàn)和知識(shí)來(lái)幫助自己判斷是非,在社會(huì)中試錯(cuò),磨煉自己,豐富自己對(duì)世界的認(rèn)知,幫助自己恰當(dāng)?shù)貞?yīng)對(duì)新的事物。半監(jiān)督環(huán)境是先在有監(jiān)督的環(huán)境下初步構(gòu)建好模型后再進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。
形式化的定義比較抽象,下面通過(guò)一個(gè)現(xiàn)實(shí)生活中的例子,來(lái)輔助說(shuō)明這個(gè)概念。假設(shè)圖中的學(xué)生已經(jīng)學(xué)習(xí)到以下兩個(gè)標(biāo)簽數(shù)據(jù)。
(1)圖1.8(a)中左邊的動(dòng)物(數(shù)據(jù)1)是一只貓(標(biāo)簽:貓)。
(2)圖1.8(a)中右邊的動(dòng)物(數(shù)據(jù)2)是一只貓(標(biāo)簽:貓)。
此時(shí),該學(xué)生并不知道圖1.8(b)的東西是什么,但這個(gè)東西和他之前學(xué)習(xí)到的有關(guān)貓的特征很接近,那么該學(xué)生便可以猜測(cè)圖1.8(b)中的東西是一只貓。
對(duì)圖1.8(b)中的貓進(jìn)行識(shí)別后,該學(xué)生已知領(lǐng)域(標(biāo)簽數(shù)據(jù))便進(jìn)一步擴(kuò)大(由兩個(gè)擴(kuò)大到3個(gè)),這個(gè)過(guò)程便是半監(jiān)督學(xué)習(xí)。事實(shí)上,半監(jiān)督學(xué)習(xí)就是先用帶有標(biāo)簽的數(shù)據(jù)幫助計(jì)算機(jī)初步構(gòu)建模型,然后讓計(jì)算機(jī)根據(jù)已有的模型去學(xué)習(xí)無(wú)標(biāo)簽的數(shù)據(jù)。需要注意的是,這里隱含了一個(gè)基本假設(shè)——“聚類假設(shè)”(Cluster Assumption),即相似的樣本擁有相似的輸出。

圖1.8 半監(jiān)督學(xué)習(xí)
在大數(shù)據(jù)時(shí)代,半監(jiān)督學(xué)習(xí)的現(xiàn)實(shí)需求非常強(qiáng)烈。因?yàn)橛袠?biāo)簽數(shù)據(jù)的收集和標(biāo)記需要消耗大量的人力物力,而海量的非標(biāo)簽數(shù)據(jù)卻唾手可得,“半監(jiān)督學(xué)習(xí)”將成為大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì)。
- 計(jì)算思維與算法入門
- Web前端開(kāi)發(fā)技術(shù):HTML、CSS、JavaScript(第3版)
- Learning Docker
- Data Analysis with IBM SPSS Statistics
- Python Geospatial Development(Second Edition)
- Java應(yīng)用開(kāi)發(fā)技術(shù)實(shí)例教程
- Python Web數(shù)據(jù)分析可視化:基于Django框架的開(kāi)發(fā)實(shí)戰(zhàn)
- C語(yǔ)言程序設(shè)計(jì)
- Mastering Business Intelligence with MicroStrategy
- C++從入門到精通(第5版)
- 現(xiàn)代C++編程實(shí)戰(zhàn):132個(gè)核心技巧示例(原書(shū)第2版)
- Distributed Computing in Java 9
- R語(yǔ)言數(shù)據(jù)挖掘:實(shí)用項(xiàng)目解析
- 從零開(kāi)始:C語(yǔ)言快速入門教程
- jQuery從入門到精通(微課精編版)