- 深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)從入門(mén)到精通
- 李玉鑑
- 2241字
- 2019-01-05 05:43:31
1.3 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用和影響
自從卷積神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域閃亮登場(chǎng)之后,很快取得了突飛猛進(jìn)的進(jìn)展,不僅顯著提高了手寫(xiě)字符識(shí)別的準(zhǔn)確率,而且屢屢在圖像分類(lèi)與識(shí)別、目標(biāo)定位與檢測(cè)等大規(guī)模數(shù)據(jù)評(píng)測(cè)競(jìng)賽中名列前茅、戰(zhàn)績(jī)輝煌。此外,卷積神經(jīng)網(wǎng)絡(luò)在人臉驗(yàn)證、交通標(biāo)志識(shí)別、視頻游戲、視頻分類(lèi)、語(yǔ)音識(shí)別、機(jī)器翻譯、圍棋程序等各個(gè)方面也獲得廣泛的成功應(yīng)用。
在手寫(xiě)字符識(shí)別方面,LeCun等人早在1998年就采用卷積神經(jīng)網(wǎng)絡(luò)模型使MNIST數(shù)據(jù)集上的錯(cuò)誤率達(dá)到了0.95%以下[19], Simard等人在2003年采用交叉熵訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)把MNIST數(shù)據(jù)集上的錯(cuò)誤率進(jìn)一步降到了0.4%, Ranzato等人在2006年采用大卷積神經(jīng)網(wǎng)絡(luò)和無(wú)監(jiān)督預(yù)訓(xùn)練又把MNIST數(shù)據(jù)集上的錯(cuò)誤率降到了0.39%, Ciresan等人在2012年采用卷積神經(jīng)網(wǎng)絡(luò)的委員會(huì)模型把MNIST數(shù)據(jù)集上的錯(cuò)誤率降到了目前的最低水平0.23%。更詳細(xì)的統(tǒng)計(jì)結(jié)果請(qǐng)?jiān)L問(wèn)網(wǎng)址http://yann.lecun.com/exdb/mnist/。
在圖像分類(lèi)方面,由Krizhevsky、Sutshever和Hinton組織的超級(jí)視覺(jué)隊(duì)(SuperVision)于2012年實(shí)現(xiàn)了一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò),參加大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge 2012, ILSVRC-2012)時(shí)獲得了最好的前5測(cè)試錯(cuò)誤率(16.4%),比第二名的成績(jī)低10%左右[46]。這個(gè)卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)在稱(chēng)為AlexNet,使用了“dropout”優(yōu)化技術(shù)和“ReLU”激活函數(shù),以及非常有效的GPU實(shí)現(xiàn),顯著加快了訓(xùn)練過(guò)程。2013~2017年的挑戰(zhàn)賽中,成績(jī)最好的圖像分類(lèi)系統(tǒng)分別是Claeifai[71]、GoogLeNet[56]、殘差網(wǎng)絡(luò)[68]、六模型集成(ensemble of 6 model)[72]、雙通道網(wǎng)絡(luò)(Dual Path Network, DPN)[73],它們都使用了卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)。這些網(wǎng)絡(luò)獲得的前5測(cè)試錯(cuò)誤率分別為11.7%、6.7%、3.57%、2.99%和3.41%。
在ILSVR 2012~2017年的單目標(biāo)定位挑戰(zhàn)賽上,獲得最好錯(cuò)誤率的系統(tǒng)都集成了卷積神經(jīng)網(wǎng)絡(luò),分別是AlexNet[46]、Overfeat[74]、VGGNet[54]、ResNet[68]、集成模型3(ensemble 3)[72]和雙通道網(wǎng)絡(luò)[73],相應(yīng)的最好錯(cuò)誤率分別為34.2%、29.9%、25.3%、9.02%、7.71%和6.22%。在ILSVRC-2014的目標(biāo)檢測(cè)挑戰(zhàn)賽上,Lin等人將R-CNN和NIN相結(jié)合,獲得了37.2%的平均準(zhǔn)確率[57], Szegedy等人使用GoogLeNet獲得了43.9%的平均準(zhǔn)確率[56]。在ILSVRC-2015的目標(biāo)檢測(cè)挑戰(zhàn)賽上,He等人將Faster R-CNN和ResNet相結(jié)合,獲得了62.1%的平均準(zhǔn)確率,比第二名高出了8.5%[68]。在2016年的目標(biāo)檢測(cè)挑戰(zhàn)賽上,Zeng等人采用門(mén)控雙向卷積神經(jīng)網(wǎng)絡(luò)(gated bi-directional CNN)獲得了66.28%的平均準(zhǔn)確率[75]。在2017年的目標(biāo)檢測(cè)挑戰(zhàn)賽上,Shuai等人將特征金字塔網(wǎng)絡(luò)與門(mén)控雙向卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,獲得了73.14%的平均準(zhǔn)確率。
在人臉驗(yàn)證方面,F(xiàn)an等人于2014年建立了一個(gè)金字塔卷積神經(jīng)網(wǎng)絡(luò)(pyramid CNN),在LFW數(shù)據(jù)集上獲得了97.3%的準(zhǔn)確率,其中LFW是“Labeled Faces in the Wild”的縮寫(xiě)[76]。2015年,Ding等人利用精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)和三層堆疊的自編碼器建立了一個(gè)復(fù)雜的混合模型,在LFW數(shù)據(jù)集上獲得了高于99.0%的準(zhǔn)確率[77]。Sun等人提出了一個(gè)由卷積層和攝入層(inception layer)堆疊而成的DeepID3模型,在LFW數(shù)據(jù)集上獲得了99.53%的準(zhǔn)確率[78]。此外,Schroff等人實(shí)現(xiàn)了“FaceNet”系統(tǒng),在LFW和YouTube人臉數(shù)據(jù)集上分別獲得了99.63%和95.12%的準(zhǔn)確率[79]。
在交通標(biāo)志識(shí)別方面,Ciresan等人于2011年實(shí)現(xiàn)了一個(gè)由卷積神經(jīng)網(wǎng)絡(luò)和多層感知器構(gòu)成的委員會(huì)機(jī)器,在德國(guó)交通標(biāo)志識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集(German Traff ic Sign Recognition Benchmark, GTSRB)上獲得了99.15%的準(zhǔn)確率[80]。2012年,Ciresan等人提出了一個(gè)多列卷積神經(jīng)網(wǎng)絡(luò),在GTSRB上獲得了99.46%的準(zhǔn)確率,超過(guò)了人類(lèi)的識(shí)別結(jié)果[81]。
在視頻游戲方面,Mnih等人于2015年通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí),開(kāi)發(fā)了一個(gè)深度Q-網(wǎng)絡(luò)智能體的機(jī)器玩家[37],只需輸入場(chǎng)景像素和游戲得分進(jìn)行訓(xùn)練,就能夠讓很多經(jīng)典的Atari 2600視頻游戲成功學(xué)會(huì)有效的操作策略,達(dá)到與人類(lèi)專(zhuān)業(yè)玩家相當(dāng)?shù)乃健_@種深度Q-網(wǎng)絡(luò)智能體在高維感知輸入和行為操縱之間的鴻溝上架起了一座橋梁,能夠出色地處理各種具有挑戰(zhàn)性的任務(wù)。
在視頻分類(lèi)方面,使用獨(dú)立子空間分析(Independent Subspace Analysis, ISA)方法,Le等人于2011年提出了堆疊卷積ISA網(wǎng)絡(luò),能夠從無(wú)標(biāo)簽視頻數(shù)據(jù)中學(xué)習(xí)不變的時(shí)空特征。該網(wǎng)絡(luò)在Hollyword 2和YouTube數(shù)據(jù)集上分別獲得了53.3%和75.8%的準(zhǔn)確率[82]。2014年,Karpathy等人對(duì)卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模視頻分類(lèi)上的效果進(jìn)行了廣泛的經(jīng)驗(yàn)評(píng)估,在Sports-1M測(cè)試集的200000個(gè)視頻上獲得了63.9%的Hit@1值(即前1準(zhǔn)確率)[83]。2015年,Ng等人采用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型,在Sports-1M測(cè)試集上獲得了73.1%的Hit@1值[84]。
在語(yǔ)音識(shí)別方面,Abdel-Hamid等人于2012年第一次證實(shí),使用卷積神經(jīng)網(wǎng)絡(luò)能夠在頻率坐標(biāo)軸上有效歸一化說(shuō)話人的差異,并在TIMIT音素識(shí)別任務(wù)上將音素錯(cuò)誤率從20.7%降到20.0%[85]。這些結(jié)果在2013年被微軟研究院的Abdel-Hamid等人和Deng等人以及IBM研究院的Sainath等人使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、預(yù)訓(xùn)練和池化技術(shù)拓展到大詞匯語(yǔ)音識(shí)別上[86-87]。進(jìn)一步的研究表明,卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集或者數(shù)據(jù)差異較小的任務(wù)幫助最大[88-90]。此外,通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)和基于i-vector的自適應(yīng)技術(shù),IBM的研究人員在2014年說(shuō)明他們能夠?qū)witchboard Hub5′00評(píng)估集的詞錯(cuò)誤率降至10.4%。
在機(jī)器翻譯方面,Gehring等人使用一種全新的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行從序列到序列的學(xué)習(xí)[91],能夠在非常大的標(biāo)準(zhǔn)數(shù)據(jù)集上超越循環(huán)神經(jīng)網(wǎng)絡(luò)的性能,不僅可以大幅提高翻譯速度,同時(shí)也提高了翻譯質(zhì)量。比如,這種全新的模型在WMT'16英語(yǔ)到羅馬尼亞語(yǔ)的翻譯任務(wù)上可比以前最好的系統(tǒng)提高1.8的BLEU分?jǐn)?shù),在WMT'14英語(yǔ)到法語(yǔ)的翻譯任務(wù)上可比Wu等人的長(zhǎng)短期記憶神經(jīng)翻譯模型提高1.5的BLEU分?jǐn)?shù)[92],在WMT'14英語(yǔ)到德語(yǔ)的翻譯任務(wù)上可超過(guò)當(dāng)前最高水平0.5的BLEU分?jǐn)?shù)。
在圍棋程序方面,DeepMind開(kāi)發(fā)的AlphaGo利用深層網(wǎng)絡(luò)和蒙特卡羅樹(shù)搜索(Monte Carlo tree search),2015年10月首次在完整的圍棋比賽中沒(méi)有任何讓子以5比0戰(zhàn)勝了人類(lèi)的專(zhuān)業(yè)選手、歐洲冠軍、職業(yè)圍棋二段選手樊麾[93],這也是計(jì)算機(jī)圍棋程序首次擊敗圍棋職業(yè)棋手。2016年3月,AlphaGo又以4比1戰(zhàn)勝了人類(lèi)的頂尖高手、世界冠軍、職業(yè)圍棋九段選手李世石。2016年末2017年初,AlphaGo在中國(guó)棋類(lèi)網(wǎng)站上以Master為注冊(cè)賬號(hào)與中日韓數(shù)十位圍棋高手進(jìn)行快棋對(duì)決,連續(xù)60局無(wú)一敗績(jī)。2017年5月,在中國(guó)烏鎮(zhèn)圍棋峰會(huì)上,AlphaGo以3比0戰(zhàn)勝排名世界第一的圍棋冠軍柯潔。
- 深度學(xué)習(xí)與目標(biāo)檢測(cè)(第2版)
- 智能控制與強(qiáng)化學(xué)習(xí):先進(jìn)值迭代評(píng)判設(shè)計(jì)
- 知識(shí)圖譜與認(rèn)知智能:基本原理、關(guān)鍵技術(shù)、應(yīng)用場(chǎng)景與解決方案
- 物聯(lián)網(wǎng)之云:云平臺(tái)搭建與大數(shù)據(jù)處理
- COMSOL Multiphysics工程實(shí)踐與理論仿真
- 超AI入門(mén)
- 玩轉(zhuǎn)ChatGPT:秒變AI論文寫(xiě)作高手
- AI繁榮
- 圖解大模型:生成式AI原理與實(shí)戰(zhàn)
- 碼農(nóng)的零門(mén)檻AI課:基于fastai與PyTorch的深度學(xué)習(xí)
- 第五范式
- 用ChatGPT輕松玩轉(zhuǎn)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)
- AIGC原理與實(shí)踐:零基礎(chǔ)學(xué)大語(yǔ)言模型、擴(kuò)散模型和多模態(tài)模型
- 機(jī)器學(xué)習(xí)中的數(shù)學(xué)修煉
- 推薦系統(tǒng)技術(shù)原理與實(shí)踐