官术网_书友最值得收藏!

1.3 深度學習的研究現狀

深度學習極大地促進了機器學習的發展,受到了世界各國相關領域研究人員和高科技公司的重視,語音、圖像和自然語言處理是深度學習算法應用最廣泛的3個主要研究領域。

1.深度學習在語音識別領域的研究現狀

高斯混合模型(Gauss Mixture Model,GMM)估計簡單、使用方便,適合訓練大規模數據,具有良好的區分度訓練算法,這奠定了GMM在語音識別應用領域的主導性地位。在語音識別任務中,通常采用GMM來對其中每個單元的概率模型進行描述。然而,GMM作為一種淺層學習網絡模型,其無法充分描述特征的狀態空間分布。此外,通過GMM建模數據的特征通常只有數十個維度,特征之間的相關性很可能無法被充分描述。最后,GMM建模實質上是一種似然概率建模方式,即使一些模式分類之間的區分性能夠通過區分度訓練模擬得到,但是效果有限。

從2009年開始,微軟亞洲研究院的語音識別專家們和深度學習領軍人物Hinton合作。2011年,微軟公司推出基于深度神經網絡的語音識別系統,這一成果完全改變了語音識別領域已有的技術框架。采用深度神經網絡后,樣本數據特征間的相關性信息得以充分表示,將連續的特征信息結合構成高維特征,通過高維特征樣本對深度神經網絡模型進行訓練。由于深度神經網絡采用了模擬人腦神經的架構,通過逐層進行數據特征提取,最終得到適合進行模式分類處理的理想特征。

2.深度學習在圖像識別領域的研究現狀

深度學習最早涉足的領域便是圖像處理任務。1989年,加拿大多倫多大學的教授Yann LeCun和他的同事便提出了卷積神經網絡的相關理念,該網絡是一種包含卷積層的深度神經網絡模型。通常一個卷積神經網絡架構包含兩個可以通過訓練產生的非線性卷積層,兩個固定的子采樣層和一個全連接層,隱藏層的數量一般為5個以上。CNN的架構設計是受到生物學家Hube和Wiesel的動物視覺模型啟發而發明的,尤其是模擬動物視覺皮層的V1層和V2層中簡單細胞和復雜細胞在視覺系統的功能。起初卷積神經網絡在小規模的問題上取得了當時世界上最好的成果,但是在很長一段時間里一直沒有取得重大突破,主要原因是卷積神經網絡應用在大尺寸圖像上一直不能取得理想結果,比如對于像素數很大的自然圖像內容的理解,這一瓶頸使得它沒有引起計算機視覺研究領域足夠的重視。

直到2012年,Hinton教授構建深度神經網絡在圖像識別領域上的成就,帶來了卷積神經網絡在圖像識別問題上的一次質的飛躍。Hinton教授對卷積神經網絡的算法進行了改進,在模型的訓練中引入了權重衰減,這可以有效地減小權重幅度,防止網絡過擬合。卷積神經網絡方面的研究取得突破也受益于GPU加速技術的發展,強大的計算能力使網絡能夠更好地擬合訓練數據。目前,卷積神經網絡被應用于人臉識別領域,通過深度學習模型進行人臉識別,不僅大幅提高了識別精度,同時所花費的資源也比人工進行特征提取要少得多。

3.深度學習在自然語言處理領域的研究現狀

自然語言處理問題是深度學習在除了語音和圖像處理之外的另一個重要的應用領域。數十年來,自然語言處理的主流方法是基于統計的模型,人工神經網絡也是基于統計方法模型之一,但在自然語言處理領域卻一直沒有得到重視。語言建模時最早采用神經網絡進行自然語言處理的問題。美國NEC研究院最早將深度學習引入到自然語言處理研究中,其研究院從2008年起采用將詞匯映射到一維向量空間和多層一維卷積結構去解決詞性標注、分詞、命名實體識別和語義角色標注4個典型的自然語言處理問題。他們構建了一個網絡模型用于解決4個不同問題,都取得了相當精確的結果。總體而言,深度學習在自然語言處理上所取得的成果和在圖像語音識別方面相比相差甚遠,所以深度學習仍有待深入研究。

深度學習是高度數據依賴型的算法,它的性能通常隨著數據量的增加而不斷增強,即它的可擴展性(Scalability)顯著優于傳統的機器學習算法。但如果訓練數據比較少,深度學習的性能并不見得就比傳統機器學習好。其潛在的原因在于,作為復雜系統代表的深度學習算法,只有數據量足夠多,才能通過訓練,在深度神經網絡中,“恰如其分”地將把蘊含于數據之中的復雜模式表征出來。

主站蜘蛛池模板: 镇康县| 丁青县| 习水县| 桃园县| 鲁甸县| 新邵县| 武定县| 北票市| 贵州省| 辽阳县| 志丹县| 呼伦贝尔市| 溧水县| 夹江县| 体育| 靖江市| 榆树市| 安义县| 枞阳县| 云梦县| 沙坪坝区| 都江堰市| 乐山市| 防城港市| 花垣县| 邵东县| 海丰县| 兰考县| 青岛市| 南乐县| 岳西县| 惠州市| 南安市| 周宁县| 故城县| 浑源县| 五莲县| 黄浦区| 德钦县| 西平县| 林口县|