官术网_书友最值得收藏!

1.3 機器學習算法領域發展綜述

機器學習應用的領域非常廣泛,目前應用比較成熟的領域,包括計算機視覺、自然語言處理、語音識別等。

1.3.1 計算機視覺

計算機視覺是機器學習重點研究和落地方向之一,也是研究得比較早的一個領域。目前,在計算機視覺中,重要的網絡結構是卷積神經網絡。卷積神經網絡也是深度學習技術領域中非常具有代表性的神經網絡之一,它在圖像分析和處理領域取得了許多突破性的進展。在學術界常用的標準圖像標注集ImageNet上,基于卷積神經網絡取得了很多成就,包括圖像特征提取分類、場景識別等。

卷積神經網絡的優點之一是避免了對圖像進行復雜的前期預處理過程,尤其是人工參與圖像預處理過程。在卷積神經網絡中可以直接輸入原始圖像進行一系列工作,至今已經廣泛應用于各類圖像應用中,針對動物識別的簡單模型結構示例如圖1-4所示。

圖1-4

卷積神經網絡作為視覺的基礎性網絡結構,從卷積神經網絡的提出到目前的廣泛應用,大致經歷了理論萌芽階段、實驗發展階段以及大規模應用和深入研究階段。

1.理論萌芽階段

1962年,Hubel和Wiesel通過生物學研究表明,從視網膜傳遞到大腦中的視覺信息是通過多層次的感受野(Receptive Field)激發完成的,并首先提出了感受野的概念。

1980年,日本學者Fukushima在基于感受野的概念基礎之上,提出了神經認知機。神經認知機是一個自組織的多層神經網絡模型,每一層的響應都由上一層的局部感受野激發得到,對于模式的識別不受位置、較小形狀變化和尺度大小的影響。

神經認知機可以理解為卷積神經網絡的第一版,其核心點在于將視覺系統模型化,并且不受視覺中物體的位置和大小等影響。

2.實驗發展階段

1998年,計算機科學家Yann LeCun等人提出的LeNet-5網絡模型采用了基于梯度的反向傳播算法對網絡進行有監督的訓練。Yann LeCun在機器學習、計算機視覺等領域都有杰出貢獻,被譽為卷積神經網絡之父。

LeNet-5網絡通過交替連接的卷積層和下采樣層,將原始圖像逐漸轉換為一系列的特征圖,并且將這些特征傳遞給全連接的神經網絡,以根據圖像的特征對圖像進行分類。

感受野是卷積神經網絡的核心,卷積神經網絡的卷積核則是感受野概念的結構表現。學術界對于卷積神經網絡的關注,也正是從LeNet-5網絡的提出開始的,并把它成功應用于手寫體識別。目前,卷積神經網絡在語音識別、物體檢測和人臉識別等應用領域的研究正逐漸開展起來。

3.大規模應用和深入研究階段

在LeNet-5網絡之后,卷積神經網絡一直處于實驗發展階段,直到2012年AlexNet網絡的提出才奠定了卷積神經網絡在深度學習應用中的地位。Krizhevsky等人提出的卷積神經網絡AlexNet在ImageNet的訓練集上取得了圖像分類的冠軍,使得卷積神經網絡成為計算機視覺中的重點研究對象,并且仍在不斷深入。在AlexNet之后,不斷有新的卷積神經網絡被提出,包括牛津大學的VGG網絡、微軟的ResNet網絡、谷歌的GoogLeNet網絡等,這些網絡的提出使得卷積神經網絡逐步開始走向商業化應用。

從目前的發展趨勢來看,卷積神經網絡依然會持續發展,并且會產生適合各類應用場景的卷積神經網絡。例如,面向視頻理解的3D卷積神經網絡等。值得說明的是,卷積神經網絡不僅應用于圖像相關的網絡,還可用于與圖像相似的網絡,例如在圍棋中分析棋盤等。

1.3.2 自然語言處理

自然語言處理(Natural Language Processing, NLP)是人工智能和語言學領域的分支學科,探討如何處理并運用自然語言,對自然語言的認知和理解是讓計算機把輸入的語言變成符號和關系,然后根據目的再進行處理。

早在20世紀50年代,隨著電子計算機的發展,出現了眾多的自然語言處理任務,如機器翻譯等。1954年,喬治城實驗將60多句俄語句子全自動翻譯成英語,甚至聲稱在三到五年內,機器翻譯任務將會被解決。然而真正的進展要慢得多。1966年,美國科學院的語言自動處理咨詢委員會報告發現十年的研究仍未能達到預期的目標。直到20世紀80年代后期,當第一個統計機器翻譯系統被開發出來時,才對機器翻譯方面進一步研究。在20世紀80年代之前,比較成功的自然語言處理系統是1959年賓夕法尼亞大學研制成功的TDAP(Transformation and Discourse Analysis Project)系統,它是最早、最完整的英語自動剖析系統。

直到20世紀80年代,大多數自然語言處理系統仍以一套復雜、人工制定的規則為基礎。從20世紀80年代末期開始,自然語言處理開始采用機器學習中的算法,一方面是計算速度和存儲量大幅增加、大規模真實文本的積累產生;另一方面則是以網頁搜索的出現,依賴于自然語言的內容分析、信息抽取等。從20世紀90年代開始,自然語言處理呈現一個研究的浪潮。因此在基于傳統規則的處理技術中,逐步引入了更多數據驅動的統計方法,將自然語言處理的研究推向了一個新高度。

從2010年開始,隨著深度學習的發展,基于大數據與深度學習的自然語言處理技術在機器翻譯、人機對話等場景中開始應用。目前,自然語言處理技術仍在發展,未來依然是較熱門的研究方向之一。

在現在能夠接觸到的大部分場景中都會涉及自然語言的處理,例如語音合成、文檔分類、智能客服、機器翻譯、自動摘要等。自然語言處理除可以將人類語言轉換為機器語言外,還研究將機器語言翻譯為人類語言。

1.3.3 語音識別

語音識別(Speech Recognition)技術,也被稱為自動語音識別(Automatic Speech Recognition, ASR)或語音轉文本識別(Speech To Text, STT),其目標是通過計算機自動將人類的語音內容轉換為相應的文字。

語音識別技術發展比較漫長,最早可以推算到1920年代生產的玩具狗“Radio Rex”,當這只狗的名字“Rex”被呼喊時,玩具狗則可以從底座上彈起來,實現了最簡單的“語音識別”。然而實際上它并不是一套復雜的計算系統,而是通過聲音的共振使得能夠識別到“Rex”被呼喊時,彈簧接收到共振峰,從而自動釋放。真正的具備計算系統的語音則是從1952年開始的,在20世紀70年代之前,基本屬于語音識別技術的奠基階段,該段時間重要性的發展內容如表1-3所示。

表1-3

從20世紀70年代開始,出現大量的對于語音識別的研究,但研究的主體也主要在小詞匯量、孤立詞的識別,最開始使用的方法也是基于模板匹配的方式;但是進入20世紀80年代,研究的方式發生了改變,從傳統的模板匹配轉換到基于統計模型的思路。例如隱馬爾科夫模型(Hidden Markov Model, HMM)的理論基礎在1970年前后就已經由Baum等人建立起來,隨后由卡內基·梅隆大學的Baker和IBM的Jelinek等人將其應用到語音識別當中。

20世紀90年代語音識別技術進入了一個平穩期,經典的語音識別技術框架則是基于GMM-HMM框架的模型,HMM用于描述的是語音的短時平穩的動態性,GMM用來描述HMM每一狀態內部的發音特征。同時期人工神經網絡也得到了較好的發展,基于人工神經網絡的語音識別也有相關研究,但是效果不如經典的GMM-HMM框架。但無論是基于何種方式,距離語音識別的大規模商用依然還有一定差距。

2000年后,語音識別技術也隨著深度學習有了技術框架的變遷,2006年Hinton提出深度置信網絡,深度神經網絡的研究開始興起。2009年,Hinton將深度神經網絡應用于語音的聲學建模,在TIMIT上獲得了當時最好的結果。隨后的2011年,微軟借助深度神經網絡將大詞匯量映射到連續語音識別任務上,大大降低了語音識別錯誤率。隨后的技術框架基本是以DNN-HMM的模型為基礎繼續語音識別的研究。

語音識別技術的應用包括智能語音客服、智能語音導航、語音筆聽寫錄入等。語音識別技術和其他自然語言處理技術相結合(如機器翻譯和語音合成技術),可以構建出更加復雜的應用,例如語音到語音的翻譯等。

主站蜘蛛池模板: 霍山县| 格尔木市| 洛隆县| 柳州市| 日喀则市| 阿勒泰市| 榆社县| 招远市| 青岛市| 长兴县| 龙岩市| 遵义市| 井研县| 汶上县| 通州区| 德格县| 玉门市| 湘潭市| 江永县| 全南县| 房山区| 新乡市| 油尖旺区| 丹寨县| 柳林县| 武城县| 务川| 兰考县| 白沙| 天门市| 台南县| 方正县| 灵台县| 灌云县| 澄江县| 新竹市| 娱乐| 泰州市| 襄城县| 博爱县| 建水县|