官术网_书友最值得收藏!

1.6 應(yīng)用現(xiàn)狀

在過去二十年中,人類收集、存儲(chǔ)、傳輸、處理數(shù)據(jù)的能力取得了飛速提升,人類社會(huì)的各個(gè)角落都積累了大量數(shù)據(jù),亟需能有效地對(duì)數(shù)據(jù)進(jìn)行分析利用的計(jì)算機(jī)算法,而機(jī)器學(xué)習(xí)恰順應(yīng)了大時(shí)代的這個(gè)迫切需求,因此該學(xué)科領(lǐng)域很自然地取得巨大發(fā)展、受到廣泛關(guān)注。

今天,在計(jì)算機(jī)科學(xué)的諸多分支學(xué)科領(lǐng)域中,無論是多媒體、圖形學(xué),還是網(wǎng)絡(luò)通信、軟件工程,乃至體系結(jié)構(gòu)、芯片設(shè)計(jì),都能找到機(jī)器學(xué)習(xí)技術(shù)的身影,尤其是在計(jì)算機(jī)視覺、自然語言處理等“計(jì)算機(jī)應(yīng)用技術(shù)”領(lǐng)域,機(jī)器學(xué)習(xí)已成為最重要的技術(shù)進(jìn)步源泉之一。

機(jī)器學(xué)習(xí)還為許多交叉學(xué)科提供了重要的技術(shù)支撐。例如,“生物信息學(xué)”試圖利用信息技術(shù)來研究生命現(xiàn)象和規(guī)律,而基因組計(jì)劃的實(shí)施和基因藥物的美好愿景讓人們?yōu)橹某迸炫取I镄畔W(xué)研究涉及從“生命現(xiàn)象”到“規(guī)律發(fā)現(xiàn)”的整個(gè)過程,其間必然包括數(shù)據(jù)獲取、數(shù)據(jù)管理、數(shù)據(jù)分析、仿真實(shí)驗(yàn)等環(huán)節(jié),而“數(shù)據(jù)分析”恰是機(jī)器學(xué)習(xí)技術(shù)的舞臺(tái),各種機(jī)器學(xué)習(xí)技術(shù)已經(jīng)在這個(gè)舞臺(tái)上大放異彩。

NASA-JPL的全稱是美國航空航天局噴氣推進(jìn)實(shí)驗(yàn)室,著名的“勇氣”號(hào)和“機(jī)遇”號(hào)火星機(jī)器人均是在這個(gè)實(shí)驗(yàn)室研制的。

DARPA的全稱是美國國防部先進(jìn)研究計(jì)劃局,互聯(lián)網(wǎng)、全球衛(wèi)星定位系統(tǒng)等都源于DARPA啟動(dòng)的研究項(xiàng)目。

事實(shí)上,隨著科學(xué)研究的基本手段從傳統(tǒng)的“理論+實(shí)驗(yàn)”走向現(xiàn)在的“理論+實(shí)驗(yàn)+計(jì)算”,乃至出現(xiàn)“數(shù)據(jù)科學(xué)”這樣的提法,機(jī)器學(xué)習(xí)的重要性日趨顯著,因?yàn)椤坝?jì)算”的目的往往是數(shù)據(jù)分析,而數(shù)據(jù)科學(xué)的核心也恰是通過分析數(shù)據(jù)來獲得價(jià)值。若要列出目前計(jì)算機(jī)科學(xué)技術(shù)中最活躍、最受矚目的研究分支,那么機(jī)器學(xué)習(xí)必居其中。2001年,美國NASA-JPL的科學(xué)家在Science雜志上專門撰文[Mjolsness and DeCoste, 2001]指出,機(jī)器學(xué)習(xí)對(duì)科學(xué)研究的整個(gè)過程正起到越來越大的支撐作用,其進(jìn)展對(duì)科技發(fā)展意義重大。2003年,DARPA啟動(dòng)PAL計(jì)劃,將機(jī)器學(xué)習(xí)的重要性上升到美國國家安全的高度來考慮。眾所周知,美國最尖端科技的研究通常是由NASA和DARPA推進(jìn)的,而這兩大機(jī)構(gòu)不約而同地強(qiáng)調(diào)機(jī)器學(xué)習(xí)的重要性,其意義不言而喻。

機(jī)器學(xué)習(xí)提供數(shù)據(jù)分析能力,云計(jì)算提供數(shù)據(jù)處理能力,眾包提供數(shù)據(jù)標(biāo)記能力。

2006年,卡耐基梅隆大學(xué)宣告成立世界上第一個(gè)“機(jī)器學(xué)習(xí)系”,機(jī)器學(xué)習(xí)領(lǐng)域奠基人之一T.Mitchell教授出任首任系主任。2012年3月,美國奧巴馬政府啟動(dòng)“大數(shù)據(jù)研究與發(fā)展計(jì)劃”,美國國家科學(xué)基金會(huì)旋即在加州大學(xué)伯克利分校啟動(dòng)加強(qiáng)計(jì)劃,強(qiáng)調(diào)要深入研究和整合大數(shù)據(jù)時(shí)代的三大關(guān)鍵技術(shù):機(jī)器學(xué)習(xí)、云計(jì)算、眾包(crowdsourcing)。顯然,機(jī)器學(xué)習(xí)在大數(shù)據(jù)時(shí)代是必不可少的核心技術(shù),道理很簡單:收集、存儲(chǔ)、傳輸、管理大數(shù)據(jù)的目的,是為了“利用”大數(shù)據(jù),而如果沒有機(jī)器學(xué)習(xí)技術(shù)分析數(shù)據(jù),則“利用”無從談起。

“數(shù)據(jù)挖掘”這個(gè)詞很早就在統(tǒng)計(jì)學(xué)界出現(xiàn)并略帶貶義,這是由于傳統(tǒng)統(tǒng)計(jì)學(xué)研究往往醉心于理論的優(yōu)美而忽視實(shí)際效用。但最近情況發(fā)生變化,越來越多的統(tǒng)計(jì)學(xué)家開始關(guān)注現(xiàn)實(shí)問題,進(jìn)入機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域。

談到對(duì)數(shù)據(jù)進(jìn)行分析利用,很多人會(huì)想到“數(shù)據(jù)挖掘”(data mining),這里簡單探討一下數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的聯(lián)系。數(shù)據(jù)挖掘領(lǐng)域在二十世紀(jì)九十年代形成,它受到很多學(xué)科領(lǐng)域的影響,其中數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)無疑影響最大[Zhou,2003].數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)掘知識(shí),這就必然涉及對(duì)“海量數(shù)據(jù)”的管理和分析。大體來說,數(shù)據(jù)庫領(lǐng)域的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)管理技術(shù),而機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)分析技術(shù)。由于統(tǒng)計(jì)學(xué)界的研究成果通常需要經(jīng)由機(jī)器學(xué)習(xí)研究來形成有效的學(xué)習(xí)算法,之后再進(jìn)入數(shù)據(jù)挖掘領(lǐng)域,因此從這個(gè)意義上說,統(tǒng)計(jì)學(xué)主要是通過機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)領(lǐng)域和數(shù)據(jù)庫領(lǐng)域則是數(shù)據(jù)挖掘的兩大支撐。

今天,機(jī)器學(xué)習(xí)已經(jīng)與普通人的生活密切相關(guān)。例如在天氣預(yù)報(bào)、能源勘探、環(huán)境監(jiān)測等方面,有效地利用機(jī)器學(xué)習(xí)技術(shù)對(duì)衛(wèi)星和傳感器發(fā)回的數(shù)據(jù)進(jìn)行分析,是提高預(yù)報(bào)和檢測準(zhǔn)確性的重要途徑;在商業(yè)營銷中,有效地利用機(jī)器學(xué)習(xí)技術(shù)對(duì)銷售數(shù)據(jù)、客戶信息進(jìn)行分析,不僅可幫助商家優(yōu)化庫存降低成本,還有助于針對(duì)用戶群設(shè)計(jì)特殊營銷策略;……下面再舉幾例:

眾所周知,谷歌、百度等互聯(lián)網(wǎng)搜索引擎已開始改變?nèi)祟惖纳罘绞剑绾芏嗳艘蚜?xí)慣于在出行前通過互聯(lián)網(wǎng)搜索來了解目的地信息、尋找合適的酒店、餐館等。美國《新聞周刊》曾對(duì)谷歌有一句話評(píng)論:“它使任何人離任何問題的答案間的距離變得只有點(diǎn)擊一下鼠標(biāo)這么遠(yuǎn)。”顯然,互聯(lián)網(wǎng)搜索是通過分析網(wǎng)絡(luò)上的數(shù)據(jù)來找到用戶所需的信息,在這個(gè)過程中,用戶查詢是輸入、搜索結(jié)果是輸出,而要建立輸入與輸出之間的聯(lián)系,內(nèi)核必然需要機(jī)器學(xué)習(xí)技術(shù)。事實(shí)上,互聯(lián)網(wǎng)搜索發(fā)展至今,機(jī)器學(xué)習(xí)技術(shù)的支撐厥功至偉。到了今天,搜索的對(duì)象、內(nèi)容日趨復(fù)雜,機(jī)器學(xué)習(xí)技術(shù)的影響更為明顯,例如在進(jìn)行“圖片搜索”時(shí),無論谷歌還是百度都在使用最新潮的機(jī)器學(xué)習(xí)技術(shù)。谷歌、百度、臉書、雅虎等公司紛紛成立專攻機(jī)器學(xué)習(xí)技術(shù)的研究團(tuán)隊(duì),甚至直接以機(jī)器學(xué)習(xí)技術(shù)命名的研究院,充分體現(xiàn)出機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用,甚至在一定程度上影響了互聯(lián)網(wǎng)產(chǎn)業(yè)的走向。

例如著名機(jī)器學(xué)習(xí)教科書[Mitchell,1997]4.2節(jié)介紹了二十世紀(jì)九十年代早期利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來控制自動(dòng)駕駛車的ALVINN系統(tǒng)。

再舉一例。車禍?zhǔn)侨祟愖顑措U(xiǎn)的殺手之一,全世界每年有上百萬人喪生車輪,僅我國每年就有約十萬人死于車禍。由計(jì)算機(jī)來實(shí)現(xiàn)自動(dòng)汽車駕駛是一個(gè)理想的方案,因?yàn)闄C(jī)器上路時(shí)可以確保不是新手駕駛、不會(huì)疲勞駕駛,更不會(huì)酒后駕駛,而且還有重要的軍事用途。美國在二十世紀(jì)八十年代就開始進(jìn)行這方面研究。這里最大的困難是無法在汽車廠里事先把汽車上路后所會(huì)遇到的所有情況都考慮到、設(shè)計(jì)出處理規(guī)則并加以編程實(shí)現(xiàn),而只能根據(jù)上路時(shí)遇到的情況即時(shí)處理。若把車載傳感器接收到的信息作為輸入,把方向、剎車、油門的控制行為作為輸出,則這里的關(guān)鍵問題恰可抽象為一個(gè)機(jī)器學(xué)習(xí)任務(wù)。2004年3月,在美國DARPA組織的自動(dòng)駕駛車比賽中,斯坦福大學(xué)機(jī)器學(xué)習(xí)專家S.Thrun的小組研制的參賽車用6小時(shí)53分鐘成功走完了132英里賽程獲得冠軍。比賽路段是在內(nèi)華達(dá)州西南部的山區(qū)和沙漠中,路況相當(dāng)復(fù)雜,在這樣的路段上行車即使對(duì)經(jīng)驗(yàn)豐富的人類司機(jī)來說也是一個(gè)挑戰(zhàn)。S. Thrun后來到谷歌領(lǐng)導(dǎo)自動(dòng)駕駛車項(xiàng)目團(tuán)隊(duì)。值得一提的是,自動(dòng)駕駛車在近幾年取得了飛躍式發(fā)展,除谷歌外,通用、奧迪、大眾、寶馬等傳統(tǒng)汽車公司均投入巨資進(jìn)行研發(fā),目前已開始有產(chǎn)品進(jìn)入市場。2011年6月,美國內(nèi)華達(dá)州議會(huì)通過法案,成為美國第一個(gè)認(rèn)可自動(dòng)駕駛車的州,此后,夏威夷州和佛羅里達(dá)州也先后通過類似法案。自動(dòng)駕駛汽車可望在不久的將來出現(xiàn)在普通人的生活中,而機(jī)器學(xué)習(xí)技術(shù)則起到了“司機(jī)”作用。

機(jī)器學(xué)習(xí)技術(shù)甚至已影響到人類社會(huì)政治生活。2012年美國大選期間,奧巴馬麾下有一支機(jī)器學(xué)習(xí)團(tuán)隊(duì),他們對(duì)各類選情數(shù)據(jù)進(jìn)行分析,為奧巴馬提示下一步競選行動(dòng)。例如他們使用機(jī)器學(xué)習(xí)技術(shù)分析社交網(wǎng)絡(luò)數(shù)據(jù),判斷出在總統(tǒng)候選人第一次辯論之后哪些選民會(huì)倒戈,并根據(jù)分析的結(jié)果開發(fā)出個(gè)性化宣傳策略,能為每位選民找出一個(gè)最有說服力的挽留理由;他們基于機(jī)器學(xué)習(xí)模型的分析結(jié)果提示奧巴馬應(yīng)去何處開展拉票活動(dòng),有些建議甚至讓專業(yè)競選顧問大吃一驚,而結(jié)果表明去這些地方大有收獲。總統(tǒng)選舉需要大量金錢,機(jī)器學(xué)習(xí)技術(shù)在這方面發(fā)揮了奇效。例如,機(jī)器學(xué)習(xí)模型分析出,某電影明星對(duì)某地區(qū)某年齡段的特定人群很有吸引力,而這個(gè)群體很愿意出高價(jià)與該明星及奧巴馬共進(jìn)晚餐……果然,這樣一次籌資晚宴成功募集到1500萬美元;最終,借助機(jī)器學(xué)習(xí)模型,奧巴馬籌到了創(chuàng)紀(jì)錄的10億美元競選經(jīng)費(fèi)。機(jī)器學(xué)習(xí)技術(shù)不僅有助于競選經(jīng)費(fèi)“開源”,還可幫助“節(jié)流”,例如機(jī)器學(xué)習(xí)模型通過對(duì)不同群體選民進(jìn)行分析,建議購買了一些冷門節(jié)目的廣告時(shí)段,而沒有采用在昂貴的黃金時(shí)段購買廣告的傳統(tǒng)做法,使得廣告資金效率相比2008年競選提高了14%;……勝選后,《時(shí)代》周刊專門報(bào)道了這個(gè)被奧巴馬稱為“競選核武器”、由半監(jiān)督學(xué)習(xí)研究專家R. Ghani領(lǐng)導(dǎo)的團(tuán)隊(duì)。

值得一提的是,機(jī)器學(xué)習(xí)備受矚目當(dāng)然是由于它已成為智能數(shù)據(jù)分析技術(shù)的創(chuàng)新源泉,但機(jī)器學(xué)習(xí)研究還有另一個(gè)不可忽視的意義,即通過建立一些關(guān)于學(xué)習(xí)的計(jì)算模型來促進(jìn)我們理解“人類如何學(xué)習(xí)”。例如,P. Kanerva在二十世紀(jì)八十年代中期提出SDM(Sparse Distributed Memory)模型[Kanerva,1988]時(shí)并沒有刻意模仿腦生理結(jié)構(gòu),但后來神經(jīng)科學(xué)的研究發(fā)現(xiàn),SDM的稀疏編碼機(jī)制在視覺、聽覺、嗅覺功能的腦皮層中廣泛存在,從而為理解腦的某些功能提供了一定的啟發(fā)。自然科學(xué)研究的驅(qū)動(dòng)力歸結(jié)起來無外是人類對(duì)宇宙本源、萬物本質(zhì)、生命本性、自我本識(shí)的好奇,而“人類如何學(xué)習(xí)”無疑是一個(gè)有關(guān)自我本識(shí)的重大問題。從這個(gè)意義上說,機(jī)器學(xué)習(xí)不僅在信息科學(xué)中占有重要地位,還具有一定的自然科學(xué)探索色彩。

主站蜘蛛池模板: 马公市| 辽源市| 叙永县| 丹阳市| 大冶市| 锦屏县| 红桥区| 大宁县| 龙泉市| 望城县| 景德镇市| 苍梧县| 揭东县| 电白县| 阳信县| 仪征市| 方正县| 高碑店市| 邵阳市| 吴江市| 界首市| 专栏| 新丰县| 青阳县| 梅河口市| 离岛区| 沂南县| 屏边| 建始县| 沈阳市| 海口市| 屏东县| 黄浦区| 云霄县| 永善县| 昌乐县| 尼玛县| 阿拉善左旗| 武隆县| 玉山县| 汽车|