- 終極算法:機(jī)器學(xué)習(xí)和人工智能如何重塑世界
- (美)佩德羅·多明戈斯
- 1595字
- 2019-01-02 22:00:00

我們生活在算法的時(shí)代。一兩代人以前,提到“算法”這個(gè)詞,可能多數(shù)人會(huì)腦中一片空白。當(dāng)今,文明社會(huì)的每個(gè)角落都存在算法,日常生活的每分每秒也都和算法有關(guān)。算法不僅存在于你的手機(jī)或筆記本電腦,還存在于你的汽車、房子、家電以及玩具當(dāng)中。當(dāng)人們進(jìn)出銀行時(shí),銀行系統(tǒng)就是由各種算法交織而成的龐大集合體。算法安排航班,也駕駛飛機(jī)。算法能經(jīng)營工廠、進(jìn)行交易、運(yùn)輸貨物、處理現(xiàn)金收益,還能保存記錄。如果所有算法都突然停止運(yùn)轉(zhuǎn),那么就是人類的世界末日。
算法就是一系列指令,告訴計(jì)算機(jī)該做什么。計(jì)算機(jī)是由幾十億個(gè)微小開關(guān)(稱為晶體管)組成的,而算法能在一秒內(nèi)打開并關(guān)閉這些開關(guān)幾十億次。最簡(jiǎn)單的算法是觸動(dòng)開關(guān)。一個(gè)晶體管的狀態(tài)就是一個(gè)比特信息:如果開關(guān)打開,信息就是1;如果開關(guān)關(guān)閉,信息就是0。銀行的計(jì)算機(jī)的某個(gè)比特信息會(huì)顯示你的賬戶是否已透支。美國社會(huì)保障總署的計(jì)算機(jī)的某個(gè)比特信息表明你是活著還是已死亡。第二簡(jiǎn)單的算法是:把兩個(gè)比特結(jié)合起來。克勞德·香農(nóng)以“信息論之父”而為人所知,他第一個(gè)意識(shí)到晶體管的活動(dòng)就是在運(yùn)算,因?yàn)榫w管開了又關(guān),是對(duì)其他晶體管的回應(yīng)(這是他在麻省理工學(xué)院的碩士論文——有史以來最有意義的碩士論文)。如果A晶體管只有在B和C晶體管都打開時(shí)才打開,那么這時(shí)它就是在做小型的邏輯運(yùn)算。如果A晶體管在B和C晶體管其中一個(gè)打開時(shí)才打開,就是另外一種小型邏輯運(yùn)算。如果A晶體管在B晶體管任何關(guān)閉的時(shí)候打開,或者反過來,這又是第三種運(yùn)算。信不信由你,所有算法,無論多復(fù)雜,都能分解為這三種邏輯運(yùn)算:且,或,非。利用不同的符號(hào)來代替“且”“或”“非”運(yùn)算,簡(jiǎn)單的算法就可以用圖表來表示。例如,如果發(fā)燒可由感冒或者瘧疾引起,那么你應(yīng)該用泰諾來治療發(fā)燒和頭疼,可以用圖1–1表示。

圖1–1
通過結(jié)合許多這樣的邏輯運(yùn)算,我們可以進(jìn)行極其復(fù)雜的邏輯推理。人們往往認(rèn)為計(jì)算機(jī)只和數(shù)字有關(guān),其實(shí)并非如此,它完全關(guān)乎邏輯。數(shù)字和算術(shù)都是由邏輯構(gòu)成的,而計(jì)算機(jī)的所有其他部分也是如此。想把兩個(gè)數(shù)相加?可以由晶體管的組合體來完成。想贏得《危險(xiǎn)邊緣》智力比賽?也可以由晶體管的組合體來完成(當(dāng)然,這個(gè)組合體龐大得多)。
即便如此,為了做不同的事而制造新的計(jì)算機(jī)代價(jià)過于昂貴。當(dāng)然,現(xiàn)代計(jì)算機(jī)是各種晶體管的大集合,能做許多不同的事,這取決于哪些晶體管被激活。米開朗琪羅說過,他所做的一切,就是從大理石石塊中看出雕像,然后將多余的石頭刻掉,直到雕像的形狀顯現(xiàn)出來。同樣,算法排除計(jì)算機(jī)中多余的晶體管,直到出現(xiàn)想要的功能,無論是客機(jī)的自動(dòng)駕駛儀,還是皮克斯的新電影,原理都是這樣。
一種算法不僅是簡(jiǎn)單的一套指令,這些指令必須精確且不能模糊,這樣計(jì)算機(jī)才能夠執(zhí)行。例如,食譜并不算一種算法,因?yàn)槭匙V沒有明確給出做事的順序,或者具體每一步是怎樣的。一勺白糖到底是幾克?每個(gè)嘗試新食譜的人都知道,跟著食譜做,可能會(huì)做出很美味的食物,也可能會(huì)做得一塌糊涂。相比之下,算法總能得出同樣的結(jié)果。即便食譜明確指出需要半盎司白糖,計(jì)算機(jī)也不知道如何執(zhí)行,因?yàn)橛?jì)算機(jī)不知道什么是白糖、什么是盎司。如果我們想對(duì)廚用機(jī)器人編程,讓它來做蛋糕,我們要通過視頻教它如何辨認(rèn)白糖、如何拿起勺子等(我們現(xiàn)在仍在努力)。計(jì)算機(jī)必須知道如何執(zhí)行算法,直到打開及關(guān)閉指定的晶體管。因此,食譜離算法還很遠(yuǎn)。
另一方面,下面是玩井字棋的算法:
如果你或?qū)κ钟袃闪_B子,占據(jù)剩下的角落。
否則,如果兩邊有兩個(gè)連子的走法,就那樣走。
否則,如果正中央是空的,走正中央。
否則,如果你的對(duì)手走到角落,占據(jù)他的對(duì)角。
否則,如果有空白的角落,占據(jù)它。
否則,占據(jù)任意空白的角落。
這個(gè)算法有很大的優(yōu)點(diǎn),那就是它絕對(duì)不會(huì)輸。當(dāng)然,它仍忽略了許多細(xì)節(jié),比如在計(jì)算機(jī)的記憶中,棋盤如何表示,而棋的走法又如何改變這種表示方法。例如,每個(gè)角落我們有兩個(gè)比特,如果中間是空的,值就是00;如果有一個(gè)圈,值就變成01;如果有一個(gè)叉,值就變成10。即便如此,這也足夠精確、清晰,能讓有能力的編程員來填補(bǔ)被忽略的空白。它還有一個(gè)好處,就是不用我們自己指定算法,細(xì)到單個(gè)晶體管。在構(gòu)建數(shù)據(jù)存儲(chǔ)塊時(shí),我們可以使用之前存在的算法,而且有很多這樣的算法供選擇。
算法是一套嚴(yán)格的標(biāo)準(zhǔn)。人們常說,你沒法真正了解某樣?xùn)|西,直到你能用一種算法來將其表達(dá)出來(理查德·費(fèi)曼曾說,“如果我無法創(chuàng)造某樣?xùn)|西,那么也就無法理解它”)。方程式對(duì)物理學(xué)家和工程師來說就是謀生工具,而這也僅僅是一種特殊算法。例如,牛頓第二定律,可以說是有史以來最重要的等式,告訴你用物體的質(zhì)量乘以其加速度,可以算出作用在物體上的力。該定律還隱含地告訴你,加速度等于作用力除以質(zhì)量,要弄明白這一點(diǎn),只需一個(gè)運(yùn)算步驟。在科學(xué)的任何領(lǐng)域,如果某個(gè)理論無法用算法表示,那么它就不是很嚴(yán)謹(jǐn)(更別提你無法用計(jì)算機(jī)來解決這個(gè)問題,因?yàn)槟隳茏層?jì)算機(jī)替你做的事實(shí)在太有限)??茖W(xué)家提出理論,工程師制造設(shè)備,計(jì)算機(jī)科學(xué)家提出算法,這和理論及設(shè)備都有關(guān)。
設(shè)計(jì)算法并沒有那么簡(jiǎn)單。這個(gè)過程充滿陷阱,什么事都不能想當(dāng)然。如果你的一些構(gòu)建已經(jīng)出錯(cuò),就得找其他方法。設(shè)計(jì)算法最重要的一點(diǎn)就是,你得用一種計(jì)算機(jī)能理解的語言來將算法記錄下來,比如Java或者Python(從這個(gè)角度看,就是一個(gè)程序)。接下來,你得對(duì)其進(jìn)行糾錯(cuò):找出每個(gè)誤差并修正,直到計(jì)算機(jī)能夠運(yùn)行程序,而不至于搞砸。一旦你有了能完成你心愿的程序,就輕松多了。計(jì)算機(jī)會(huì)以飛快的速度,按我們的要求辦事,而且毫無怨言。世界上的每個(gè)人都能享用你的創(chuàng)作成果。如果你愿意,這個(gè)成果可以一文不收;當(dāng)然,如果你解決的問題足夠有意義,這個(gè)成果也可以讓你成為億萬富翁。程序員(創(chuàng)造算法并將其編碼的人)是一個(gè)“小神靈”,能任意創(chuàng)造不同的世界。甚至你也可以說《圣經(jīng)·創(chuàng)世記》里的神也是“程序員”:語言(而不是統(tǒng)治權(quán))才是他創(chuàng)造世界的工具。語言構(gòu)成了這個(gè)世界。當(dāng)今時(shí)代,坐在沙發(fā)上利用筆記本電腦,你就可以成為一個(gè)“神”。你完全可以想象一個(gè)世界,并實(shí)現(xiàn)它。
有朝一日,計(jì)算機(jī)科學(xué)家會(huì)互相依賴各自的成果,然后為新事物創(chuàng)造算法。這些算法會(huì)與其他算法相結(jié)合,目的是利用其他算法的成果,反過來產(chǎn)生能服務(wù)更多算法的成果。每一秒鐘,數(shù)十億計(jì)算機(jī)里的數(shù)十億晶體管會(huì)打開關(guān)閉數(shù)十億次。算法形成新型生態(tài)系統(tǒng),它將生生不息,具有無可比擬的生命多樣性。
然而,不可避免地,在這個(gè)“伊甸園”里也會(huì)有狡猾的人存在,人們稱之為“復(fù)雜性怪獸”。和九頭蛇一樣,這個(gè)復(fù)雜性怪獸有很多頭,其中一個(gè)就是空間復(fù)雜性,即為了儲(chǔ)存在計(jì)算機(jī)內(nèi)存中,一個(gè)算法所需信息的比特?cái)?shù)量。如果計(jì)算機(jī)無法提供該算法所需的內(nèi)存,那么這個(gè)算法就沒用,必須忽略。接著是邪惡的同類——時(shí)間復(fù)雜性:該算法運(yùn)行多長時(shí)間,也就是說,在產(chǎn)生想要的結(jié)果之前,算法利用及重新利用晶體管的步驟有多少。如果算法運(yùn)行時(shí)間太久,我們等不了,那么這個(gè)算法也沒用。復(fù)雜怪獸最恐怖的一面就是人類的復(fù)雜性。當(dāng)算法變得很復(fù)雜以致人類大腦已無法理解,當(dāng)算法不同部分的交互過多且過于深入時(shí),誤差就會(huì)悄然潛入。我們找不到這些誤差,也就無法糾正它們,算法也就不會(huì)做我們想做的事。即便我們讓它運(yùn)行起來,它也會(huì)停下來。對(duì)使用它的人來說,它沒必要那么復(fù)雜,而且它和其他算法也合作得不好,這為日后埋下隱患。
每位計(jì)算機(jī)科學(xué)家每天都在和“復(fù)雜性怪獸”做斗爭(zhēng)。如果科學(xué)家輸了這場(chǎng)斗爭(zhēng),復(fù)雜性就會(huì)滲入我們的生活。你可能已經(jīng)注意到,很多這樣的斗爭(zhēng)科學(xué)家已經(jīng)輸了。即便如此,我們也會(huì)繼續(xù)構(gòu)建我們的算法之塔,并迎接越來越大的挑戰(zhàn)。每一代新的算法都要在之前的基礎(chǔ)上構(gòu)建,除了這代算法的復(fù)雜性,它們還面臨之前算法的復(fù)雜性。塔會(huì)變得越來越高,會(huì)覆蓋整個(gè)世界,但它也會(huì)變得越來越脆弱,像一座紙片做的房子,隨時(shí)都會(huì)倒塌。算法里的微小誤差可能導(dǎo)致價(jià)值10億美元的火箭爆炸,或者可能導(dǎo)致停電,造成數(shù)百萬美元的損失。算法以意想不到的方式進(jìn)行交互,股票市場(chǎng)就會(huì)崩潰。
如果程序員是“小神”,復(fù)雜性怪獸就是魔鬼。慢慢地,魔鬼會(huì)贏得戰(zhàn)爭(zhēng)。
總得有個(gè)更好的方法來與魔鬼做斗爭(zhēng)。
◎?qū)W習(xí)算法入門
每個(gè)算法都會(huì)有輸入和輸出:數(shù)據(jù)輸入計(jì)算機(jī),算法會(huì)利用數(shù)據(jù)完成接下來的事,然后結(jié)果就出來了。機(jī)器學(xué)習(xí)則顛倒了這個(gè)順序:輸入數(shù)據(jù)和想要的結(jié)果,輸出的則是算法,即把數(shù)據(jù)轉(zhuǎn)換成結(jié)果的算法。學(xué)習(xí)算法能夠制作其他算法。通過機(jī)器學(xué)習(xí),計(jì)算機(jī)就會(huì)自己編寫程序,就用不到我們了。
哇!
計(jì)算機(jī)會(huì)自己編寫程序。現(xiàn)在看來這是一個(gè)強(qiáng)大的想法,甚至可能有點(diǎn)嚇人。如果計(jì)算機(jī)開始自己編程,那么我們將如何控制它們?我們會(huì)看到,人類可以很好地控制它們??赡軙?huì)有人當(dāng)即反對(duì),這聽起來太美好了,不像真的。當(dāng)然,編寫算法需要智力、創(chuàng)造力、問題解決能力,這些都是計(jì)算機(jī)沒有的。如何把機(jī)器學(xué)習(xí)與魔法區(qū)分開來?的確,今天為止,人們能編寫許多計(jì)算機(jī)無法學(xué)習(xí)的程序??闪钊烁鼮轶@訝的是,計(jì)算機(jī)卻能學(xué)習(xí)人們無法編寫出來的程序。我們會(huì)開車、會(huì)辨認(rèn)字跡,但這些技能都是潛意識(shí)發(fā)揮出來的,無法向計(jì)算機(jī)解釋這些事情是如何完成的。但是,如果我們把關(guān)于這些事情的足夠多的例子交給學(xué)習(xí)算法,該算法會(huì)很樂意弄明白怎樣獨(dú)立完成這些事情,這時(shí)我們就可以放手讓算法去做了。郵局正是通過這種方法來識(shí)別郵政編碼,自動(dòng)駕駛汽車也是這樣才得以實(shí)現(xiàn)在路上跑。
解釋機(jī)器學(xué)習(xí)的力量的最好方法,也許就是將其與其他低技術(shù)含量的活動(dòng)進(jìn)行類比。工業(yè)社會(huì),商品由工廠制造,這也意味著工程師必須弄明白商品如何通過零件組裝起來、這些零件如何生產(chǎn)等,細(xì)到生產(chǎn)原料。這是一項(xiàng)大工程。計(jì)算機(jī)是人類發(fā)明的最復(fù)雜的產(chǎn)品,計(jì)算機(jī)設(shè)計(jì)、工廠生產(chǎn)、程序運(yùn)行都涉及大量的工作。還有另外一種方法能讓我們得到一些想要的東西:讓自然規(guī)律去塑造它們。在農(nóng)業(yè)當(dāng)中,我們播種,確保種子有足夠的水分和營養(yǎng),然后收割成熟的作物。為什么技術(shù)不能這樣?完全可以,而這也是機(jī)器學(xué)習(xí)的承諾。學(xué)習(xí)算法是種子,數(shù)據(jù)是土壤,被掌握的程序是成熟的作物。機(jī)器學(xué)習(xí)專家就像農(nóng)民,播下種子,灌溉,施肥,留意作物的生長狀況,事事親力親為,而不是退居一旁。
一旦我們這樣看待機(jī)器學(xué)習(xí),隨即也會(huì)發(fā)生兩件事:
第一,我們掌握的數(shù)據(jù)越多,我們能學(xué)的也越多。沒有數(shù)據(jù)?什么也學(xué)不到。大數(shù)據(jù)?很多東西可以學(xué)習(xí)。這也是機(jī)器學(xué)習(xí)無處不在的原因,因?yàn)橛酗w速增長的數(shù)據(jù)。如果你在超市購買機(jī)器學(xué)習(xí),其包裝上可能會(huì)寫著“只需添加數(shù)據(jù)”。
第二,機(jī)器學(xué)習(xí)是一把劍,利用這把劍可以殺死復(fù)雜性怪獸。只要有足夠的數(shù)據(jù),一段只有幾百行代碼的程序可以輕易生成擁有上百萬行代碼的程序,而且它可以為解決不同問題不停產(chǎn)生不同的程序。這可以顯著降低程序員工作的復(fù)雜度。當(dāng)然,就像對(duì)付九頭蛇,我們砍掉它的頭,會(huì)立即長出新頭,但長出的頭會(huì)變小,而且頭的生長也需要時(shí)間,因此我們?nèi)杂锌赡軇俪觥?/p>
我們可以把機(jī)器學(xué)習(xí)當(dāng)作逆運(yùn)算,正如開平方是平方的逆運(yùn)算、整合是分化的逆運(yùn)算。正如我們會(huì)問“什么數(shù)的平方是16”,或者“導(dǎo)數(shù)為x+1的函數(shù)是什么”,我們也會(huì)問“什么算法會(huì)得出該結(jié)果”。我們很快會(huì)看到,怎樣將這個(gè)觀點(diǎn)運(yùn)用到具體的學(xué)習(xí)算法中。
有些學(xué)習(xí)算法學(xué)習(xí)知識(shí),有的則學(xué)習(xí)技能。“所有人都會(huì)死”是知識(shí),騎單車是技能。在機(jī)器學(xué)習(xí)中,知識(shí)往往以統(tǒng)計(jì)模型的形式出現(xiàn),因?yàn)槎鄶?shù)知識(shí)都是可以統(tǒng)計(jì)的:所有人都會(huì)死,但只有4%是美國人。技能往往以程序的形式出現(xiàn):如果馬路向左彎曲,那么向左轉(zhuǎn)動(dòng)車頭;如果一只鹿跳到你面前,那么立刻剎車(很遺憾,在寫這本書時(shí),谷歌的自動(dòng)駕駛汽車仍會(huì)把被風(fēng)吹起的塑料袋和鹿弄混)。通常,這些程序都很簡(jiǎn)單,復(fù)雜的是它們的核心知識(shí)。如果你能判斷哪些郵件是垃圾郵件,那么你也就能判斷該刪除哪些郵件。如果你能在象棋游戲中判斷這盤棋自己的優(yōu)勢(shì)在哪里,那么你也就懂得該怎么走(能讓你處于最有利地位的一步)。
機(jī)器學(xué)習(xí)有許多不同的形式,也會(huì)涉及許多不同的名字:模式識(shí)別、統(tǒng)計(jì)建模、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、預(yù)測(cè)分析、數(shù)據(jù)科學(xué)、適應(yīng)系統(tǒng)、自組織系統(tǒng)等。這些概念供不同群體使用,擁有不同的聯(lián)系。有些有很長的半衰期,有些則較短。在本書中,我用“機(jī)器學(xué)習(xí)”一詞泛指所有這些概念。
機(jī)器學(xué)習(xí)有時(shí)會(huì)和人工智能(AI)混淆。嚴(yán)格來講,機(jī)器學(xué)習(xí)是人工智能的子域,但機(jī)器學(xué)習(xí)發(fā)展得如此壯大且成功,現(xiàn)已超越以前它引以為傲的母領(lǐng)域。人工智能的目標(biāo)是教會(huì)計(jì)算機(jī)完成現(xiàn)在人類做得更好的事,而機(jī)器學(xué)習(xí)可以說就是其中最重要的事:沒有學(xué)習(xí),計(jì)算機(jī)就永遠(yuǎn)無法跟上人類的步伐;有了學(xué)習(xí),一切都與時(shí)俱進(jìn)。
在信息處理這個(gè)生態(tài)系統(tǒng)中,學(xué)習(xí)算法是頂級(jí)掠食者。數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、索引器等相當(dāng)于食草動(dòng)物,耐心地對(duì)無限領(lǐng)域中的數(shù)據(jù)進(jìn)行蠶食。統(tǒng)計(jì)算法、線上分析處理等則相當(dāng)于食肉動(dòng)物。食草動(dòng)物有必要存在,因?yàn)闆]有它們,其他動(dòng)物無法存活,但頂級(jí)掠食者有更為刺激的生活。數(shù)據(jù)爬蟲就像一頭牛,網(wǎng)頁相當(dāng)于它的草原,每個(gè)網(wǎng)頁就是一根草。當(dāng)網(wǎng)絡(luò)爬蟲進(jìn)行破壞行動(dòng)時(shí),網(wǎng)站的副本就會(huì)保存在其硬盤當(dāng)中。索引器接著做一個(gè)頁面的列表,每個(gè)詞都會(huì)出現(xiàn)在頁面當(dāng)中,這很像一本書后的索引。數(shù)據(jù)庫就像大象,又大又重,永遠(yuǎn)不會(huì)被忽略。在這些動(dòng)物當(dāng)中,耐心的野獸飛快運(yùn)轉(zhuǎn)統(tǒng)計(jì)和分析算法,壓縮并進(jìn)行選擇,將數(shù)據(jù)變?yōu)樾畔?。學(xué)習(xí)算法將這些信息吞下、消化,然后將其變成知識(shí)。
機(jī)器學(xué)習(xí)專家在計(jì)算機(jī)科學(xué)家中就是一種精英式的“神職”。許多計(jì)算機(jī)科學(xué)家,尤其是更老的那一代,并不如他們想的那樣能很好地理解機(jī)器學(xué)習(xí)。這是因?yàn)?,?jì)算機(jī)科學(xué)通常需要的是準(zhǔn)確思維,但機(jī)器學(xué)習(xí)需要的是統(tǒng)計(jì)思維。例如,如果有條規(guī)定是“垃圾郵件標(biāo)記的正確率是99%”,這并不意味存在缺陷,而可能意味這是你的最好水平,已經(jīng)很好用了。這種思維上的差別很大程度上也解釋了為什么微軟能趕上網(wǎng)景公司,但想趕上谷歌卻困難得多。說到底,瀏覽器只是一個(gè)標(biāo)準(zhǔn)的軟件,而搜索引擎則需要不同的思維模式。
之所以說機(jī)器學(xué)習(xí)研究者是超級(jí)計(jì)算機(jī)迷的另外一個(gè)原因,就是當(dāng)今世界急需他們,但他們寥寥無幾。按照計(jì)算機(jī)科學(xué)嚴(yán)格的標(biāo)準(zhǔn),這樣的人數(shù)量就更少了。蒂姆·奧萊利認(rèn)為,“數(shù)據(jù)科學(xué)家”是硅谷最熱門的職業(yè)。根據(jù)麥肯錫全球研究院估計(jì),截至2018年,僅美國就需要再培養(yǎng)14萬~19萬機(jī)器學(xué)習(xí)專家才夠用,另外還需要150萬有數(shù)據(jù)頭腦的經(jīng)理。機(jī)器學(xué)習(xí)的應(yīng)用爆發(fā)得如此突然,連教育都無法跟上其步伐,同時(shí),人才奇缺也是因?yàn)檫@門學(xué)科在人們看來很難而令人望而生畏。教科書很可能會(huì)讓你感到數(shù)學(xué)很難,然而,這個(gè)困難表面看起來很大,其實(shí)并不是。機(jī)器學(xué)習(xí)所有的重要觀點(diǎn)可以不用通過數(shù)學(xué)表示出來。當(dāng)你讀這本書時(shí),甚至可能會(huì)發(fā)現(xiàn),你發(fā)明了自己的學(xué)習(xí)算法,而且看不到一個(gè)方程式的影子。
工業(yè)革命使手工業(yè)自動(dòng)化,信息革命解放了腦力勞動(dòng),而機(jī)器學(xué)習(xí)則使自動(dòng)化本身自動(dòng)化。沒有機(jī)器學(xué)習(xí),程序員會(huì)成為阻撓進(jìn)步的障礙。有了機(jī)器學(xué)習(xí),進(jìn)步的步伐就會(huì)加快。如果你是一個(gè)懶惰又不那么聰明的計(jì)算機(jī)科學(xué)家,機(jī)器學(xué)習(xí)就是理想的職業(yè),因?yàn)閷W(xué)習(xí)算法會(huì)完成所有事情,功勞卻是你的。從另一方面講,學(xué)習(xí)算法會(huì)讓我們失業(yè),這也只是我們應(yīng)受的懲罰。
將自動(dòng)化帶入新的高度,機(jī)器學(xué)習(xí)革命會(huì)帶來廣泛的經(jīng)濟(jì)及社會(huì)變革,正如互聯(lián)網(wǎng)、個(gè)人計(jì)算機(jī)、汽車以及蒸汽機(jī)在當(dāng)時(shí)對(duì)社會(huì)和經(jīng)濟(jì)的影響那樣。這些變革已經(jīng)明顯存在的領(lǐng)域就是商業(yè)。
◎?yàn)楹紊虡I(yè)擁護(hù)機(jī)器學(xué)習(xí)
為什么谷歌比雅虎要有價(jià)值得多?它們都是用戶登錄最多的網(wǎng)站,都靠在網(wǎng)頁上登廣告賺錢。它們都用拍賣的方式銷售廣告,用機(jī)器學(xué)習(xí)來預(yù)測(cè)用戶點(diǎn)擊某廣告的概率(概率越大,廣告價(jià)值越大),但谷歌的機(jī)器學(xué)習(xí)就比雅虎要好很多。這不是它們市場(chǎng)價(jià)值差異巨大的唯一原因,卻是主要原因。如果沒有達(dá)到預(yù)測(cè)的點(diǎn)擊量,對(duì)廣告商來說就是浪費(fèi)機(jī)會(huì),對(duì)網(wǎng)站來說是收益損失。谷歌每年的收入是500億美元,預(yù)測(cè)點(diǎn)擊率每上升1%,就可能意味著每年為公司帶來額外5億美元的收入。難怪谷歌是機(jī)器學(xué)習(xí)的鐵桿粉絲,雅虎和其他公司也在奮起直追。
網(wǎng)絡(luò)營銷僅僅是巨大變革中的一種表現(xiàn)形式。無論什么市場(chǎng),生產(chǎn)商和用戶在交易發(fā)生之前,都需要進(jìn)行聯(lián)系。在互聯(lián)網(wǎng)出現(xiàn)之前,交易的主要障礙就是實(shí)地交易。你只能從當(dāng)?shù)氐臅曩徺I書籍,而當(dāng)?shù)貢甑臅芸臻g又有限。但當(dāng)你可以隨時(shí)把所有書下載到電子閱讀器時(shí),問題就變成了可供選擇的書太多。你怎么瀏覽書店里上百萬不同名字的書?同樣的問題也出現(xiàn)在其他信息產(chǎn)品當(dāng)中:視頻、音樂、新聞、推特文章、博客、網(wǎng)頁。這個(gè)問題還會(huì)出現(xiàn)在能夠遠(yuǎn)程購買的產(chǎn)品和服務(wù)當(dāng)中:鞋子、鮮花、小配件、酒店房間、輔導(dǎo)、投資。人們?cè)谡夜ぷ骰蛱羧兆訒r(shí),也會(huì)遇到選擇過多的問題。你們?nèi)绾握业奖舜??這是信息時(shí)代的定義問題,而機(jī)器學(xué)習(xí)就是問題解決方案的主要部分。
當(dāng)公司不斷發(fā)展壯大后,它會(huì)經(jīng)歷三個(gè)階段:
第一階段的所有事都由人工完成——夫妻店的店主親自了解其顧客,他們依照顧客類型訂購、展示、推薦產(chǎn)品。這很不錯(cuò),但規(guī)模不大。
第二階段是最辛苦的時(shí)期,公司變得越來越大,需要用到計(jì)算機(jī)。公司招來程序員、顧問,買來數(shù)據(jù)庫管理器,程序員編寫了成百萬行的代碼來使公司所有能自動(dòng)化的功能自動(dòng)化。更多的人享受到服務(wù),但也有麻煩:決定是在粗略的人口統(tǒng)計(jì)類別的基礎(chǔ)上做出來的,計(jì)算機(jī)程序也過于死板,無法與人類無限的才能相匹配。
經(jīng)過一段時(shí)間進(jìn)入第三階段,沒有足夠的程序員和顧問滿足公司的需要,因此公司不可避免地向機(jī)器學(xué)習(xí)尋求幫助。亞馬遜無法通過計(jì)算機(jī)程序?qū)⑺杏脩舻南埠檬炀毜剡M(jìn)行編碼,臉書也不知道如何編寫這樣的程序,能選擇最好的更新內(nèi)容展示給每位用戶。沃爾瑪每天銷售百萬件商品,還要做數(shù)十億個(gè)選擇。如果沃爾瑪?shù)某绦騿T努力編寫出能夠做所有選擇的程序,這些選擇就不用人來做了。相反,這些公司所做的工作是,它們?cè)谑占饺缟降臄?shù)據(jù)后,讓學(xué)習(xí)算法盡情學(xué)習(xí),然后預(yù)測(cè)顧客想要什么產(chǎn)品。
學(xué)習(xí)算法就是“媒人”:它們讓生產(chǎn)商和顧客找到對(duì)方,克服信息過載。如果這些算法足夠智能,你就能取得兩全其美的結(jié)果:從宏觀來講,選擇廣、成本低;從微觀來講,能夠了解顧客的個(gè)性化需求。學(xué)習(xí)算法并不是完美的,決定的最后一步通常還得由人來做,但學(xué)習(xí)算法很智能,為人們減少了需要做的選擇。
回顧過去,我們看到,從計(jì)算機(jī)到互聯(lián)網(wǎng)再到機(jī)器學(xué)習(xí)的進(jìn)步是必然的:計(jì)算機(jī)使互聯(lián)網(wǎng)成為可能,這個(gè)過程產(chǎn)生大量數(shù)據(jù)以及無限選擇這個(gè)問題。單單互聯(lián)網(wǎng)還不足以把“一個(gè)尺寸滿足所有”的需求轉(zhuǎn)向追求無限多樣化的長尾效應(yīng)。網(wǎng)飛公司的庫存里可能有10萬種不同名字的DVD(數(shù)字多功能光盤),但如果顧客不懂得如何找到自己喜歡的,他們就會(huì)默認(rèn)選擇最流行的DVD。只有網(wǎng)飛公司有了學(xué)習(xí)算法之后,才能幫助它了解顧客的喜好,并推薦DVD,長尾效應(yīng)也才得以真正實(shí)現(xiàn)。
一旦必然的事情發(fā)生,機(jī)器學(xué)習(xí)成為媒介,那么其力量也開始慢慢積聚。谷歌的算法很大程度上決定你會(huì)找到什么信息,亞馬遜決定你會(huì)買到什么產(chǎn)品,全球最大的婚戀網(wǎng)站默契網(wǎng)(Match.com)決定你的約會(huì)對(duì)象是誰。最好的選擇權(quán)仍在你手里——從算法給你展示的所有選項(xiàng)中挑選,但99.9%的選擇由算法做出。當(dāng)下,一家公司的成敗取決于學(xué)習(xí)算法對(duì)其產(chǎn)品的喜愛程度,而整個(gè)經(jīng)濟(jì)體的成功——是否每個(gè)人都能得到自己需要的物美價(jià)廉的產(chǎn)品,則取決于學(xué)習(xí)算法的好用程度。
公司確保學(xué)習(xí)算法喜愛其產(chǎn)品的最佳方法就是,讓公司自己運(yùn)行算法。誰有最佳算法、數(shù)據(jù)最多,誰就能贏。新型網(wǎng)絡(luò)效應(yīng)占據(jù)上風(fēng):誰有最多的用戶,誰就能積累最多的數(shù)據(jù),誰有最多的數(shù)據(jù),誰就能學(xué)到最好的模型,誰學(xué)到最好的模型,誰就能吸引最多的用戶,這是一種良性循環(huán)(如果你在競(jìng)爭(zhēng),就會(huì)變成惡性循環(huán))。把搜索引擎從谷歌轉(zhuǎn)換到必應(yīng),可能會(huì)比把應(yīng)用系統(tǒng)從Windows切換到Mac要簡(jiǎn)單,但在實(shí)際操作中,你不會(huì)這么做,因?yàn)楣雀钃碛蓄I(lǐng)先優(yōu)勢(shì)及更大的市場(chǎng)份額,比必應(yīng)更懂得你想要什么,雖然必應(yīng)的技術(shù)也不錯(cuò)??上У氖?,必應(yīng)剛進(jìn)入搜索行業(yè),沒有什么數(shù)據(jù)資源,而谷歌卻擁有十余年的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)。
你可能會(huì)認(rèn)為,過一段時(shí)間,更多的數(shù)據(jù)結(jié)果意味著更多的重復(fù),但數(shù)據(jù)的飽和點(diǎn)還未出現(xiàn),長尾效應(yīng)持續(xù)起作用。如果你看亞馬遜或網(wǎng)飛公司為你提供的推薦產(chǎn)品,很明顯,這些推薦項(xiàng)仍很粗略,而谷歌的搜索結(jié)果也有很大的優(yōu)化空間。每個(gè)產(chǎn)品的特性、網(wǎng)頁的每個(gè)角落都有很大的潛力,能通過機(jī)器學(xué)習(xí)得到改善。網(wǎng)頁底部的鏈接應(yīng)該是紅色的還是藍(lán)色的??jī)蓚€(gè)顏色都試試,看看哪個(gè)顏色的點(diǎn)擊率會(huì)更高。還有,最好讓機(jī)器學(xué)習(xí)持續(xù)運(yùn)行,不斷調(diào)整網(wǎng)頁的所有方面。
所有擁有眾多選擇和大量數(shù)據(jù)的市場(chǎng)都會(huì)發(fā)生這樣的動(dòng)態(tài)循環(huán)。比賽正在進(jìn)行,誰學(xué)得最快,誰就贏了。隨著越來越好地了解用戶需求,這個(gè)比賽不會(huì)停止:企業(yè)可以將機(jī)器學(xué)習(xí)應(yīng)用到企業(yè)運(yùn)作的每個(gè)方面,只要有足夠的數(shù)據(jù),只要數(shù)據(jù)能夠從計(jì)算機(jī)、通信設(shè)備以及更廉價(jià)、更普適的傳感器源源不斷地輸出?!皵?shù)據(jù)是新型石油”是目前的流行說法,既然是石油,提煉石油就是一筆大生意。和其他公司一樣,IBM已制定經(jīng)濟(jì)增長戰(zhàn)略,為企業(yè)提供分析服務(wù)。業(yè)界將數(shù)據(jù)看作戰(zhàn)略資產(chǎn):我有什么數(shù)據(jù),而競(jìng)爭(zhēng)對(duì)手卻沒有?我要怎么利用這些數(shù)據(jù)?競(jìng)爭(zhēng)對(duì)手有什么數(shù)據(jù),而我卻沒有?
同樣的道理,沒有數(shù)據(jù)庫的銀行無法和有數(shù)據(jù)庫的銀行競(jìng)爭(zhēng),沒有機(jī)器學(xué)習(xí)的企業(yè)也無法跟上使用機(jī)器學(xué)習(xí)的企業(yè)。雖然第一家公司的專家寫了上千條規(guī)則,預(yù)測(cè)用戶的喜好,但是第二家公司的算法卻能學(xué)習(xí)數(shù)十億條規(guī)則,一整套規(guī)則都可用于每位用戶。這就相當(dāng)于長矛對(duì)機(jī)關(guān)槍。機(jī)器學(xué)習(xí)是很棒的新技術(shù),但這并不是商業(yè)界擁護(hù)它的原因——人們之所以擁護(hù)它,是因?yàn)閯e無選擇。
◎給科學(xué)方法增壓
機(jī)器學(xué)習(xí)是“打了類固醇”的科學(xué)方法,也遵循同樣的過程:產(chǎn)生假設(shè)、驗(yàn)證、放棄或完善??茖W(xué)家可能會(huì)花費(fèi)畢生精力來提出或驗(yàn)證幾百個(gè)假設(shè),而機(jī)器學(xué)習(xí)系統(tǒng)卻能在一秒鐘內(nèi)做完這些事。機(jī)器學(xué)習(xí)使科學(xué)的發(fā)現(xiàn)過程自動(dòng)化。因此,并不奇怪,這既是商業(yè)領(lǐng)域的革命,也是科學(xué)領(lǐng)域的革命。
為了取得進(jìn)步,科學(xué)的每個(gè)領(lǐng)域都需要足夠的數(shù)據(jù),以與其研究現(xiàn)象的復(fù)雜性相對(duì)應(yīng)。這是物理成為第一個(gè)騰飛學(xué)科的原因:第谷·布拉赫對(duì)星球位置的記錄,以及伽利略對(duì)鐘擺擺動(dòng)、斜面的觀察,已經(jīng)足以推導(dǎo)出牛頓定律。這也是為什么雖然分子生物學(xué)這個(gè)學(xué)科比神經(jīng)科學(xué)年輕,但是已超越神經(jīng)科學(xué):DNA(脫氧核糖核酸)微陣列以及高通量測(cè)序技術(shù)提供了大量的數(shù)據(jù),而神經(jīng)科學(xué)家對(duì)此只能可望而不可即。這也是為什么社會(huì)科學(xué)研究是一場(chǎng)艱苦卓絕的斗爭(zhēng):你擁有的只是100人的樣本和每個(gè)人的十幾個(gè)測(cè)量值,你能模擬的也只是某個(gè)規(guī)模很有限的現(xiàn)象,甚至這個(gè)現(xiàn)象可能不是孤立存在的,還受到其他現(xiàn)象的影響,這就意味你仍然沒有徹底了解它。
有個(gè)好消息,那就是之前缺乏數(shù)據(jù)的學(xué)科現(xiàn)在擁有很多數(shù)據(jù)。用不著讓50名睡眼惺忪的本科生到實(shí)驗(yàn)室完成任務(wù)并付給他們報(bào)酬,心理學(xué)家通過在亞馬遜“土耳其機(jī)器人”上發(fā)布實(shí)驗(yàn)任務(wù),就可以找到滿足他們數(shù)量要求的實(shí)驗(yàn)對(duì)象(這個(gè)網(wǎng)站對(duì)更多樣化的樣本也有幫助)。雖然回想起來越來越困難,但也只是10年前,研究社交網(wǎng)絡(luò)的社會(huì)學(xué)家哀嘆說,他們無法得到成員超過幾百人的社交網(wǎng)絡(luò)。現(xiàn)在有了臉書,有超過10億用戶。大部分用戶會(huì)發(fā)布有關(guān)他們生活的很多細(xì)節(jié),就像地球社會(huì)生活的實(shí)時(shí)直播。在神經(jīng)科學(xué)領(lǐng)域,神經(jīng)連接組學(xué)和功能性磁共振成像讓人們對(duì)大腦有了十分詳細(xì)的了解。在分子生物學(xué)領(lǐng)域,基因和蛋白質(zhì)的數(shù)據(jù)庫數(shù)量以指數(shù)級(jí)速度增長。甚至更為“年長”的學(xué)科,如物理學(xué)和解剖學(xué)也在不斷進(jìn)步,因?yàn)榱W蛹铀倨骱蛿?shù)字巡天領(lǐng)域的數(shù)據(jù)在源源不斷輸出。
如果你不將大數(shù)據(jù)變成知識(shí),它將毫無用處,可是世界上沒有那么多科學(xué)家來完成這件事。埃德溫·哈勃通過鉆研照相底片發(fā)現(xiàn)新的星系,但史隆數(shù)字巡天計(jì)劃中,多達(dá)5億的天體肯定不是這樣被辨認(rèn)出來的。這就像在沙灘上用手來數(shù)沙粒的數(shù)目。你可以記錄規(guī)則,把星系從星星及干擾物(如鳥、飛機(jī)、超人)區(qū)分開來,但得出的星系并不是那么準(zhǔn)確。相比之下,天體圖像目錄編輯和分析工具(SKICAT)項(xiàng)目使用了學(xué)習(xí)算法。底片包括標(biāo)記了正確類別的天體,從這些底片出發(fā),學(xué)習(xí)算法可以明白每個(gè)分類的特點(diǎn),并將其應(yīng)用到?jīng)]有標(biāo)記的底片當(dāng)中。甚至更理想的是,學(xué)習(xí)算法能夠?qū)⒛切?duì)人類來說難以標(biāo)記的天體進(jìn)行分類,這些天體正是該項(xiàng)調(diào)查計(jì)劃的主要內(nèi)容。
有了大數(shù)據(jù)和機(jī)器學(xué)習(xí),你就能弄明白比之前復(fù)雜很多的現(xiàn)象。在多數(shù)領(lǐng)域,科學(xué)家一般只使用種類很有限的模型,例如線性回歸模型,在這個(gè)模型當(dāng)中,你用來適應(yīng)數(shù)據(jù)的曲線總是一條直線。遺憾的是,世界上的大多數(shù)現(xiàn)象都是非線性的(或者說這也是一件幸事,如果是線性的,生活會(huì)變得非常乏味。實(shí)際上,那樣就不會(huì)存在生命了)。機(jī)器學(xué)習(xí)打開了廣闊、全新的非線性模型世界。這就好比在只有幾縷月光照射的房間,打開了明亮的燈。
在生物學(xué)領(lǐng)域,學(xué)習(xí)算法的研究成果包括:DNA分子中基因的位置;在蛋白質(zhì)合成前,多余的核糖核酸在哪里進(jìn)行絞接;蛋白質(zhì)如何折疊成各自的特有形狀;不同條件如何對(duì)基因的表達(dá)造成影響。用不著在實(shí)驗(yàn)室對(duì)新藥進(jìn)行測(cè)試,機(jī)器學(xué)習(xí)就可以預(yù)測(cè)這些藥物是否有效,只有最有效的藥品才會(huì)受到測(cè)試。學(xué)習(xí)算法還會(huì)剔除那些可能產(chǎn)生嚴(yán)重副作用(甚至導(dǎo)致癌癥)的藥物,備選藥物無須在經(jīng)過人體試驗(yàn)被證明無效后才被禁止使用,從而避免了代價(jià)昂貴的失敗。
然而,最大的挑戰(zhàn)就是將所有這些數(shù)據(jù)組合成一個(gè)整體。導(dǎo)致你患心臟病的因素有哪些?這些因素如何相互影響?牛頓需要的只是三個(gè)運(yùn)動(dòng)定律和一個(gè)萬有引力定律,但一個(gè)細(xì)胞、一個(gè)有機(jī)體、一個(gè)社會(huì)的完整模型卻無法由一個(gè)人來發(fā)現(xiàn)。雖然隨著知識(shí)的增長,科學(xué)家的分工變得越來越細(xì),但是沒有人能夠?qū)⑺兄R(shí)整合到一起,因?yàn)橹R(shí)太多了。雖然科學(xué)家們會(huì)合作,但語言是傳播速度非常緩慢的介質(zhì)。雖然科學(xué)家們想努力追上別人的研究,但出版物的數(shù)量如此之多,他們的距離被拉得越來越遠(yuǎn)。通常是,重做一項(xiàng)實(shí)驗(yàn)比找到該實(shí)驗(yàn)的報(bào)告還要容易。機(jī)器學(xué)習(xí)在這時(shí)就會(huì)起作用,它能根據(jù)相關(guān)信息搜索文獻(xiàn),將某領(lǐng)域的行話翻譯到另一個(gè)領(lǐng)域,并建立聯(lián)系,而科學(xué)家們?cè)谶^去都沒有意識(shí)到。漸漸地,機(jī)器學(xué)習(xí)成為一個(gè)巨大的中心,通過這個(gè)中心,某領(lǐng)域里發(fā)明的建模技術(shù)將會(huì)被引入其他領(lǐng)域。
如果計(jì)算機(jī)沒有被發(fā)明出來,20世紀(jì)下半葉的科學(xué)將停滯不前。這可能不會(huì)很快在科學(xué)家當(dāng)中表現(xiàn)出來,因?yàn)樗麄儗W⒂谒腥钥膳?shí)現(xiàn)、有限的進(jìn)步,但進(jìn)步的空間真的太小了。同樣,如果沒有機(jī)器學(xué)習(xí),許多科學(xué)在未來10年將會(huì)面臨收益遞減。
為了預(yù)見科學(xué)的未來,看看曼徹斯特大學(xué)生物技術(shù)研究院的實(shí)驗(yàn)室,在那里,一個(gè)名叫亞當(dāng)?shù)臋C(jī)器人正在努力工作,目的是找到哪些基因在酵母中對(duì)哪些酶進(jìn)行編碼。亞當(dāng)有一個(gè)酵母新陳代謝的模型,還掌握了基本的基因及蛋白質(zhì)知識(shí)。它提出假設(shè),設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證假設(shè),進(jìn)行實(shí)地實(shí)驗(yàn),分析結(jié)果,提出新的假設(shè),直到它滿意為止。當(dāng)下,人類科學(xué)家仍然在獨(dú)立檢查亞當(dāng)?shù)慕Y(jié)果,然后才會(huì)相信這些結(jié)果,但在未來,他們就會(huì)交給機(jī)器人科學(xué)家來驗(yàn)證彼此的假設(shè)。
◎10億個(gè)比爾·克林頓
在2012年的美國總統(tǒng)選舉中,機(jī)器學(xué)習(xí)決定了誰能當(dāng)上總統(tǒng)。通常決定總統(tǒng)選舉的因素包括經(jīng)濟(jì)、候選人的親民度等,但這些因素沒有起到作用,而選舉的結(jié)果主要受到幾個(gè)“搖擺州”的影響。米特·羅姆尼的競(jìng)選采用的是傳統(tǒng)的投票策略,將選民分成幾大類,然后選擇是否把每個(gè)類別作為目標(biāo)。尼爾·紐豪斯(羅姆尼的民意調(diào)查專家)說道:“如果我們能在俄亥俄州贏得無黨派人士,那么這場(chǎng)競(jìng)賽我們就贏了?!彪m然羅姆尼獲得了7%無黨派人士的支持,但他仍失去了這個(gè)州,在競(jìng)選中失利。
相比之下,奧巴馬總統(tǒng)雇用了拉伊德·賈尼(機(jī)器學(xué)習(xí)專家,他是奧巴馬競(jìng)選中的首席科學(xué)家)。賈尼研究的是如何整合最偉大的分析運(yùn)算,并將其應(yīng)用到政治史中。他們將所有選民的信息整合成單個(gè)數(shù)據(jù)庫,然后將該數(shù)據(jù)庫和他們能在社交網(wǎng)絡(luò)、市場(chǎng)營銷等領(lǐng)域找到的資源結(jié)合起來。之后著手對(duì)每個(gè)選民做四種預(yù)測(cè):(1)支持奧巴馬的可能性有多大;(2)會(huì)不會(huì)參加民意調(diào)查;(3)會(huì)不會(huì)回應(yīng)競(jìng)選宣傳并照做;(4)對(duì)特定問題進(jìn)行對(duì)話之后,他們會(huì)不會(huì)改變選舉決定?;谶@些選民的例子,奧巴馬團(tuán)隊(duì)每個(gè)晚上進(jìn)行66000場(chǎng)選舉模擬,并用這些結(jié)果指導(dǎo)奧巴馬競(jìng)選的志愿者大軍:該給誰打電話,該拜訪誰,該說什么。
在政界、商界以及戰(zhàn)爭(zhēng)中,最糟糕的事情莫過于,你不明白對(duì)手的行動(dòng),而知道該怎么做時(shí),為時(shí)已晚。這就是發(fā)生在羅姆尼競(jìng)選中的事情,他們能看到對(duì)手的團(tuán)隊(duì)在特定鎮(zhèn)的特定電臺(tái)花錢做宣傳,卻不知道這是為什么,他們能預(yù)測(cè)的實(shí)在太少。最后,奧巴馬除了北卡羅來納州以外,贏得了每個(gè)州,而且與最可靠的民意調(diào)查專家的預(yù)測(cè)相比,他贏得了更多。反過來,最可靠的民意調(diào)查專家(例如內(nèi)特·希爾)使用的是最復(fù)雜的預(yù)測(cè)技術(shù),預(yù)測(cè)結(jié)果卻沒有奧巴馬競(jìng)選團(tuán)隊(duì)的結(jié)果準(zhǔn)確,因?yàn)樗麄兊馁Y源比較少。但他們比那些所謂的權(quán)威人士要準(zhǔn)確很多,因?yàn)槟切┤说念A(yù)測(cè)只是基于他們自己的專業(yè)知識(shí)。
也許你會(huì)認(rèn)為,2012年的美國總統(tǒng)競(jìng)選只是機(jī)緣巧合:大多數(shù)選舉結(jié)果并不那么接近,機(jī)器學(xué)習(xí)無法成為決定因素。但未來機(jī)器學(xué)習(xí)會(huì)讓更多的選舉結(jié)果更接近。在政界,正如在所有領(lǐng)域那樣,學(xué)習(xí)就像一場(chǎng)掰手腕比賽。在卡爾·羅夫(前直銷商和數(shù)據(jù)挖掘工程師)的年代,共和黨是領(lǐng)先的。到了2012年,共和黨開始掉隊(duì),但現(xiàn)在他們又追上來了。我們不知道下一輪選舉誰會(huì)領(lǐng)先,但我們知道兩個(gè)黨派為了贏得選舉都很努力。這也就意味著,應(yīng)該更好地了解選民,根據(jù)候選人的情況進(jìn)行宣傳,甚至根據(jù)實(shí)際情況選擇候選人。在選舉期間以及每輪選舉之間,這適用于整個(gè)黨綱:在硬數(shù)據(jù)的基礎(chǔ)上,如果詳細(xì)的選民模式表明該黨派現(xiàn)在的綱領(lǐng)是失敗的,那么該黨派就應(yīng)改變它。因此,把主要選舉活動(dòng)放到一邊,民意調(diào)查中候選人的差距會(huì)變得越來越小,而且很快會(huì)消失。其他條件不變,擁有更好選民模式的候選人會(huì)贏得選舉,而選民也會(huì)因此得到更好的服務(wù)。
政治家最偉大的才能之一,就是能夠了解其選民個(gè)人或者選民團(tuán)體,然后直接與他們對(duì)話,比爾·克林頓就是其中的一個(gè)典范。機(jī)器學(xué)習(xí)的作用就是,讓每位選民都覺得克林頓對(duì)待他們親力親為、非常用心。盡管他們心目中的這些小小克林頓與真的克林頓相差太遠(yuǎn)了,但優(yōu)勢(shì)在于“小克林頓”的數(shù)量眾多,哪怕比爾·克林頓根本無法了解美國的每位選民是怎么想的(雖然他確實(shí)想知道)。學(xué)習(xí)算法是最強(qiáng)大的政治家推銷商。
當(dāng)然,就像企業(yè)一樣,政治家能把機(jī)器學(xué)習(xí)掌握的信息用好,也可能會(huì)用得很糟糕。例如,對(duì)不同的選民,他們可能會(huì)給出不一致的承諾,但選民、媒體、監(jiān)督組織也會(huì)自己進(jìn)行數(shù)據(jù)挖掘,并揭露做得太過分的政治家。競(jìng)選活動(dòng)不僅僅是候選人之間的較量,還涉及民主進(jìn)程中的所有參與者。
更大范圍的結(jié)果就是,民主會(huì)更好地得到實(shí)現(xiàn),因?yàn)檫x民與政治家之間交流的范圍會(huì)飛速擴(kuò)大。在當(dāng)今這個(gè)高速互聯(lián)網(wǎng)時(shí)代,民意代表從你身上獲取的信息數(shù)量仍像19世紀(jì)時(shí)一樣有限:每?jī)赡陼?huì)有100比特左右的信息,數(shù)量正好對(duì)應(yīng)一張選票。這些信息會(huì)由民意信息來補(bǔ)充,或許偶爾還會(huì)有電子郵件和市民大會(huì)的信息,但還是少得可憐。大數(shù)據(jù)和機(jī)器學(xué)習(xí)正改變這種等式關(guān)系。在未來,只要選民模式準(zhǔn)確,當(dāng)選官員就可以每天詢問選民上千次想要什么,然后根據(jù)詢問結(jié)果來辦事,不用在現(xiàn)實(shí)中糾纏選民。
◎?qū)W習(xí)算法與國家安全
在網(wǎng)絡(luò)空間之外,學(xué)習(xí)算法是保護(hù)國家的壁壘。每天,國外襲擊者都會(huì)企圖闖進(jìn)五角大樓、國防承包商以及其他公司和政府機(jī)構(gòu)的計(jì)算機(jī)。他們的計(jì)謀不斷變化,能抵抗昨天襲擊的方法,今天就已經(jīng)不管用了。編寫代碼來偵查并阻止每場(chǎng)襲擊,可能會(huì)和馬其諾防線一樣有效,五角大樓的網(wǎng)絡(luò)司令部十分了解這一點(diǎn)。但如果是恐怖分子的第一次襲擊,而且也沒有之前的例子供機(jī)器學(xué)習(xí)來參考,那么機(jī)器學(xué)習(xí)就會(huì)遇到問題。學(xué)習(xí)算法會(huì)構(gòu)建正常行為的模型(這樣的模型數(shù)量很多),標(biāo)出異常行為,然后召集來“騎兵”(系統(tǒng)管理員)。如果網(wǎng)絡(luò)戰(zhàn)爭(zhēng)發(fā)生,人類就是總指揮,算法就是步兵。人類速度太慢、數(shù)量太少,很快就會(huì)被機(jī)器人大軍殲滅。我們需要自己的機(jī)器人軍隊(duì),而機(jī)器學(xué)習(xí)就像機(jī)器人中的西點(diǎn)軍校。
網(wǎng)絡(luò)戰(zhàn)爭(zhēng)是不對(duì)稱戰(zhàn)爭(zhēng)的一個(gè)例子,一方的傳統(tǒng)軍事實(shí)力比不上另一方,但仍然可以給對(duì)方造成嚴(yán)重傷害。少數(shù)恐怖分子只用美工刀就可以撞到雙子塔,并讓幾千名無辜者遇難。當(dāng)今美國安全最大的威脅就是不對(duì)稱戰(zhàn)爭(zhēng),而且抵抗所有威脅的有效武器就是信息。如果敵人躲不了,那么他也活不了。好消息就是我們有大量信息,但也有壞消息。
美國國家安全局已經(jīng)對(duì)數(shù)據(jù)產(chǎn)生無限大的胃口,也因此聲名狼藉。據(jù)估計(jì),每天美國國家安全局竊聽著全球10億多個(gè)通話,還有其他通信。但是,拋開隱私問題,它也沒有讓上百萬員工來竊聽這些通話、偷看郵件,甚至也不會(huì)記錄誰和誰通話。絕大多數(shù)通話是沒有嫌疑的,而專門編寫程序來找出有嫌疑的通話又很困難。過去,美國國家安全局利用關(guān)鍵詞配對(duì)方法,但要應(yīng)付這個(gè)方法也很容易(例如,把爆炸襲擊稱作“結(jié)婚”,把炸彈稱作“結(jié)婚蛋糕”)。21世紀(jì),這些事就可以交給機(jī)器學(xué)習(xí)。保密是安全局的標(biāo)志,但安全局局長已經(jīng)向美國國會(huì)證明,通話記錄挖掘已經(jīng)阻止了幾十起恐怖威脅。
恐怖分子可隱藏在足球比賽的人群中,但學(xué)習(xí)算法能辨認(rèn)他們的相貌。恐怖分子可以在國外制造爆炸事件,但學(xué)習(xí)算法能找出他們。學(xué)習(xí)算法還可以做更加精細(xì)的事情:將機(jī)器人與事件連接起來,這些事件單個(gè)看起來并無危害,但集中起來可能就預(yù)示著不祥。這種方法本可以阻止“9·11”事件的發(fā)生。有一個(gè)進(jìn)一步的轉(zhuǎn)折:一旦確定的程序部署下來,壞人可能會(huì)改變其活動(dòng),以擾亂該程序。這與自然世界不同,自然世界總是以同樣的方式運(yùn)轉(zhuǎn)。要解決這個(gè)問題,就要將機(jī)器學(xué)習(xí)與博弈論相結(jié)合,這是我已經(jīng)在做的工作:別只想著打擊對(duì)手當(dāng)前想做的事,要學(xué)會(huì)巧妙地回避對(duì)手對(duì)你的學(xué)習(xí)算法的損害。正如博弈論那樣,把各種措施的成本和利益考慮在內(nèi),這也有助于找到隱私與安全之間的平衡點(diǎn)。
不列顛之戰(zhàn)期間,英國空軍阻止了納粹德國空軍的進(jìn)攻,盡管后者人數(shù)比前者多很多。德國飛行員不明白,為什么無論走到哪里,他們總會(huì)碰上英國空軍。英國有一個(gè)秘密武器:雷達(dá),可以在德國飛機(jī)越境進(jìn)入英國領(lǐng)空時(shí),就探測(cè)到它們。機(jī)器學(xué)習(xí)就像裝了雷達(dá),能夠預(yù)知未來。別只是回?fù)魧?duì)手的行動(dòng),要預(yù)測(cè)他們的行動(dòng),并先發(fā)制人。
一個(gè)更確切的例子就是人們熟知的“預(yù)知執(zhí)法”。通過預(yù)測(cè)犯罪傾向,戰(zhàn)略性地將巡邏隊(duì)集中在最可能需要的地方,同時(shí)采取其他預(yù)防措施,這樣一座城市的警力就能有效地完成更大范圍的工作。在許多方面,執(zhí)法過程就像不對(duì)稱戰(zhàn)爭(zhēng),會(huì)用到許多相似的學(xué)習(xí)算法,無論是在偵查詐騙、揭露犯罪網(wǎng)絡(luò),還是普通傳統(tǒng)的打擊執(zhí)法中。
機(jī)器學(xué)習(xí)在戰(zhàn)爭(zhēng)中也將扮演越來越重要的角色。學(xué)習(xí)算法能有助于驅(qū)散戰(zhàn)爭(zhēng)迷霧,篩選偵察圖像,處理后續(xù)報(bào)告,并整合信息,為指揮官提供戰(zhàn)爭(zhēng)形勢(shì)分析。學(xué)習(xí)算法可以武裝軍用機(jī)器人的大腦,幫助其保持方位,適應(yīng)地形,把敵機(jī)和民用機(jī)區(qū)別開來,以及進(jìn)行制導(dǎo)。美國國防部高級(jí)研究計(jì)劃局(DARPA)的領(lǐng)頭狗(AlphaDog)能為士兵搬運(yùn)設(shè)備。遙控飛機(jī)在學(xué)習(xí)算法的作用下可自主飛行。雖然它們?nèi)允艿饺祟愶w行員的部分控制,但未來的趨勢(shì)是一個(gè)飛行員監(jiān)控越來越多的遙控飛機(jī)群。在未來的軍隊(duì)里,學(xué)習(xí)算法的數(shù)量會(huì)大大超過士兵的人數(shù),這將減少許多士兵的傷亡。
◎我們將走向何方
科技潮流奔涌而來并迅猛向前。機(jī)器學(xué)習(xí)不同尋常的一點(diǎn)就是,在經(jīng)歷所有這些變革以及繁榮和破產(chǎn)之后,它開始逐漸強(qiáng)大。它遇到的第一個(gè)大的打擊是在金融領(lǐng)域,預(yù)測(cè)股票的起伏波動(dòng),起于20世紀(jì)80年代。接下來的一波是挖掘企業(yè)數(shù)據(jù)庫,在20世紀(jì)90年代中開始發(fā)展壯大,尤其是在直接營銷、客戶關(guān)系管理、資信評(píng)分以及詐騙偵查等領(lǐng)域。接著是網(wǎng)絡(luò)和電子商務(wù),在這些領(lǐng)域中,自動(dòng)個(gè)性化很快流行起來。當(dāng)互聯(lián)網(wǎng)泡沫暫時(shí)削弱這種趨勢(shì)時(shí),將機(jī)器學(xué)習(xí)應(yīng)用到網(wǎng)頁搜索和廣告投放的做法開始騰飛起來。不管怎樣,“9·11”恐怖襲擊后機(jī)器學(xué)習(xí)被應(yīng)用到打擊恐怖主義的戰(zhàn)爭(zhēng)中。網(wǎng)絡(luò)2.0帶來一連串的新應(yīng)用,包括挖掘社交網(wǎng)絡(luò)、搜索哪些博客談到你的產(chǎn)品。同時(shí),各個(gè)領(lǐng)域的科學(xué)家也逐漸轉(zhuǎn)向大規(guī)模建模,由分子生物學(xué)家和天文學(xué)家打頭陣。人們勉強(qiáng)留意到了房地產(chǎn)泡沫,而其主要影響就是使人才從華爾街轉(zhuǎn)移到硅谷,并受到歡迎。2011年,“大數(shù)據(jù)”的概念流行起來,機(jī)器學(xué)習(xí)被明確歸入全球經(jīng)濟(jì)未來的中心。當(dāng)今,似乎沒有哪個(gè)人類鉆研的領(lǐng)域不受到機(jī)器學(xué)習(xí)的影響,甚至包括看起來沒有多大關(guān)系的領(lǐng)域(如音樂、體育、品酒)。
盡管機(jī)器學(xué)習(xí)發(fā)展很明顯,但這也僅僅是未來的預(yù)告。雖然它有用,但實(shí)際上當(dāng)今在工業(yè)上起作用的學(xué)習(xí)算法的生成還是受到了很大限制。如果現(xiàn)在實(shí)驗(yàn)室的算法能在各領(lǐng)域的前線使用,比爾·蓋茨說機(jī)器學(xué)習(xí)的突破產(chǎn)生的價(jià)值將相當(dāng)于10家微軟,其實(shí)這個(gè)說法有點(diǎn)保守了。如果這些觀點(diǎn)讓研究人員真正覺得眼前一片光明,而且收到效果,那么機(jī)器學(xué)習(xí)帶來的就不僅僅是新的文明時(shí)代,還是地球生命進(jìn)化的新階段。
怎樣才能實(shí)現(xiàn)這個(gè)目標(biāo)?學(xué)習(xí)算法如何運(yùn)行?現(xiàn)在它們不能做什么?它們的下一代會(huì)是怎樣的?機(jī)器學(xué)習(xí)革命將以什么方式呈現(xiàn)?你得抓住哪些機(jī)遇,提防哪些危險(xiǎn)?這些就是這本書要講的內(nèi)容。
- 智能制造系統(tǒng)中的建模與仿真:系統(tǒng)工程與仿真的融合
- 虛擬現(xiàn)實(shí):商業(yè)化應(yīng)用及影響
- AI辦公高手速成:工具與提效技巧大全
- 劫持
- 人工智能實(shí)戰(zhàn)進(jìn)階導(dǎo)引
- 深度學(xué)習(xí)之人臉圖像處理:核心算法與案例實(shí)戰(zhàn)
- 你好,AI:DeepSeek實(shí)操寶典(全2冊(cè))
- 虛擬現(xiàn)實(shí):另一個(gè)宜居的未來
- 人工智能程序員面試筆試寶典
- EV3機(jī)器人之快樂搭建
- AI大模型助你輕松搞定數(shù)據(jù)分析
- 人工智能關(guān)我什么事
- 深度學(xué)習(xí)應(yīng)用與實(shí)戰(zhàn)
- 腦機(jī)革命
- AI大模型企業(yè)落地指南