官术网_书友最值得收藏!

第4章 為什么叫它智能

1956年,一群學(xué)者在新罕布什爾州達(dá)特茅斯學(xué)院會(huì)面,開辟了一條人工智能研究的路徑。他們想看看能不能為計(jì)算機(jī)編寫程序,使之參與認(rèn)知思維,做玩游戲、證明數(shù)學(xué)定理一類的事。他們還仔細(xì)思考了計(jì)算機(jī)能使用什么樣的語言和知識(shí)來描述事物。他們的努力包括給計(jì)算機(jī)不同選項(xiàng),讓它們選出其中的最優(yōu)者。研究人員對(duì)人工智能的可能性持樂觀態(tài)度。他們向洛克菲勒基金會(huì)募資時(shí)這樣寫道:


我們將致力于探索,怎樣讓機(jī)器使用語言,組織抽象的表達(dá)和概念,解決如今只有人類才能解決的各種問題,并自我改進(jìn)。我們認(rèn)為,一群精心挑選出來的科學(xué)家于某個(gè)夏天聚在一起攜手合作,便可以在一個(gè)或多個(gè)上述問題上取得可觀進(jìn)展。


事實(shí)證明,這一議程與其說切實(shí)可行,不如說是對(duì)未來的展望。畢竟,20世紀(jì)50年代的計(jì)算機(jī)速度還不夠快,無法實(shí)現(xiàn)學(xué)者們的設(shè)想。

在最初的研究聲明發(fā)表之后,人工智能在翻譯方面表現(xiàn)出了初步進(jìn)展,但進(jìn)展速度很慢。適用于特定環(huán)境(例如,有人嘗試設(shè)計(jì)人造治療師)的人工智能成果無法推而廣之。20世紀(jì)80年代早期,工程師們希望通過精心編程設(shè)計(jì)的專家系統(tǒng)來復(fù)制醫(yī)學(xué)診斷等高技能,他們雖然取得了一些進(jìn)展,但此類系統(tǒng)的開發(fā)費(fèi)用極高,而且用起來十分煩瑣,無法應(yīng)對(duì)各種各樣的例外和可能,因此,人們便進(jìn)入了所謂的“人工智能寒冬”。

然而,冬天似乎已經(jīng)結(jié)束了。更多的數(shù)據(jù)、更好的模型和更強(qiáng)大的計(jì)算機(jī)促成了機(jī)器學(xué)習(xí)最近的發(fā)展,改善了預(yù)測(cè)。大數(shù)據(jù)收集和存儲(chǔ)的進(jìn)步為新的機(jī)器學(xué)習(xí)算法提供了素材。相較從前的統(tǒng)計(jì)學(xué),新的機(jī)器學(xué)習(xí)借力于與之更適配的處理器,明顯變得更加靈活,能生成更好的預(yù)測(cè)——好到有人忍不住把計(jì)算機(jī)科學(xué)的這一分支稱作“人工智能”。

預(yù)測(cè)客戶流失

更好的數(shù)據(jù)、模型和計(jì)算機(jī)是預(yù)測(cè)取得進(jìn)步的核心。為了理解它們的價(jià)值,讓我們來思考一個(gè)古已有之的預(yù)測(cè)問題:預(yù)測(cè)營銷人員口里的“客戶流失”。對(duì)許多企業(yè)來說,獲取客戶是代價(jià)很高的一件事,故此,客戶流失帶來的損失很大。一旦獲得了客戶,企業(yè)就會(huì)通過減少流失率來充分利用獲取成本。在保險(xiǎn)、金融、電信等服務(wù)行業(yè),控制客戶流失大概也是最重要的營銷活動(dòng)。減少客戶流失的第一步是識(shí)別有著流失風(fēng)險(xiǎn)的客戶。公司可以使用預(yù)測(cè)技術(shù)來做到這一點(diǎn)。

歷史上,預(yù)測(cè)客戶流失的核心方法是一種被稱為“回歸”的統(tǒng)計(jì)技術(shù)。有一些研究聚焦于改進(jìn)回歸技術(shù)。研究人員在學(xué)術(shù)期刊和實(shí)踐中提出并檢驗(yàn)了數(shù)百種不同的回歸方法。

回歸是做什么的?它根據(jù)過去發(fā)生事件的平均值來尋找一種預(yù)測(cè)。舉例來說,如果你手里只有上周每天的天氣情況,但要判斷明天會(huì)不會(huì)下雨,那么,你最好有一個(gè)平均值。如果過去七天里有兩天下了雨,你興許會(huì)猜測(cè),明天下雨的概率大約是2/7或者29%。過去,我們對(duì)預(yù)測(cè)的大部分知識(shí)都來自構(gòu)建的模型,這些模型可納入關(guān)于環(huán)境的更多數(shù)據(jù),更好地算出平均值。

我們的做法是使用所謂的“條件均值”。比如,如果你住在加利福尼亞州北部,你大概已經(jīng)知道,下不下雨取決于季節(jié):夏天的可能性低,冬天的可能性高。如果你觀察到此地冬天里任何一天降雨的概率是25%,夏天是5%,那么,你不會(huì)以為明天下雨的概率是兩者的平均值,即15%。為什么呢?因?yàn)槟阒烂魈鞂儆诙具€是夏季,故此,你會(huì)根據(jù)條件來做出評(píng)估。

根據(jù)季節(jié)調(diào)整預(yù)測(cè)只是我們根據(jù)條件對(duì)平均值進(jìn)行調(diào)整的方法之一(不過,這是最受零售業(yè)歡迎的一種方法)。我們可以根據(jù)當(dāng)天的時(shí)間、污染情況、云量、海洋溫度或任何其他可用信息來計(jì)算平均值。

我們甚至有可能要同時(shí)根據(jù)多個(gè)條件進(jìn)行調(diào)整:如果今天下了雨,今天屬于冬季,西邊200英里外在下雨,南邊100英里外是晴天,地面很濕,北冰洋氣溫很低,風(fēng)正從西南方吹過來,風(fēng)速是每小時(shí)15英里——那么,明天會(huì)下雨嗎?這樣的運(yùn)算很快就會(huì)變得難以處理。光是計(jì)算這七類信息的平均值,就會(huì)帶來128種不同的組合。添加更多類型的信息,組合數(shù)量也會(huì)隨之呈指數(shù)倍增加。

在機(jī)器學(xué)習(xí)之前,多元回歸提供了一種處理多種條件的有效方法,而且無須計(jì)算數(shù)十、數(shù)百或數(shù)千種不同條件下的平均值?;貧w將運(yùn)用數(shù)據(jù),并嘗試找到那個(gè)將預(yù)測(cè)失誤最小化、“擬合優(yōu)度”最大化的結(jié)果。

謝天謝地,這個(gè)術(shù)語在數(shù)學(xué)上比在詞句上表達(dá)得更精確?;貧w將預(yù)測(cè)的平均失誤控制到了最低限度,對(duì)待大失誤比對(duì)待小失誤更加嚴(yán)厲。這是一種強(qiáng)大的方法,尤其是當(dāng)數(shù)據(jù)集相對(duì)較小,同時(shí)它能很好地感知什么因素對(duì)數(shù)據(jù)有用的時(shí)候。例如,有線電視訂閱用戶的流失有可能取決于人們看電視的頻率;如果他們不再看電視了,他們很可能就會(huì)停止訂閱有線電視服務(wù)。

除此之外,回歸模型渴望產(chǎn)生無偏差的結(jié)果,所以,要是預(yù)測(cè)得足夠多,這些預(yù)測(cè)就平均概率而言是完全正確的。雖然我們喜歡無偏差的預(yù)測(cè)多過有偏差的預(yù)測(cè)(比如系統(tǒng)性地高估或低估一個(gè)值),但無偏差的預(yù)測(cè)也并非完美。我們可以用一個(gè)古老的統(tǒng)計(jì)學(xué)笑話來說明這一點(diǎn):


一位物理學(xué)家、一位工程師和一位統(tǒng)計(jì)學(xué)家外出狩獵。他們走進(jìn)森林,發(fā)現(xiàn)空地上有一頭鹿。

物理學(xué)家計(jì)算了目標(biāo)的距離、子彈的速度和落點(diǎn),調(diào)整,開火——結(jié)果,他朝左打偏了5英尺,錯(cuò)過了目標(biāo)。

工程師一臉沮喪。“你忘記算上風(fēng)了。我來試試?!彼蛄颂蚴种?,判斷了風(fēng)速和方向,一把奪過步槍并開了火——結(jié)果,他朝右打偏了5英尺,再次錯(cuò)過了目標(biāo)。

突然,一槍未開的統(tǒng)計(jì)學(xué)家歡呼道:“噢耶!我們打中了!”


準(zhǔn)確無比的平均值可能在實(shí)際中每次都出錯(cuò)?;貧w有可能一直導(dǎo)致要么左偏幾英尺,要么右偏幾英尺。它意味著,就算取平均值后得出了正解,實(shí)際也可能一次都沒打中。

與回歸不同,機(jī)器學(xué)習(xí)的預(yù)測(cè)可能平均起來是錯(cuò)誤的,但當(dāng)預(yù)測(cè)失誤的時(shí)候,它并不會(huì)失誤太多。按統(tǒng)計(jì)學(xué)家的說法,允許偏差,以求減少方差。以犧牲平均數(shù)的準(zhǔn)確,來換取單次預(yù)測(cè)的準(zhǔn)確?!g注

機(jī)器學(xué)習(xí)和回歸分析之間一個(gè)重要的區(qū)別是新技術(shù)的開發(fā)方式。發(fā)明一種新的機(jī)器學(xué)習(xí)方法時(shí)還需證明它在實(shí)踐中能運(yùn)作得更好。相反,發(fā)明一種新的回歸方法,首先要證明它在理論上是有效的。強(qiáng)調(diào)實(shí)踐效果,給了機(jī)器學(xué)習(xí)創(chuàng)新者更多的實(shí)驗(yàn)空間,哪怕他們的方法生成的估計(jì)結(jié)果平均來看不正確或存在偏差。在這種自由實(shí)驗(yàn)的推動(dòng)下,機(jī)器學(xué)習(xí)借助過去十年的豐富數(shù)據(jù)和高速計(jì)算機(jī)實(shí)現(xiàn)了快速的進(jìn)步。

從20世紀(jì)90年代末期到21世紀(jì)初期,那些利用機(jī)器學(xué)習(xí)預(yù)測(cè)顧客流失的實(shí)驗(yàn)僅取得了有限的成功。雖然機(jī)器學(xué)習(xí)的方法有了穩(wěn)定的進(jìn)步,但回歸的方法依然表現(xiàn)得更好。數(shù)據(jù)仍然不夠豐富,計(jì)算機(jī)的速度也不夠快,無法使其利用機(jī)器學(xué)習(xí)可以做到的事情。

例如,2004年,杜克大學(xué)的天睿中心(Teradata Center)舉辦了預(yù)測(cè)客戶流失的數(shù)據(jù)科學(xué)比賽。當(dāng)時(shí),這樣的比賽很不尋常。任何人都可以提交作品,一旦獲獎(jiǎng),即可獲得現(xiàn)金獎(jiǎng)勵(lì)。獲獎(jiǎng)作品使用的是回歸模型。一些機(jī)器學(xué)習(xí)的方法表現(xiàn)很好,但日后推動(dòng)人工智能革命的神經(jīng)網(wǎng)絡(luò)方法卻表現(xiàn)不佳。到2016年,一切都改變了。使用機(jī)器學(xué)習(xí)和(神經(jīng)網(wǎng)絡(luò))深度學(xué)習(xí)來預(yù)測(cè)流失的模型整體比其他所有方法表現(xiàn)得都好。

是什么發(fā)生了改變呢?首先,數(shù)據(jù)和計(jì)算機(jī)終于足夠好,讓機(jī)器學(xué)習(xí)占了上風(fēng)。20世紀(jì)90年代,建立足夠大的數(shù)據(jù)庫很難。比方說,一套經(jīng)典的流失預(yù)測(cè)研究只使用了650個(gè)客戶的數(shù)據(jù),不到30個(gè)變量。

到2004年,計(jì)算機(jī)的處理和存儲(chǔ)都有了進(jìn)步。在杜克競(jìng)賽中,用來訓(xùn)練的數(shù)據(jù)集包含了數(shù)萬客戶的數(shù)百個(gè)變量的信息。有了這么多的變量和客戶,機(jī)器學(xué)習(xí)方法逐漸能跟回歸一較高下了。

如今,研究人員根據(jù)數(shù)千個(gè)變量和數(shù)百萬客戶展開流失預(yù)測(cè)。計(jì)算能力的提高意味著可以處理大量的數(shù)據(jù),除了數(shù)字,還包括文本和圖像。例如,在移動(dòng)電話流失模型中,研究人員除了使用標(biāo)準(zhǔn)變量(如賬單額度大小和支付準(zhǔn)時(shí)性)之外,還調(diào)用了通話記錄數(shù)據(jù)(以小時(shí)為單位)。

利用可用數(shù)據(jù),機(jī)器學(xué)習(xí)方法也變得更好了。在杜克大學(xué)的比賽中,成功的關(guān)鍵因素是,如何從數(shù)百個(gè)可用變量中進(jìn)行選擇,以及選擇使用哪一種統(tǒng)計(jì)模型。當(dāng)時(shí)最好的方法,不管是機(jī)器學(xué)習(xí)還是經(jīng)典的回歸,都通過結(jié)合直覺與統(tǒng)計(jì)檢定來選擇變量和模型?,F(xiàn)在,機(jī)器學(xué)習(xí)方法(尤其是深度學(xué)習(xí)方法)允許模型具備靈活性,這意味著變量彼此之間可以按照意想不到的方式相結(jié)合。在開始計(jì)費(fèi)的月初就積累了大量通話時(shí)間、高額電話賬單的人比到月末才累積大量通話時(shí)間的人流失的可能性更低。此外,周末異地通話、付費(fèi)時(shí)間遲,還愛發(fā)大量短信的人尤其容易流失。這樣的結(jié)合難以預(yù)料,但對(duì)預(yù)測(cè)有極大的幫助。由于難以預(yù)料,建模人員在使用標(biāo)準(zhǔn)的回歸模型進(jìn)行預(yù)測(cè)時(shí)無法將這些結(jié)合后的信息包含在內(nèi)。機(jī)器學(xué)習(xí)把哪一些結(jié)合與交匯事關(guān)重要的選擇權(quán)交給了機(jī)器,而不是程序員。

機(jī)器學(xué)習(xí)(具體而言也是深度學(xué)習(xí))方法的改進(jìn),意味著可以有效地將可用數(shù)據(jù)轉(zhuǎn)化為對(duì)客戶流失的準(zhǔn)確預(yù)測(cè)?,F(xiàn)在,機(jī)器學(xué)習(xí)方法明顯優(yōu)于回歸和其他各種技術(shù)。

超越客戶流失

除了客戶流失領(lǐng)域,機(jī)器學(xué)習(xí)還改善了大量其他環(huán)境下(從金融市場(chǎng)到天氣)的預(yù)測(cè)。

2008年的金融危機(jī)是回歸式預(yù)測(cè)方法的驚人失敗。對(duì)擔(dān)保債務(wù)憑證(collateralized debt obligation,簡稱CDO)違約率的預(yù)測(cè)部分地推動(dòng)了金融危機(jī)。2007年,標(biāo)準(zhǔn)普爾評(píng)級(jí)機(jī)構(gòu)預(yù)測(cè),AAA級(jí)CDO五年內(nèi)無法履約的概率不到1/800。五年后,1/4以上的CDO未能履約。哪怕有著豐富的歷史違約數(shù)據(jù),最初的預(yù)測(cè)仍然錯(cuò)得離譜。

失敗的原因不是數(shù)據(jù)不足,而是分析師怎樣使用這些數(shù)據(jù)來生成預(yù)測(cè)。評(píng)級(jí)機(jī)構(gòu)的預(yù)測(cè)是基于多個(gè)回歸模型,這些模型假定不同市場(chǎng)的房價(jià)相互之間無關(guān)聯(lián)。事實(shí)證明,這樣的假設(shè)是錯(cuò)的,不僅2007年是這樣,從前也一樣。一旦將多個(gè)住房市場(chǎng)同時(shí)遭到?jīng)_擊的可能性包含進(jìn)去,你在CDO上虧損的可能性也會(huì)一路升高——哪怕你的房產(chǎn)分布在美國多個(gè)城市。

分析師們根據(jù)自己認(rèn)為重要的假設(shè)(以及它們?yōu)槭裁粗匾﹣順?gòu)建回歸模型——這些看法對(duì)機(jī)器學(xué)習(xí)來說都沒有存在的必要。機(jī)器學(xué)習(xí)模型尤其擅長確定哪些可能的變量效果最好,識(shí)別出哪些(出人意料的)事情重要,哪些事情不重要。如今,分析師的直覺和假設(shè)沒那么重要了。通過這種方式,機(jī)器學(xué)習(xí)可以根據(jù)無法預(yù)知的相關(guān)要素進(jìn)行預(yù)測(cè),包括拉斯維加斯、菲尼克斯和邁阿密的房價(jià)可能會(huì)同時(shí)出現(xiàn)漲落。

如果僅僅是預(yù)測(cè),為什么叫它“智能”

機(jī)器學(xué)習(xí)的最新進(jìn)展讓我們利用統(tǒng)計(jì)學(xué)進(jìn)行預(yù)測(cè)的方式發(fā)生了徹底的轉(zhuǎn)變。把人工智能和機(jī)器學(xué)習(xí)的最新發(fā)展視為“傳統(tǒng)統(tǒng)計(jì)學(xué)的加強(qiáng)版”是很誘人的想法。如果最終的目標(biāo)是生成預(yù)測(cè)以填補(bǔ)缺失的信息,它們從某種意義上說的確如此。除此之外,機(jī)器學(xué)習(xí)的過程還涉及尋找一種最小化失誤的解決方案。

那么,是什么令機(jī)器學(xué)習(xí)成為一種配得上“人工智能”這一標(biāo)簽的變革型計(jì)算技術(shù)呢?在某些情況下,預(yù)測(cè)的效果好到我們可以直接運(yùn)用它,而不需要應(yīng)用基于規(guī)則的邏輯。

有效的預(yù)測(cè)改變了計(jì)算機(jī)編程的方式。傳統(tǒng)的統(tǒng)計(jì)方法和“如果-那么”語句的算法都無法很好地在復(fù)雜環(huán)境下運(yùn)行。想識(shí)別一組照片中的一只貓?貓有各種各樣的顏色和紋理。它們可能是站著、坐著、躺著、跳躍,或看起來一臉不悅。它們可能在室內(nèi),也可能在室外。情況很快變得復(fù)雜起來,無法限定條件。因此,哪怕僅僅想達(dá)到看得過去的識(shí)別效果,也需要大量謹(jǐn)慎的考量。這還僅僅是識(shí)別一只貓,如果我們想要用一種方法來描述照片中的所有物體呢?我們需要為每一物體單獨(dú)加以限定。

支撐近年來進(jìn)步的技術(shù)基石叫作“深度學(xué)習(xí)”,它依靠一種“反向傳播”的方法。它采用與大腦極為類似的方式,通過例子來學(xué)習(xí)(而能否用人工神經(jīng)元模擬真實(shí)神經(jīng)元不過是這項(xiàng)有用技術(shù)的有趣旁枝),避免了各種限定條件帶來的麻煩。如果你想讓孩子知道哪個(gè)單詞對(duì)應(yīng)著“貓”,那么,每當(dāng)你看見一只貓,你就說出這個(gè)單詞。機(jī)器學(xué)習(xí)基本上也一樣。你給它饋進(jìn)大量帶有“貓”標(biāo)簽的貓照片,以及大量沒有貓也不帶“貓”標(biāo)簽的照片,機(jī)器就會(huì)學(xué)習(xí)怎樣識(shí)別與“貓”這一標(biāo)簽相關(guān)的像素圖案。

如果你有一系列貓和狗的照片,貓和四足物體之間的關(guān)聯(lián)會(huì)強(qiáng)化,但與狗的關(guān)聯(lián)也會(huì)強(qiáng)化。無須詳細(xì)說明,只要你饋進(jìn)數(shù)百萬張有著不同圖案和標(biāo)簽的照片(包括畫面里沒有狗的照片),機(jī)器都會(huì)發(fā)展出諸多聯(lián)想,并學(xué)會(huì)區(qū)分貓和狗。

許多問題已經(jīng)從算法問題(“貓有什么特點(diǎn)?”)轉(zhuǎn)變成了預(yù)測(cè)問題(“這一缺失了標(biāo)簽的圖像是否跟我從前見過的貓有著相同特點(diǎn)?”)。機(jī)器學(xué)習(xí)使用概率模型來解決問題。

那么,為什么很多技術(shù)人員將機(jī)器學(xué)習(xí)稱為“人工智能”呢?因?yàn)闄C(jī)器學(xué)習(xí)的輸出(即預(yù)測(cè))是智能的一個(gè)關(guān)鍵組成部分,預(yù)測(cè)的準(zhǔn)確性會(huì)隨著學(xué)習(xí)而改進(jìn),而較高的準(zhǔn)確性能讓機(jī)器執(zhí)行現(xiàn)今與人類智能相關(guān)的任務(wù)(如物體識(shí)別)。

杰夫·霍金斯(Jeff Hawkins)在《人工智能的未來》(On Intelligence)一書中率先提出預(yù)測(cè)是人類智慧的基礎(chǔ)。這一理論的實(shí)質(zhì)是,作為創(chuàng)造力和生產(chǎn)力增長的核心,人類的智慧是靠大腦使用記憶進(jìn)行預(yù)測(cè)來實(shí)現(xiàn)的:“我們?cè)诟鱾€(gè)感官之間,進(jìn)行連續(xù)的低級(jí)別預(yù)測(cè),但這還不是全部。我想提出的是一個(gè)更有力的命題,預(yù)測(cè)不僅僅是大腦在做的某一件事情,它是大腦皮層的主要功能,也是智能的基礎(chǔ)。皮層是預(yù)測(cè)的器官。”

霍金斯認(rèn)為,我們的大腦不斷地預(yù)測(cè)我們即將體驗(yàn)到的事情——我們會(huì)看到什么,感受到什么,聽到什么。隨著我們的成長和成熟,大腦的預(yù)測(cè)越來越準(zhǔn)確,預(yù)測(cè)往往會(huì)變成真的。然而,要是預(yù)測(cè)未能準(zhǔn)確地昭示未來,我們會(huì)注意到異常,并將這一信息反饋到大腦,讓大腦更新算法,進(jìn)行學(xué)習(xí),對(duì)模型做更進(jìn)一步的優(yōu)化。

霍金斯的研究存在爭議。他的觀點(diǎn)在心理學(xué)界引發(fā)了爭論,他強(qiáng)調(diào)皮層是預(yù)測(cè)機(jī)器的模型,許多計(jì)算機(jī)科學(xué)家對(duì)此斷然否定。最嚴(yán)格意義上的“人工智能通過圖靈測(cè)試”的概念(一臺(tái)機(jī)器能騙過人,讓人相信機(jī)器其實(shí)是人類)仍然離現(xiàn)實(shí)很遠(yuǎn)。目前的人工智能算法還不能進(jìn)行推理,人們也很難理解人工智能預(yù)測(cè)的來源。

無論他的基礎(chǔ)模型是否合適,霍金斯將預(yù)測(cè)視為智能的基礎(chǔ),這對(duì)理解人工智能近年來的變化帶來的沖擊很有用處。這里,我們強(qiáng)調(diào)的是預(yù)測(cè)技術(shù)的巨大進(jìn)步帶來的結(jié)果。1956年,達(dá)特茅斯會(huì)議上學(xué)者們提出的許多愿望如今馬上就要實(shí)現(xiàn)了。通過各種方式,預(yù)測(cè)機(jī)器能夠“使用語言,組織抽象的表達(dá)和概念,解決如今(1955年)只有人類才能解決的各種問題,并自我改進(jìn)”了。

我們并不想貿(mào)然揣測(cè)這一進(jìn)步是否預(yù)示著通用人工智能、“奇點(diǎn)”或天網(wǎng)的降臨。不過,如你所見,即便只是聚焦于預(yù)測(cè),未來幾年仍能出現(xiàn)了不起的變化。一如計(jì)算機(jī)促成的廉價(jià)運(yùn)算有力地帶來了商業(yè)和個(gè)人生活的巨大變化,廉價(jià)預(yù)測(cè)也將帶來同樣深遠(yuǎn)的轉(zhuǎn)變。

總而言之,不管它是不是智能,計(jì)算機(jī)從確定性編程到概率性編程的進(jìn)步都是一項(xiàng)重要的階梯函數(shù)式的轉(zhuǎn)變(盡管它跟社會(huì)科學(xué)和物理科學(xué)取得的進(jìn)步是一致的)。哲學(xué)家伊恩·哈金(Ian Hacking)在《馴服偶然》(The Taming of Chance)一書中說,19世紀(jì)之前,概率屬于賭徒的行當(dāng)。但到了19世紀(jì),政府人口普查數(shù)據(jù)的興起將新興的概率數(shù)學(xué)應(yīng)用到了社會(huì)科學(xué)。20世紀(jì),我們對(duì)物理世界的理解出現(xiàn)了根本性的重組,從牛頓式世界觀的確定性轉(zhuǎn)向量子力學(xué)的不確定性。也許,21世紀(jì)計(jì)算機(jī)科學(xué)最重要的進(jìn)步與社會(huì)科學(xué)和物理科學(xué)過去的進(jìn)步是互相呼應(yīng)的,即人們意識(shí)到,以數(shù)據(jù)為基礎(chǔ)、從概率意義上建立起結(jié)構(gòu)的算法效果最好。


本章要點(diǎn)Prediction Machines

※機(jī)器學(xué)習(xí)這一科學(xué)跟統(tǒng)計(jì)學(xué)的目標(biāo)不同。統(tǒng)計(jì)學(xué)強(qiáng)調(diào)的是平均值的正確性,機(jī)器學(xué)習(xí)卻對(duì)此并無要求,相反,它的目標(biāo)是操作的有效性。預(yù)測(cè)可能會(huì)出現(xiàn)偏差,但只要夠好就行(在運(yùn)算力強(qiáng)大的計(jì)算機(jī)中可以實(shí)現(xiàn))。這使得科學(xué)家們可以利用過去十年的豐富數(shù)據(jù)和高速計(jì)算機(jī)自由地進(jìn)行嘗試,以快速推動(dòng)改進(jìn)。


※傳統(tǒng)的統(tǒng)計(jì)方法需要闡述假設(shè),或至少闡述人對(duì)模型規(guī)范的直覺。機(jī)器學(xué)習(xí)不僅不需要事先指定進(jìn)入模型的內(nèi)容,還能夠適應(yīng)更加復(fù)雜、有著更多互動(dòng)變量的模型。


※機(jī)器學(xué)習(xí)的最新進(jìn)步通常被稱為人工智能的進(jìn)步,因?yàn)椋海?)以這一技術(shù)為基礎(chǔ)的系統(tǒng)會(huì)隨著時(shí)間的推移不斷學(xué)習(xí)和改進(jìn);(2)這些系統(tǒng)在某些條件下可產(chǎn)生比其他方法產(chǎn)生的更準(zhǔn)確的預(yù)測(cè),一些專家認(rèn)為預(yù)測(cè)是智能的核心;(3)這些系統(tǒng)提高了預(yù)測(cè)的準(zhǔn)確性后,它們便能夠執(zhí)行從前被認(rèn)為專屬于人類智能領(lǐng)域的任務(wù),如翻譯和導(dǎo)航。對(duì)預(yù)測(cè)和智能之間的聯(lián)系,我們?nèi)匀怀植豢芍膽B(tài)度。預(yù)測(cè)的進(jìn)步是否代表了智能的進(jìn)步,我們對(duì)這一問題并無特定立場(chǎng),我們的結(jié)論也不依賴于這樣的立場(chǎng)。我們關(guān)注的是預(yù)測(cè)成本下降(而非智能成本下降)帶來的結(jié)果。

主站蜘蛛池模板: 平南县| 兴城市| 沂水县| 贵港市| 灵丘县| 泰兴市| 岐山县| 神池县| 门头沟区| 黔南| 南汇区| 姚安县| 阳高县| 博爱县| 大余县| 邻水| 南涧| 武定县| 杨浦区| 云霄县| 淳安县| 肥乡县| 景宁| 尼玛县| 漳平市| 晋中市| 新平| 西昌市| 自贡市| 东安县| 城步| 义乌市| 射阳县| 灵璧县| 施甸县| 汉阴县| 牟定县| 义马市| 贵南县| 沅江市| 郧西县|