第4章 神經網絡(1)
- 智能時代
- (美)杰夫·霍金斯 桑德拉·布拉克斯莉
- 4933字
- 2015-09-21 15:04:37
1986年1月,我開始在加州大學伯克利分校學習。我所做的第一件事,就是整理有關智能和大腦功能理論研究的歷史。我閱讀了上百篇由解剖學家、生理學家、哲學家、語言學家、計算機科學家和心理學家所著的論文。來自于不同領域的研究者們發表了大量關于思維和智慧的見解,各個領域都有專門的刊物和術語。然而,我發現這些見解既不一致,也不完整。當談到智能時,語言學家總是會使用“句法”和“語義”等術語,在他們眼中,大腦和智能只同語言有關;視覺科學家習慣于談論2D、2.5D和3D圖像,大腦和智能對他們來說,只與視覺模式識別有關;計算機科學家們則津津樂道于由他們所提出的“模式”和“框架”等表征知識的新術語。沒有人提及大腦的構造,也沒有人關心這些理論在大腦中究竟如何實現。另一方面,解剖學家和神經生理學家撰寫了大量有關大腦構造和神經元作用機理的論文,但對于建構大規模理論卻退避三舍。畢竟,想要從各種研究方法以及隨之而來的堆積如山的實驗數據中尋找方向,實在是一件讓人頭痛的事。
就在此時,一種新的智能機器研究途徑開始嶄露頭角,為人們帶來了希望。雖然早在20世紀60年代后期,神經網絡就已經開始以這樣或那樣的面目出現,但在當時,它同人工智能研究在投資份額和關注度方面存在著激烈的競爭。人工智能就像一只體重800磅的大猩猩,將神經網絡研究壓制得無法抬頭。神經網絡的研究者在許多年間一直被列于投資方的黑名單上,只有少數人還在繼續關注他們。直到20世紀80年代中期,這一領域才終于得以重見天日。我們很難確切地知道,神經網絡為何突然變成了熱點,但人工智能的節節失敗無疑是其中的因素之一。人們在尋找人工智能的替代品,而最終在神經網絡領域看到了希望。
相對于人工智能的方法,神經網絡算得上一個真正的進步,因為它的架構建立在真正的神經系統之上,盡管根基尚淺。與計算機程序員不同,神經網絡的研究人員(也被稱為聯結主義者)的興趣在于了解,如果將一群神經元聚在一起,它們會表現出何種行為。大腦由神經元組成,因此構成了一個神經網絡,這是鐵一樣的事實。聯結主義者們希望通過研究神經元之間的相互作用,弄清智能那難以捉摸的特性;他們還希望通過復制神經元群之間的連接,解決那些令人工智能一籌莫展的問題。神經網絡與計算機的不同之處在于,它沒有CPU,也不需要中央存儲。整個網絡中的知識和記憶都分散在它的連接上——就像真正的大腦一樣。
從表面上看,神經網絡似乎非常符合我的興趣。但很快我對這一領域的希望就又幻滅了。那時,我已經形成了一個自己的看法:對于大腦的理解,有3個標準是必不可少的。第一個標準是,對于大腦功能的理解,必須考慮時間因素。真正的大腦始終在處理快速變化的信息流。在進出大腦的信息流中,沒有什么是靜止不動的。
第二個標準是,反饋的重要性。神經解剖學家一早就發現,大腦中充滿了反饋連接。比如說,在新大腦皮層和丘腦之間連接的神經回路中,反饋連接(信息傳遞朝著輸入的方向)的數目要比前饋連接多出將近10倍!也就是說,對于每一束向大腦皮層傳遞信息的神經纖維,都對應著10束向感覺器官傳遞信息的神經纖維。大腦皮層中的神經連接也絕大多數具有反饋功能。雖然反饋的確切作用尚無人知曉,但從已發表的研究報告中可以看出,它無處不在。據此我認為,反饋一定非常重要。
第三個標準是,任何理論或有關大腦的模型,都應該能夠解釋大腦的物理結構。新皮層并不是一個簡單的構造,大家在后面的章節中將會看到,它有著不斷重復的層級結構。任何不同于這一構造的神經網絡,必定無法像大腦一樣工作。
然而,神經網絡剛一亮相,就定位于一些極為簡單的模型上。這些模型對于上述三個標準無一滿足。絕大多數神經網絡都是由相互連接的三排神經元組成的。第一排神經元接受某種模式(輸入),接著這些輸入神經元同下一排神經元相連,我們稱這些為“隱藏單元”。“隱藏單元”再與最后一排神經元(輸出單元)相連。神經元之間的連接強度有強有弱,按照連接強弱的不同,一個神經元的活動可能會促進另一個神經元的活動,也可能會減弱第三個神經元的活動。神經網絡就是通過改變這種連接強度,來學習如何將輸入模式映射到輸出模式上。
這些簡單的神經網絡只能用來處理靜態模式,不涉及反饋,同大腦也沒有任何相似之處。有一種最常見的神經網絡,被稱為“反向傳播(back propagation)”網絡,它能將一個錯誤從輸出單元向輸入單元傳播來進行學習。你可能會認為這是反饋的一個形式,而事實上它不是。這種對錯誤的反向傳送只發生在學習階段。當神經網絡經過訓練,工作狀態正常時,信息便只會向一個方向傳送。在輸出到輸入的方向上,并無反饋發生。除此之外,這些模型中沒有時間:一個靜態輸入模式被轉化為一個靜態的輸出模式,緊接著又出現另一個輸入模式。在這些網絡中,哪怕對于剛剛發生的事情也不留存任何歷史記錄。最后,與大腦的復雜性及其層級結構相比,神經網絡的構造顯得太小兒科了。
我本以為神經網絡領域會飛快地往更加仿真的網絡發展,但它并沒有。由于簡單的神經網絡已經能夠做出一些有趣的事情,因此許多年后,研究還一直停留在這個層面。這種新鮮有趣的工具,一夜之間讓成千上萬的科學家、工程師和學生獲得了資助、博士學位,發表了著作。利用神經網絡進行股票市場預測、處理貸款申請、核對簽名以及執行上百種其他模式分類應用的公司,也如雨后春筍般紛紛成立。盡管神經網絡創建者的意圖可能在于更為廣泛的應用,然而當時在該領域居于主導地位的人們,對理解大腦如何工作以及什么是智能等問題,絲毫沒有興趣。
大眾媒體對神經網絡與智能之間的差別也不甚明白。報紙、雜志和電視科學節目將神經網絡介紹為“像大腦一樣”或是“以大腦工作原理為藍本”。與處處需要編程的人工智能不同,神經網絡通過事例進行學習,這讓它多少看起來更智能一些。NetTalk即為其中的一個突出代表,它能夠學著將字母順序同讀音一一匹配。由于這個神經網絡是用印刷文本來訓練的,因此它乍聽起來就是用計算機的聲音在朗讀單詞。不難想象,用不了多久,神經網絡就可以同人類對話了。在全國新聞中,NetTalk被錯誤地介紹為一種能夠學習閱讀的機器。它雖然是神經網絡的一個精彩展示,但所做的事情仍微不足道。它不會閱讀,不能理解,且沒有什么實用價值。它所做的只是將字母組合同預定的聲音模式相匹配。
請允許我用一個類比來說明神經網絡與真正的大腦之間差得有多遠。想象一下,我們要研究的不是大腦的原理,而是一臺數字計算機。經過多年研究后,我們發現計算機中的一切都是由晶體管構成的,億萬的晶體管以精確而又復雜的方式連接在一起。然而我們仍然不明白計算機是如何工作的,也不明白這些晶體管為什么要以這種方式相連。于是某一天,我們決定將幾個晶體管連接起來看個究竟。結果我們發現,瞧,將區區三個晶體管以某種方式連接在一起,就構成了一個放大器,一端輸入的信號在另一端就會被放大。(收音機和電視機里的放大器就是用晶體管以這種方式制成的。)這是一個重大的發現,一夜之間,使用晶體管放大器制造收音機、電視機和其他電子設備的新工業產生了。這固然是好事,但它還是沒能告訴我們計算機是如何工作的。盡管放大器和計算機都是由晶體管構成的,但它們之間幾乎再沒有別的共同之處。同理,盡管真正的大腦同三排的神經網絡都由神經元構成,它們也幾乎完全不同。
我在1987年夏天遇到的一件事,又在我對神經網絡本來就不太大的興趣上潑了盆涼水。當時我參加了一個有關神經網絡的會議,其間觀看了一家名為Nestor的公司的展示。Nestor推出了一種在平板電腦上識別手寫文字的神經網絡應用,要價100萬美元。這引起了我的注意。雖然Nestor大力鼓吹它的神經網絡算法多么復雜精妙,甚至將其吹捧為另一個重大性突破,但我卻覺得手寫識別問題其實可以通過更為簡單、傳統的方法解決。那天我回到家里,反復思考這個問題。兩天后,我設計出了一款速度更快、體積更小、使用更靈活的手寫識別器。我的解決方案里并沒有使用到神經網絡,其工作原理也同大腦完全不同。盡管那次會議引發了我對設計帶有觸控筆界面的電腦的興趣(并最終成就了10年后的PalmPilot掌上電腦),但它同樣也使我更加確信,神經網絡相對傳統方法而言,并無太大的改善。我設計的手寫識別器最后成為了Graffiti文本輸入系統的基礎,被廣泛應用于第一代Palm產品上。我想Nestor在這場商業競爭中應該是被淘汰了。
簡單的神經網絡走到了盡頭。盡管它們的大多數功能都能被其他方法輕易取代,最終媒體的關注熱情也逐漸消散。但至少,神經網絡的研究者們并沒有宣稱他們的模型是智能的,畢竟它們只是些極其簡單的網絡,功能上也沒有超越人工智能。我在此并不想給大家留下一種印象,認為所有的神經網絡都只有簡單的三層變化。一些研究人員仍在繼續研究設計不同的神經網絡。如今,這個名詞被用來描述一系列不同模型的集合,其中一些從生物學看來是精確的,另一些則不是,但它們幾乎都沒有抓住新皮層的總體功能和結構。
在我看來,大多數神經網絡的最根本缺陷在于——這也是它與人工智能共有的特點——太注重行為。這是一個致命的負擔。無論他們將這些行為稱為“答案”、“模式”,還是“輸出”,人工智能和神經網絡研究者都假定智能存在于一個程序或神經網絡處理輸入信息之后而產生的行為中。計算機程序或神經網絡最重要的屬性就在于它是否能給出正確的、令人滿意的輸出,就像阿蘭·圖靈所給出的啟示,智能等同于行為。
然而,智能并不單是指表現出智能的動作或行為。行為是智能的一種表現,但它既不是智能的核心特征,也不是智能的基本定義。片刻的思考就可以證明這一點:即使躺在黑暗中什么都不做,只是思考和理解,你也是智能的。忽略頭腦中的活動而只關注于行為,對理解智能和建造智能機器造成了極大的障礙。
在進一步探索智能的新定義之前,我想先介紹另一種與真正大腦的工作原理更為接近的聯結主義方法。問題是,似乎沒有人認識到這項研究的重要性。
就在神經網絡大出風頭之時,一小部分研究神經網絡理論的學者從主流領域中分離出來,構建了一種不以行為為中心的網絡,稱之為“自—聯想”記憶網絡。它同樣由相互連接的簡單神經元構成,這些神經元在達到一定刺激閾值時會激活。然而它們之間的連接方式與一般的神經網絡不同,其中使用了大量的反饋。與只能正向傳輸信息的神經網絡不同,自—聯想記憶與反向傳播網絡類似,能將每個神經元的輸出傳回給輸入——就像自己給自己撥電話。這種反饋回路造成了一些有趣的特點。當一種活動的模式被加予人造神經元時,它們會對這種模式形成記憶,這種網絡將外界活動模式同它自身關聯在一起,因此被稱為“自—聯想”記憶。
初看起來,這種回路所導致的結果似乎很荒謬。想要檢索一個被存儲于這種記憶中的模式,你必須先提供這個模式。這就好比你去雜貨店買香蕉,當店主問你如何付款時,你說用香蕉。你可能會問:“這樣的設計有什么好處呢?”然而,自—聯想記憶所擁有的一些重要特征,在大腦中亦有體現。
其中最重要的一個特征是,如果想要檢索某個模式,你不必事先擁有這個模式的全部,只要有其中的一部分甚至一個亂作一團的樣子就可以。即使從一個混亂的版本開始,自—聯想記憶也可以檢索到最初存儲時的正確模式。這就好比拿著吃剩的半把褐色香蕉去雜貨店換回了一整把綠色香蕉一樣。或是你拿著殘破得無法辨認的鈔票來到銀行,柜臺職員對你說:“我看得出這是一張破損的百元大鈔,來把它給我,我給你換一張嶄新的。”
第二個特征是,與大多數其他的神經網絡不同,自—聯想記憶可被設計用來存儲模式序列,或稱為時序模式。這一功能可以通過在反饋中加入延時來實現。有了這個延時,你便可以向該網絡呈現一個模式序列,類似于一段旋律,自—聯想記憶就可以記住它。當我輸入“一閃一閃亮晶晶”的前幾個音符時,自—聯想記憶馬上就可以返回給我整首曲子。當輸入序列的一部分時,該記憶便能夠回憶起其余的部分。我們將會看到,這同人們學習幾乎所有模式序列時的方式如出一轍。我認為,大腦就是使用與自—聯想記憶相似的回路來實現這種學習的。
自—聯想記憶提示了反饋和隨時間變化的輸入的潛在重要性。遺憾的是,絕大多數的人工智能、神經網絡和認知科學家都忽視了這兩者。