- 體驗機器:我們的大腦如何預測和塑造現實
- (英)安迪·克拉克
- 1697字
- 2025-05-07 12:03:11
視覺的智能相機模型
大腦本質上是一臺偉大的預測機器,這一理念是近期才出現的。在此之前,人們普遍認為感覺信息主要以“前饋”的方式處理,即由我們的感官獲取并直接“正向”傳入大腦之中。舉一個研究得最為充分的例子,我們曾相信視覺信息會先由雙目“登記”,然后以逐步深入的方式在大腦內部進行處理,提取出越發抽象的信息形式。大腦可能先從入射光的模式中提取有關簡單特征的信息,如線條、斑點和邊緣,然后將它們組合成更大、更復雜的整體。我稱之為視覺的智能相機模型。這顯然不是一臺相機,而是一個高度智能的系統。但和常見的相機一樣,影響的流動方向主要是向內的:從雙目到大腦。直到在這個過程中某個較晚的節點,生命記憶和世界知識才會參與其中,讓你(感知者)得以理解自身所處的世界中的事物。
智能相機模型,即感知的前饋觀的各種版本在哲學、神經科學和人工智能領域都頗具影響力。這種觀點很直觀,因為我們通常認為感知完全是關于從世界到心智的信息流動。這種觀點可追溯至1664年出版的笛卡兒的遺作《論人》。笛卡兒將感知描述為內管網絡的復雜開合,首先將世界的圖像印在感官(如眼睛)上,然后通過由微小通道構成的網絡傳遞至大腦深處。笛卡兒相信,當這些源于外部世界(和身體內部)的印象流入大腦,它們就會被保存在我們的腦海之中,就像手指壓入蠟模后,有關其形狀的信息就會被保留下來。
我們從未知曉笛卡兒所描述的機制如何運作。但即使更為復雜的科學理解不斷出現,笛卡兒的核心思想依然穩固,即感知的大腦是一個相對被動的器官,接收外界感覺傳入,而后主要以前饋(從外到內)的方式“處理”它們。這一思想在20世紀晚期的認知神經科學領域得到了廣泛認可,或許是因為它似乎可被視為大衛·馬爾極具影響力的計算機視覺模型的指導原則。[2]
馬爾是一位舉足輕重的人物,他在神經科學、計算機視覺和人工智能方面的工作是對認知科學有史以來最為重要的貢獻。在馬爾的描述中,視覺處理始于檢測某些傳入信號中的基本要素,例如有序的像素陣列。自此,分層處理逐漸形成更為復雜的理解。例如,下一階段可能會尋找像素強度相比相鄰像素顯示出快速變化的地方,這通常是現實世界中邊界或邊緣的存在線索。隨著處理過程逐步推進,一步一步地深入大腦,更多模式被進一步檢測到,如表征條紋的重復序列。在這里,視覺是對原始信號進行一系列操作的過程,例如檢測邊緣或條紋,這些操作逐漸揭示環境中越來越復雜的模式,即傳入信號的來源。最終,檢測到的復雜模式與知識和記憶相結合,形成一幅關于現實場景的三維圖像(盡管值得注意的是,關于這幅圖像具體如何形成的難題從未得到令人滿意的解答)。
就像任何其他的計算機模型一樣,馬爾的計算機模型的獨特之處在于明確指出了早期階段的視覺處理可能涉及的重要計算,盡管關鍵的最終步驟依然有些神秘莫測。馬爾的模型多年來不但是人工視覺領域的標準模型,還是神經科學領域的標準模型。即使到了21世紀,許多學者仍沿襲馬爾的方向,認為視覺系統主要是對傳入的感覺信息進行前饋分析的工具。[3]
然而,值得注意的是,馬爾的模型中缺少另一個影響方向——一種相反的方向,從大腦深處下行至眼睛和其他感官。據估計,以這種方式向相反方向傳遞信號的神經元連接數量大幅超過正向傳遞信號的連接數量,二者的比例在一些區域甚至高達4∶1。[4]從大腦深處向感官外圍傳遞信息的這種下行連接的作用到底是什么?這種連接方向與馬爾早期計算機模型中描述的執行處理任務所需的連接方向相反,但它直達那些特定區域。[5]
像這樣的實際神經線路在安裝和維護上是昂貴的。據估計,大腦重量僅占體重的約2%,卻耗費了人體全部能量的約20%。[6]它是迄今為止我們最“昂貴”的自適應配件。然而,我們現在已經知道,大腦能耗的很大一部分主要用于建立和維護一個龐大的下行(和橫向)連接網絡,不僅覆蓋早期視覺處理系統,而且覆蓋整個大腦。這是一個真正的謎。它令人費解到足以讓人工智能先驅帕特里克·溫斯頓在2012年評論說,由于有如此多信息明顯向另一個方向(下行)流動,我們面對的是“一個我們幾乎一無所知的奇怪架構”。[7]但是,一旦我們認識到一個大膽的新主張的吸引力,一切就會變得明朗起來:大腦只不過是一臺大規模的預測機器。