譯者序 期待具身模擬假說帶來自然語言理解的飛躍
我并不是認知科學領域的研究者,能遇到這本書有些偶然的緣分。2017年5月湛廬出版了人類歷史上第一本完全由人工智能算法創作的詩歌集——《陽光失了玻璃窗》,很幸運我的團隊為它貢獻了核心算法,我也從那時起正式進入自然語言理解領域。
自然語言理解領域有著悠久的歷史和讓人抓狂又著迷的難度。2012年以來,深度學習算法先后給計算機視覺、聽覺和機器翻譯領域帶來了質的飛躍,大家都在期待自然語言理解領域的那一躍。沈向洋博士更是用“得語言者得天下”這樣有趣的說法來佐證這個領域的重要性。
起步之初,我向李航博士請教過一些關于語言的問題。比如,什么是理解,如何評價一個人工智能程序是否理解了語言。他曾向我推薦過幾本他讀過之后覺得很受啟發的語言學和認知學方面的著作,包括史蒂芬·平克(Steven Pinker)的《語言本能》(這本書的中文版也已由湛廬策劃出版)、萊考夫和約翰遜合著的《我們賴以生存的隱喻》以及本書。這些書帶我進入了一個神奇的語言世界。
據說人們在收到別人推薦的書單時,通常會收藏起來,或者趁當時那股勁頭下單買回來,然后就沒有然后了,我的書架上也有很多這樣的書?;叵肫饋?,我能把李航博士推薦給我的書認真讀起來,除了因為我對他的敬仰,還有一個原因是,我的團隊每個暑期都會組織“共讀一本書”的活動。2019年暑期,我決定一起讀Louder than Words,大家的熱情都很高,這跟作者的寫法有關:每一章,作者都會從一個故事入手,有時會有一種在看奇聞逸事的錯覺,然后從中引出一個大家都會感到好奇的問題,再把科學家是怎么找到解決這一問題的線索的歷程娓娓道來。那些科學實驗總是在我們迫切地想要知道“后來怎么樣了”的時候出現,巧妙的方法和翔實的結論讓人嘆為觀止。
不妨思考一下,你是如何了解字詞和句子的含義的?又是如何填補它們之間存在的“縫隙”的?你是如何做到這一切的?這就是意義的秘密,也是本書探討的主要內容。
近來,我一直在重讀這本書,因為其中很多內容正好與我要研究的課題相關,細讀這本書會對我的研究大有裨益。2019年,當我和李航博士再次見面時,我給他看了我們完成的自動生成故事板的結果,其算法的核心想法正是基于這本書里所介紹的具身模擬假說。
以《畫餅充饑》的故事為例,它講述了這樣一個故事:
很久以前,有個小男孩在森林里迷了路,他走了好久,又累又餓,很想吃媽媽做的餅,可這時候他回不去呀!于是他就在地上畫了一個大大的餅,還在餅上點上芝麻。小男孩一直看著,好像自己已經吃上了大餅,于是他就不覺得餓了,并重新站起來,沿著小路往前走。沒過多久,小男孩的爸媽找到了他,他們一起回到家,吃上了真正的香噴噴的餅。
借用本書作者的寫作手法,這里,我請你暫時停下來,回想一下你在閱讀前面這段文字時到底發生了什么,你是如何理解它的。你把目光聚焦在每一個方塊字上,這些方塊字組成了詞,然后,你認出一些熟悉的詞,比如“男孩”“森林”“迷路”“餅”。這一切看起來非常直截了當,自然語言處理中的分詞模塊也能做到。但接下來你認出了這些詞是什么,并開始理解它們蘊含的意義。你知道它們分別指的是哪一類物體、動作或事件。這些句子描述的畫面開始變得生動起來:你似乎看到了那個男孩在森林里無助的神情;讀到他餓了,你的胃似乎也會有一點不舒服;讀到他在地上畫餅的時候,你的手指似乎也忍不住想要去畫。接下來,是更加不可思議的部分:你在繼續深入的時候會補上一些從未在句子里明確提到過的細節。例如,想要去畫餅的時候,你會不自覺地畫出一個圓,吃大餅的時候是用手拿著而不是用筷子。這就是作者所說的具身模擬:
也許,我們對語言的理解,就是通過在我們的腦海中進行模擬,感受這些語言所描述的事物若換成我們自己親身去體驗是怎樣的。
我們借由人們描述電影的數據,對計算機來說,這些數據可以類比為我們個人以往的體驗。接下來,算法通過文字和視覺的雙重匹配得到了9幅圖片來對應《畫餅充饑》的故事(見圖0-1)。

圖0-1 2019年發表于ACM國際多媒體技術大會(ACM MM)的論文Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences中為《畫餅充饑》檢索出的故事板
結果令人驚喜,它們所展示的畫面能很好地與《畫餅充饑》的故事匹配。例如,第1幅圖看起來的確是一個人走在森林中;而第2幅圖真的很像媽媽端來的香噴噴的食物;第6幅圖是一個人蹲在地上吃東西,手中恰好握著一張餅;第8幅圖是由“小男孩的爸媽找到了他”這句話檢索而來的,我們從這幅圖中可以看到一個男孩撫摸著父母的臉,面帶哭泣的表情,這是非常典型的重逢場景,雖然檢索詞中沒有提到哭泣,但算法得出的畫面卻“腦補”出了這樣的細節。
對體驗的模擬不只適用于圖像,如果我們能模擬文字表達的概念之間的關系、典型的生活對話場景以及人的三觀,又會如何呢?我們把時間投入在了對話和其他文本生成的任務上,例如,我們的算法可以生成這樣的比喻:“愛情像脂肪,是點點滴滴的積累”;也可以根據一句內容簡述生成一小段臺詞(見表0-1中的例子);還可以控制對話中人工智能的三觀,不只是對簡單事物的觀點,甚至可以模擬人的愛情觀(見表0-2中的例子)。
表0-1 2020年發表于國際計算語言學會議(ACL)的論文ScriptWriter: Narrative-Guided Script Generation中提出的算法所生成的一段臺詞

表0-2 2019年發表于國際網絡搜索和數據挖掘會議(WSDM)的論文Attitude Detection for One-Round Conversation: Jointly Extracting Target-Polarity Pairs中提出的算法可以控制人工智能的三觀,來塑造不同的性格

近年來,我留意到,計算機從業者多年來對文字、語音、圖形、圖像等模態的單獨研究有一種融合的趨勢,也許會帶來下一個自然語言處理領域的重大突破,因為人類的小孩就是在同時接收多種信息的基礎上學習語言的。希望在未來人工智能的研究中,本書所述的具身模擬假說可以給研究者及大眾帶來一些啟發。

掃碼下載“湛廬閱讀”App,
搜索“我們賴以生存的意義”,
看宋睿華教授如何解讀影響我們的思考和行為的機制。