官术网_书友最值得收藏!

  • 人工智能的故事
  • 魏錸
  • 2560字
  • 2020-06-28 11:25:27

1.5 讓計算機理解人類的語言

1949年5月31日,《紐約時報》興奮地發布了一條新聞:“一種新型的‘電子大腦’不僅可以進行復雜的數學運算,而且可以翻譯外文。它由位于加州大學的國家標準實驗室研制。參加項目研發的科學家們說,他們將實現覆蓋《韋伯大學詞典》6萬個單詞的3種語言的翻譯能力。”

然而,這樣一種系統的研發在當時面臨著各種技術問題,最后只能無果而終。連《紐約時報》后來也不得不承認說:“如何讓一臺機器分辨法語中同一個單詞的意思是‘橋’還是‘碼頭’?所有機器能做的事情只是簡單地尋找一個法語單詞在英語詞典里對應的單詞,無法從實際語義上確定應該如何翻譯。”

自然語言處理一直是人工智能研究中的一個重要課題。人工智能研究早期探索的一個方向,就是想要找到一種方法能夠讓機器識文斷字。我們知道人類的多種智能都與語言文字有著密切的關系。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。

實現人機間自然語言通信意味著要使計算機既能看得懂文字,理解其中的意思,又能以自然語言的形式來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,這就是自然語言處理。機器翻譯就是自然語言處理的一個具體應用。

一個真正的機器翻譯系統直到1954年1月才在美國喬治城大學開發成功。雖然它只包含了6條語法規則和250個單詞,但它把幾十個俄文句子成功地翻譯成了英文,這在歷史上還是第一次。當時還沒有像現在這樣方便的人機交互方式,俄文句子必須通過打孔卡片輸入到一臺IBM 701大型計算機中,翻譯出來的英文也是通過一臺連接在這臺計算機上的打印機打印出來的。

在關于機器翻譯的研究中一直有兩種不同的方法,其中一種是以喬姆斯基為代表的語言學方法,另一種是以賈里尼克為代表的統計學方法。身為猶太人的喬姆斯基出生在美國賓夕法尼亞州的費城。雖然他從賓夕法尼亞大學取得了語言學博士學位,但他的大部分博士研究是用4年時間以哈佛年輕學者的身份在哈佛大學完成的。在博士論文的撰寫中,他開始形成自己的一些語言學思想,后來他將這些思想進一步闡發,寫成了《句法結構》這本被認為是20世紀理論語言學研究方面最偉大貢獻的著作。這本書也成為了人工智能機器翻譯語言學方法的圣經。

按照喬姆斯基的句法結構,句子可以通過一系列規則得到解析。一個句子可以解析成名詞詞組和動詞詞組,而名詞詞組和動詞詞組又可以進一步解析。他認為,所有語言都有與此類似的句法結構,這種結構是內在的,而不是通過經驗得來的。在喬姆斯基的理論中,機器翻譯就是通過對一個句子進行結構解析和合并重構來完成的。這其實是一種邏輯方法,并暗合于計算機科學中的有限自動機理論,成為了早期機器翻譯的主要方法。

喬姆斯基不僅是一位學者,還是一名社會活動家,1967年因為反對越戰坐過牢。麻省理工學院為了保護這位“口無遮攔”的“院寶”,多次為他雇用保鏢保護他的人身安全,因為他的名字曾經出現在郵件炸彈的黑名單上。其實,他是一位典型的學究,率性固執,但天真善良。據說,他在獄中因為不能給學生上課而感到不安和自責。

和以喬姆斯基理論為代表的語言學方法對立的就是統計學方法。1988年,美國IBM公司沃森研究中心機器翻譯小組發表了一篇關于機器翻譯統計學方法的論文,并推出了法語和英語的翻譯系統CANDIDE。賈里尼克作為該小組的組長,成為了機器翻譯統計學方法的代表。他的名言就是“我每開除一位語言學家,我的語音識別系統的性能就能提高1倍”。看得出來,他是多么不喜歡自然語言處理中的語言學方法。

喬姆斯基

所謂統計學方法,就是在大量數據的基礎上形成語料庫,通過概率統計來發現數據特征,建立數據模型。實際上,這是一種建立在大數據之上的機器學習方法。簡單來說,一個詞在生活中的用法多種多樣,但在不同環境和場合中出現的頻率不同,和其他詞語關聯的頻率也不同。我們把這種出現的頻率叫作概率,把各種詞語出現的概率記錄下來,建立一個詞語統計模型。通過這樣的統計模型,我們就可以分析和理解一個句子的意思。

就在喬姆斯基一邊研究他的句法結構一邊積極參與反戰的社會活動時,另一位德裔猶太人魏森鮑姆在麻省理工學院編寫了一個用于心理咨詢的會話程序ELIZA。用今天的話說,這就是一個聊天機器人,它能通過計算機終端和人進行交流。其實,ELIZA是一個超級簡單的程序。它只是簡單地在一個按詞頻排序的詞庫里進行搜索,如果找到了一個合適的單詞來匹配,就在腳本庫里選擇一個合適的回復。

連魏森鮑姆教授自己也沒有想到,這樣一個小玩意兒竟然轟動一時。很多來麻省理工學院訪問的學術界和新聞界人士都要來到他的辦公室親自和這位機器心理醫生聊一聊。一次,一位來找魏森鮑姆教授談合作的某公司副總裁在終端上聊了一會兒,覺得這玩意兒真不錯。他認為一定有人在機器后面操作。于是在走的時候,他把自己的電話號碼輸入到終端上,說:“有時間給我打電話,好嗎?”可終端一直沒有回答他。這可把這位副總裁氣壞了,因為從來沒有人敢這樣怠慢他。其實他自己輸完最后一句話后沒有按回車鍵,機器不是傲慢,而是以為他的話還沒有講完,一直在畢恭畢敬地等著他結束對話呢。

魏森鮑姆

維諾格拉德不是喬姆斯基的學生,但他在讀研究生的時候選修了語言學系喬姆斯基教授的句法課。因為他讀的是人工智能專業,所以在期末考試的論文中,他試圖說明為什么人工智能的方法可行。這讓喬姆斯基很不開心,一氣之下給了維諾格拉德一個C的成績,嚇得維諾格拉德再也不敢選喬姆斯基的課程了。不過,維諾格拉德的博士論文題目還是和語言有關,他開發了一個叫積木世界的東西。他用顯示器展示了一個虛擬的積木世界,人們可以通過簡單的自然語言,命令一個虛擬的機械手對這個積木世界里面的積木進行虛擬操作。如果機器不能確定人們給出的命令,就會向人們提問。整個系統就像一個游戲一樣。

積木世界

維諾格拉德的積木世界遠比魏森鮑姆的機器心理醫生復雜,學術意義也更加深刻。它把當時的很多人工智能技術整合到了一起,除了自然語言處理外,其中還用到了規劃和知識表達。它涉及語言的很多方面,包括語言的輸入、輸出和生成,知識的表示和理解,世界和思想。積木世界還暗含了一種哲學思想,即意義就是語言的使用。語言的使用就是心和物(世界)之間的交互。積木世界就是語言游戲,成為了一種研究語言的方法。為此,維諾格拉德獲得了國際人工智能聯合會頒發的第一屆“計算機與思維獎”。

主站蜘蛛池模板: 闻喜县| 云林县| 湘乡市| 资中县| 连城县| 广河县| 兴城市| 鲁山县| 中西区| 临桂县| 金平| 榆社县| 东阿县| 桂平市| 武威市| 襄垣县| 和静县| 呼图壁县| 扶余县| 汤原县| 泗阳县| 金寨县| 容城县| 油尖旺区| 江山市| 项城市| 砀山县| 保山市| 吉林省| 富蕴县| 平安县| 贵溪市| 革吉县| 广南县| 紫金县| 阳信县| 大渡口区| 建宁县| 阿瓦提县| 柘荣县| 望城县|