第六章 自然語言特征
一、自然語言的共有特征
當一個群體發(fā)展出自己的自然語言的時候,會很自然地形成一些需求,然后發(fā)展出約定來適應這些需求。因為不同自然語言自然形成的需求有很多是一致的,所以就會演化出共有的適應這些需求的特征。
本章我們討論四類共同的特征。我們認為這些特征的根基、作用是普遍的,決定了很多其他語言表象的產生。這四類特征為概念的指向、語境記憶、表達省略和意向表達。我們可以看到,無論是哪種演化形成的自然語言,都會包含這些特征。
概念的指向。如果一個概念沒有名稱,就需要用其他方式去指向;如果概念本身是一個結構信息,我們就可以通過組成結構信息的元素去指向這個概念,比如對事件概念的陳述;如果概念存在于一個結構信息中,我們就能用結構信息去指向這個概念,這就是從句的來源;如果用以指向一個概念的元素自己也沒有名稱,我們就需要先設法指向這個元素,于是就形成了多重嵌套的表達。
語境記憶。人類在聽一個人的講話、讀一本書,或是自己在講話時,都會在語言處理過程中保存特定的信息,最短期的記憶比如最近談及的對象、屬性、事件、事件規(guī)律等等,這些信息讓我們創(chuàng)造表達的省略,讀懂對方表達中的省略。較為長期的記憶比如一大段表達中每個信息被重復的次數(shù),這讓我們知曉邏輯不那么清晰的表達的重點;表達的信息之間的相互關系,能讓AI聽到的不再是局部的碎片化的信息,讓AI能夠帶有整體感地復述一大段表達。
表達省略。表達省略分為兩種類型,語境省略和常識省略。語境省略也就是因為語境保持了信息,所以可以省略;常識省略也就是因為常識中包含了信息,所以可以省略。省略機制讓語言在不會導致誤解的前提下變得簡潔。
意向表達。人類的表達很少是精確的,無論是語法上還是邏輯上;人類也極少會通過精確的定義去掌握某一詞匯。事實上造物主給予人類的自然語言就是建立在不精確和模糊之上的藝術品。從詞匯的掌握到詞匯的使用,很多都是在意向層面的工作。
本書我們計劃搭建的原型機會在一定程度上體現(xiàn)出以上四個方面的特征和能力。接下來我們分別討論之,為工程層面的構建理清思路。
- DeepSeek算力革命簡史
- 智能學習的未來
- Python元學習:通用人工智能的實現(xiàn)
- 巧用ChatGPT進行數(shù)據(jù)分析與挖掘
- 風向:如何應對互聯(lián)網(wǎng)變革下的知識焦慮、不確定與個人成長
- Python金融大數(shù)據(jù)風控建模實戰(zhàn):基于機器學習
- C#神經(jīng)網(wǎng)絡編程
- 你好,AI:DeepSeek實操寶典(全2冊)
- 智慧的疆界:從圖靈機到人工智能
- 人工智能:智能制造
- FANUC工業(yè)機器人實操與應用技巧
- 智能化變革:人工智能技術進化與價值創(chuàng)造
- 巧用ChatGPT輕松玩轉新媒體運營
- AI改變設計 : 人工智能時代的設計師生存手冊
- 云模型與文本挖掘