第八章 語言的輸入A
一、正轉錄流程描述
在前面較為寬泛的討論之后,我們已經熟悉了應該熟悉的概念,做好了精確討論的準備,本章我們開始描述和正轉錄相關的工程上的設計。
人類處理輸入的語言,無論是一句話表達,還是成段的表達,還是一本書的信息,都是以每個單句作為信息單元逐句處理的。處理的過程會維護一個語境記憶,以應對表達中的省略,形成對表達信息的主要邏輯,以及各種信息之間關系的提取。因為語境記憶的存在,雖然是單句逐句處理,但最終攝取的信息卻不是零碎的。
對于單句信息。第一步,需要先識別當中的詞匯,詞匯是構建句子的積木。詞匯有三種類型,第一種是背后有概念對應的詞匯,比如“蘋果”“文化”;第二種是結構信息的位格名稱,比如二元關系中的“爸爸”“仇人”;還有一類是為了賦予句子足夠的結構特征,方便聽者識別的“結構性詞匯”,比如中文中的“的”“是”“但是”“所以”等,英文中“is”“however”“because”等。
第二步,識別完詞匯后,會把第一類對應概念的詞匯用概念ID替換,第二類對應結構信息位格名稱的詞匯用結構信息位格ID替換,結構性詞匯保留原有形態。
第三步,如果第二步輸出的信息是合法的表達,已經能夠找到統轄它的句子結構母類,接著我們要完成:
A.進行統轄搜索。
B.找到統轄這個概念替換詞匯后的句子的句子結構信息,并建立具體概念到句子結構中對應的較為抽象的概念的約束映射。
C.找到句子結構信息對應的表達單元信息。
D.用約束映射進行表達單元信息中對應抽象層概念的替換,演繹出具體的表達單元信息。
如果句子中包含嵌套結構,那么我們無法直接識別到最外層語法結構(這里也就是指語法映射兩部分信息中的句子結構信息),需要句子中包含的小語法結構,轉為所描述或指向的概念ID后,更大的語法結構才會顯現出來。
以上是對正轉錄流程的簡要描述,具體每步都會包含更多細節的內容,需處理各種非理想化的情況,主要就是我們兩章前描述的所有自然語言都會遇到的4個問題:(1)如何應付嵌套,尤其是多重嵌套;(2)如何維護語境信息;(3)如何應付語境省略和常識省略;(4)如何應付意向表達。接下來我們就帶著這些問題來具體討論每個環節的信息處理邏輯。