2.4 數字符號的感知
來自外部的符號是智能體感知的主要渠道。這里的符號是指所有通過信息傳輸通道進入智能體傳感區的電磁信號,或者說是已經完成圖2.4所示的物理信號到電信號轉換的信息外殼。由于大量的外部對象及人類積累的知識和經驗已經數字化,無論是學習還是問題求解的需要,符號感知是智能體主要的信息來源。
在邏輯符號感知中,能還原為音、視頻的,其感知即轉送至物理信號感知通道,本節只討論內容為非音、視頻的邏輯符號感知。
2.4.1 符號感知的特點和一般處理原則
邏輯符號感知的基本要求與物理信號一致,就是把感知對象轉換為智能體可理解、可使用的記憶。
將轉換為音視頻信號的部分排除之后,需要感知的邏輯符號構成可分為兩大類:文本和圖形。相對于物理信號的感知,這些感知對象識別的難度整體上要低一些,因為絕大部分的感知對象可以由近乎一一對應的感知器接收并識別,但其上下文及語義、場景的關系十分復雜,如何揭示好識別對象中存在的這些關系及為智能體知識的成長提供有效的環境,是符號識別的重點,也是特點。這就是說,符號感知系統的重心應是如何將已感知的基本單元按照感知對象的原意重新組合起來,而且這種組合有利于智能體其他功能系統的處理及智能體記憶的有效增長。
根據這樣的要求和特點,符號感知處理應遵循下面的一般原則。
(1)最小單元。感知識別以最小語義單元和最小圖形單元為起點。原則上,每個不同的文字或圖形單元至少存在一個邏輯的感知器與之對應。
(2)優先次序。識別的組合采用不同的優先次序:文字組合,規則優先;圖形組合,功能組優先。組合不僅以本次感知對象的上下文為基礎,還要參考感知器或感知功能組的已有知識。
(3)前后銜接。識別過程要為后續的描述、連接、記憶功能系統創造條件;同樣也以這些過程的成果為依據。
(4)呈現分類體系。應該有一組特殊的分類功能組,將組合好的內容歸入感知對象的上下文沒有直接表示出來的類別中。這里的類別是指文本或圖形的學術、使用場景、藝術或情緒性等特征。
(5)不厭其煩。對感知對象所有可能的組合采用全組合原則,對于冗余或可能的不確定,由后續的功能系統,特別是描述、記憶、學習等環節去除、糾正。
2.4.2 符號感知的流程
符號感知的流程與物理信號感知的流程存在重大差別,其產生的原因是符號幾乎不存在不能識別的,極小概率發生的不能識別也可以通過交互的方式解決,或者因此構建出一個感知器。
如圖2.10所示,到達智能體感知區的符號串,首先經過轉換與標識,即完成將感知對象轉換為智能體專用的符號體系,并完成形式性標識,即完全標注感知對象的位置;然后傳送到功能組識別區,如果能識別,則繼續進行基于功能組的組合,一直到沒有新的組合為止。在這一系列操作中,不能組合即轉向感知器識別。由于符號感知微處理器囊括所有可能識別的文字或圖形,所以一般不存在不能識別的字符,但存在還沒有為特殊圖形構建專門微處理器的可能,此時可以構建一個新的感知微處理器。在文本的上下文環境,新的感知微處理器可以將其轉變為智能體可理解的含義表述。

圖2.10 符號輸入處理流程
感知微處理器的識別與組合流程與感知功能組一致。所有可能路徑遍歷之后,感知內容再次標識,將識別和組合過程需要記錄的信息全部標識清楚,然后輸出到智能體的描述區。當然,整個符號感知過程需要接收來自智能體其他部分經由后處理模塊處理的調整型信息,并從入口開始循環,落實到應該調整的功能模塊中執行。
在圖2.10中,感知器是指感知微處理器,感知功能組及感知器的組合均依據其知識庫中的知識進行識別。
2.4.3 典型例子分析
1.文本的識別
假設用于識別的文本為,“由,誨汝知之乎!知之為知之,不知為不知,是知也。”假設感知功能體系對象形文字全部采用單字為最小識別單元,拼音文字均以詞為最小識別單元,即每個最小識別單元均有獨立的感知微處理器。假設感知器已經從相關輸入文本中知道這僅是一篇文獻中的一段。假設主要中文詞典的知識已經成為每個漢字感知器中知識庫的內容。
感知的實施步驟如下。
感知文本從通道進入感知區計算域,以一種優化算法,使一個個漢字字符被感知微處理器接收,完成符號格式轉換和形式性標識。這段文字一共被13個感知微處理器處理,其中最多的是“知”字微處理器,共接收6次。為優化處理,一般地,不同的語言按照字符出現的頻率,對高頻字符增加微處理器。假設有3個“知”字微處理器,則每個感知器接收兩個“知”字,需要根據規則合并。合并的任務是將各自的上下文位置標識加到其他的同字符感知器中,相同字符的不同感知微處理器,其知識庫始終是一致的,這是功能組及功能體系的常規功能。
標識之后,就進入感知微處理器的組合過程。文字的組合基于兩套流程,首先是與自帶的知識庫中已有的詞組、句子匹配。假定相對于感知對象,在“不”和合并后的“知”兩者的知識庫中均有“不知”這個詞組,則再次確認組合,并以此為基礎,根據感知器或功能組中存在的分詞和組合規則,完成全部短文的切分與組合,并分別保存在每一個相關的感知器和感知功能組中。在經過多次重復,或經交互得到可以判斷為可靠的確認后,這篇短文本身就組成一個字符功能體系中的邏輯功能組。
字符的感知本質在于豐富的知識庫和細致的組合規則。字符感知這一子功能系統,在初始、賦予及訓練學習階段,用上述方式輸入全部去除重復后的各類語言的字典、詞典,以及在自然語言處理中積累起來的全部成熟的與詞的組合與切分的規則。
在此基礎上,上述短文感知的組合可能變得很簡單。由于這篇短文是古漢語的名篇,已在大量的文獻中出現,相應的感知微處理器中也已經保存了充分的知識,可以直接通過某個字符導出全部短文的組合模式(也稱分詞模式),以及這篇短文的出處、讀音(多種語音,如古漢語讀法)、現代文翻譯(包括多種不同的理解)。因此,這次感知只需要再為這篇在邏輯上已經成為一個功能組的對象增加新的來源或新的應用場景標識即可。
2.圖形的識別
圖形可以分成兩類。一類是以約定的方式,由具有特定含義的形狀構成具有特定含義的圖形,如公式、流程圖、設計圖。另一類是美術性圖形,以寫實、神似或抽象的方式表達客觀存在或想象的事物、心境等。
在感知的分工中,第一類由符號識別區識別,第二類由信號感知區識別。兩類圖形的存在形態大部分是智能體可識別的符號模式;也有少數,包括少數文字,盡管是以0和1的方式保存,但是不可區分保存內容的圖像,這種可以通過光學識別方式轉換。在轉換后的集合中,根據符號感知區的分類功能,將第二類圖形轉送至信號識別區感知。
圖形的識別模式和流程與文字的識別類似。識別的基礎是所有約定的圖形均有專門的感知器,每個感知器所識別的圖形在特定圖形中的含義、在已經存在的不同類型圖形中的含義均已包含在其知識庫中。感知先從最基本單元開始,然后逐步組合,一旦組合成一個獨立的圖形,這個圖形就構成了一個邏輯功能組,這個功能組的解釋通過該圖形的上下文與/或文本中關于該圖形的相關描述形成。由此這些解釋就成為這個功能組的知識庫來源。智能體的相關功能體系不能確定的,通過交互方式增加確定性判斷依據。
以圖2.10為例,不同的感知器識別基本圖形單元,每個矩形、菱形、直線和帶不同方向箭頭的線條分別被感知。圖中文字可以通過光學識別后感知,也可以根據字符感知器知識庫中的形狀進行識別,將其識別為一個個詞組,表示為相應圖形的解釋。
一幅圖形,如果嵌套在文字中,有圖的標號、圖名,在上下文中對圖的功能做了必要的解釋,這些內容如何與字符識別一起組合,圖形組合到文字的識別中,文字組合到圖形的識別中,形成兩個真實反映文本含義的邏輯組合,是符號感知區的重要功能。符號感知區含義組合的一個原則是最大組合。按照已經積累的文字、圖形組合的經驗而歸納出的規則,在一段包含圖形的文字中,將其組合到最大,并將最大的組合發展為邏輯功能組,成為其中部分的理解指引,是感知功能體系和感知子功能體系的重要功能。