官术网_书友最值得收藏!

  • 思維工程
  • 錢小一
  • 995字
  • 2021-09-07 17:16:51

二、原始句子轉(zhuǎn)為詞匯流

在人類單句自然語言處理過程中,第一步是識別詞匯。

有些語種詞匯間的邊界已經(jīng)很清晰了,比如英文,每個單詞在書寫和拼讀時都有明顯的邊界特征,識別邏輯非常簡單;有些語種的詞匯邊界則很模糊,比如中文,中文的句子在輸出的時候是文字流,需要聽者識別詞匯流的詞組。

在原型機(jī)中,我們不希望AI的起點就擁有某一詞庫,而是希望AI能夠像人類一樣在聽多了某個詞作為字的固定組合之后習(xí)得某一詞匯(此時還不需要知道詞的含義)。這樣做的原因,其一是因為我們很難獲得真正完整的詞庫,每個地方都會有自己獨有的詞匯,甚至一個家庭會用新的詞約定相互間的昵稱。其次,即使不考慮小眾詞匯,每年都會有許多新的大眾詞匯產(chǎn)生。其三,實現(xiàn)人類學(xué)習(xí)的機(jī)制是思維工程永恒的追求,因為這個過程總是會有意想不到的收獲。

對于人類而言,我們能對經(jīng)常出現(xiàn)的字組合形成印象,這正是我們需要在這里實現(xiàn)的。大致算法邏輯是這樣的:

1.將學(xué)習(xí)的邏輯插入第一步:句子中的詞匯識別。

2.對詞匯識別后剩下的句子片斷進(jìn)行處理。

3.維護(hù)一個猜想詞庫。

4.識別片段中的兩兩字組合,如果猜想詞庫中存在,則增加頻次強(qiáng)度,不存在則新建。

5.猜想詞組的頻次強(qiáng)度隨時間衰減,但如果有猜想詞組AB的頻次強(qiáng)度超出閾值,則保存為正式詞匯。

6.保存為正式詞匯前,還需要考察CA或BC的頻次強(qiáng)度,如果也非常顯著則意味著詞組可能不是2字組合,而是CAB或ABC。以此類推,我們能以二元組合為起點,找到比如3字的詞或4字的成語。

工程上可執(zhí)行的算法還要基于此框架細(xì)化。對于此學(xué)習(xí)機(jī)制,我們會定義一些測試。我們在AI沒有任何詞庫的情況下輸入家長和幼兒、兒童對話的樣本,考察生成的詞匯(實驗8.1a),其中放入一些3字詞匯和4字成語,考察是否能夠生成對應(yīng)的詞匯(實驗8.1b)。我們在AI有一定語言基礎(chǔ)的情況下,在表達(dá)中使用一些它沒有學(xué)過的詞,考察AI是否能識別到新詞,并詢問語義“你說的中傷是什么意思啊”。(實驗11.1-實驗11.3)

兩個詞還有可能組成新的詞,按照人類組詞的邏輯,新詞往往帶有組成它的詞的意向。這點在類似英文這種詞匯邊界清晰的自然語言中也存在,比如玻璃杯(glass cup)、蘋果樹(apple tree)等。所以AI需要按照上面對字的固定組合形成印象的邏輯對詞的固定組合形成印象,并生成由詞的組合形成的詞匯。我們可以在測試案例中插入AI已知詞匯組合的詞匯考察其是否能夠生成新的詞,并詢問詞義(實驗11.4)。

第一步原始句子轉(zhuǎn)為詞匯流的實現(xiàn)參考模塊8.1。

主站蜘蛛池模板: 灌南县| 湘潭市| 改则县| 兴化市| 云梦县| 壶关县| 太康县| 黄石市| 米脂县| 松溪县| 二连浩特市| 华宁县| 满洲里市| 岳池县| 华蓥市| 五河县| 灵石县| 塔城市| 贵州省| 四会市| 信丰县| 新龙县| 抚州市| 麻阳| 汉寿县| 临江市| 东光县| 错那县| 汉川市| 武强县| 湘阴县| 长海县| 天柱县| 承德县| 阆中市| 普陀区| 米泉市| 綦江县| 轮台县| 吉木萨尔县| 若尔盖县|