官术网_书友最值得收藏!

1.1.3 自然語言處理的主要難點

自然語言理解和自然語言生成都是十分困難的任務,其根本原因是自然語言在各個層面都廣泛存在著各種各樣的歧義性或多義性(Ambiguity)。自然語言文本在形式上是由字符(包括中文漢字、英文字母、符號)組成的字符串。由字母或者漢字可以組成詞,由詞可以組成詞組,由詞組可以組成句子,進而組成段落、篇章。無論哪種粒度的語言單元,在從一個層級向上一個層級的轉變中都存在著歧義和多義現象。形式上一樣的字符串,可以被理解為不同的詞串、詞組串,并有不同的意義[1]。Joseph F. Kess和Ronald A. Hoppe甚至還提出了“語言無處不歧義”的理論[34]。在某種程度上,我們也可以說自然語言處理基礎任務的核心就在于解決歧義問題。

1.語音歧義

語音歧義(Phonetic Ambiguity)主要體現在口語中,是由語言中同音異義詞(Homophone)、爆破音不完全、重音位置不明確等原因造成的。漢字的同音異義現象則更加嚴重。漢語中只有413個不同的音(節),即使結合聲調的變化組合,也僅有1277個音(節),而漢字則多達數萬個,因此同音字非常多。在英語中,雖然同音異義詞相對漢語要少得多,但是由于連讀、爆破音、重音位置等造成的語音異義也非常常見。

例如:請問您貴姓?

免貴姓zhang。

在這組對話中,“zhang”既可以是“張”,也可以是“章”。漢語中同音異義詞也非常多,例如,“chéng shì:城市、程式、成事、城事”“jìn shì:近視、進士、盡是”“shˇou shì:首飾、手勢”等。

在英語中,雖然語音歧義的現象沒有漢語中這么嚴重,但是也普遍存在。

例如:Please hand me the flower.請把花遞給我。

Please hand me the flour.請把面粉遞給我。

在這兩句話中,“flower”和“flour”的發音相同,由同音異義詞造成了歧義。類似的情況還包括“see(看見)與sea(大海)”“son(太陽)與sun(兒子)”等。

2.詞語切分歧義

詞語切分歧義(Word Segmentation Ambiguity)是指由字符組成詞語時出現的歧義現象。對于英語等印歐語系的語言來說,絕大部分詞之間都由空格或標點分隔。但是對于漢語、日語等語言來說,詞之間通常沒有分隔符,因此,在將連續的字符切分為詞時就會產生歧義。

例如:語言學是一門基礎學科。

這門語言學起來很困難。

在該例句中,“語言學”“語言”都是詞語,在同一個句子中就會出現多種切分方法。這種切分歧義在漢語中普遍存在。我們將在第2章中詳細討論詞語切分歧義的問題以及詞語切分的方法。

3.詞義歧義

詞義歧義(Word Sense Ambiguity)是指詞語具有相同形式,但是意義不同。這種歧義在各種語言中都廣泛存在,通常越是常見的詞語,其詞義數量就越多。例如,在《現代漢語詞典(第7版)》中,“打”字有兩個讀音,即“dá”和“dǎ”,可作為量詞、動詞和介詞。當作為動詞時,“打”字有24個義項[35]

打(dǎ)動詞

①用手或器具撞擊物體:~門|~鼓

②器皿、蛋類等因撞擊而破碎:碗~了|雞飛蛋~

③毆打;攻打:~架|~援

④發生與人交涉的行為:~官司|~交道

⑤建造;修筑:~壩|~墻

······

英語中存在大量類似的情況。例如,根據WordNet中給出的定義,單詞“bank”具有名詞和動詞兩種詞性。當作為名詞時,其具有10種詞義[36]

bank名詞

①sloping land (especially the slope beside a body of water)

"they pulled the canoe up on the bank"

②a financial institution that accepts deposits and channels the money into lending activities

"he cashed a check at the bank"

③a long ridge or pile

"a huge bank of earth"

······

⑩a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)

"the plane went into a steep bank"

我們將在第4章中詳細討論詞義歧義的問題以及消除詞義歧義的方法。

4.結構歧義

結構歧義(Structural Ambiguity)是指由詞組成詞組或者句子時,由于這些詞或詞組間可能存在不同的語法或語義關系而出現的(潛在)歧義現象。結構歧義有時也被稱為語法歧義(Gram-matical Ambiguity)。馮志偉教授在文獻[37]中對結構歧義進行了系統的描述,其中一些典型的結構歧義如下:

? “VP+的+是+NP”型歧義結構

例如:反對|的|是|少數人

在該類型歧義中,VP是一個雙向動詞,“VP+的”是主語,“是+NP”是謂語,整個句式是一個主謂結構。由于主語部分的“VP+的”既可以是施事,也可以是受事,因而會產生歧義。在這個例子中,既可以理解為“提反對意見的是少數人”,也可以理解為“所反對的是少數人”。

? “VP+N1+的+N2”型歧義結構

例如:咬死了|獵人|的|狗

在該類型歧義中,N1作為VP的賓語,述賓結構“VP+N1”加上“的”之后,作為名詞N2的定語,整個結構是一個定中結構。但是N1又可以與“的”結合在一起作為N2的定語,構成“N1+的+N2”,這個名詞詞組作為VP的賓語,整個結構構成一個述賓結構。在這個例子中,既可以理解為“咬死了一條獵人的狗”,也可以理解為“一條把獵人咬死的狗”。

? “N1+和+N2+的+N3”型歧義結構

例如:桌子|和|椅子|的|腿

該類型歧義是由于連詞“和”的管轄范圍不同而造成的潛在歧義。在這個例子中,既可以理解為“桌子和(椅子的腿)”,也可以理解為“(桌子和椅子)的腿”。

類似的結構歧義類型有很多,例如“ADJ+N1+N2”“VP+ADJ+的+N”等。對這些歧義的不同理解會造成句法結構以及語義上的不同。句法分析的主要難度就是解決結構歧義的問題。我們將在第3章中詳細介紹結構歧義以及如何進行句法分析。

5.指代歧義和省略歧義

在由多個句子組成的段落或篇章中,各種歧義依然存在,例如指代歧義和省略歧義。指代歧義(Demonstrative Ambiguity)是指代詞(如“我”“你”“他”等)和代詞詞組(如“那件事”“這一點”等)所指的事件可能存在歧義。

例如:猴子吃了香蕉,因為餓了。

猴子吃了香蕉,因為熟透了。

上述兩個句子的前半句完全相同,“它”可以指代“猴子”和“香蕉”,需要根據后半句的謂詞決定指代關系。

省略歧義(Ellipsis Ambiguity)是指在自然語言中,由于省略而產生的歧義。省略是自然語言中一種重要的語言現象,尤其在漢語中省略現象非常常見。省略一些成分,在絕大部分情況下不會影響句子的表達,但還是會存在一些由于省略而造成歧義的問題。

例如:縣政府同意鄉政府報告。

在這個例子中,省略了助詞“的”,因此使得該句具有兩種解釋:一種是縣政府同意鄉政府的那份報告;另一種是縣政府同意鄉政府做出報告。

6.語用歧義

語用歧義(Pragmatic Ambiguity)是指由于上下文、說話人屬性、場景等語用方面的原因而造成的歧義。一句話在不同的場合、由不同的人說、在不同的語境下,都可能產生不同的理解。

(1)由于場景的不同,同樣的句子可以有不同的意義。

例如:你知道南京路怎么走嗎?

? 如果說話人是游客,說話的對象是警察,那么這句話的含義就是問路。

? 如果說話人同樣是游客,但是說話的對象換成出租車司機,那么這句話的含義就是詢問出租車司機是否可以送他到南京路。

(2)由于上下文的不同,同樣的句子也可以有不同的意義。

例如,女子致電男友:地鐵站見。如果你到了我還沒到,你就等著吧。如果我到了你還沒到,你就等著吧!!

在這個例子中,同樣的句子“你就等著吧”,前一個的含義是請耐心等待,后一個的含義是你要有麻煩了。

從上述介紹中可以看到,自然語言中存在大量的歧義現象。對于人類而言,這些歧義在絕大多數情況下都可以根據上下文以及相應的語境和場景得到解決。這也就是為什么我們平時使用自然語言交流并沒有感知到語言的歧義。但是,為了消除這些歧義,需要使用大量的知識進行推理。而如何表示知識和使用知識、如何完整地收集和整理知識以及常識都是極其困難的問題。莫拉維克悖論(Moravec's paradox)對自然語言處理依舊適用。也正是由于這些問題,才使得消除歧義成為自然語言處理中最大的難點之一。

此外,自然語言并不是一成不變的,而是在動態發展中,存在大量未知語言現象。新詞匯、新含義、新用法、新句型等層出不窮[38]

例如,新詞匯:雙碳、雙減、絕絕子、社恐、元宇宙

新含義:躺平、打工人、凡爾賽、青蛙、潛水、蓋樓

新用法:走召弓雖、YYDS、回憶擴列、orz

新句型:糾結的說、看書ing一整個無語

對于自然語言處理系統來說,這些層見疊出的語言現象也是巨大的挑戰。無論是自然語言處理的基礎任務還是應用系統,如何應對這些未知的情況都是巨大的挑戰。

總而言之,自然語言處理的困難來源于非常多的方面,既面臨來自語言本身所不可避免的根本性問題,也缺乏通用的語義表示以及語言意義的理論支撐。同時,現階段自然語言處理方法所依賴的機器學習算法,還存在需要大規模標注數據、跨領域效果差、泛化能力和穩健性弱、模型不可解釋等諸多問題。也正因為此,自然語言處理研究極具挑戰性,能夠稱得上“人工智能皇冠上的明珠”。

主站蜘蛛池模板: 平谷区| 青岛市| 昌图县| 雷州市| 武陟县| 临泉县| 裕民县| 聂荣县| 宝丰县| 乌鲁木齐市| 阿尔山市| 丹东市| 高雄市| 铜陵市| 大关县| 山西省| 惠安县| 剑阁县| 武强县| 当涂县| 上栗县| 阆中市| 石景山区| 玉环县| 开原市| 广州市| 盐津县| 永靖县| 靖远县| 临澧县| 天全县| 鹤庆县| 灵山县| 富蕴县| 墨竹工卡县| 麟游县| 大渡口区| 会宁县| 合江县| 永寿县| 巴中市|