官术网_书友最值得收藏!

語言規劃研究

兼顧漢語語言特色的語言信息化建設研究

黃居仁  陳克健  高照明

提要  本文從語言理論與語言信息應用兼顧,人機相輔相成以及知識的累積、創造與突破這三個重要觀點出發,深入探討分析詞庫小組各項研究成果及其影響力。重點在中研院詞庫小組在漢字、詞知識庫、語料庫、句法樹庫等領域建構語言資源時兼顧語言學理論,語言事實及信息處理要求的研究方法。并討論這個研究方法在學術與應用上的意義與影響,特別是研究成果對漢語語言資源政策與標準化的可能啟發。

關鍵詞  語言資源;語言信息化建設;漢字;詞知識庫;語料庫;詞項正規化


1.概述

漢語語言信息化的研究起碼可以回溯到1960年代(T’sou 2004,Huang 2004)。多爾蒂和馬丁(Dougherty and Martin, 1964)是在國際學術文獻中看得到最早的漢語信息化研究論文。早期的研究多集中在兩個方向,計算機學者關心電腦如何處理漢字,語言學學者關心漢語方言資料庫的建設(Wang 1973)。然而,中文真正能在電腦上方便使用,是到1980年代中才漸漸落實。這要大部分歸功于臺灣資訊界將字形內碼與輸入法和個人電腦/微型電腦的開發結合。1970年代初期臺灣的交通大學即開始對中文字形展開研究。1976年朱邦復發明了形意檢字法,兩年后改良成倉頡輸入法。1983年資策會設計“大五碼”(Big5)成為中文共通內碼,這對于亞洲其他繁體漢字圈包括香港澳門等地也產生了深遠的影響。

中文信息化研究的初期,最大的挑戰是如何讓以英文等拼音文字為對象設計的電腦,能夠有效處理中文并有方便的中文使用接口。到了80年代中期以后,電腦使用與處理中文的條件基本具備了,兩岸學術界才能真正開始對漢語語言信息處理做實質的研究。1986年是漢語語言信息處理的重大里程碑。在大陸,1986年由朱德熙倡導,俞士汶主持的北大計算語言學研究所成立。在臺灣,由謝清俊倡議,陳克健、黃居仁共同主持的中研院詞庫小組也于1986年成立1。這兩個單位的成立,宣告了中文計算語言學學科研究正式展開。三十年來,中文語言資源開發與語言信息研究對中文信息處理與中文的語言科學研究做出了重大的貢獻。本文將從臺灣“中研院”詞庫小組的研究出發,回顧30年研究的成果,著重在針對漢語語言特色的一些語言資源與語言信息處理技術創新。本文中對語言資源的討論,可參照補充黃居仁(2016,2009),黃居仁等(2010,1997)幾篇討論不同語言資源的論文。而本文對中文語言信息研究議題的討論,可與幾篇過去20年不同階段對中文信息處理研究宏觀綜論探討的文章,如宗成慶等(2009),鄒嘉彥 (T’sou 2004), 黃居仁與陳克健(Huang and Chen 1996)等互有啟發。討論的幾個議題,對語言資源相關的政策與標準,也有重要的提示。

2.漢字字型與部件處理

談中文信息處理,不能不談漢字。漢字編碼的早期研究,只是單純建表,把漢字字形符號化后對應到一個任意的電腦內碼。這個方法很快解決了現在常用漢字的問題,當開始處理古籍及各種異體字(包括方言、中日韓等)就捉襟見肘了。謝清俊在80年代領導“中研院”的古籍自動化項目時2,就意識到這個問題必須從漢字內部構形的規律做基本解決。他所領導的“中研院”文獻處理實驗室,與北師大王寧教授團隊合作,在分析所有漢字在文字學上的合理組成型態之后,將漢字逐字拆解成部件,并建置成字形數據庫。在這個架構下,任何漢字都能拆解成獨特的部件序。如部=立口阝,件=亻牛。需要注意的是部件呈現的順序決定了所組成的漢字。力口=加/口力=叻;口木=呆/木口=杏等。因此部件序就等于每個漢字的獨特編碼。這個研究,把漢字編碼與漢字構建的規律結合,從根本上解決了編碼獨特性、異體字編碼、缺字等漢字處理的基本問題。這個技術,已被國際標準組織(ISO)的字形小組采用。部件組字并已成為漢字教學的重要學習概念。在黃居仁領導開發的“「搜」文解字”(1999)與“文國尋寶記”(2000)兩個數字博物館/數字學習網站中,已把部件檢索與學習的功能融入多個字/詞/文句出處檢索界面與學習工具中(Huang 1999,黃居仁等2000,黃居仁等2004)3,謝清俊與莊德明并建立了“中研院漢字部件檢字系統”提供各界使用4

漢字書寫系統的另一個特性,有別于大多數的拼音書寫文字的,是語意驅動的特性(Huang 2009a,Huang and Hsieh 2015)。如何把漢字內涵的語意信息表達并轉換成信息處理可以使用的形式;特別是在語義網及大數據信息處理的環境下,如何發揮漢字帶有語意內容的特性,成了另一個重大挑戰。面對這個挑戰所需要的,是一種新的以漢字為基礎的具有豐富可處理語意內容的語言資源。“漢字知識本體”(Hantology)這個語意驅動的新語言資源由周亞民與黃居仁(Chou and Huang 2010,周亞民﹑黃居仁2013)建構而成。“漢字知識本體”以說文解字五百四十部首為基礎,并以IEEE SUMO知識本體分類體系(Niles and Pease 2001)的分類架構將義符的概念予以分類。“漢字知識本體”采取與過去漢字數據庫不同的方法,利用語意網的形式語言來描述漢字的知識表達。這個關鍵性的語言資源架構,讓整個漢字系統內涵的傳統知識,變成最新語意運算與大數據知識內容鏈接(linked data)可以操作的知識內容。“漢字知識本體”把整個漢字書寫系統當成一個知識本體,而把意符所代表的基本概念當成知識本體的起始節點,也就是概念系統中的基本概念;然后把部首與字及字與字之間的關系,解釋成上層與下層概念件的關系。 然后再把這些概念與關系用SUMO上層知識本體的架構描述。最后用語義網的形式語言OWL-DL及知識本體的通用程序平臺Protégé來構建整個資料庫。其資料庫內容包括: 字形外在結構的演變、意符與聲符的描述、字形內在結構、字義與衍生詞、異體字關系、字音的演變等。

在“漢字知識本體”的基礎上,黃居仁等(Huang et al., 2013)探討整個中文知識體系的理論架構。這個研究以《說文》意符的意義作為造字時所表達的基本概念,分析原意符與其所衍生的漢字的意義關系,建構一個完整的知識體系;并在普斯特若夫斯基(Pustejovsky,1991)的“衍生詞匯”理論的基礎上,驗證此假設。這個研究發現,同一個意符下所有漢字間形成一個很嚴謹且具豐富內容的小知識體系。而體系的構成,基本上可以用亞里士多德的感質體系(qualia)中知識四因(four causes)作為動機。而且,與亞里士多德的終極因(final cause)及普斯特若夫斯基的“衍生詞匯”若相符節,都是以“致用”(telic),即概念表達對象的功能,作為概念關系中最重要、最常用的關系。把目的與用的概念帶進來,不但對漢字體系有更深入的解釋,在語意與知識工程上,更提供了活用漢字內涵知識的更多可能性。

3.詞的界定:語法理論與語言信息處理的交叉點

詞的界定,是漢語語言學研究與語言信息處理共同必須處理的最基本問題。然而兩個領域處理的出發點稍有不同。語言學理論對詞的界定,關心的是定義的理論基礎與嚴謹度,以及是否與通用語法(universal grammar)一致能適用于其他語言等考慮。而語言信息處理,關心的是在語言學理論的原則下,定義是否有可操作性,操作的結果是否能具一致性,是否有利于進一步信息處理等。換句話說,在討論如何定義詞時,語言學的討論下,定義本身就是目標與判斷準則。而信息處理的討論,定義只是指導原則,有另外客觀的條件作為判準。黃居仁與薛念文(Huang and Xue, 2012)因而認為中文信息處理的分詞研究,提供了以實證結果來檢測語言學理論中詞的定義的機會。

3.1  中研院詞庫小組對詞的定義

詞庫小組對詞的定義與分詞原則(黃居仁等 1997,Huang et al., 2017)是所有臺灣語言資源建置的基礎。也是臺灣《信息處理用中文分詞規范》(CNS14366,2009)的基礎。這個分析中詞的定義為:具有獨立意義,且扮演特定語法功能的字符串。這個定義,相當符合ISO24613《詞匯標示框架》國際標準(Lexical Marker Framework,LMF)5中有關詞的定義:任一詞形-意義的獨特配對為一個詞項6。在分詞標準的討論中,另一個與漢語語法研究理論有較大矛盾的議題,是所謂可否單獨使用(自由/附著,Free/Bound)這個語言行為的重要性。語言學理論(特別是構詞學),習慣上把能否獨立使用作為中文定義詞的基本要素。可是,當我們全面梳理語料,很快發現,中文有很多語素從來不(或很少)獨立使用;卻又很常用,而且能自由與多種其他語素結合(因此符合理論上所謂“自由”的定義)。如“者”“的”等虛詞,以及所有的所謂“接頭/接尾詞”等,如“-廠”“非-”等。因此,以上兩個標準,不約而同地處理結尾/接頭詞的挑戰,把它們視為應該單獨成詞項,有固定單位,并有高度自由的結合度。在信息處理上,這些單位不收入詞匯庫,中文信息處理基本上不可行。但它們獨立為詞項用,又與傳統語法分析有出入。這類詞的處理方式以及它們的使用分布的進一步分析,有可能會對中文詞的語言學理論定義與分析有一定的影響。

在附著非獨用的語言單位,也應該是漢語(信息處理)的詞項的前提下,詞庫小組建立了常用詞首、詞尾字數據庫7。這個數據庫根據研究院語料庫,收集常用名詞詞首字 1135個(含歧義為1197個)、名詞詞尾字1427個(含歧義為1610個)、動詞詞首字735個(含歧義為918個)、動詞詞尾字282個(含歧義為300個)。總計4025筆資料。名詞部分,每個字提供的信息包括英文詞義、詞類、詞林類(并列出領頭詞)和例子。動詞部分,提供的是英文詞義、構詞律和例子;構詞律數量則依動詞特性不定。邱智銘等(2004)統計各類型復合動詞內部結構的詞類分布,其中并列結構的復合動詞中VC占58.76%,動賓結構的詞類VA占62.07%,偏正結構的詞類VC占50%,而動補結構VC占60.64%。由此可知除了動賓結構的復合動詞傾向不及物動詞外,其他無論是并列結構﹑偏正結構或動補結構的復合動詞有一半以上是及物動詞。

3.2  漢語語言資源與信息處理中詞項正規化問題

語言資源與語言信息研究另一個與詞的定義息息相關的問題,是詞項正規化(lemmatization)的問題。詞項在現實語言使用中,不管是書面文本還是口語,經常以與詞匯庫中記載的詞項不同的形式出現。這個現象在有詞尾變化的語言的語言信息與語言資源處理中已充分討論,并建立了標準的方法。詞項正規化的目標,就是要把同一個詞項不同的詞形表達形式,規整到一起。比如說,英文的speak,speaks,speaking,spoke,spoken五種詞形,處理統計是必須加總在一起,不能分開當成不同的詞處理。語料庫研究或語言信息處理的所有運算,就連最基本的詞頻統計,沒有經過詞項正規化的處理,不可能得到準確可靠的結果。英語語料庫研究建立了詞項正規化的標準解決法,主要是針對屈折變化(inflection)的問題。規則化的屈折變化(如英文過去式+ed,復數或第三人稱單數加+s)用詞根加構詞律的方式解決。不規則變化(如child/children,be/is/am/are/was/were/been)則用列表解決。上述的speak,speaks,speaking,spoke,spoken五個詞形,就需要用規則性(speaks,speaking)與例外列表(spoke,spoken)雙管齊下才能解決。這是語料處理最基本的要求。

很不幸的,除了研究院語料庫以外,目前為止的中文語言資源處理都忽視這一個最基本的問題。原因是,中文的構詞變化絕無僅有,除了時態標記與屬人的復數詞尾“-們”外,幾乎沒有其他規則性常用的詞尾。而常見具能產性的復合詞,則切分成單詞處理,后續在語法層次再合成較長的單位,在理論與處理上都不是問題。絕大部分學者因此以為中文不需要特別處理詞項正規化。可是中文的非正規詞項表達問題其實不但常見,而且很棘手,不能用英文的構詞/列表法解決。中文詞項正規化面對的挑戰包括(1)離合詞,(2)合并詞,(3)不帶標記的詞類改變(如名物化),(4)重疊詞(reduplication)。漢語語料資源研究到現在為止,可以說并沒有任何一個語料庫/語言資源能夠把以上的四種正規化的問題都解決。換句話說,目前所有以語料庫統計出來的詞頻,沒有一個是完全正確的。

首先,中文詞匯正規化的最大挑戰,正是在所謂的離合詞上。我們這里講的離合詞,不只是限于主謂、動賓、動補、偏正等各種復合詞(或準復合詞)的分離使用現象;也包含了簡單的詞綴中插,如“看一看”“看了看”“上過學”“吃飽飯”等。沒有正確的詞項正規化程序,語料庫語言信息處理,并不能把上述的短句,歸納成“看”“看”“上學”“吃飯”等詞項使用的實例。當然在統計詞頻時,一定少算了,處理時也會有所誤失。漢語中更特別的,是離合詞,如“吃了一頓飯”的用法。更麻煩的是,每個詞的前后兩個部分可以離得很遠,而且中間可以插入復雜的句法結構,如“吃了一頓淡而無味,你連想都沒想到的飯”。同一個詞項“吃飯”在句子里不相連的兩個地方出現。因此造成了不考慮句子語境無法辨識詞項,但不先分詞又不好處理語境與語法的兩難。從語料庫使用的觀點,不處理離合詞,詞頻統計與例句搜尋結果都有問題(比如說,絕大部分動賓復合動詞的詞頻都會大量少算,大量相關的例句也會找不到)。

上述的描述點出了離合詞處理的最大難處就是分詞時無法查找詞項,但句法處理中,如果沒有正確詞項,也不可能處理正確的語法語意功能,或按圖索驥找離合詞離分的單位。研究院語料庫解決這個難題的方式,是使用成對的特征標記。例如以[+vrv]及[+vrr]來標注動補式復合詞的兩個不相連成分,并規定標記[+vrv]的成分及標記[+vrr]的成分必須視為一個詞,以便計算機能將這兩個特征配對的兩個成分結合。最后,是規定帶[+vrv]或[+vrr]的成分,可以帶有整個動賓復合詞的完整訊息(Huang 1990)8。例如“叫 他 不 醒”在語料庫中是四個分詞段落,而且不可能跨其他兩個分詞單位把“叫”和“醒”兩個分詞單位連接在一起。但在研究院語料庫中,標為“叫Vc[+vrv]”和“醒Vc[+vrr]”的兩個詞段,可以靠相同詞類加特征配對這兩個條件,結合成一個詞。找到了“叫醒”這個詞,我們不但能作正確詞頻統計,更能夠正確分析“他”為“叫醒”的賓語。類似的,離合動賓復合詞,可用[+spv][+spo]這兩個特征分別標注。例如“吃了他的虧”有五個分詞段落,但“吃Vc[+spv]”與“虧 Na[+spo]”的標注,讓語料庫能處理“吃虧”這個復合動詞,也讓剖析器能確認“他”為“吃虧”的賓語。

第二項,合并詞(telescopic compound,魏文真等1997,詞庫小組1997),包括了趙元任(Chao 1968)討論過的重復省略(haplology)的現象。如“上海市長”是“上海市+市長”兩個詞合并而成;而“教育部長”是“教育部+部長”兩個詞合并而成。這是分詞與詞項正規化交叉的挑戰。因為“市”“部”這兩個字,同時是前面與后面的詞的部分,因此分詞分在這個字之前或之后都不對。必須分詞與詞項正規化一次解決,才能把“上海市長”正確處理成“上海市+市長”兩個詞項。合并詞并非只有詞中合并,也可以詞尾合并(青少年=青年+少年),或詞首合并(兩老夫妻/老夫妻二人=“老夫+老妻”,而非“老+夫妻”),也須分詞與詞項正規化一起解決。另外更特別的合并詞是前后重復合并,但是中間分開,如“中山南北路”(中山南路+中山北路),“地鐵1、2號線”(地鐵1號線+地鐵2號線)。這里同樣有分詞與詞項正規化交叉的問題,特別是合并詞中并列的部分多半可以以逗號分開。而兩個分詞規范都規定有明確切分符號時加以切分,結果可能是前后不成詞,如“中山南+北路”或“地鐵1+2號線”。而這個合并詞(或“套裝復合詞”)被切分符號硬切成兩個不完整部分的問題,在研究院語料庫中也以配對特征標記來解決。如“初(Nc)[+p1]、高中(Nc)[+p2]”,幫助語料庫知道這兩個詞共享重復的部分,“初(Nc)[+p1]”并非獨立詞,而是某個詞的一部分,并與接下來的“高中”共享共同部分。因此,這個詞實際上是“初中”。

第三項,無構詞變化的詞類變化,如漢語名物化/動詞化。因為沒有構詞變化,如果光靠詞類標記不同,并沒有辦法區分同形詞(如 穿制服/制服逃犯)與動詞名物化/名詞動詞化(如他不講理/他的不講理)。也就是說,在語料庫統計或語言信息處理時,最理想狀況是兩個“制服”區分而不相干;但兩個“不講理”在某些條件下需要能合并計算或能直接比較。研究院語料庫用特征標記解決這個問題,所加的標為[+nv][+vn]。也就是說,同形詞沒有標記,詞類標記明確地將它們分成兩個互相獨立的詞。但是名物化/動詞化的衍生詞帶有標記,可利用標記鏈接。

最后,這四個現象中重疊詞的問題最為單純。牽涉的僅僅是有沒有用到適合的構詞律罷了。在處理語料時先處理構詞重疊律,就會知道“看看 你”中,“看”這個詞項只用了一次,不是兩次。而“快快樂樂 上學”中也只使用了“快樂”這個詞項一次(而且并非使用“快快”“樂樂”“快”“樂”這些詞項)。

綜言之,研究院語料庫在漢語語料庫建設上創新的重要設計,是以特征標記集來解決漢語詞項正規化(lemmatization)的基本問題。從目前的文獻看來,研究院語料庫是目前為止唯一解決前三個詞項正規化問題的漢語語料庫。研究院語料庫同時也對各種重疊構詞的詞做了標記。因此也可以很快的處理重疊詞的詞項正規化問題。

4.研究院語料庫標記的流程

4.1  語言學知識與信息處理相輔相成

討論到研究院語料庫如何以特征標記解決棘手的詞項正規化問題,不能不解釋研究院語料庫標記的經歷路程。研究院語料庫的標記是以計算機程序標注再由人工逐一檢查并修正。初期的語料庫先經由中文分詞程序分詞,再以人工方式逐一檢查分詞的結果并選擇正確的詞性。經過人工檢查分詞和標記后,再以隱式馬可夫模型(HMM)訓練出詞性標注程序。詞性標注的主要依據是詞庫小組開發的八萬目詞詞知識庫。而詞知識庫中的詞類分析,則是依據詞庫小組(1993)的詞類分析。詞庫小組的八大詞類主要根據趙元任(1968)《中國話的文法》中的分析,并將動詞分成狀態及動作兩大類。大部分過去視為形容詞的詞劃分為狀態動詞,少部分只能修飾名詞的形容詞則劃分為非謂形容詞。詞庫小組詞類劃分是階層式的,也就是大類下面有次類。次類下又有更小的次類。每一類詞都有劃分的依據。動詞先分成狀態及動作兩大類,之下又依據與動詞一起出現的論元的數量﹑種類﹑位置進一步區分成若干類。研究院語料庫標注集與上述中文詞庫小組的詞類分析一致。詞類標記依據下列三個原則:(1)詞類標記應符合它在語境中所扮演的語法功能;(2)歧義的字符串依據實際語境中的語意及語法功能來標記;(3)歧義的字符串有不同的標記且這些標記有部分重疊之處,則按照各類型的規范處理。

以上這個標注過程最重要的是電腦與語言學專業人才的相輔相成,以及知識的堆疊累積。在電腦與語言學專業人才的相輔相成方面,電腦快速進行初步標記,專家檢查更新;更正的結果經由訓語料或修改規律,回饋到電腦;而回饋到電腦的方式不但是改進正確標記,更包括了利用人的知識編成自動尋找可能的錯誤的程序。如此糾錯、更正、改進的循環,人與電腦的互動經過起碼六個來回,而純人工的校訂也經過了至少四輪。這是研究院語料庫在現有漢語語料庫中公認為標記最精確的語料庫的最重要的原因。另外,知識的累積堆疊更扮演關鍵的角色。上一段提到了詞性標注,是依據詞庫小組的詞知識庫。詞知識庫中已有八萬多筆詞性的資料,而這個資料又是詞庫小組閱讀文獻,分析大量語料與討論的結果。這個討論的過程,不但使基本資料的品質提高,也使得人工檢查/標記時,如果有不一致,可以在過去充分討論的基礎上解決。更重要的,詞庫小組解決離合詞、合并詞與無構詞標記詞類轉變的詞項正規化問題,也是建立在這些累積知識的基礎上的。以離合詞為例,如果沒有詞匯知識,電腦基本上是無法處理的。在詞庫小組的詞知識庫里,哪些主謂,動補,動賓動詞可能有離合行為,已有詳細標記。因此電腦并非憑空猜測,計算字符串中任意兩個字是否成詞;而是從少數幾個可以離合的清單中去找。而人工則補電腦的不足,尋找可能遺漏的例子。

4.2  資源生資源,知識長知識

詞庫小組知識堆疊相長的研究模式,更進一步推進了語言資源成長的突破。目前全球最大的漢語分詞,詞類標記語料庫,就是在這個知識堆疊的基礎上,更上一層樓完成的。賓州大學LDC的中文十億語料庫(Chinese Giga Word Corpus)包含了中國大陸、新加坡、中國臺灣三地的語料。該語料庫的標記版(黃居仁Huang 2009b,2.0版)由馬偉云與黃居仁完成詞性標注。這個工作可視為大數據時代的語料詞性標注的先驅與參考。馬偉云與黃居仁(Ma and Huang, 2006)討論了標注的過程。基本上要處理來源差異造成的編碼與詞匯差異問題,然后要確認自動標注的可靠性。平衡語料庫的標注,靠的是詞庫詞知識庫的八萬個詞的知識;而十億語料庫的標注,則靠平衡語料庫中所有的二十四萬個詞的分詞與詞性知識;加上整個平衡語料庫的一千萬詞,混合十億語料庫中三地各抽取部分語料作為訓練語料。詞庫小組過去所有知識的累積,使得十億語料庫(十四億字,約十億詞)的自動分詞與詞性標記得到較高品質的結果。在這個過程中,馬偉云與黃居仁(Ma and Huang, 2006)也利用漢語平衡語料庫中帶名物化標記作為訓練語料,解決了自動標注中文動詞名物化現象的問題。這兩個工作更證明在知識有效累積的前提下,中文大數據的自動分詞與詞性標記絕對可行。

大數據時代,數據量不是問題,但如何從數據中抽取知識,反而是挑戰。在十億標記語料庫的基礎上,黃居仁與亞當·基爾加里夫(Adam Kilgarriff)在Sketch Engine詞匯速描平臺的基礎上合作,完成了第一個可以從語料庫中自動抽取漢語語法關系的系統:中文詞匯速描系統(Chinese Word Sketch,Huang et al., 2005,Kilgarriff et al., 2005)。除了十億語料庫提供大量語料的事實支撐外,更重要的是利用了所有詞庫小組20年累積的語法知識,把陳克健和黃居仁(Chen and Huang,1990)提出的以訊息為本的格位語法(ICG)的模式描寫的中文語法規律與訊息,轉換成詞匯特性速描系統中需要的上下文無關(context-free)語法模版;依靠這個模版(多半是關鍵詞與共現詞的二元或三元關系)來自動計算并提取語法關系。黃居仁等(Huang et al., 2016),洪嘉馡、黃居仁(2008)分別描述了這個系統的強大功能及在語法研究上的應用。

在語料庫基礎上建立深層語法知識的另一個例子是中文句結構樹資料庫的構建(陳克健等Chen et al., 2003,陳鳳儀等 1999)。詞庫小組于1997年開始建立中文句結構樹資料庫(Sinica Treebank),建立在詞庫小組的詞知識庫中的動詞論元結構分析資料及研究院語料庫的詞性標記資料基礎上。從研究院語料庫中抽取句子,以本格位語法(ICG)的表達模式為基本架構,經由計算機自動剖析成結構樹,再加以人工修正。中文句結構樹數據庫目前發展至3.0版,包含了61 087個中文樹圖,361 834個詞。中文句子的語法結構表達采取中心語主導原則。剖析中文句子時,詞組類型由中心語決定,并且參照中心語和其他成分所記載的語法和語意訊息,表達出句子中詞和詞之間的語法結構和語意角色關系。這是國際間第一個表述有論元關系的樹圖資料庫。

5.語言信息處理、語言資源標準與語言政策

前三個小節的討論,凸顯了語言信息處理、語言資源標準與語言政策間的復雜互動關系。其中最顯著的例子是分詞標準與詞項正規化的關系。《信息處理用現代漢語分詞規范》(GB13715,劉源等1993)與《信息處理用中文分詞規范》(黃居仁等1997)對分詞單位的定義及分詞標準的規范,本質兼容而且落實執行的步驟也相似。我們可以說這兩個規范呈現了當時(20世紀90年代)中文信息處理研究與語言學成果的累積。相對而言,也受到當時技術與學術討論視野的限制。這兩個規范都超過20年沒有更新9。本文中提到的詞項正規化,就是很好的例子。兩個規范雖然承認這些分開的兩個部分應該是一個詞,但從計算機處理的觀點看,既然兩個單位被隔開,有距離,只能切成兩個不同的單位。可是許多信息處理的后續引用,比如從語料庫到詞匯庫或其他詞知識庫,信息抽取(包括命名實體、句法語義關系)或翻譯等,都需要正規詞項(lemma)作為知識處理與鏈接的單位,而目前中文語言信息處理缺乏對這個概念的定義。目前急需把詞項正規化的概念帶進來,特別是與ISO24613《詞匯標示框架》(Francopoulo 2013)整合,把分詞規范及其他中文信息處理的標準重新檢討更新,才能與日新月異的自然語言信息處理及現代知識工程的技術與需求結合更緊密,也能讓語言資源與語言信息研究成績更容易被語言教學等領域使用。這個更新的過程,如果能把漢字部件的概念帶進來,也把非字面義(no-literal meaning,如情感極性、隱喻、反諷、通感、一語雙關等)的表達與標記方法規范化,將對中文信息處理未來一二十年的發展與信息處理對社會的貢獻產生即時的效應。

6.結論 :中文計算語言學的國際影響力

中文信息研究超過六十年;中文語言資源與計算語言學的研究,也延續了三十年。在國際中文處理研究界,兩岸及兩岸在國際發展的學者,起了引領作用。但在整個語言信息處理、語言資源與計算語言學界,中文信息處理的研究,則還未能動見觀瞻。著名的Python自然語言處理套件 自然語言處理工具包(NLTK)將一部分的平衡語料庫資料與一部分的句結構樹資料庫納入其內建的語料庫。由于相當多的計算語言學課程用自然語言處理工具包NLTK做基本教材與訓練資料,這表示計算語言學研究者可以經由這兩項資料,進入中文語言信息處理的領域。另外2006年第十屆自然語言學習會議CoNLL(Tenth Conference on Computational Natural Language Learning)所舉辦的多國語言依存關系剖析競賽中文的訓練語料也是以詞相關形式(dependency tree)呈現的中研院中文句結構樹資料庫。除了國際計算語言學會(ACL)中文語言處理小組SigHAN (Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics)外,最近幾次的國際語義評測SENSEVAL、自然語言學習會議CoNLL及命名實體NER辨識的評比,也加入了中文的資源與比賽。這些成績,可說是建立在多年來幾個致力于中文語言資源開發的同行累積的成果上的。

在國際學術專書中,以中文信息處理或計算語言學為主題的并不多。已出版的除了早期的黃居仁等(Huang et al., 1996),近期的黃錦輝等(Wong et al., 2009)的出版也是七年前了。所幸最近有黃居仁等(2007)(Huang et al, 2017)整理詞庫的研究成果即將付梓;陸勤等(Lu et al., 2018)即將完稿,黃居仁等(Huang et al., in press)收集以中文語言資源為關注點的研究也將在可見的未來出版。而黃居仁和石定栩(Huang and Shi, 2016)的“劍橋中文參考語法”,則是語料庫支撐高強度語言學研究的好示范。隨著中文語言資源與語言信息研究的成熟發展與足夠的知識能量累積,我們期待中文計算語言學能在最近的未來,成為國際計算語言學與語言信息研究的亮點。


附注

1. 黃居仁于1987年回“中研院”后立即加入詞庫小組。

2. 臺灣古籍信息化建設開始于1984年“中研院”的“史籍自動化計劃”,在資訊所謝清俊的推動下,數年間先后完成《十三經》和《二十五史》全文數據庫的建置。

3. 《“搜”文解字》1999. http://words.sinica.edu.tw/ ;《文國尋寶記》2000. http://wen.ling.sinica.edu.tw/

4. http://proj1.sinica.edu.tw/~cdp/cdphanzi/declare.htm

5. https://zh.wikipedia.org/wiki/詞匯標示框架  參見Francopoulo(2013)及Francopoulo and Huang(2014).

6. 有關《信息處理用中文分詞規范》的內容以及與《信息處理用現代漢語分詞規范》(GB13715)間的異同對比在黃居仁等(1997),詞庫小組(1996)及Huang et al.(2017)有較深入的討論。

7. http://140.109.19.103/affix/

8. 這個詞項訊息重復的規定相當重要,因為如果沒有這個設計,所有離合詞的剖析或語意計算都無法完成。原因很簡單,離合詞通常是動詞,大部分的剖析或語意處理,都需要句子動詞中心語所帶的事件論元結構來驅動。離合詞如果不能提供這個訊息(或提供不正確的訊息),語法語意處理就無法正確進行。

9. 《信息處理用現代漢語分詞規范》有后續局部修改,但架構與定義沒有改變。


線上資源

《常用詞首、詞尾字數據庫查詢》http://140.109.19.103/affix/ “中研院”詞庫小組

《漢字知識本體》,http://hantology.sinica.edu.tw 周亞民、黃居仁

《廣義知網知識本體架構 2.0》,http://ehownet.iis.sinica.edu.tw/ 陳克健,“中研院”詞庫小組

《知網》keenage.com/ 董振東 2004

《中研院漢字部件檢字系統》,http://proj1.sinica.edu.tw/~cdp/cdphanzi/declare.htm 謝清俊﹑莊德明

《上古漢語標記語料庫》,http://old_chinese.ling.sinica.edu.tw/ 魏培泉、譚樸森、黃居仁

《“搜”文解字》,http://words.sinica.edu.tw/ 黃居仁等

《文國尋寶記》,http://wen.ling.sinica.edu.tw/ 黃居仁等

《中文詞匯特性速描系統》,http://wordsketch.ling.sinica.edu.tw 黃居仁等,“中研院”語言學研究所 中文詞匯網絡小組

《中文詞匯網絡》,http://lope.linguistics.ntu.edu.tw/cwn  http://lope.linguistics.ntu.edu.tw/cwn2/ 黃居仁 謝舒凱

《中文句結構樹檢索系統》,http://turing.iis.sinica.edu.tw/treesearch/ 陳克健、黃居仁,“中研院”詞庫小組

《中文剖析器在線測試》,http://parser.iis.sinica.edu.tw 陳克健,“中研院”詞庫小組

《中研院現代漢語平衡語料庫4.0版》,http://asbc.iis.sinica.edu.tw/ 陳克健、黃居仁,“中研院”詞庫小組

《中研院現代漢語平衡語料庫3.0版》,http://app.sinica.edu.tw/kiwi/mkiwi/ 陳克健、黃居仁, 研院詞庫小組。

《中英雙語知識本體詞網》,http://bow.ling.sinica.edu.tw/ 黃居仁

Sketch Engine. https://www.sketchengine.co.uk/Adam Kilagarriff


參考文獻

陳鳳儀、蔡碧芳、陳克健、黃居仁  1999  中文句結構樹資料庫的構建,《中文計算語言學期刊》(Computational Linguistics and Chinese Language Processing),第4卷第2期,87—104頁。

邱智銘、駱季青、陳克健  2004  現代漢語復合動詞之詞首詞尾研究,《第十六屆自然語言與語音處理研討會論文集》。

洪嘉馡、黃居仁  2008  語料庫為本的兩岸對應詞匯發掘,《語言暨語言學》,第9卷第2期,221—238頁。

黃居仁  2016  臺灣語料庫與語言資源建設,教育部語言文字信息管理司(組編),《中國語言生活狀況報告(2016)》,北京:商務印書館,259—267頁。

黃居仁  2009  語言資源整合與對比研究——以兩岸詞匯對比研究為例。張普、王鐵琨(主編),《中國語言資源論叢(一)》,北京:商務印書館, 52—66頁。

黃居仁、洪嘉馡、陳圣怡、周亞民  2013  漢字所表達的知識系統:意符為基本概念導向的事件結構,《當代語言學》第3期,294—311頁。

黃居仁、謝舒凱、洪嘉馡、陳韻竹、蘇依莉、陳永祥、黃勝偉  2010  中文詞匯網絡:跨語言知識處理基礎架構的設計理念與實踐,《中文信息學報》第24卷第2期,14—23頁。

黃居仁、張如瑩、盧秋蓉  2004  語言知識網絡與數字學習:以“文國尋寶記”為例。羅鳳珠(主編),《語言、文學與信息》,新竹:新竹清華大學出版社,487—536頁。

黃居仁、羅鳳珠、鐘柏生、蕭慧君、李美齡、盧秋蓉、曹美琳  2000  “文國尋寶記”與“搜文解字”——為華語文教學設計的兩個數字博物館網站。(Adventures in Wen-Land and Sou Wen Jie Zi: Two Digital Museums for Chinese Language Learning.)2000年12月27-30日。第六屆世界華語文教學研討會。臺北,劍潭。

黃居仁、陳克健、陳鳳儀、魏文真、張麗麗  1997  “信息處理用中文分詞規范”設計理念及規范內容,《語言文字應用》第1期,92—100頁。

劉  源、譚  強、沈旭昆  1993  信息處理用現代漢語分詞規范及自動分詞方法,北京:清華大學出版社。

馬偉云、黃居仁  2006  中文動詞名物化判斷的統計式模型設計,《第十八屆自然語言與語音處理研討會論文集》(Proceedings of ROCLING XVIII)。

魏培泉、譚樸森、P. M. Thompson、劉承慧、黃居仁、孫朝奮  1997  建構一個以共時與歷時語言研究為導向的歷史語料庫,《中文計算語言學期刊》Computational Linguistics & Chinese Language Processing. 2(2). 131—145頁。

魏文真、黃居仁、張麗麗  1997  中文的合并詞,Fifth International Conference on World Chinese Language Teaching. Taipei: World Chinese Association.

“中研院”詞庫小組  1996  《‘搜’文解字: 中文詞界研究與資訊用分詞標準》,詞庫小組技術報告96-01,南港:中研院。

“中研院”詞庫小組  1993  《中文的詞類分析》,“中研院”資訊所詞庫小組技術報告93-05。http://rocling.iis.sinica.edu.tw/CKIP/tr/9305_2013%20revision.pdf

“中研院”詞庫小組  1997  《“中央研究院”平衡語料庫詞集及詞頻統計》,“中研院”資訊所詞庫小組技術報告。

周亞民、黃居仁  2013  漢字知識的形式表達,《當代語言學》第2期,142—161頁。

莊德明、謝清俊  2005  漢字構形數據庫的建置與應用,《漢字與全球化國際學術研討會論文集》。

宗成慶、曹右琦、俞士汶  2009  中文信息處理60年,《語言文字應用》第4期,54—62頁。

Chao,Yuen Ren. 1968. A Grammar of Spoken Chinese. Berkeley: University of California Press.

Chen,Keh-Jiann, Chi-Ching Luo, Ming-Chung Chang, Feng-Yi Chen, Chao-Jan Chen, Chu-Ren Huang, and Zhao-Ming Gao. 2003. SinicaTreebank: Design Criteria,Representational Issues and Implementation. In Anne Abeillé(Ed.),Treebanks: Building and Using Parsed Corpora(pp. 231-248). Dordrecht; Boston: Kluwer Academic Publishers.

Chen,Keh-Jiann,Chu-Ren Huang,Li-ping Chang,and Hui-Li Hsu. 1996. Sinica Corpus: Design Methodology for Balanced Corpora. In. B.-S. Park and J.B. Kim. Eds.Proceeding of the 11th Pacific Asia Conference on. Language, Information and Computation. pp. 167-176.

Chen,Keh-Jiann and Chu-Ren Huang. 1990. Information-based Case Grammar. Proceedings of the 13th International Conference on Computational Linguistics(COLING '90). Vol(ii): 54-59.

Chou, Ya-Min and Chu-Ren Huang. 2010.Hantology: conceptual system discovery based on orthographic convention. In Chu-Ren Huang, Nicoletta Calzolari, Aldo Gangemi, Alessandro Lenci, Alessandro Oltramari, and Laurent Prévot(Eds.), Ontology and the Lexicon: A Natural Language Processing Perspective(pp. 122-143). Cambridge: Cambridge University Press.

Dougherty, Ching-Yi and Samuel E. Martin. 1964. Chinese Syntactic Rules for Machine Translation. The Project for Machine Translation and General Automated Linguistic Systems. Berkeley: University of California.

Francopoulo, Gil. 2013.(Ed.)LMF-Lexical Markup Framework. London: ISTE.

Francopoulo, Gil, and Chu-Ren Huang. 2014. Lexical markup framework: an ISO standard for electronic lexicons and its implications for Asian languages.Lexicography, 1(1): 37-51.

Huang, Chu-Ren. 2009a. Semantics as an Orthography-Relevant Level for Mandarin Chinese. The 17th Annual Conference of the International Association of Chinese Linguistics. July 2-4. Paris.

Huang, Chu-Ren. 2009b. Tagged Chinese Gigaword Corpus 2.0. LDC2009T14. Philadelphia,Lexical Data Consortium.

Huang, Chu-Ren. 2004. Introduction to “Chinese Language Processing at the Dawn of the 21dt Century”. In Chu-Ren Huang and Winfried Lenders(Eds.),Computational Linguistics and Beyond(pp. 187-188). Taipei: Institute of Linguistics,Academia Sinica.

Huang, Chu-Ren. 1999. SouWenJieZi 搜文解字: A Linguistic KnowledgeBase Anchoring Chinese Digital Museums. Digital Museum Seminar and AP Digital Library Consortium Joint Meeting 1999. Taipei. July 21-23.

Huang, Chu-Ren. 1990. A unification-based LFG analysis of lexical discontinuity. Linguistics, 28(2): 263-307.

Huang, Chu-Ren and Keh-Jiann Chen. 1996. Issues and topics in Chinese natural language processing. In Chu-Ren Huan, Keh-Jiann Chen,and Benjamin K. T’sou(Eds.),Readings in Chinese Natural Language Processing. Journal of Chinese Linguistics Monograph Series No. 9(pp. 1-22). Berkeley: Journal of Chinese Linguistics.

Huang,Chu-Ren,and Shu-Kai Hsieh. 2015. Chinese lexical semantics: from radicals to event structure. In William S.-Y. Wang and Chao-Fen Sun(Eds.),The Oxford Handbook of Chinese Linguistics(pp. 290-305).New York: Oxford University Press.

Huang, Chu-Ren, and Dingxu Shi. 2016.(Eds.)A Reference Grammar of Chinese. Cambridge: Cambridge University Press.

Huang,Chu-Ren,and Nianwen Xue. 2012. Words without boundaries: computational approaches to Chinese word segmentation. Language and Linguistics Compass, 6(8): 494-505.

Huang, Chu-Ren, Shu-Kai Hsieh, and Peng Jing. In Preparation(2017). Ed. Chinese Language Resources: Data Collection,Linguistic Analysis,Annotation,and Language Processing. Berlin: Springer.

Huang, Chu-Ren, Shu-Kai Hsieh, and Keh-Jiann Chen. To Appear(2017). Mandarin Chinese Words and Parts of Speech: A Corpus-based Study. London: Routledge.

Huang, Chu-Ren, Hong Jiafei, Weiyun Ma,and Petr ?imon. 2015. From corpus to grammar: automatic extraction of grammatical relations from annotated corpus. In Benjamin T’sou and Olivia Kwong(Eds.), Linguistic Corpus and Corpus Linguistics in the Chinese Context. pp. 192-221. Journal of Chinese Linguistics Monograph. Hong Kong: Chinese University of Hong Kong Press.

Huang, Chu-Ren, Ya-Jun Yang, and Sheng-Yi Chen. 2013. Radicals as ontologies: concept derivation and knowledge representation of four-hoofed mammals as semantic symbols. In Guangshun Cao, Hilary Chappell, Redouane Djamouri and Thekla Wiebusch(Eds.), Breaking Down the Barriers: Interdisciplinary Studies in Chinese Linguistics and Beyond(pp. 1117-1133). Taipei: Institute of Linguistics. Academia Sinica.

Huang, Chu-Ren, Adam Kilgarriff, Yiching Wu, Chih-Min Chiu, Simon Smith, Pavel Rychly, Ming-Hong Bai, and Keh-jiann Chen. 2005. Chinese Sketch Engine and the Extraction of Collocations. Proceedings of the Fourth SigHAN workshop. 48-55.

Huang, Chu-Ren, Keh-jiann Chen, and Benjamin K. T’sou(Eds.), Readings in Chinese Natural Language Processing. Journal of Chinese Linguistics Monograph Series No. 9(pp. 1-22). Berkeley: Journal of Chinese Linguistics.

Kilgarriff, Adam, Chu-Ren Huang, Pavel Rychly, Simon Smith, and David Tugwell. 2005. Chinese Word Sketches. ASIALEX 2005: Words in Asian Cultural Context. June 1-3. Singapore.

Lu Qin, Nianwen Xue, and Chu-Ren Huang. 2018(in preparation). Computer Processing of the Chinese Language. Studies in Natural Language Processing. Cambridge: Cambridge University Press.

Ma, Wei-yun, and Chu-Ren Huang. 2006. Uniform and Effective Tagging of a Heterogeneous Giga-word Corpus. Proceedings ofLREC 2006.

Niles, Ian, and Adam Pease. 2001. Towards a Standard Upper Ontology. Proceedings of the International conference on Formal Ontology in Information Systems. pp. 2-9. ACM.

Pustejovsky, James. 1991. The generative lexicon. Computational Linguistics,(17)4: 409-441.

T’sou, Benjamin K. 2004. Chinese Language Processing at the Dawn of the 21st Century. In Chu-Ren Huang and Winfried Lenders(Eds.), Computational Linguistics and Beyond(pp. 189-205). Taipei: Institute of Linguistics,Academia Sinica.

Wang, William S.-Y. 1973. The Chinese Language. Scientific American. 228: 50-60.

Wong, Kam-fai, Wenjie Li, Ruifeng Xu, and Zheng-sheng Zhang. 2009. Eds. Introduction to Chinese Natural Language Processing. Synthesis Lectures on Human Language Technology.Williston, VT : Morgan & Claypool.

You, Jia-Ming, Keh-Jiann Chen. 2004. Automatic Semantic Role Assignment for a Tree Structure,Proceedings of SIGHAN workshop.


Language Processing Research and Language Resources Construction Motivated by Linguistic Characteristics of Chinese

Huang Chu-Ren  Chen Keh-Jiann  Gao Zhao-Ming

Abstract  This paper gives an overview of language resource construction at the CKIP group of Academia Sinica in Taiwan, including the research on Chinese characters, lexical knowledge base, corpora, and treebank as well as their impact. We elaborate on three theoretical perspectives, namely the balance between linguistic theories and their applications in information processing, the proper division and complementation of labor between men and machines, and finally how accumulation linguistic knowledge can laid foundation for acquisition of more linguistic knowledge. Lastly, we discuss the implications of the result for language standardization and policy, especially in terms of lemmatization in Chinese.

Keywords  language resource; language information processing; Chinese characters; lexical knowledge bases; corpora; lemmatization


(黃居仁  香港理工大學;陳克健  臺北中研院;高照明  臺灣大學)

主站蜘蛛池模板: 江川县| 洛宁县| 宁武县| 威远县| 武鸣县| 沐川县| 和田市| 铁力市| 唐海县| 宜川县| 宜君县| 增城市| 溧水县| 凤城市| 图木舒克市| 旬邑县| 内乡县| 乐亭县| 信宜市| 鹤岗市| 微博| 灵台县| 察隅县| 宜兴市| 曲麻莱县| 嘉义县| 剑河县| 华安县| 凤凰县| 三河市| 平潭县| 论坛| 宁城县| 郁南县| 修文县| 西畴县| 洛川县| 三亚市| 铜梁县| 永寿县| 宜宾县|