官术网_书友最值得收藏!

3.搭配

 

下面我們討論“搭配”,英文是collocation。我們在傳統語法分析中區分各個層次,字、詞、短語、句子、話語,等等,由下而上,層層組合為越來越大的結構。這兒有個問題:“搭配”也是一個語言單位,但不容易歸入我們習用的這些結構單位。事實上,漢語中還沒有一個為大家所廣泛接受的術語,用來專指這種語言單位,有人稱之為“組合”,有人稱之為“搭配”,我們現在就暫時用“搭配”這個術語。作為語法單位,詞和短語的區別為,短語是詞的語法組合,只要符合語法規則,不合語義和邏輯的詞組合在一起都能構成短語,如“五條邊的四邊形”,而搭配既涉及語法關系,又涉及語義關系,最重要的是涉及無法完全由語法和語義規律解釋的習慣用法。例如,“小張嫁給了”,后面的賓語一般是個男的,語法上有這個限制嗎?沒有,語法上可以是任何名詞。再舉個例子,“遛”如用作及物動詞,后面一定是個動物,如“遛狗”“是騾子是馬,拉出來遛遛”。他帶個孩子在街上散步,你不能說“他遛孩子”。語法上有這個限制嗎?沒有,但用作及物動詞的“遛”,習慣上只能帶某一小類賓語。一個詞對哪些成分、哪些詞能與它同現,有一定的偏好,很難完全將之歸為語法或語義因素使然。通過不同語言的比較,我們可以對搭配缺乏充分理據看得更為清楚。漢語中說“違法”,英文相應的詞語是“打破法律”(break the law);漢語說“刷牙”,英文中跟漢語一樣brush the teeth,但德語和意大利語用的動詞是“polish”,磨光擦亮,波蘭語是“洗牙”,俄語是“清潔牙”;漢語說“吃藥”,而英語中的“藥”medicine,可不是用來eat 的,得說 take medicine,這其中并沒有多少理據可言。詞語和習慣與它同現的語言成分,構成我們所謂的搭配。對說母語的人來說,搭配是習以為常的現象,大概是太習以為常了,在語言學研究中長期沒有受到應有的重視,語言學家大都沒太拿它當回事情。

相比其他許多語言現象,搭配問題的研究歷史不長。最早提出這種現象值得深入研究的人是英國首位普通語言學講座教授、倫敦學派的代表人物J. R. Firth,他在1951年發表的一篇文章“Modes of meaning”中建議使用 collocation 這個術語指稱有關現象,并同時提出“搭配度”“搭配性”(collocability)的概念(Firth 1951/1957)。Firth在文章中指出,有些詞語因為慣常同其他某些詞語連用,因此獲得本身詞義之外的其他意義。他首先舉出的例子有 ass,因為前面最常用的形容詞是 silly(蠢)、obstinate(頑固)、stupid(笨)、awful(糟糕),結果該詞單獨使用時也通常附著這些負面的意思。Firth 指出,因這種搭配而獲得的意義是詞語在橫向組合平面上的抽象現象,與從概念或思維的角度研究詞語意義沒有直接關系(meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of the words(Firth 1951/1957:196))。Firth 的傳人M. A. K. Halliday 1961年發表的一文給出了更為系統和準確的定義:搭配涉及的是詞語在橫向組合平面上的聯系,可以在文本中定量分析為,成分a、b、c 等在與成分x 相距 n 個詞語的位置上出現的概率(...the syntagmatic association of lexical items,quantifiable, textually, as the probability that there will occur at n removes(a distance of n lexical items)from an item x, the items a, b, c ...(Halliday 1961/2002:61))。該文發表五十多年了,我認為上面這段文字仍然是對搭配現象最言簡意賅的定義之一,非常準確,操作性很強,同時引進了縱向聚合關系平面上的因素。我們現在有了許多大文本的語料庫,研究詞語的搭配及搭配性的強弱就更方便了。

如何確定詞語與其他某個成分是否構成搭配如何決定詞語之間搭配性的強弱?我們只能根據“系統中的對立”來回答這些問題。首先,我們確定系統的范圍,可以是包含各種文本的綜合語料庫,也可以根據時間、地域、體裁、作者、內容等劃出有關文本的特定范圍;呈對立的成分,一是詞語a 和詞語 x 從單純概率分布來看應該在一定間距內共同出現的次數,二是它們在文本中實際共現的次數。為了舉例說明,我利用英國 Lancaster 大學的漢語語料庫(Lancaster Corpus of Mandarin Chinese),研究“吃”和“粥”這兩個詞與其他詞語的搭配關系。該語料庫目前開放給公眾使用的部分共有 100 萬字,由 500 篇文本組成,每篇文本約2000字。“吃”在這100萬字的語料庫中一共出現了478次,“粥”出現了18次,我將共現間距定在前三個字或后三個字,結果請看下面的表1:

表 1 “吃”和“粥”與其他詞語搭配關系表

先看表1中給出的詞頻,“吃”在100萬字中一共出現了478次,“飯”出現了100次;接著是預期搭配頻次,指的是如果單純根據概率,“飯”在“吃”前三個字和后三個字間距內出現的預期次數應該是0.286,一次都不到;再接著給出的是實際出現次數,高達45次,LL 也高達390.42,說明預期同現次數和實際同現次數的差異絕對不是偶然現象,這組數據就是“吃”和“飯”構成搭配的堅實證據。正是文本中預期同現頻次與實際同現頻次的對立,決定了兩個詞語是否構成搭配,決定了它們搭配性的強弱。同理,“虧”在100萬字的語料庫中一共出現了20次,根據概率分布,“虧”在“吃”的前三個字和后三個字以內出現的次數應該是0.057次,0.1次都不到,但實際上出現了10次,LL 為89.47,可見“吃”和“虧”也是搭配性很強的組合。其他三個與“吃”實際搭配次數最多的詞分別是“粥”“面條”和“藥”。

根據該語料庫的檢查結果,與“粥”搭配性最強的有兩個詞,一是“吃”,二是“喝”,“吃粥”的搭配性反倒強過“喝粥”,這個結果同我的預想不一樣。我的語感是北方人,尤其是北京人一般都說“喝粥”。我判斷這個現象至少可能由兩個因素造成,一是“喝粥”是個比較口語化的詞語,該語料庫所收文本以書面語語體為主,口語化程度不高;二是許多文本的作者為南方人。這再次提醒我們,分析系統中的對立成分時,該系統的范圍和性質對于分析結果會有很大的影響。

搭配問題很值得我們深入研究,它有很高的實際應用價值,也有很重要的理論價值。先說實際運用價值,搭配在外語教學和計算機自然語言處理領域里占據十分重要的地位。我們讀學生寫的外語作文,只要五分鐘便能看出他們語言水平的高低。一般不是看語法,現在有語法檢查程序(grammar checker)能自動改正語法錯誤,主要看詞語搭配,一般情況下,沒有十年二十年的功夫,很難達到接近本族人語感的那個水平。研究搭配問題,應該會大大有助于我們的語言教學。

IBM 公司20世紀80年代投入大量資金,研究包括機器翻譯在內的計算機自然語言處理。研究人員當時主要分兩大類,一是語言學家,二是計算機技術專家。語言學家一般走的是自1950年代開始的老路,根據語法/語義/詞匯的有關規則,將文本分解成詞、短語、句子等語言單位進行加工處理。計算機技術專家大都熟悉數據庫技術和統計學工具,對語言學家的語法規則不感興趣,慣用方法往往是利用統計學工具分析海量的雙語數據庫,以詞語搭配和對應頻率等統計數據為基礎進行語言處理。語言學家所用方法進展緩慢,而隨著計算機儲存和處理能力的突飛猛進,基于大數據統計方法的語言處理系統效率越來越高,現在成了該領域里的主流,而基于傳統語言規則的處理方法則被許多人擯棄。據說90年代 IBM 負責機器翻譯的 Frederick Jelinek說過一句后來廣為流傳的話:“我每解雇一位語言學家,系統表現都會有所改善。”當然,基于大數據統計方法的機器翻譯系統有內在的局限性,發展到一定程度后進一步改善的余地不大,目前的趨勢是將基于語言規則和基于統計兩種方法結合起來。

迄今為止,語言學家所做的語言分析大都是集中在語法規則,如單位、切分、分布、層次、組合、結構,等等,側重組字成詞、組詞成短語/句子/話語等逐層向上的規則。隨著對搭配現象和其他語言現象(如構式語法 construction grammar 研究的許多問題)的深入研究,以及包括機器翻譯、機器學習在內的計算機自然語言處理領域所取得的成果給我們帶來的越來越多的啟發,我們也許有必要對語言學傳統的研究途徑做深入的反思,我們研究了多年的基于由小及大、層層組合原則的大量語言規律,到底在第一語言習得、語言使用、外語學習、計算機自然語言處理等同語言有關的過程中起著什么樣的作用,有許多問題值得我們重新思考。近一二十年來,包括從事語料庫研究在內的一些語言學家提出所謂“慣用語原則”(idiom principle)及類似的觀點,為語言研究提供了許多新的思路。

主站蜘蛛池模板: 确山县| 田东县| 清新县| 乌鲁木齐市| 盱眙县| 泾源县| 天镇县| 尤溪县| 新泰市| 贺州市| 江北区| 越西县| 丰镇市| 桦川县| 修水县| 平阳县| 通化县| 杭锦后旗| 安丘市| 玉环县| 吉安市| 海原县| 鲜城| 卫辉市| 龙泉市| 灌阳县| 丰顺县| 石泉县| 凤山市| 盐池县| 怀仁县| 邯郸市| 横峰县| 广丰县| 老河口市| 越西县| 白沙| 九龙县| 大冶市| 朔州市| 新郑市|