官术网_书友最值得收藏!

二 研究語料

下面我們將重點解釋研究語料的情況,包括語料的來源、語料收集的選擇方法和步驟,以及語料的預處理等,確保語料數據的客觀性、代表性,為后續對比研究的開展提供語料保障和數據基礎。

(一)語料來源

鑒于語料選擇要有可比性、學科性和體裁性特點,語料來源于“跨洋互動”網絡平臺上中美大學生同題影視評論的英語議論文寫作。“跨洋互動(Cross-Pacific Exchange)”又稱“跨國界互動(Cross-Borders Exchange)”,是2009年廣東外語外貿大學(GDUFS,China)英語語言文化學院和美國賓夕法尼亞州立大學(PSU,USA)英語系建立的大學生英語作文跨洋合作項目。其中第14輪與新西蘭惠靈頓維多利亞大學、第15輪與美國賓夕法尼亞米勒斯維爾大學開展了英語作文跨洋互動合作,截止到2017年廣東外語外貿大學已經成功舉辦了27輪跨洋互動。“跨洋互動”采用兩種互動形式:一是網上互評英語作文形式,中美大學生通過網站互評專題英語作文;二是實地交流形式,中美大學互派在校大學生去對方大學插班修讀或利用假期時間進行交流。

我們選用“跨洋互動”平臺上的互評英語作文。根據研究語料的要求,中國英語學習者和美國母語者英語議論文語料必須是同題的英語議論文作文,而很多“跨洋互動”的多輪互評作文采用了不同文體和題目,都不符合研究要求。最終,我們發現第17輪、第19輪和第22輪是中美同題的電影比較評論作文,符合語料要求,故我們以此平臺構建英語議論文寫作語料庫,其中包括中國英語學習者英語議論文寫作語料、美國母語者大學生英語議論文寫作語料,均為英語議論文寫作語料。中國英語學習者作文語料庫(Chinese English Learners’ Corpus of Film Review Writing,簡稱CELCFRW)選自廣東外語外貿大學英語系學生作文。美國母語者作文語料庫(English Native Speakers’ Corpus of Film Review Writing,簡稱ENSCFRW)選自賓夕法尼亞州立大學英語系學生作文。這三輪開展時間為2016年11月至2017年8月,中國英語學習者和美國母語者英語議論文寫作語料都比較新。“跨洋互動”第17輪要求中美大學生先觀看中國電影《秋菊打官司》(Story Of Qiu Ju or Qiu Ju Goes to Court)和美國電影《永不妥協》(Erin Brockvich),然后比較評論這兩部電影的異同。第19輪要求中美大學生觀看中國電影《盲山》(Blind Mountain)和美國電影《噩夢》(Nightmare in the Badham County),然后比較評論這兩部電影的異同。第22輪作文要求中美大學生觀看中國電影《鳳凰琴》(Feng Huang Qin or Country Teachers)和美國電影《鐵腕校長》(Lean on Me),然后評論這兩部電影的異同。學生可以評論同齡人的電影評論,并參與在線討論,期待雙方學生能促進語言、文化和藝術的相互理解。

(二)語料收集

本研究遵循國際語篇語料庫的建設方法,將質化研究和量化研究相結合。語料收集時,我們主要考慮以下幾個問題:(1)所收集的中美英語議論文作文都是2016—2017年中美大學生所創作的,能反映中美大學生英語議論文寫作的最新情況;(2)中美英語議論文語料要有可比性,因此英語議論文作文題目必須是同題作文,而且都是用英語書寫;(3)所建立的中國英語學習者和美國母語者微型英語議論文寫作語料庫不能僅僅追求語料庫規模的大小,重點考慮能充分描寫和解釋各章節的研究目標。首先,我們通過網絡搜索方法,在“跨洋互動”網絡平臺上搜索中國英語學習者和美國母語者的英語議論文寫作的同題作文,發現第17輪、第19輪和第22輪都是關于不同中美電影評論的作文,然后我們各收集了中國英語學習者和美國母語者在這三輪中的所有作文,剔除和本研究不相關的作文,最后收集到第17輪中美大學生同題作文各16篇,第19輪各20篇,第22輪各30篇。我們將中美大學生作文分別從網頁上復制、粘貼到新文檔中,接著整理為英語議論文的文本書檔,建立中國英語學習者和美國母語者英語議論文的數據庫。根據本研究的目的,我們從中國英語學習者和美國母語者各自的主數據庫中抽取樣本,然后建立微型英語議論文寫作語料庫。

(三)語料選擇

所有語料抽取按照優先順序,堅持“分類性”“完整性”和“真實性”三個原則,“分類性”保障中美英語議論文寫作語料抽取的目標群體、文章體裁等保持一致;“完整性”確保作文原文檔的整體性,不再任意切分;“真實性”確保目標語料庫的文檔能最大限度地反映中美大學生英語議論文寫作的真實性。中美英語議論文語料是關于同題影評作文,語言都為英語,體裁都為同題中美電影的議論文,都是中美大學生2016—2017年創作的,這樣就保證了語料的同質性和真實性。在文本處理過程中,刪除所有作文額外信息,例如作者、日期、系別等,只保留作文題目和正文,以保證語料的完整性。

中美大學生的作文篇幅長短不一,美國大學生作文最長一篇達到1713字,最短篇幅為416字;中國大學生作文最長篇幅為1416字,最短篇幅為470字。為了保證中美大學生作文水平的真實性和代表性,我們采用折中原則,刪除篇幅最短和最長的作文,保留中等篇幅的作文,因為篇幅最短和最長的作文都為數不多,而且短篇幅作文反映不了學生最真實的寫作水平。美國母語者英語議論文語料中篇幅在500字以下的作文共6篇,中國英語學習者英語議論文語料中則有2篇。美國母語者英語議論文語料中超過900字的作文共3篇,中國英語學習者英語議論文語料中則有6篇。因此我們刪除這些語料,選擇篇幅為500—900字之間的作文作為本研究的微型語料庫。

首先,抽取美國母語者大學生寫作語料。美國母語者作文語料庫選自“跨洋互動”網絡平臺第17輪、第19輪、第22輪中的賓夕法尼亞州立大學學生的寫作語料50篇,其中第17輪抽取15篇語料,第19輪抽取15篇語料,第22輪抽取20篇語料。其中500—599字的作文28篇,600—699字的作文14篇,700—799字的作文6篇,800—899字的作文2篇,共計30190字,每篇作文篇幅均為604字。該語料庫用作觀察語料庫。

其次,抽取中國英語學習者大學生作文語料。該中國英語學習者作文語料庫選自“跨洋互動”網絡平臺第17輪、第19輪、第22輪中的廣東外語外貿大學英語語言文化學院英語專業二年級學生的寫作語料,共50篇,其中第17輪抽取15篇語料,第19輪抽取15篇語料,第22輪抽取20篇語料。為了保持中美英語議論文語篇的可比性,我們也選用篇幅數在500—900詞之間的作文。其中500—599字的作文13篇,600—699字的作文19篇,700—799字的作文11篇,800—899字的作文7篇,共計32547字,每篇作文篇幅均為651字。這樣保持語料同質,控制變量,文本處理結果不會因語種或語體不同而受影響。兩個語料庫具體信息見下表2-1。

表2-1 中美英語議論文語料庫概況

(四)語料預處理

在語篇語料庫中,語料存儲工作是極其重要的一步。語篇是由一個個有交際意義的單元構成,而本研究的中美英語議論文語篇的修辭特征對比涉及語篇單元的修辭關系,故涉及作者的交際目的,也涉及其基本語篇單元的語用和功能關系。為了盡可能展示作者的交際意圖和寫作時的交際語境,我們分別把中美大學生的整篇作文網頁直接下載,然后存儲在兩個不同的文檔中,作為中國英語學習者和美國母語者英語議論文語料庫的原始文檔。

我們將這些學生的作文網頁內容復制在文本書檔后,刪除所有作文的額外信息,只保留作文題目和正文,我們發現這些作文格式存在一些問題,例如文檔排版格式、作文信息格式和有效文本內容的起止特點和網頁上學生原作文格式不一致。我們對原始議論文語料中存在的一些錯誤和不規整之處進行歸類,發現主要涉及以下5種錯誤:(1)單詞輸入錯誤;(2)句子語法錯誤;(3)英文標點符號輸入錯誤(缺失、誤用、重疊等);(4)文字中間多空格或少空格;(5)段落換行錯誤;(6)其他錯誤。我們重點研究語篇修辭特征,因此不對單詞輸入做專門校對,除非發現某個單詞錯誤影響了整個(或局部)語篇理解,我們則糾正這些單詞。

此外,我們還對中美英語議論文作文中的標點符號做了校對,因為這些錯誤會給我們后續的基于標點符號的基本語篇單元的切分工作帶來麻煩,一些標點符號也是基本語篇單元切分界限的分割符。而且這些錯誤還可能對中美英語議論文語篇修辭特征性質調查產生干擾,不僅影響后續工作的進程,例如基本語篇單元的切分效率和檢索統計,也會影響最后結論的正確性及其有效性。因此,在語篇語料正式處理階段前,我們對語料進行了預處理。基于語料先導研究的基礎上,我們確定語篇基本語篇單元的邊界符后,對所有語料進行了以下預處理:(1)修改作文中的拼寫錯誤、語法錯誤;(2)刪除多余空格,增加缺失的空格;(3)自動批量替換半角的英文符號,例如逗號、問號等;(4)根據原作文格式,給段落正確換行;(5)隨時更正文檔中的局部亂碼;(6)添加原文檔段落的序號;(7)對語料進行抽樣核查。在上述預處理過程中,我們都保留每一步的修改記錄和原始文件以備以后核查。

主站蜘蛛池模板: 秦皇岛市| 鲜城| 正阳县| 乌苏市| 康定县| 鄂托克旗| 赤城县| 武汉市| 通榆县| 栾川县| 延安市| 于都县| 泰安市| 当雄县| 镶黄旗| 水富县| 新兴县| 乌兰浩特市| 通化县| 武山县| 兰考县| 尚义县| 安龙县| 贡觉县| 肥城市| 安西县| 屯门区| 丽江市| 开鲁县| 论坛| 石棉县| 随州市| 图们市| 克拉玛依市| 乌拉特中旗| 崇文区| 宜宾市| 广平县| 东台市| 达孜县| 广元市|