- 計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)與效度驗(yàn)證
- 何蓮珍 閔尚超
- 9719字
- 2020-01-03 10:34:07
第一章 緒論
1.1 研究背景
隨著計(jì)算機(jī)技術(shù)與測量理論的不斷發(fā)展,建立大型的語言測試試題庫并基于題庫實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)語言測試(computerized adaptive language testing)是近年來國外語言測試研究的熱點(diǎn)問題。計(jì)算機(jī)自適應(yīng)測試興起于20世紀(jì)80年代中期,但直到80年代后期才真正被應(yīng)用到語言測試領(lǐng)域(Canale, 1986;Henning, 1987, 1991; Meunier, 1994; Chalhoub-Deville & Deville, 1999;Alderson, 2000; Chalhoub-Deville, 2001; Chapelle & Douglas, 2006; Ockey, 2009)。相對于傳統(tǒng)的紙筆語言測試(paper-and-pencil language testing)或普通的計(jì)算機(jī)輔助語言測試(computer-based language testing),計(jì)算機(jī)自適應(yīng)語言測試有以下優(yōu)勢:1)測試信度與測試效率高;2)即時(shí)反饋效果良好;3)施考安全性好;4)測試的個(gè)性化程度高,等等。
計(jì)算機(jī)自適應(yīng)語言測試的主要理論依據(jù)為項(xiàng)目反應(yīng)理論(item response theory)。項(xiàng)目反應(yīng)理論是一組用于闡述考生答題行為與潛在能力之間關(guān)系的數(shù)學(xué)模型,其最大優(yōu)點(diǎn)是項(xiàng)目數(shù)據(jù)與樣本數(shù)據(jù)之間具有獨(dú)立性,即項(xiàng)目參數(shù)估計(jì)不受其所施測的樣本影響,樣本能力估計(jì)不受其所施測的項(xiàng)目影響。因此,即使考生在測試過程中所得到的考題不一樣,仍可以對考生能力進(jìn)行估計(jì)并直接比較,這一優(yōu)點(diǎn)極大地推動了計(jì)算機(jī)自適應(yīng)語言測試的設(shè)計(jì)與應(yīng)用。
依據(jù)計(jì)分模式,項(xiàng)目反應(yīng)理論可以分為二級計(jì)分項(xiàng)目反應(yīng)理論模型和多級計(jì)分項(xiàng)目反應(yīng)理論模型。二級計(jì)分項(xiàng)目反應(yīng)理論模型中,考生在題目上的得分只有0分、1分兩種可能性,二級計(jì)分項(xiàng)目反應(yīng)理論模型包括單參數(shù)模型(one-parameter logistic model)、雙參數(shù)模型(two-parameter logistic model)、三參數(shù)模型(three-parameter logistic model)。多級計(jì)分項(xiàng)目反應(yīng)理論模型中,考生在題目上的得分有0分、1分、2分等多種可能性,常見的多級計(jì)分項(xiàng)目反應(yīng)理論模型有等級反應(yīng)模型(graded response model)、分部評分模型(partial credit model)和廣義分部評分模型(generalized partial credit model)。
項(xiàng)目反應(yīng)理論的基本假設(shè)為單維性與局部獨(dú)立性,單維性指同一份考卷中的所有題目測量同一種能力。盡管長期以來,語言測試領(lǐng)域在語言能力的單維性問題上爭論不休,但目前較為公認(rèn)的一種觀點(diǎn)是單維性是一個(gè)度的問題,而非存在與否的問題。局部獨(dú)立性指考生在各道題目上的答對概率相互獨(dú)立,即考生的潛在能力是影響考生答題的唯一因素,當(dāng)排除這個(gè)因素的影響后,考生在不同題目上的答題行為之間不存在任何關(guān)系。但是在大規(guī)模英語測試中,局部獨(dú)立性假設(shè)往往會被違反,因?yàn)槌R姷念}型是若干道選擇題基于同一篇章。在局部獨(dú)立性假設(shè)被違反的情況下,采用標(biāo)準(zhǔn)的二級計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行項(xiàng)目分析,不僅會導(dǎo)致模型與數(shù)據(jù)的不擬合,而且會因?yàn)閷?xiàng)目區(qū)分度的估值過高而導(dǎo)致對測試信息量——即對測量精確度——的過高估值。解決上述問題的一個(gè)有效方法是采用多級計(jì)分項(xiàng)目反應(yīng)理論模型。該方法把基于同一篇章的若干題目看成一個(gè)整體,即把考生在同一篇章所有題目上的得分相加,作為一個(gè)多級計(jì)分題目,運(yùn)用多級計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行參數(shù)估計(jì)。除項(xiàng)目反應(yīng)理論以外,計(jì)算機(jī)自適應(yīng)語言測試的成功與否主要取決于其四個(gè)重要組成部分的功能,即題庫、項(xiàng)目選擇、能力估計(jì)、終止原則。
目前,國內(nèi)關(guān)于計(jì)算機(jī)自適應(yīng)語言測試方面的研究基本停留在文獻(xiàn)綜述或簡要介紹上,只有極少數(shù)學(xué)者進(jìn)行了計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)的實(shí)證研究。國外關(guān)于計(jì)算機(jī)自適應(yīng)語言測試方面的實(shí)證研究相對較多,主要探討計(jì)算機(jī)自適應(yīng)語言測試的模型設(shè)計(jì)與效度驗(yàn)證。下面我們將簡要地介紹計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)與計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證方面的相關(guān)研究。
1.1.1 計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)相關(guān)研究
Larson(1987)是語言測試領(lǐng)域中首例嘗試計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)的實(shí)證研究,在此項(xiàng)研究的基礎(chǔ)上,近20多年來研究者們紛紛嘗試,并取得了一系列的研究成果。表1.1列出了這20多年來計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)方面的實(shí)證研究。
表1.1 計(jì)算機(jī)自適應(yīng)語言測試模型設(shè)計(jì)相關(guān)研究

注釋:2PLM為雙參數(shù)模型;3PLM為三參數(shù)模型:GRM為等級反應(yīng)模型;CTT為經(jīng)典真分?jǐn)?shù)理論
總體而言,在設(shè)計(jì)方面,絕大多數(shù)計(jì)算機(jī)自適應(yīng)語言測試采用選擇題或填空題的形式考查考生的詞匯、語法以及閱讀能力,僅有少數(shù)涉及聽力能力,因?yàn)槁犃y試中的語音成分使得計(jì)算機(jī)自適應(yīng)語言測試的模型設(shè)計(jì)過程更為復(fù)雜。大部分實(shí)證研究主要介紹題庫建設(shè)(如Dunkel, 1999; Sumbling et al., 2007)或設(shè)計(jì)過程中的決策制定(如Laurier, 1999),有助于我們更好地了解心理測量模型與計(jì)算機(jī)技術(shù)在語言能力評估中的應(yīng)用。題庫建設(shè)之所以成為以往研究關(guān)注的核心問題,是因?yàn)轭}庫質(zhì)量事關(guān)計(jì)算機(jī)自適應(yīng)語言測試所倡導(dǎo)的高測量精度與效度是否能在實(shí)際運(yùn)行中得以實(shí)現(xiàn)。沒有一個(gè)高質(zhì)量的題庫,無論項(xiàng)目選擇程序、能力估計(jì)方法及終止原則有多科學(xué),計(jì)算機(jī)自適應(yīng)語言測試的成功都無法得到保證。盡管如此,過往的研究在計(jì)算機(jī)自適應(yīng)語言測試題庫建設(shè)方面仍存在以下四個(gè)方面的局限性:
第一,大多數(shù)題庫僅采用獨(dú)立項(xiàng)目,即每道題目基于一個(gè)獨(dú)立的篇章,并采用二級計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行項(xiàng)目參數(shù)估計(jì)(如Stevenson & Gross, 1991; Madsen, 1991; Brown & Iwashita, 1996; Young et al., 1996; Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007; Nogami & Hayashi, 2010),而在實(shí)際的語言測試中,尤其是聽力與閱讀測試中,使用最為廣泛的題型是題組(testlet),即若干道題目基于同一篇章。題組在之前的計(jì)算機(jī)自適應(yīng)語言測試中使用較少的原因是在若干個(gè)項(xiàng)目基于同一篇章的情況下,項(xiàng)目之間可能會相互關(guān)聯(lián),從而導(dǎo)致項(xiàng)目反應(yīng)理論的基本假設(shè)——局部獨(dú)立性假設(shè)——被違反(Rosenbaum, 1988; Sireci et al., 1991)。解決該問題的一個(gè)方法是將基于同一篇章的多個(gè)項(xiàng)目視為一個(gè)多級計(jì)分項(xiàng)目,并采用多級計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行參數(shù)估計(jì)(Rosenbaum, 1988; Thissen et al., 1989; Lee, 1998)。Laurier(1999)的計(jì)算機(jī)自適應(yīng)語言測試設(shè)計(jì)采用了這種方法,為我們提供了一個(gè)典型的例證。在該項(xiàng)研究中,Laurier(1999)不僅采用二級計(jì)分項(xiàng)目反應(yīng)理論模型分析獨(dú)立項(xiàng)目,同時(shí)采用多級項(xiàng)目反應(yīng)理論模型中使用非常廣泛的等級反應(yīng)模型分析題組項(xiàng)目,有效地處理了局部獨(dú)立性假設(shè)被違反的問題。通過采用包含二級計(jì)分獨(dú)立項(xiàng)目和多級計(jì)分題組項(xiàng)目的“混合式測試設(shè)計(jì)”(Lau & Wang, 1998; Rosa et al., 2001), Laurier(1999)的計(jì)算機(jī)自適應(yīng)語言測試模型最大限度地模擬了真實(shí)測試場景,為計(jì)算機(jī)自適應(yīng)語言測試在語言測試領(lǐng)域的應(yīng)用做出了杰出貢獻(xiàn)。其他也有一些研究(如Young et al., 1996;何蓮珍,2004)在計(jì)算機(jī)自適應(yīng)語言測試題庫建設(shè)中采用了題組項(xiàng)目,但是這些研究并沒有提供局部獨(dú)立性假設(shè)方面的診斷信息,而是將基于同一題組的項(xiàng)目和不基于同一題組的項(xiàng)目混在一起,采用二級計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行分析,忽略了局部獨(dú)立性假設(shè)可能被違反這一問題,所以其測量準(zhǔn)確度仍有待商榷。
第二,雖然大部分題庫包括詞匯測試、語法測試、閱讀測試等多個(gè)組成部分,但是很少有研究關(guān)注題庫中的不同組成部分在多大程度上影響整個(gè)題庫的單維性。目前語言測試領(lǐng)域的一個(gè)共識是:語言能力是多維的,不僅包含一個(gè)總的高階能力因子,還包含若干不同的二階能力因子(如Bachman &Palmer, 1981, 1982; Carroll, 1983; Bachman et al., 1990, 1995; Sasaki, 1996;Shin, 2005; Song, 2008)。因此,過往的研究中把不同測試部分(如聽力、閱讀、詞匯與語法)的項(xiàng)目放在一起進(jìn)行項(xiàng)目估計(jì)的習(xí)慣做法存在一定的問題。更具體地說,這種做法忽視了不同測試部分可能存在不同的能力因子,模糊了不同潛在能力因子間的界限,從而可能導(dǎo)致項(xiàng)目參數(shù)估計(jì)和考生能力估計(jì)的不準(zhǔn)確。因此,更理想的方法是先檢查不同測試部分的項(xiàng)目是否與同一測試部分的項(xiàng)目一樣符合單維性假設(shè),然后再確定各測試部分項(xiàng)目的校準(zhǔn)方式,即合在一起校準(zhǔn)或分別進(jìn)行校準(zhǔn)。
第三,在模型選擇方面,過往的題庫建設(shè)過分依賴Rasch模型(如Madsen, 1991; Stevenson & Gross, 1991; Brown & Iwashita, 1996; Young et al., 1996;Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007),極少有研究通過觀察模型數(shù)據(jù)擬合度從一系列理論上可行的模型中選擇最佳模型對項(xiàng)目進(jìn)行參數(shù)估計(jì)。過往的研究傾向于使用Rasch模型的原因各異,有的是因?yàn)闃颖玖坑邢蓿械氖菫榱耸沟糜?jì)算機(jī)自適應(yīng)語言測試系統(tǒng)運(yùn)行更為簡單。無論基于何種原因,Rasch模型在計(jì)算機(jī)自適應(yīng)語言測試中的過度應(yīng)用都值得商榷。Rasch模型的哲學(xué)理念與其他二級計(jì)分項(xiàng)目反應(yīng)理論模型(如雙參數(shù)模型、三參數(shù)模型)存在原則上的差別。Rasch模型以模型為驅(qū)動,關(guān)注的核心問題是數(shù)據(jù)是否符合選定模型,如不符合,則說明數(shù)據(jù)有問題;而其他二級計(jì)分項(xiàng)目反應(yīng)理論模型則以數(shù)據(jù)為驅(qū)動,關(guān)注的是所選定的模型是否符合現(xiàn)實(shí)數(shù)據(jù),如不符合,則更換模型重新擬合(Zumbo & Macmillan, 1999)。換言之,在Rasch模型倡導(dǎo)者的眼里,沒有不好的模型,只有不好的數(shù)據(jù)。但是,這個(gè)觀點(diǎn)在語言測試領(lǐng)域并不適用。我們不能因?yàn)槟硞€(gè)項(xiàng)目或某個(gè)考生的反應(yīng)方式不符合Rasch模型,就放棄該項(xiàng)目或該考生。相反,我們應(yīng)該從一系列理論上可行的模型中根據(jù)模型數(shù)據(jù)擬合程度選擇最佳模型對項(xiàng)目進(jìn)行參數(shù)估計(jì),對考生進(jìn)行能力估計(jì)。但是,綜合分析文獻(xiàn)后發(fā)現(xiàn),為數(shù)不多的未采用Rasch模型的計(jì)算機(jī)自適應(yīng)語言測試研究在選擇模型進(jìn)行參數(shù)估計(jì)時(shí),似乎也只是基于理論考慮或方便原則隨機(jī)選取模型,并未考慮根據(jù)模型數(shù)據(jù)擬合程度選擇最佳模型對項(xiàng)目進(jìn)行參數(shù)估計(jì)。
第四,盡管項(xiàng)目功能差異(differential item functioning)的存在對計(jì)算機(jī)自適應(yīng)語言測試的效度以及公平性構(gòu)成極大威脅,但是迄今為止尚未有研究關(guān)注計(jì)算機(jī)自適應(yīng)語言測試題庫建設(shè)過程中的項(xiàng)目功能差異問題。相對于紙筆語言測試而言,計(jì)算機(jī)自適應(yīng)語言測試更易受到項(xiàng)目功能差異的影響,因?yàn)樵诩埞P語言測試中,所有考生的考題一樣,項(xiàng)目功能差異效應(yīng)可能會弱化或相互抵消(Wainer, 2000; Wang, 2009)。但是在計(jì)算機(jī)自適應(yīng)語言測試中,測試的題目數(shù)量相對較少,且不同考生所測的題目不同,所以項(xiàng)目功能差異效應(yīng)無法減少,甚至?xí)蛉硕悾╖wick,2000)。因此,在計(jì)算機(jī)自適應(yīng)語言測試題庫建設(shè)中,我們需要先對存在項(xiàng)目功能差異的項(xiàng)目予以剔除,從而確保計(jì)算機(jī)自適應(yīng)語言測試對考生的能力估計(jì)不會出現(xiàn)偏頗(McClarty, 2006)。
1.1.2 計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證相關(guān)研究
計(jì)算機(jī)自適應(yīng)語言測試問世以來,研究者所關(guān)心的一個(gè)基本問題是計(jì)算機(jī)自適應(yīng)語言測試是否改變了傳統(tǒng)測試所測量的構(gòu)念。尤其是在計(jì)算機(jī)自適應(yīng)語言測試誕生之初,計(jì)算機(jī)使用并不普遍,很少有人知道在屏幕上閱讀與在紙上閱讀之間有什么區(qū)別,以及這種區(qū)別是否影響考生表現(xiàn)與考試分?jǐn)?shù)(Douglas & Hegelheimer, 2007)。因此,研究者一直大力倡導(dǎo)探討計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性、計(jì)算機(jī)熟悉度對考生在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn)的影響、計(jì)算機(jī)自適應(yīng)語言測試構(gòu)念在男女考生群組中的一致性。下面我們將詳細(xì)介紹計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證的相關(guān)研究,并在此基礎(chǔ)上指出以往研究的局限性。
(1)計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性
在計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性問題上,研究者爭論的核心問題是:是否需要保證考生在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn)與其在紙筆語言測試中的表現(xiàn)具有可比性。大多數(shù)研究者認(rèn)為,無論是計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試同時(shí)存在,還是由計(jì)算機(jī)自適應(yīng)語言測試取代紙筆語言測試,測試開發(fā)者和使用者都應(yīng)該保證這兩種測試形式之間的對等關(guān)系(Wang & Kolen, 2001; Kingsbury, 2002; McDonald, 2002)。但是有一些研究者(如Jones & Maycock, 2007)堅(jiān)持認(rèn)為,保證計(jì)算機(jī)自適應(yīng)語言測試分?jǐn)?shù)與紙筆語言測試分?jǐn)?shù)對等不僅不切實(shí)際,而且沒有必要,因?yàn)閺氖y特點(diǎn)與心理計(jì)量屬性的角度來看,計(jì)算機(jī)自適應(yīng)語言測試本身就優(yōu)于紙筆語言測試。其次,不同的計(jì)分方式——紙筆語言測試的原始分(number-correct score)與計(jì)算機(jī)自適應(yīng)語言測試的量表分(scale score)——使得分?jǐn)?shù)不具可比性。Wang & Kolen(2001)、Kolen & Brennan(2004)和Eignor(2007)等學(xué)者詳細(xì)介紹了支持或反對這兩種觀點(diǎn)的理由。
對實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試兩種測試方式可比性持反對意見的研究者認(rèn)為,兩者的分?jǐn)?shù)本身不具可比性,原因如下:第一,兩者的測試內(nèi)容不同。即使可以通過一定的項(xiàng)目選擇算法保證兩項(xiàng)測試中測試內(nèi)容的比例保持一致(Eignor et al., 1993),計(jì)算機(jī)自適應(yīng)測試所考查的內(nèi)容會少于紙筆測試所考查的內(nèi)容,因此不可能實(shí)現(xiàn)完全的可比性。第二,計(jì)分方式不同。計(jì)算機(jī)自適應(yīng)測試中,考生所得分?jǐn)?shù)是項(xiàng)目反應(yīng)理論估計(jì)所得出的量表分,而紙筆測試中,考生的得分是原始分,前者是經(jīng)過加權(quán)處理的分?jǐn)?shù),而后者不經(jīng)過任何處理,因此兩者的分?jǐn)?shù)在性質(zhì)上差異較大。第三,信度不同。計(jì)算機(jī)自適應(yīng)測試中,對不同能力水平考生的測量可以通過誤差控制使信度基本保持一致,而在紙筆測試中則無法做到。換言之,兩者的條件測量標(biāo)準(zhǔn)誤(conditional standard error of measurement)不同,因此無法滿足等值中的二階公平性(second-order equity; Kolen & Brennan, 2004)。第四,施測環(huán)境不同。考生在參加計(jì)算機(jī)自適應(yīng)測試時(shí),系統(tǒng)會根據(jù)考生對當(dāng)前項(xiàng)目的作答情況為考生選擇下一個(gè)項(xiàng)目,因此考生無法修改已作答的項(xiàng)目;而在紙筆測試中,考生可以隨時(shí)跳過難題,先完成較有把握的題目,再返回去做較難的題目。第五,測試任務(wù)不同。計(jì)算機(jī)自適應(yīng)測試以計(jì)算機(jī)為媒介,可采用一些傳統(tǒng)紙筆測試中無法實(shí)現(xiàn)的新題型或新任務(wù)。對實(shí)現(xiàn)兩種測試方式可比性持支持態(tài)度的研究者認(rèn)為:在計(jì)算機(jī)自適應(yīng)測試走向大規(guī)模使用前,往往會與其所對應(yīng)的紙筆測試并行運(yùn)行一段時(shí)間,在并行階段,就完全有必要保證兩項(xiàng)考試分?jǐn)?shù)具有可比性。同時(shí),雖然從理論上說,對兩項(xiàng)考試進(jìn)行等值需要滿足二階公平性,即兩項(xiàng)考試的條件測量標(biāo)準(zhǔn)誤保持一致,但在實(shí)踐中,不同考試的條件測量標(biāo)準(zhǔn)誤不可能完全相同(Wang & Kolen, 2001),因此這只是一個(gè)可比性程度的問題,而不是是否存在可比性的問題。
我們認(rèn)為:研究者無須耗費(fèi)這么多精力以保證計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性,而應(yīng)當(dāng)努力嘗試了解計(jì)算機(jī)自適應(yīng)語言測試和紙筆語言測試在多大程度上考查了不同的能力或構(gòu)念。我們的理由如下:在這個(gè)全球化時(shí)代,人們花大量時(shí)間在計(jì)算機(jī)上進(jìn)行閱讀與交流,采用相關(guān)分析等簡單效度驗(yàn)證法或規(guī)定性(prescriptive)效度驗(yàn)證法去探討計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性已沒有必要(Chapelle & Douglas, 2006)。過去那種認(rèn)為所有語言測試在不同語境中均以同樣方式考查語言能力的單一構(gòu)念觀點(diǎn)(Chapelle & Douglas, 2006)在全球化背景下已不再適用,因?yàn)樗y以適應(yīng)當(dāng)前語言測試領(lǐng)域多樣化的測試目的與測試語境。換言之,在這個(gè)全球化時(shí)代,交際語言能力的定義應(yīng)考慮個(gè)體的語言能力與基于計(jì)算機(jī)的交際語境的相互作用(Chapelle & Douglas, 2006)。因此,計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證的焦點(diǎn)不應(yīng)該是計(jì)算機(jī)自適應(yīng)語言測試分?jǐn)?shù)與紙筆語言測試分?jǐn)?shù)間相關(guān)性的強(qiáng)弱,而應(yīng)該是計(jì)算機(jī)自適應(yīng)語言測試是否考查了考試大綱所規(guī)定的相關(guān)能力。
然而,必須指出的是,雖然我們認(rèn)為測試開發(fā)者無須舍本逐末地去保證計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試的等效性,但我們有必要保證計(jì)算機(jī)自適應(yīng)語言測試與計(jì)算機(jī)輔助語言測試的等效性。計(jì)算機(jī)自適應(yīng)語言測試和計(jì)算機(jī)輔助語言測試都是通過計(jì)算機(jī)施測,區(qū)別在于計(jì)算機(jī)自適應(yīng)語言測試中的項(xiàng)目是臨時(shí)分配的,是動態(tài)的,而計(jì)算機(jī)輔助語言測試中的項(xiàng)目是預(yù)先設(shè)置的,是靜態(tài)的。因此,我們不能因?yàn)橛?jì)算機(jī)自適應(yīng)語言測試的自適應(yīng)性而使計(jì)算機(jī)自適應(yīng)語言測試所測量的構(gòu)念與計(jì)算機(jī)輔助語言測試所測量的構(gòu)念有所不同。也就是說,計(jì)算機(jī)自適應(yīng)語言測試與計(jì)算機(jī)輔助語言測試的等效性是計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證不可或缺的一部分。
通過對過往的研究進(jìn)行仔細(xì)梳理后與回顧后我們發(fā)現(xiàn),探討計(jì)算機(jī)輔助語言測試與紙筆語言測試等效性的研究比比皆是(Fulcher, 1999; Jones, 2000;Sawaki, 2001b; Brown, 2003; Choi et al., 2003; Shaw, 2003; Green & Maycock, 2004),探討計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試等效性的研究也有一些(如Coniam, 2006; Nogami & Hayashi, 2010),但數(shù)量相對較少。
Coniam(2006)采用描述性統(tǒng)計(jì)方法,發(fā)現(xiàn)計(jì)算機(jī)自適應(yīng)聽力測試以及與其對應(yīng)的紙筆聽力測試均能有效地區(qū)分考生能力水平。但是,考生在計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試上的表現(xiàn)存在顯著差異。總體而言,考生在計(jì)算機(jī)自適應(yīng)語言測試中的分?jǐn)?shù)高于其在紙筆語言測試中的分?jǐn)?shù),兩項(xiàng)考試分?jǐn)?shù)間的相關(guān)性為0.76。Coniam(2006)由此得出結(jié)論:計(jì)算機(jī)自適應(yīng)語言測試可應(yīng)用于風(fēng)險(xiǎn)較低的測試中,但對高風(fēng)險(xiǎn)測試則不太適合。
Nogami & Hayashi(2010)采用單組平衡設(shè)計(jì)法探討了考生在計(jì)算機(jī)自適應(yīng)語言測試和與其相對應(yīng)的紙筆語言測試中考分平均值和標(biāo)準(zhǔn)差之間的可比性。結(jié)果發(fā)現(xiàn),在四個(gè)部分中,有三個(gè)部分的平均值存在顯著差異,但是這些差異不是一致的,即考生在計(jì)算機(jī)自適應(yīng)語言測試中各個(gè)部分的得分并不是一致性地高于或低于他們在相對應(yīng)的紙筆語言測試各部分中的得分。此外,計(jì)算機(jī)自適應(yīng)語言測試結(jié)果的標(biāo)準(zhǔn)差顯著大于紙筆語言測試結(jié)果的標(biāo)準(zhǔn)差。然而,無論是分項(xiàng)還是整體,計(jì)算機(jī)自適應(yīng)語言測試和紙筆語言測試分?jǐn)?shù)之間的相關(guān)性均較高,分別為0.76~0.89和0.96。
可以看出,上述兩項(xiàng)探討計(jì)算機(jī)自適應(yīng)語言測試與紙筆語言測試等效性的實(shí)證研究僅僅是通過描述性統(tǒng)計(jì)分析和簡單的推斷性統(tǒng)計(jì)分析(如t檢驗(yàn)),來研究考生的成績在這兩種考試中是否存在顯著差異。盡管早在20多年前研究人員(如Steinberg, Thissen, & Wainer, 1990)就已提出驗(yàn)證性因子分析是研究測試潛在因子數(shù)量與因子負(fù)荷跨模式對等性的一種強(qiáng)有力的分析方法,可用于計(jì)算機(jī)自適應(yīng)測試的效度驗(yàn)證,但直至目前該方法仍未得到應(yīng)用。
特別值得一提的是:迄今為止尚未有實(shí)證研究來探討計(jì)算機(jī)自適應(yīng)語言測試與計(jì)算機(jī)輔助語言測試的等效性。我們認(rèn)為有必要在這一方面進(jìn)行嘗試。
(2)計(jì)算機(jī)熟悉度的影響
另一個(gè)與計(jì)算機(jī)自適應(yīng)語言測試效度緊密相關(guān)的問題是考生特征與測試模式之間的交互作用(Sawaki, 2001a),尤其是計(jì)算機(jī)熟悉度對考生在計(jì)算機(jī)輔助語言測試中的表現(xiàn)的影響(Lee, 1986; Spray et al., 1989; Fulcher, 1999;Taylor et al., 1999; McDonald, 2002; Barkaoui, 2014; Hosseini et al., 2014)。探討計(jì)算機(jī)熟悉度與考生的相互作用有助于我們了解在多大程度上計(jì)算機(jī)自適應(yīng)語言測試考查了計(jì)算機(jī)熟悉度,以及在多大程度上計(jì)算機(jī)自適應(yīng)語言測試研究結(jié)果可以概推到其他語言使用環(huán)境中(Alderson, 2000; Bachman, 2000)。
令人驚訝的是,到目前為止,很少有研究直接探討計(jì)算機(jī)熟悉度是否影響考生在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn)。鑒于相關(guān)研究的匱乏以及計(jì)算機(jī)輔助語言測試與計(jì)算機(jī)自適應(yīng)語言測試在測試模式上的極大相似性,我們認(rèn)為關(guān)于計(jì)算機(jī)熟悉度影響的研究不能局限于計(jì)算機(jī)熟悉度對計(jì)算機(jī)自適應(yīng)語言測試中考生表現(xiàn)的影響,而應(yīng)擴(kuò)展到計(jì)算機(jī)熟悉度對計(jì)算機(jī)輔助語言測試中考生表現(xiàn)的影響,并希望借此展示計(jì)算機(jī)輔助語言測試領(lǐng)域關(guān)于計(jì)算機(jī)熟悉度的影響的研究現(xiàn)狀。
人們會憑直覺認(rèn)為計(jì)算機(jī)熟悉度必定會影響考生在計(jì)算機(jī)輔助語言測試中的表現(xiàn)。Wolfe et al.(1996)的研究也佐證了這一觀點(diǎn),發(fā)現(xiàn)計(jì)算機(jī)熟悉度較高的高中生在計(jì)算機(jī)輔助語言測試中的得分高于計(jì)算機(jī)熟悉度較低的考生;同樣,Horkay et al.(2006)的研究也發(fā)現(xiàn),計(jì)算機(jī)熟悉度對考生在網(wǎng)考作文中的分?jǐn)?shù)有顯著影響。但是,Horkay et al.(2006)明確指出,我們?nèi)绾谓庾x這種顯著影響取決于我們對測試構(gòu)念的定義。我們是想了解考生在紙面上的寫作表現(xiàn)、考生在電腦上的寫作表現(xiàn)、還是考生在其自主選擇的測試模式中的寫作表現(xiàn)?這是測試開發(fā)者和其他利益相關(guān)者在解讀結(jié)果時(shí)必須考慮的問題。Jin et al.(2011)發(fā)現(xiàn):大學(xué)英語四、六級網(wǎng)考中考生的得分與其計(jì)算機(jī)熟悉度之間有著顯著的相關(guān)關(guān)系。作者明確提出:定義21世紀(jì)的語言測試構(gòu)念需要融合計(jì)算機(jī)操作水平與語言能力。
當(dāng)然,也有一些研究發(fā)現(xiàn),計(jì)算機(jī)熟悉度與考生在計(jì)算機(jī)輔助語言測試中的表現(xiàn)并無顯著關(guān)系。Taylor et al.(1999)認(rèn)為,在使用協(xié)方差分析方法控制英語語言能力水平這一變量后,計(jì)算機(jī)熟悉度與托福機(jī)考成績之間不存在任何有意義的相關(guān)關(guān)系。Fulcher(1999)同樣采用協(xié)方差分析方法,發(fā)現(xiàn)計(jì)算機(jī)輔助語法分級測試中考生的計(jì)算機(jī)熟悉度與考試成績無顯著關(guān)系。然而,應(yīng)該指出的是,協(xié)方差分析方法可能會低估計(jì)算機(jī)熟悉度高與計(jì)算機(jī)熟悉度低的考生之間的分?jǐn)?shù)差異。同樣,Maycock & Green(2005)指出,盡管多數(shù)考生認(rèn)為計(jì)算機(jī)熟悉度高的考生在計(jì)算機(jī)輔助形式的雅思考試中得分會更高,但缺乏實(shí)證依據(jù),計(jì)算機(jī)熟悉度并未對考生在紙筆型雅思考試和計(jì)算機(jī)輔助雅思考試中的表現(xiàn)帶來顯著影響。
從以上綜述可以看出,已有的研究結(jié)果不盡一致,這或許是因?yàn)椴煌芯恐兴婕暗淖兞坎煌F渲凶钣锌赡艿脑蚴牵弘S著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)熟悉度正在發(fā)生變化,變化速度也因地而異,因此,無法從這些研究中得出一個(gè)統(tǒng)一的結(jié)論。然而,一些研究——特別是最近一項(xiàng)以中國學(xué)生為研究對象的研究(如Jin et al., 2011)——確實(shí)表明計(jì)算機(jī)熟悉度的差異可能會導(dǎo)致學(xué)生在計(jì)算機(jī)輔助語言測試和傳統(tǒng)紙筆語言測試中所得分?jǐn)?shù)之間的差異。因此,測試開發(fā)者和使用者在開發(fā)和使用測試時(shí),應(yīng)該考慮計(jì)算機(jī)熟悉度對考生在計(jì)算機(jī)自適應(yīng)語言測試以及計(jì)算機(jī)輔助語言測試中的表現(xiàn)的影響。
另外需要指出的是,雖然已有的研究在使用計(jì)算機(jī)熟悉度測量工具時(shí)涉及計(jì)算機(jī)熟悉度的一個(gè)或多個(gè)方面(如計(jì)算機(jī)擁有率、對計(jì)算機(jī)的態(tài)度、計(jì)算機(jī)使用經(jīng)歷、計(jì)算機(jī)相關(guān)技術(shù)),但是這些研究均未考慮與計(jì)算機(jī)使用相關(guān)的焦慮因素,我們認(rèn)為廣義的計(jì)算機(jī)熟悉度應(yīng)該包括這一因素。雖然一些研究者認(rèn)為,計(jì)算機(jī)焦慮度和計(jì)算機(jī)熟悉度基本上是相同的構(gòu)念(Levin &Donitsa-Schmidt, 1997; Powers, 1999),但是McDonald(2002)在對相關(guān)文獻(xiàn)進(jìn)行綜述后指出,計(jì)算機(jī)焦慮度源于對計(jì)算機(jī)不熟悉這一觀點(diǎn)過于簡單化。特別是在計(jì)算機(jī)自適應(yīng)語言測試中,考生沒有機(jī)會返回已做過的題目或修改自己的作答情況,因此考生的焦慮程度可能會更高。Madsen(1991)也曾提到,在一項(xiàng)包括聽力與閱讀的計(jì)算機(jī)自適應(yīng)語言測試中,考生的計(jì)算機(jī)熟悉度并沒有影響其在計(jì)算機(jī)自適應(yīng)語言測試時(shí)的焦慮程度。因此,從廣義上講,計(jì)算機(jī)熟悉度不僅應(yīng)該包括Taylor et al.(1999)提出的計(jì)算機(jī)擁有率、對計(jì)算機(jī)的態(tài)度、計(jì)算機(jī)使用經(jīng)歷以及相關(guān)技術(shù),還應(yīng)該包括在計(jì)算機(jī)上考試時(shí)的測試焦慮。
(3)計(jì)算機(jī)自適應(yīng)語言測試構(gòu)念在男女考生群組中的一致性
效度驗(yàn)證的另一重要方面是測試的因子結(jié)構(gòu)是否在不同群組中保持一致性。過往的研究在這一點(diǎn)上存在一定的局限性,往往只是從總體上探討計(jì)算機(jī)熟悉度對整個(gè)考生群體在計(jì)算機(jī)輔助語言測試或計(jì)算機(jī)自適應(yīng)語言測試中表現(xiàn)的影響方式及其影響程度,而忽略了一個(gè)重要的問題,即計(jì)算機(jī)熟悉度對不同考生群體在計(jì)算機(jī)輔助語言測試或計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn)是否會產(chǎn)生不同的影響。
隨著計(jì)算機(jī)普及程度的提高,盡管計(jì)算機(jī)熟悉度對計(jì)算機(jī)輔助語言測試中考生成績的影響有所降低(Taylor et al., 2000; Sawaki, 2001a; Dooey, 2008),但計(jì)算機(jī)熟悉度可能對某些群體的影響仍然會比較大(Wise & Plake, 1989, Wolfe & Manalo, 2005; Douglas & Hegelheimer, 2007),尤其是計(jì)算機(jī)普及率在不同人群中會有所不同(Dooey, 2008),因此計(jì)算機(jī)熟悉度可能會在不同程度上影響不同考生群組,從而影響考試的公平性以及考試的信度和效度。在語言測試領(lǐng)域,最受關(guān)注的問題是不同性別的考生群體是否會因其計(jì)算機(jī)熟悉度的差異而在計(jì)算機(jī)輔助考試中的表現(xiàn)有所不同(Fulcher, 1999; Taylor et al., 1999; Maycock & Green, 2005; Coniam, 2006)。過往的研究發(fā)現(xiàn),男性往往比女性更多地接觸計(jì)算機(jī)(Miller & Varma, 1994; Taylor et al., 1999),對自己的計(jì)算機(jī)操作水平更有信心,對計(jì)算機(jī)的興趣更濃(Siann et al., 1990),對計(jì)算機(jī)與計(jì)算機(jī)輔助教學(xué)與測試的態(tài)度更為積極(Levin & Gordon, 1989)。因此,計(jì)算機(jī)熟悉度的性別差異可能會導(dǎo)致考生在計(jì)算機(jī)輔助測試中表現(xiàn)的差異,從而影響分?jǐn)?shù)解釋的有效性(Coniam, 2006)。
我們認(rèn)為應(yīng)該從宏觀角度來定義計(jì)算機(jī)自適應(yīng)語言測試的構(gòu)念,主張計(jì)算機(jī)自適應(yīng)語言測試構(gòu)念應(yīng)考慮語言能力和計(jì)算機(jī)技術(shù)之間的相互作用,但是如果計(jì)算機(jī)操作水平在不同程度上影響男女考生在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn),則又會引發(fā)公平性問題。因此,為了確保基于計(jì)算機(jī)自適應(yīng)語言測試中考生表現(xiàn)所做的能力推斷的公平性,我們必須保證計(jì)算機(jī)自適應(yīng)語言測試構(gòu)念不受性別影響,即男女考生群組的測試表現(xiàn)不會受其計(jì)算機(jī)熟悉度差異的影響。也就是說,計(jì)算機(jī)熟悉度與英語能力對考生在計(jì)算機(jī)自適應(yīng)語言測試中的考分方差變異貢獻(xiàn)量應(yīng)該在男女考生群組中保持一致。然而,在語言測試領(lǐng)域,迄今為止尚未有研究探討計(jì)算機(jī)自適應(yīng)語言測試中所涉及的計(jì)算機(jī)熟悉度以及所考查的語言能力的因子結(jié)構(gòu)是否在男女考生群組中存在一致性。一些研究者(如Maycock & Green, 2005)采用描述性統(tǒng)計(jì)分析和簡單推斷性統(tǒng)計(jì)分析方法探討了性別對計(jì)算機(jī)輔助語言測試中考生表現(xiàn)的影響,結(jié)果表明,性別因素顯著影響考生在計(jì)算機(jī)輔助語言測試中的表現(xiàn)。這里需要回答的問題是該顯著影響是否可歸因于不同性別存在不同程度的計(jì)算機(jī)熟悉度。因此,我們認(rèn)為有必要深入探討不同性別在計(jì)算機(jī)熟悉度上的差異是否會對男女考生群組在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn)產(chǎn)生顯著影響。
綜上所述,過往的計(jì)算機(jī)自適應(yīng)語言測試效度驗(yàn)證方面的研究存在三個(gè)方面的局限性:第一,沒有探討計(jì)算機(jī)自適應(yīng)語言測試與計(jì)算機(jī)輔助語言測試的等效性;第二,在過往的研究中采用的統(tǒng)計(jì)方法過于簡單,沒有采用較為復(fù)雜的統(tǒng)計(jì)方法(如結(jié)構(gòu)方程模型等)來探討計(jì)算機(jī)熟悉度究竟在多大程度上影響計(jì)算機(jī)自適應(yīng)語言測試所考查的構(gòu)念,從而影響考生在計(jì)算機(jī)自適應(yīng)語言測試中的表現(xiàn);第三,沒有探討計(jì)算機(jī)自適應(yīng)語言測試中所涉及的計(jì)算機(jī)熟悉度以及所考查的語言能力的因子結(jié)構(gòu)是否在男女考生群組中存在一致性。
- GB 51139-2015 纖維素纖維用漿粕工廠設(shè)計(jì)規(guī)范
- GB 50388-2016 煤礦井下機(jī)車車輛運(yùn)輸信號設(shè)計(jì)規(guī)范
- 核電廠常規(guī)島儀表與控制設(shè)計(jì)規(guī)程
- 老年人智能技術(shù)應(yīng)用入門
- GB 51185-2016 煤炭工業(yè)礦井抗震設(shè)計(jì)規(guī)范
- YD/T 5131-2005 移動通信工程鋼塔桅結(jié)構(gòu)設(shè)計(jì)規(guī)范(英文版)
- DL/T 5503-2015 直流換流站施工圖設(shè)計(jì)內(nèi)容深度規(guī)定
- GB50542-2009石油化工廠區(qū)管線綜合技術(shù)規(guī)范(英文版)
- GB/T 51264-2017 雙向拉伸薄膜工廠設(shè)計(jì)標(biāo)準(zhǔn)
- 機(jī)械基礎(chǔ)地基動力特性測試規(guī)程
- GB50071-2014小型水力發(fā)電站設(shè)計(jì)規(guī)范(英文版)
- GB/T 51223-2017 公共建筑標(biāo)識系統(tǒng)技術(shù)規(guī)范
- GB 50403-2017 煉鋼機(jī)械設(shè)備工程安裝驗(yàn)收規(guī)范
- GB 51236-2017 民用機(jī)場航站樓設(shè)計(jì)防火規(guī)范
- 變電站和換流站給水排水設(shè)計(jì)規(guī)程