書(shū)名：計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)與效度驗(yàn)證
作者名：何蓮珍閔尚超
本章字?jǐn)?shù)： 5字
更新時(shí)間： 2020-01-03 10:34:06

第一章緒論

1.1 研究背景

隨著計(jì)算機(jī)技術(shù)與測(cè)量理論的不斷發(fā)展，建立大型的語(yǔ)言測(cè)試試題庫(kù)并基于題庫(kù)實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試（computerized adaptive language testing）是近年來(lái)國(guó)外語(yǔ)言測(cè)試研究的熱點(diǎn)問(wèn)題。計(jì)算機(jī)自適應(yīng)測(cè)試興起于20世紀(jì)80年代中期，但直到80年代后期才真正被應(yīng)用到語(yǔ)言測(cè)試領(lǐng)域（Canale, 1986;Henning, 1987, 1991; Meunier, 1994; Chalhoub-Deville & Deville, 1999;Alderson, 2000; Chalhoub-Deville, 2001; Chapelle & Douglas, 2006; Ockey, 2009）。相對(duì)于傳統(tǒng)的紙筆語(yǔ)言測(cè)試（paper-and-pencil language testing）或普通的計(jì)算機(jī)輔助語(yǔ)言測(cè)試（computer-based language testing），計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試有以下優(yōu)勢(shì)：1）測(cè)試信度與測(cè)試效率高；2）即時(shí)反饋效果良好；3）施考安全性好；4）測(cè)試的個(gè)性化程度高，等等。

計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的主要理論依據(jù)為項(xiàng)目反應(yīng)理論（item response theory）。項(xiàng)目反應(yīng)理論是一組用于闡述考生答題行為與潛在能力之間關(guān)系的數(shù)學(xué)模型，其最大優(yōu)點(diǎn)是項(xiàng)目數(shù)據(jù)與樣本數(shù)據(jù)之間具有獨(dú)立性，即項(xiàng)目參數(shù)估計(jì)不受其所施測(cè)的樣本影響，樣本能力估計(jì)不受其所施測(cè)的項(xiàng)目影響。因此，即使考生在測(cè)試過(guò)程中所得到的考題不一樣，仍可以對(duì)考生能力進(jìn)行估計(jì)并直接比較，這一優(yōu)點(diǎn)極大地推動(dòng)了計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的設(shè)計(jì)與應(yīng)用。

依據(jù)計(jì)分模式，項(xiàng)目反應(yīng)理論可以分為二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型和多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型。二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型中，考生在題目上的得分只有0分、1分兩種可能性，二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型包括單參數(shù)模型（one-parameter logistic model）、雙參數(shù)模型（two-parameter logistic model）、三參數(shù)模型（three-parameter logistic model）。多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型中，考生在題目上的得分有0分、1分、2分等多種可能性，常見(jiàn)的多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型有等級(jí)反應(yīng)模型（graded response model）、分部評(píng)分模型（partial credit model）和廣義分部評(píng)分模型（generalized partial credit model）。

項(xiàng)目反應(yīng)理論的基本假設(shè)為單維性與局部獨(dú)立性，單維性指同一份考卷中的所有題目測(cè)量同一種能力。盡管長(zhǎng)期以來(lái)，語(yǔ)言測(cè)試領(lǐng)域在語(yǔ)言能力的單維性問(wèn)題上爭(zhēng)論不休，但目前較為公認(rèn)的一種觀點(diǎn)是單維性是一個(gè)度的問(wèn)題，而非存在與否的問(wèn)題。局部獨(dú)立性指考生在各道題目上的答對(duì)概率相互獨(dú)立，即考生的潛在能力是影響考生答題的唯一因素，當(dāng)排除這個(gè)因素的影響后，考生在不同題目上的答題行為之間不存在任何關(guān)系。但是在大規(guī)模英語(yǔ)測(cè)試中，局部獨(dú)立性假設(shè)往往會(huì)被違反，因?yàn)槌Ｒ?jiàn)的題型是若干道選擇題基于同一篇章。在局部獨(dú)立性假設(shè)被違反的情況下，采用標(biāo)準(zhǔn)的二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行項(xiàng)目分析，不僅會(huì)導(dǎo)致模型與數(shù)據(jù)的不擬合，而且會(huì)因?yàn)閷?duì)項(xiàng)目區(qū)分度的估值過(guò)高而導(dǎo)致對(duì)測(cè)試信息量——即對(duì)測(cè)量精確度——的過(guò)高估值。解決上述問(wèn)題的一個(gè)有效方法是采用多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型。該方法把基于同一篇章的若干題目看成一個(gè)整體，即把考生在同一篇章所有題目上的得分相加，作為一個(gè)多級(jí)計(jì)分題目，運(yùn)用多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行參數(shù)估計(jì)。除項(xiàng)目反應(yīng)理論以外，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的成功與否主要取決于其四個(gè)重要組成部分的功能，即題庫(kù)、項(xiàng)目選擇、能力估計(jì)、終止原則。

目前，國(guó)內(nèi)關(guān)于計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試方面的研究基本停留在文獻(xiàn)綜述或簡(jiǎn)要介紹上，只有極少數(shù)學(xué)者進(jìn)行了計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)的實(shí)證研究。國(guó)外關(guān)于計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試方面的實(shí)證研究相對(duì)較多，主要探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的模型設(shè)計(jì)與效度驗(yàn)證。下面我們將簡(jiǎn)要地介紹計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)與計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證方面的相關(guān)研究。

1.1.1 計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)相關(guān)研究

Larson（1987）是語(yǔ)言測(cè)試領(lǐng)域中首例嘗試計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)的實(shí)證研究，在此項(xiàng)研究的基礎(chǔ)上，近20多年來(lái)研究者們紛紛嘗試，并取得了一系列的研究成果。表1.1列出了這20多年來(lái)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)方面的實(shí)證研究。

表1.1 計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)相關(guān)研究

注釋：2PLM為雙參數(shù)模型；3PLM為三參數(shù)模型：GRM為等級(jí)反應(yīng)模型；CTT為經(jīng)典真分?jǐn)?shù)理論

總體而言，在設(shè)計(jì)方面，絕大多數(shù)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試采用選擇題或填空題的形式考查考生的詞匯、語(yǔ)法以及閱讀能力，僅有少數(shù)涉及聽(tīng)力能力，因?yàn)槁?tīng)力測(cè)試中的語(yǔ)音成分使得計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的模型設(shè)計(jì)過(guò)程更為復(fù)雜。大部分實(shí)證研究主要介紹題庫(kù)建設(shè)（如Dunkel, 1999; Sumbling et al., 2007）或設(shè)計(jì)過(guò)程中的決策制定（如Laurier, 1999），有助于我們更好地了解心理測(cè)量模型與計(jì)算機(jī)技術(shù)在語(yǔ)言能力評(píng)估中的應(yīng)用。題庫(kù)建設(shè)之所以成為以往研究關(guān)注的核心問(wèn)題，是因?yàn)轭}庫(kù)質(zhì)量事關(guān)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試所倡導(dǎo)的高測(cè)量精度與效度是否能在實(shí)際運(yùn)行中得以實(shí)現(xiàn)。沒(méi)有一個(gè)高質(zhì)量的題庫(kù)，無(wú)論項(xiàng)目選擇程序、能力估計(jì)方法及終止原則有多科學(xué)，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的成功都無(wú)法得到保證。盡管如此，過(guò)往的研究在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試題庫(kù)建設(shè)方面仍存在以下四個(gè)方面的局限性：

第一，大多數(shù)題庫(kù)僅采用獨(dú)立項(xiàng)目，即每道題目基于一個(gè)獨(dú)立的篇章，并采用二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行項(xiàng)目參數(shù)估計(jì)（如Stevenson & Gross, 1991; Madsen, 1991; Brown & Iwashita, 1996; Young et al., 1996; Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007; Nogami & Hayashi, 2010），而在實(shí)際的語(yǔ)言測(cè)試中，尤其是聽(tīng)力與閱讀測(cè)試中，使用最為廣泛的題型是題組（testlet），即若干道題目基于同一篇章。題組在之前的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中使用較少的原因是在若干個(gè)項(xiàng)目基于同一篇章的情況下，項(xiàng)目之間可能會(huì)相互關(guān)聯(lián)，從而導(dǎo)致項(xiàng)目反應(yīng)理論的基本假設(shè)——局部獨(dú)立性假設(shè)——被違反（Rosenbaum, 1988; Sireci et al., 1991）。解決該問(wèn)題的一個(gè)方法是將基于同一篇章的多個(gè)項(xiàng)目視為一個(gè)多級(jí)計(jì)分項(xiàng)目，并采用多級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行參數(shù)估計(jì)（Rosenbaum, 1988; Thissen et al., 1989; Lee, 1998）。Laurier（1999）的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試設(shè)計(jì)采用了這種方法，為我們提供了一個(gè)典型的例證。在該項(xiàng)研究中，Laurier（1999）不僅采用二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型分析獨(dú)立項(xiàng)目，同時(shí)采用多級(jí)項(xiàng)目反應(yīng)理論模型中使用非常廣泛的等級(jí)反應(yīng)模型分析題組項(xiàng)目，有效地處理了局部獨(dú)立性假設(shè)被違反的問(wèn)題。通過(guò)采用包含二級(jí)計(jì)分獨(dú)立項(xiàng)目和多級(jí)計(jì)分題組項(xiàng)目的“混合式測(cè)試設(shè)計(jì)”（Lau & Wang, 1998; Rosa et al., 2001）, Laurier（1999）的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型最大限度地模擬了真實(shí)測(cè)試場(chǎng)景，為計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試在語(yǔ)言測(cè)試領(lǐng)域的應(yīng)用做出了杰出貢獻(xiàn)。其他也有一些研究（如Young et al., 1996；何蓮珍，2004）在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試題庫(kù)建設(shè)中采用了題組項(xiàng)目，但是這些研究并沒(méi)有提供局部獨(dú)立性假設(shè)方面的診斷信息，而是將基于同一題組的項(xiàng)目和不基于同一題組的項(xiàng)目混在一起，采用二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型進(jìn)行分析，忽略了局部獨(dú)立性假設(shè)可能被違反這一問(wèn)題，所以其測(cè)量準(zhǔn)確度仍有待商榷。

第二，雖然大部分題庫(kù)包括詞匯測(cè)試、語(yǔ)法測(cè)試、閱讀測(cè)試等多個(gè)組成部分，但是很少有研究關(guān)注題庫(kù)中的不同組成部分在多大程度上影響整個(gè)題庫(kù)的單維性。目前語(yǔ)言測(cè)試領(lǐng)域的一個(gè)共識(shí)是：語(yǔ)言能力是多維的，不僅包含一個(gè)總的高階能力因子，還包含若干不同的二階能力因子（如Bachman &Palmer, 1981, 1982; Carroll, 1983; Bachman et al., 1990, 1995; Sasaki, 1996;Shin, 2005; Song, 2008）。因此，過(guò)往的研究中把不同測(cè)試部分（如聽(tīng)力、閱讀、詞匯與語(yǔ)法）的項(xiàng)目放在一起進(jìn)行項(xiàng)目估計(jì)的習(xí)慣做法存在一定的問(wèn)題。更具體地說(shuō)，這種做法忽視了不同測(cè)試部分可能存在不同的能力因子，模糊了不同潛在能力因子間的界限，從而可能導(dǎo)致項(xiàng)目參數(shù)估計(jì)和考生能力估計(jì)的不準(zhǔn)確。因此，更理想的方法是先檢查不同測(cè)試部分的項(xiàng)目是否與同一測(cè)試部分的項(xiàng)目一樣符合單維性假設(shè)，然后再確定各測(cè)試部分項(xiàng)目的校準(zhǔn)方式，即合在一起校準(zhǔn)或分別進(jìn)行校準(zhǔn)。

第三，在模型選擇方面，過(guò)往的題庫(kù)建設(shè)過(guò)分依賴Rasch模型（如Madsen, 1991; Stevenson & Gross, 1991; Brown & Iwashita, 1996; Young et al., 1996;Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007），極少有研究通過(guò)觀察模型數(shù)據(jù)擬合度從一系列理論上可行的模型中選擇最佳模型對(duì)項(xiàng)目進(jìn)行參數(shù)估計(jì)。過(guò)往的研究?jī)A向于使用Rasch模型的原因各異，有的是因?yàn)闃颖玖坑邢蓿械氖菫榱耸沟糜?jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試系統(tǒng)運(yùn)行更為簡(jiǎn)單。無(wú)論基于何種原因，Rasch模型在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的過(guò)度應(yīng)用都值得商榷。Rasch模型的哲學(xué)理念與其他二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型（如雙參數(shù)模型、三參數(shù)模型）存在原則上的差別。Rasch模型以模型為驅(qū)動(dòng)，關(guān)注的核心問(wèn)題是數(shù)據(jù)是否符合選定模型，如不符合，則說(shuō)明數(shù)據(jù)有問(wèn)題；而其他二級(jí)計(jì)分項(xiàng)目反應(yīng)理論模型則以數(shù)據(jù)為驅(qū)動(dòng)，關(guān)注的是所選定的模型是否符合現(xiàn)實(shí)數(shù)據(jù)，如不符合，則更換模型重新擬合（Zumbo & Macmillan, 1999）。換言之，在Rasch模型倡導(dǎo)者的眼里，沒(méi)有不好的模型，只有不好的數(shù)據(jù)。但是，這個(gè)觀點(diǎn)在語(yǔ)言測(cè)試領(lǐng)域并不適用。我們不能因?yàn)槟硞€(gè)項(xiàng)目或某個(gè)考生的反應(yīng)方式不符合Rasch模型，就放棄該項(xiàng)目或該考生。相反，我們應(yīng)該從一系列理論上可行的模型中根據(jù)模型數(shù)據(jù)擬合程度選擇最佳模型對(duì)項(xiàng)目進(jìn)行參數(shù)估計(jì)，對(duì)考生進(jìn)行能力估計(jì)。但是，綜合分析文獻(xiàn)后發(fā)現(xiàn)，為數(shù)不多的未采用Rasch模型的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試研究在選擇模型進(jìn)行參數(shù)估計(jì)時(shí)，似乎也只是基于理論考慮或方便原則隨機(jī)選取模型，并未考慮根據(jù)模型數(shù)據(jù)擬合程度選擇最佳模型對(duì)項(xiàng)目進(jìn)行參數(shù)估計(jì)。

第四，盡管項(xiàng)目功能差異（differential item functioning）的存在對(duì)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的效度以及公平性構(gòu)成極大威脅，但是迄今為止尚未有研究關(guān)注計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試題庫(kù)建設(shè)過(guò)程中的項(xiàng)目功能差異問(wèn)題。相對(duì)于紙筆語(yǔ)言測(cè)試而言，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試更易受到項(xiàng)目功能差異的影響，因?yàn)樵诩埞P語(yǔ)言測(cè)試中，所有考生的考題一樣，項(xiàng)目功能差異效應(yīng)可能會(huì)弱化或相互抵消（Wainer, 2000; Wang, 2009）。但是在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中，測(cè)試的題目數(shù)量相對(duì)較少，且不同考生所測(cè)的題目不同，所以項(xiàng)目功能差異效應(yīng)無(wú)法減少，甚至?xí)蛉硕悾╖wick,2000）。因此，在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試題庫(kù)建設(shè)中，我們需要先對(duì)存在項(xiàng)目功能差異的項(xiàng)目予以剔除，從而確保計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試對(duì)考生的能力估計(jì)不會(huì)出現(xiàn)偏頗（McClarty, 2006）。

1.1.2 計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證相關(guān)研究

計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試問(wèn)世以來(lái)，研究者所關(guān)心的一個(gè)基本問(wèn)題是計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試是否改變了傳統(tǒng)測(cè)試所測(cè)量的構(gòu)念。尤其是在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試誕生之初，計(jì)算機(jī)使用并不普遍，很少有人知道在屏幕上閱讀與在紙上閱讀之間有什么區(qū)別，以及這種區(qū)別是否影響考生表現(xiàn)與考試分?jǐn)?shù)（Douglas & Hegelheimer, 2007）。因此，研究者一直大力倡導(dǎo)探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性、計(jì)算機(jī)熟悉度對(duì)考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)的影響、計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試構(gòu)念在男女考生群組中的一致性。下面我們將詳細(xì)介紹計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證的相關(guān)研究，并在此基礎(chǔ)上指出以往研究的局限性。

（1）計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性

在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性問(wèn)題上，研究者爭(zhēng)論的核心問(wèn)題是：是否需要保證考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)與其在紙筆語(yǔ)言測(cè)試中的表現(xiàn)具有可比性。大多數(shù)研究者認(rèn)為，無(wú)論是計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試同時(shí)存在，還是由計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試取代紙筆語(yǔ)言測(cè)試，測(cè)試開(kāi)發(fā)者和使用者都應(yīng)該保證這兩種測(cè)試形式之間的對(duì)等關(guān)系（Wang & Kolen, 2001; Kingsbury, 2002; McDonald, 2002）。但是有一些研究者（如Jones & Maycock, 2007）堅(jiān)持認(rèn)為，保證計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試分?jǐn)?shù)與紙筆語(yǔ)言測(cè)試分?jǐn)?shù)對(duì)等不僅不切實(shí)際，而且沒(méi)有必要，因?yàn)閺氖y(cè)特點(diǎn)與心理計(jì)量屬性的角度來(lái)看，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試本身就優(yōu)于紙筆語(yǔ)言測(cè)試。其次，不同的計(jì)分方式——紙筆語(yǔ)言測(cè)試的原始分（number-correct score）與計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的量表分（scale score）——使得分?jǐn)?shù)不具可比性。Wang & Kolen（2001）、Kolen & Brennan（2004）和Eignor（2007）等學(xué)者詳細(xì)介紹了支持或反對(duì)這兩種觀點(diǎn)的理由。

對(duì)實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試兩種測(cè)試方式可比性持反對(duì)意見(jiàn)的研究者認(rèn)為，兩者的分?jǐn)?shù)本身不具可比性，原因如下：第一，兩者的測(cè)試內(nèi)容不同。即使可以通過(guò)一定的項(xiàng)目選擇算法保證兩項(xiàng)測(cè)試中測(cè)試內(nèi)容的比例保持一致（Eignor et al., 1993），計(jì)算機(jī)自適應(yīng)測(cè)試所考查的內(nèi)容會(huì)少于紙筆測(cè)試所考查的內(nèi)容，因此不可能實(shí)現(xiàn)完全的可比性。第二，計(jì)分方式不同。計(jì)算機(jī)自適應(yīng)測(cè)試中，考生所得分?jǐn)?shù)是項(xiàng)目反應(yīng)理論估計(jì)所得出的量表分，而紙筆測(cè)試中，考生的得分是原始分，前者是經(jīng)過(guò)加權(quán)處理的分?jǐn)?shù)，而后者不經(jīng)過(guò)任何處理，因此兩者的分?jǐn)?shù)在性質(zhì)上差異較大。第三，信度不同。計(jì)算機(jī)自適應(yīng)測(cè)試中，對(duì)不同能力水平考生的測(cè)量可以通過(guò)誤差控制使信度基本保持一致，而在紙筆測(cè)試中則無(wú)法做到。換言之，兩者的條件測(cè)量標(biāo)準(zhǔn)誤（conditional standard error of measurement）不同，因此無(wú)法滿足等值中的二階公平性（second-order equity; Kolen & Brennan, 2004）。第四，施測(cè)環(huán)境不同。考生在參加計(jì)算機(jī)自適應(yīng)測(cè)試時(shí)，系統(tǒng)會(huì)根據(jù)考生對(duì)當(dāng)前項(xiàng)目的作答情況為考生選擇下一個(gè)項(xiàng)目，因此考生無(wú)法修改已作答的項(xiàng)目；而在紙筆測(cè)試中，考生可以隨時(shí)跳過(guò)難題，先完成較有把握的題目，再返回去做較難的題目。第五，測(cè)試任務(wù)不同。計(jì)算機(jī)自適應(yīng)測(cè)試以計(jì)算機(jī)為媒介，可采用一些傳統(tǒng)紙筆測(cè)試中無(wú)法實(shí)現(xiàn)的新題型或新任務(wù)。對(duì)實(shí)現(xiàn)兩種測(cè)試方式可比性持支持態(tài)度的研究者認(rèn)為：在計(jì)算機(jī)自適應(yīng)測(cè)試走向大規(guī)模使用前，往往會(huì)與其所對(duì)應(yīng)的紙筆測(cè)試并行運(yùn)行一段時(shí)間，在并行階段，就完全有必要保證兩項(xiàng)考試分?jǐn)?shù)具有可比性。同時(shí)，雖然從理論上說(shuō)，對(duì)兩項(xiàng)考試進(jìn)行等值需要滿足二階公平性，即兩項(xiàng)考試的條件測(cè)量標(biāo)準(zhǔn)誤保持一致，但在實(shí)踐中，不同考試的條件測(cè)量標(biāo)準(zhǔn)誤不可能完全相同（Wang & Kolen, 2001），因此這只是一個(gè)可比性程度的問(wèn)題，而不是是否存在可比性的問(wèn)題。

我們認(rèn)為：研究者無(wú)須耗費(fèi)這么多精力以保證計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性，而應(yīng)當(dāng)努力嘗試了解計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試和紙筆語(yǔ)言測(cè)試在多大程度上考查了不同的能力或構(gòu)念。我們的理由如下：在這個(gè)全球化時(shí)代，人們花大量時(shí)間在計(jì)算機(jī)上進(jìn)行閱讀與交流，采用相關(guān)分析等簡(jiǎn)單效度驗(yàn)證法或規(guī)定性（prescriptive）效度驗(yàn)證法去探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性已沒(méi)有必要（Chapelle & Douglas, 2006）。過(guò)去那種認(rèn)為所有語(yǔ)言測(cè)試在不同語(yǔ)境中均以同樣方式考查語(yǔ)言能力的單一構(gòu)念觀點(diǎn)（Chapelle & Douglas, 2006）在全球化背景下已不再適用，因?yàn)樗y以適應(yīng)當(dāng)前語(yǔ)言測(cè)試領(lǐng)域多樣化的測(cè)試目的與測(cè)試語(yǔ)境。換言之，在這個(gè)全球化時(shí)代，交際語(yǔ)言能力的定義應(yīng)考慮個(gè)體的語(yǔ)言能力與基于計(jì)算機(jī)的交際語(yǔ)境的相互作用（Chapelle & Douglas, 2006）。因此，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證的焦點(diǎn)不應(yīng)該是計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試分?jǐn)?shù)與紙筆語(yǔ)言測(cè)試分?jǐn)?shù)間相關(guān)性的強(qiáng)弱，而應(yīng)該是計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試是否考查了考試大綱所規(guī)定的相關(guān)能力。

然而，必須指出的是，雖然我們認(rèn)為測(cè)試開(kāi)發(fā)者無(wú)須舍本逐末地去保證計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試的等效性，但我們有必要保證計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與計(jì)算機(jī)輔助語(yǔ)言測(cè)試的等效性。計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試和計(jì)算機(jī)輔助語(yǔ)言測(cè)試都是通過(guò)計(jì)算機(jī)施測(cè)，區(qū)別在于計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的項(xiàng)目是臨時(shí)分配的，是動(dòng)態(tài)的，而計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的項(xiàng)目是預(yù)先設(shè)置的，是靜態(tài)的。因此，我們不能因?yàn)橛?jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的自適應(yīng)性而使計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試所測(cè)量的構(gòu)念與計(jì)算機(jī)輔助語(yǔ)言測(cè)試所測(cè)量的構(gòu)念有所不同。也就是說(shuō)，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與計(jì)算機(jī)輔助語(yǔ)言測(cè)試的等效性是計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證不可或缺的一部分。

通過(guò)對(duì)過(guò)往的研究進(jìn)行仔細(xì)梳理后與回顧后我們發(fā)現(xiàn)，探討計(jì)算機(jī)輔助語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試等效性的研究比比皆是（Fulcher, 1999; Jones, 2000;Sawaki, 2001b; Brown, 2003; Choi et al., 2003; Shaw, 2003; Green & Maycock, 2004），探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試等效性的研究也有一些（如Coniam, 2006; Nogami & Hayashi, 2010），但數(shù)量相對(duì)較少。

Coniam（2006）采用描述性統(tǒng)計(jì)方法，發(fā)現(xiàn)計(jì)算機(jī)自適應(yīng)聽(tīng)力測(cè)試以及與其對(duì)應(yīng)的紙筆聽(tīng)力測(cè)試均能有效地區(qū)分考生能力水平。但是，考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試上的表現(xiàn)存在顯著差異。總體而言，考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的分?jǐn)?shù)高于其在紙筆語(yǔ)言測(cè)試中的分?jǐn)?shù)，兩項(xiàng)考試分?jǐn)?shù)間的相關(guān)性為0.76。Coniam（2006）由此得出結(jié)論：計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試可應(yīng)用于風(fēng)險(xiǎn)較低的測(cè)試中，但對(duì)高風(fēng)險(xiǎn)測(cè)試則不太適合。

Nogami & Hayashi（2010）采用單組平衡設(shè)計(jì)法探討了考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試和與其相對(duì)應(yīng)的紙筆語(yǔ)言測(cè)試中考分平均值和標(biāo)準(zhǔn)差之間的可比性。結(jié)果發(fā)現(xiàn)，在四個(gè)部分中，有三個(gè)部分的平均值存在顯著差異，但是這些差異不是一致的，即考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中各個(gè)部分的得分并不是一致性地高于或低于他們?cè)谙鄬?duì)應(yīng)的紙筆語(yǔ)言測(cè)試各部分中的得分。此外，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試結(jié)果的標(biāo)準(zhǔn)差顯著大于紙筆語(yǔ)言測(cè)試結(jié)果的標(biāo)準(zhǔn)差。然而，無(wú)論是分項(xiàng)還是整體，計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試和紙筆語(yǔ)言測(cè)試分?jǐn)?shù)之間的相關(guān)性均較高，分別為0.76～0.89和0.96。

可以看出，上述兩項(xiàng)探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與紙筆語(yǔ)言測(cè)試等效性的實(shí)證研究?jī)H僅是通過(guò)描述性統(tǒng)計(jì)分析和簡(jiǎn)單的推斷性統(tǒng)計(jì)分析（如t檢驗(yàn)），來(lái)研究考生的成績(jī)?cè)谶@兩種考試中是否存在顯著差異。盡管早在20多年前研究人員（如Steinberg, Thissen, & Wainer, 1990）就已提出驗(yàn)證性因子分析是研究測(cè)試潛在因子數(shù)量與因子負(fù)荷跨模式對(duì)等性的一種強(qiáng)有力的分析方法，可用于計(jì)算機(jī)自適應(yīng)測(cè)試的效度驗(yàn)證，但直至目前該方法仍未得到應(yīng)用。

特別值得一提的是：迄今為止尚未有實(shí)證研究來(lái)探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與計(jì)算機(jī)輔助語(yǔ)言測(cè)試的等效性。我們認(rèn)為有必要在這一方面進(jìn)行嘗試。

（2）計(jì)算機(jī)熟悉度的影響

另一個(gè)與計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度緊密相關(guān)的問(wèn)題是考生特征與測(cè)試模式之間的交互作用（Sawaki, 2001a），尤其是計(jì)算機(jī)熟悉度對(duì)考生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的表現(xiàn)的影響（Lee, 1986; Spray et al., 1989; Fulcher, 1999;Taylor et al., 1999; McDonald, 2002; Barkaoui, 2014; Hosseini et al., 2014）。探討計(jì)算機(jī)熟悉度與考生的相互作用有助于我們了解在多大程度上計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試考查了計(jì)算機(jī)熟悉度，以及在多大程度上計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試研究結(jié)果可以概推到其他語(yǔ)言使用環(huán)境中（Alderson, 2000; Bachman, 2000）。

令人驚訝的是，到目前為止，很少有研究直接探討計(jì)算機(jī)熟悉度是否影響考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)。鑒于相關(guān)研究的匱乏以及計(jì)算機(jī)輔助語(yǔ)言測(cè)試與計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試在測(cè)試模式上的極大相似性，我們認(rèn)為關(guān)于計(jì)算機(jī)熟悉度影響的研究不能局限于計(jì)算機(jī)熟悉度對(duì)計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中考生表現(xiàn)的影響，而應(yīng)擴(kuò)展到計(jì)算機(jī)熟悉度對(duì)計(jì)算機(jī)輔助語(yǔ)言測(cè)試中考生表現(xiàn)的影響，并希望借此展示計(jì)算機(jī)輔助語(yǔ)言測(cè)試領(lǐng)域關(guān)于計(jì)算機(jī)熟悉度的影響的研究現(xiàn)狀。

人們會(huì)憑直覺(jué)認(rèn)為計(jì)算機(jī)熟悉度必定會(huì)影響考生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的表現(xiàn)。Wolfe et al.（1996）的研究也佐證了這一觀點(diǎn)，發(fā)現(xiàn)計(jì)算機(jī)熟悉度較高的高中生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的得分高于計(jì)算機(jī)熟悉度較低的考生；同樣，Horkay et al.（2006）的研究也發(fā)現(xiàn)，計(jì)算機(jī)熟悉度對(duì)考生在網(wǎng)考作文中的分?jǐn)?shù)有顯著影響。但是，Horkay et al.（2006）明確指出，我們?nèi)绾谓庾x這種顯著影響取決于我們對(duì)測(cè)試構(gòu)念的定義。我們是想了解考生在紙面上的寫(xiě)作表現(xiàn)、考生在電腦上的寫(xiě)作表現(xiàn)、還是考生在其自主選擇的測(cè)試模式中的寫(xiě)作表現(xiàn)？這是測(cè)試開(kāi)發(fā)者和其他利益相關(guān)者在解讀結(jié)果時(shí)必須考慮的問(wèn)題。Jin et al.（2011）發(fā)現(xiàn)：大學(xué)英語(yǔ)四、六級(jí)網(wǎng)考中考生的得分與其計(jì)算機(jī)熟悉度之間有著顯著的相關(guān)關(guān)系。作者明確提出：定義21世紀(jì)的語(yǔ)言測(cè)試構(gòu)念需要融合計(jì)算機(jī)操作水平與語(yǔ)言能力。

當(dāng)然，也有一些研究發(fā)現(xiàn)，計(jì)算機(jī)熟悉度與考生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的表現(xiàn)并無(wú)顯著關(guān)系。Taylor et al.（1999）認(rèn)為，在使用協(xié)方差分析方法控制英語(yǔ)語(yǔ)言能力水平這一變量后，計(jì)算機(jī)熟悉度與托福機(jī)考成績(jī)之間不存在任何有意義的相關(guān)關(guān)系。Fulcher（1999）同樣采用協(xié)方差分析方法，發(fā)現(xiàn)計(jì)算機(jī)輔助語(yǔ)法分級(jí)測(cè)試中考生的計(jì)算機(jī)熟悉度與考試成績(jī)無(wú)顯著關(guān)系。然而，應(yīng)該指出的是，協(xié)方差分析方法可能會(huì)低估計(jì)算機(jī)熟悉度高與計(jì)算機(jī)熟悉度低的考生之間的分?jǐn)?shù)差異。同樣，Maycock & Green（2005）指出，盡管多數(shù)考生認(rèn)為計(jì)算機(jī)熟悉度高的考生在計(jì)算機(jī)輔助形式的雅思考試中得分會(huì)更高，但缺乏實(shí)證依據(jù)，計(jì)算機(jī)熟悉度并未對(duì)考生在紙筆型雅思考試和計(jì)算機(jī)輔助雅思考試中的表現(xiàn)帶來(lái)顯著影響。

從以上綜述可以看出，已有的研究結(jié)果不盡一致，這或許是因?yàn)椴煌芯恐兴婕暗淖兞坎煌Ｆ渲凶钣锌赡艿脑蚴牵弘S著信息技術(shù)的飛速發(fā)展，計(jì)算機(jī)熟悉度正在發(fā)生變化，變化速度也因地而異，因此，無(wú)法從這些研究中得出一個(gè)統(tǒng)一的結(jié)論。然而，一些研究——特別是最近一項(xiàng)以中國(guó)學(xué)生為研究對(duì)象的研究（如Jin et al., 2011）——確實(shí)表明計(jì)算機(jī)熟悉度的差異可能會(huì)導(dǎo)致學(xué)生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試和傳統(tǒng)紙筆語(yǔ)言測(cè)試中所得分?jǐn)?shù)之間的差異。因此，測(cè)試開(kāi)發(fā)者和使用者在開(kāi)發(fā)和使用測(cè)試時(shí)，應(yīng)該考慮計(jì)算機(jī)熟悉度對(duì)考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試以及計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的表現(xiàn)的影響。

另外需要指出的是，雖然已有的研究在使用計(jì)算機(jī)熟悉度測(cè)量工具時(shí)涉及計(jì)算機(jī)熟悉度的一個(gè)或多個(gè)方面（如計(jì)算機(jī)擁有率、對(duì)計(jì)算機(jī)的態(tài)度、計(jì)算機(jī)使用經(jīng)歷、計(jì)算機(jī)相關(guān)技術(shù)），但是這些研究均未考慮與計(jì)算機(jī)使用相關(guān)的焦慮因素，我們認(rèn)為廣義的計(jì)算機(jī)熟悉度應(yīng)該包括這一因素。雖然一些研究者認(rèn)為，計(jì)算機(jī)焦慮度和計(jì)算機(jī)熟悉度基本上是相同的構(gòu)念（Levin &Donitsa-Schmidt, 1997; Powers, 1999），但是McDonald（2002）在對(duì)相關(guān)文獻(xiàn)進(jìn)行綜述后指出，計(jì)算機(jī)焦慮度源于對(duì)計(jì)算機(jī)不熟悉這一觀點(diǎn)過(guò)于簡(jiǎn)單化。特別是在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中，考生沒(méi)有機(jī)會(huì)返回已做過(guò)的題目或修改自己的作答情況，因此考生的焦慮程度可能會(huì)更高。Madsen（1991）也曾提到，在一項(xiàng)包括聽(tīng)力與閱讀的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中，考生的計(jì)算機(jī)熟悉度并沒(méi)有影響其在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試時(shí)的焦慮程度。因此，從廣義上講，計(jì)算機(jī)熟悉度不僅應(yīng)該包括Taylor et al.（1999）提出的計(jì)算機(jī)擁有率、對(duì)計(jì)算機(jī)的態(tài)度、計(jì)算機(jī)使用經(jīng)歷以及相關(guān)技術(shù)，還應(yīng)該包括在計(jì)算機(jī)上考試時(shí)的測(cè)試焦慮。

（3）計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試構(gòu)念在男女考生群組中的一致性

效度驗(yàn)證的另一重要方面是測(cè)試的因子結(jié)構(gòu)是否在不同群組中保持一致性。過(guò)往的研究在這一點(diǎn)上存在一定的局限性，往往只是從總體上探討計(jì)算機(jī)熟悉度對(duì)整個(gè)考生群體在計(jì)算機(jī)輔助語(yǔ)言測(cè)試或計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中表現(xiàn)的影響方式及其影響程度，而忽略了一個(gè)重要的問(wèn)題，即計(jì)算機(jī)熟悉度對(duì)不同考生群體在計(jì)算機(jī)輔助語(yǔ)言測(cè)試或計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)是否會(huì)產(chǎn)生不同的影響。

隨著計(jì)算機(jī)普及程度的提高，盡管計(jì)算機(jī)熟悉度對(duì)計(jì)算機(jī)輔助語(yǔ)言測(cè)試中考生成績(jī)的影響有所降低（Taylor et al., 2000; Sawaki, 2001a; Dooey, 2008），但計(jì)算機(jī)熟悉度可能對(duì)某些群體的影響仍然會(huì)比較大（Wise & Plake, 1989, Wolfe & Manalo, 2005; Douglas & Hegelheimer, 2007），尤其是計(jì)算機(jī)普及率在不同人群中會(huì)有所不同（Dooey, 2008），因此計(jì)算機(jī)熟悉度可能會(huì)在不同程度上影響不同考生群組，從而影響考試的公平性以及考試的信度和效度。在語(yǔ)言測(cè)試領(lǐng)域，最受關(guān)注的問(wèn)題是不同性別的考生群體是否會(huì)因其計(jì)算機(jī)熟悉度的差異而在計(jì)算機(jī)輔助考試中的表現(xiàn)有所不同（Fulcher, 1999; Taylor et al., 1999; Maycock & Green, 2005; Coniam, 2006）。過(guò)往的研究發(fā)現(xiàn)，男性往往比女性更多地接觸計(jì)算機(jī)（Miller & Varma, 1994; Taylor et al., 1999），對(duì)自己的計(jì)算機(jī)操作水平更有信心，對(duì)計(jì)算機(jī)的興趣更濃（Siann et al., 1990），對(duì)計(jì)算機(jī)與計(jì)算機(jī)輔助教學(xué)與測(cè)試的態(tài)度更為積極（Levin & Gordon, 1989）。因此，計(jì)算機(jī)熟悉度的性別差異可能會(huì)導(dǎo)致考生在計(jì)算機(jī)輔助測(cè)試中表現(xiàn)的差異，從而影響分?jǐn)?shù)解釋的有效性（Coniam, 2006）。

我們認(rèn)為應(yīng)該從宏觀角度來(lái)定義計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試的構(gòu)念，主張計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試構(gòu)念應(yīng)考慮語(yǔ)言能力和計(jì)算機(jī)技術(shù)之間的相互作用，但是如果計(jì)算機(jī)操作水平在不同程度上影響男女考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)，則又會(huì)引發(fā)公平性問(wèn)題。因此，為了確保基于計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中考生表現(xiàn)所做的能力推斷的公平性，我們必須保證計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試構(gòu)念不受性別影響，即男女考生群組的測(cè)試表現(xiàn)不會(huì)受其計(jì)算機(jī)熟悉度差異的影響。也就是說(shuō)，計(jì)算機(jī)熟悉度與英語(yǔ)能力對(duì)考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的考分方差變異貢獻(xiàn)量應(yīng)該在男女考生群組中保持一致。然而，在語(yǔ)言測(cè)試領(lǐng)域，迄今為止尚未有研究探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中所涉及的計(jì)算機(jī)熟悉度以及所考查的語(yǔ)言能力的因子結(jié)構(gòu)是否在男女考生群組中存在一致性。一些研究者（如Maycock & Green, 2005）采用描述性統(tǒng)計(jì)分析和簡(jiǎn)單推斷性統(tǒng)計(jì)分析方法探討了性別對(duì)計(jì)算機(jī)輔助語(yǔ)言測(cè)試中考生表現(xiàn)的影響，結(jié)果表明，性別因素顯著影響考生在計(jì)算機(jī)輔助語(yǔ)言測(cè)試中的表現(xiàn)。這里需要回答的問(wèn)題是該顯著影響是否可歸因于不同性別存在不同程度的計(jì)算機(jī)熟悉度。因此，我們認(rèn)為有必要深入探討不同性別在計(jì)算機(jī)熟悉度上的差異是否會(huì)對(duì)男女考生群組在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)產(chǎn)生顯著影響。

綜上所述，過(guò)往的計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試效度驗(yàn)證方面的研究存在三個(gè)方面的局限性：第一，沒(méi)有探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試與計(jì)算機(jī)輔助語(yǔ)言測(cè)試的等效性；第二，在過(guò)往的研究中采用的統(tǒng)計(jì)方法過(guò)于簡(jiǎn)單，沒(méi)有采用較為復(fù)雜的統(tǒng)計(jì)方法（如結(jié)構(gòu)方程模型等）來(lái)探討計(jì)算機(jī)熟悉度究竟在多大程度上影響計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試所考查的構(gòu)念，從而影響考生在計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中的表現(xiàn)；第三，沒(méi)有探討計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試中所涉及的計(jì)算機(jī)熟悉度以及所考查的語(yǔ)言能力的因子結(jié)構(gòu)是否在男女考生群組中存在一致性。

官术网_书友最值得收藏!

計(jì)算機(jī)自適應(yīng)語(yǔ)言測(cè)試模型設(shè)計(jì)與效度驗(yàn)證

第一章 緒論