官术网_书友最值得收藏!

第二節(jié) 從經(jīng)典測(cè)量理論到項(xiàng)目反應(yīng)理論

一、經(jīng)典測(cè)量理論的優(yōu)勢(shì)和不足

經(jīng)典測(cè)量理論(classical test theory,CTT)圍繞著真分?jǐn)?shù)(true score)的概念建立了第一代心理測(cè)量學(xué)理論架構(gòu),認(rèn)為測(cè)量所得觀察分?jǐn)?shù)等于真分?jǐn)?shù)加上誤差分?jǐn)?shù),真分?jǐn)?shù)包括目標(biāo)真分?jǐn)?shù)和非目標(biāo)真分?jǐn)?shù)(系統(tǒng)誤差分?jǐn)?shù)),誤差分?jǐn)?shù)是隨機(jī)誤差影響的結(jié)果。目標(biāo)真分?jǐn)?shù)是研究者希望測(cè)量到的心理特質(zhì)的實(shí)際水平值,記為V;隨機(jī)誤差分?jǐn)?shù)是在測(cè)量過程中由于各種隨機(jī)誤差因素影響而產(chǎn)生的分?jǐn)?shù),記為E;非目標(biāo)真分?jǐn)?shù)是由于系統(tǒng)性誤差的影響產(chǎn)生的分?jǐn)?shù),記為I。隨機(jī)誤差分?jǐn)?shù)和非目標(biāo)真分?jǐn)?shù)都是誤差分?jǐn)?shù),是測(cè)量者要嚴(yán)加控制乃至希望消除的測(cè)量值。測(cè)量學(xué)還將目標(biāo)真分?jǐn)?shù)與非目標(biāo)真分?jǐn)?shù)合在一起稱為真分?jǐn)?shù),記為T。真分?jǐn)?shù)是使用測(cè)量工具實(shí)際觀察到的穩(wěn)定的測(cè)量值,真分?jǐn)?shù)中不含隨機(jī)誤差分?jǐn)?shù),但它含有我們主觀上不想測(cè)量但實(shí)際上卻測(cè)量到了的非目標(biāo)真分?jǐn)?shù)。經(jīng)典測(cè)量理論進(jìn)一步假設(shè):真分?jǐn)?shù)T是目標(biāo)真分?jǐn)?shù)V與非目標(biāo)真分?jǐn)?shù)I的線性組合,觀察分?jǐn)?shù)X是真分?jǐn)?shù)T和隨機(jī)誤差分?jǐn)?shù)E的線性組合,即

經(jīng)典測(cè)量理論還假設(shè)目標(biāo)真分?jǐn)?shù)、非目標(biāo)真分?jǐn)?shù)與隨機(jī)誤差分?jǐn)?shù)都是相互獨(dú)立的。由此推得以下兩個(gè)公式:

上面公式中的符號(hào)分別代表各種相應(yīng)分?jǐn)?shù)的方差。方差代表的是分?jǐn)?shù)離散程度的大小,同時(shí)也說明了相應(yīng)因素(心理特質(zhì)、隨機(jī)誤差、系統(tǒng)誤差)對(duì)分?jǐn)?shù)取值影響的大小。方差越大表示該因素對(duì)被試的評(píng)價(jià)結(jié)果所起的作用越大。將目標(biāo)真分?jǐn)?shù)方差、非目標(biāo)真分?jǐn)?shù)方差與隨機(jī)誤差分?jǐn)?shù)方差三者相比,我們顯然希望目標(biāo)真分?jǐn)?shù)方差越大越好,而非目標(biāo)真分?jǐn)?shù)方差與隨機(jī)誤差分?jǐn)?shù)方差都越小越好。根據(jù)以上公式可知,三者大小取決于各自在觀察分?jǐn)?shù)方差中所占的比例。

經(jīng)典測(cè)量理論的核心概念包括真分?jǐn)?shù)、信度和效度。這些概念的操作性定義主要是基于相關(guān)分析技術(shù)的。比如,真分?jǐn)?shù)就是使用同一方法對(duì)被試同一心理特質(zhì)進(jìn)行多次重復(fù)測(cè)量后獲得的一致分?jǐn)?shù),該一致性程度通過信度系數(shù)來表示,而信度系數(shù)就是多次測(cè)量結(jié)果之間的相關(guān)性程度。經(jīng)典測(cè)量理論從建立起到現(xiàn)在一直是指導(dǎo)各類測(cè)量活動(dòng)或研究的重要理論,該理論的主要優(yōu)勢(shì)是基于經(jīng)驗(yàn)的分析方法和簡(jiǎn)單易懂的分析技術(shù)。

經(jīng)典測(cè)量理論由于簡(jiǎn)單易懂和效果良好而成為應(yīng)用最為廣泛的一種心理與教育測(cè)量學(xué)理論。然而,在測(cè)量學(xué)研究走向精細(xì)化時(shí),經(jīng)典測(cè)量理論一些不足的方面就表現(xiàn)出來了:首先,被試水平是通過觀察分?jǐn)?shù)總分來評(píng)價(jià)的,這個(gè)分?jǐn)?shù)只能表示被試在本次測(cè)試中的相對(duì)地位(通過導(dǎo)出分?jǐn)?shù))和對(duì)內(nèi)容掌握的程度,無法進(jìn)行更精細(xì)的定位和描述;其次,數(shù)據(jù)分析結(jié)果依賴于樣本,也就是說,被試水平描述和項(xiàng)目參數(shù)特性會(huì)隨著測(cè)試樣本的變化而變化,獲取的參數(shù)無法遷移應(yīng)用到其他測(cè)試情境中;再次,被試參數(shù)和項(xiàng)目參數(shù)不在同一度量單位系統(tǒng),被試水平和項(xiàng)目作答結(jié)果之間沒有內(nèi)在的關(guān)聯(lián)通道;最后,測(cè)量標(biāo)準(zhǔn)誤被定義在測(cè)驗(yàn)整體質(zhì)量的評(píng)價(jià)上,無法評(píng)價(jià)單個(gè)項(xiàng)目對(duì)單個(gè)被試的測(cè)量質(zhì)量。

二、項(xiàng)目反應(yīng)理論的優(yōu)勢(shì)和不足

影響被試在項(xiàng)目上的作答結(jié)果的主要因素有兩個(gè):一是被試自身的能力水平;二是項(xiàng)目的計(jì)量學(xué)屬性,如項(xiàng)目難度、區(qū)分度、猜測(cè)性等。按照一般經(jīng)驗(yàn)來說,在同一個(gè)項(xiàng)目上,能力水平越高的被試,答對(duì)這個(gè)項(xiàng)目的可能性就越大;而對(duì)于同一個(gè)被試來說,越容易的項(xiàng)目就越可能被答對(duì)。

作為現(xiàn)代測(cè)量理論代表之一的項(xiàng)目反應(yīng)理論(item response theory,IRT),它的特點(diǎn)是以概率函數(shù)的形式來描述項(xiàng)目作答反應(yīng)結(jié)果是如何受到被試能力水平和項(xiàng)目特性聯(lián)合作用的影響的。具體來說,就是依據(jù)被試在各個(gè)項(xiàng)目上的實(shí)際作答反應(yīng)結(jié)果,經(jīng)數(shù)學(xué)模型的運(yùn)算,統(tǒng)一估計(jì)出被試的能力(abilities)水平或潛在心理特質(zhì)(latent traits)水平,以及項(xiàng)目的計(jì)量學(xué)參數(shù)。描述被試能力水平、項(xiàng)目參數(shù)與項(xiàng)目作答結(jié)果之間關(guān)系的數(shù)學(xué)模型稱為項(xiàng)目特征函數(shù)(item characteristic function,ICF),以圖形表示則稱為項(xiàng)目特征曲線(item characteristic curve,ICC)。圖1-1為典型的項(xiàng)目特征曲線:橫軸表示被試的能力水平,縱軸表示概率。例如,曲線上有A、B、C、D、E 5個(gè)點(diǎn),它們分別代表了5位不同能力水平的被試在該項(xiàng)目上的答對(duì)概率。由圖可知,在一定范圍內(nèi),能力值(θ)越大,答對(duì)該項(xiàng)目的概率(p)就越大。

圖1-1 典型的項(xiàng)目特征曲線圖

項(xiàng)目反應(yīng)理論將項(xiàng)目視為測(cè)量被試能力水平的基本單位,項(xiàng)目的屬性通過項(xiàng)目參數(shù)來描述。項(xiàng)目一般包含以下3個(gè)典型的計(jì)量學(xué)參數(shù):①a參數(shù),即區(qū)分度參數(shù),它的值越大表示項(xiàng)目對(duì)不同被試能力水平的鑒別力越強(qiáng);反之,則鑒別力越弱。在項(xiàng)目特征曲線圖中,a參數(shù)反映了項(xiàng)目特征曲線的斜率,其理論值介于-∞和+∞之間,但在實(shí)際應(yīng)用中的取值一般介于0和3之間。②b參數(shù),即難度參數(shù),它的值越大表示項(xiàng)目越難,在項(xiàng)目特征曲線圖中,它反映了項(xiàng)目特征曲線位于能力量尺上的位置,因假定被試的能力值介于-∞和+∞之間,所以b參數(shù)的理論值范圍亦然。不過,在實(shí)際應(yīng)用中,被試能力值取值一般介于-3和+3之間。③c參數(shù),就是猜測(cè)參數(shù),代表了被試僅憑猜測(cè)答對(duì)項(xiàng)目的可能性,它的值越大表示不論被試能力水平高低,均更容易答對(duì)這個(gè)項(xiàng)目;值越小,則表示光憑猜測(cè)不易答對(duì)這個(gè)項(xiàng)目。c參數(shù)反映項(xiàng)目特征曲線的左下漸近線(lower asymptote)的高度,其理論值介于0與1之間。但是,在實(shí)際應(yīng)用中,c參數(shù)過高的項(xiàng)目經(jīng)常不被接受。

項(xiàng)目反應(yīng)理論以項(xiàng)目特征函數(shù)來描述項(xiàng)目作答反應(yīng)結(jié)果與被試能力水平及項(xiàng)目參數(shù)之間的關(guān)系,因所包含的參數(shù)個(gè)數(shù)不同,函數(shù)可被區(qū)分為不同的模型。常用的數(shù)學(xué)模型有單參數(shù)模型、雙參數(shù)模型及三參數(shù)模型3種。各模型的項(xiàng)目特征函數(shù)如式(1-6)至式(1-8)所示。

單參數(shù)模型:

雙參數(shù)模型:

三參數(shù)模型:

式子中:D為常數(shù)1.7;e為自然對(duì)數(shù)的底;j為被試編號(hào);θj為第j位被試的能力值;i為項(xiàng)目編號(hào);aibici分別表示第i題的區(qū)分度參數(shù)、難度參數(shù)、猜測(cè)參數(shù);Pijθj)表示能力值為θj的被試答對(duì)第i題的概率。當(dāng)然,也可以將函數(shù)式用圖形表示,稱為項(xiàng)目特征曲線。

項(xiàng)目反應(yīng)理論彌補(bǔ)了經(jīng)典測(cè)量理論主要的不足,在指導(dǎo)測(cè)量實(shí)踐方面體現(xiàn)了更大的優(yōu)勢(shì),同時(shí)也一直是測(cè)量學(xué)領(lǐng)域研究的主要方向之一。項(xiàng)目反應(yīng)理論在對(duì)被試群體進(jìn)行總結(jié)性評(píng)價(jià)(summative assessment)時(shí)具有明顯的優(yōu)勢(shì),在各類競(jìng)爭(zhēng)性選拔測(cè)試中如入學(xué)、入職、晉升、榮譽(yù)授予等方面得到廣泛應(yīng)用。然而,項(xiàng)目反應(yīng)理論研究者一直沒有足夠重視對(duì)被試潛在特質(zhì)的精細(xì)化分析。雖然多維項(xiàng)目反應(yīng)理論將測(cè)試的潛在特質(zhì)引向了精細(xì)化的方向,但研究者一直沒有充分地關(guān)注對(duì)測(cè)試的特質(zhì)內(nèi)容本身的意義的分析。

主站蜘蛛池模板: 开封县| 伊宁市| 奉节县| 尉氏县| 都安| 维西| 巨野县| 克什克腾旗| 金塔县| 治县。| 青海省| 从化市| 乐安县| 巫山县| 宜州市| 五峰| 克什克腾旗| 昆山市| 黎城县| 梅河口市| 左权县| 崇仁县| 图们市| 平山县| 绍兴县| 莱芜市| 梨树县| 辽阳市| 九台市| 获嘉县| 无棣县| 噶尔县| 宣化县| 泽库县| 伊川县| 黔西县| 周宁县| 尼勒克县| 格尔木市| 河西区| 高淳县|