官术网_书友最值得收藏!

第一節 信度

一、信度的定義

測量的信度指的是測量結果的穩定性程度,是對測量一致性程度的估計。若能用同一測量工具反復測量某個人的同一心理特質,其多次測量結果之間的一致性程度就叫信度,也稱測量的可靠性。

事實上,心理測量遠比物理測量復雜得多,我們不大可能用同一測驗工具去反復測驗同一個人的同一心理特質。例如,將同一份智力測驗短時間內反復試用在同一批人身上,其測驗結果很可能會因練習或反復經驗而使得成績越來越好。因此,我們有必要尋求更為實際的可操作的辦法。

信度是測量過程中所存在的隨機誤差大小的反映。信度只受隨機誤差的影響,不受系統誤差的影響。系統誤差雖然改變了結果的真實性,但每次都對測驗結果產生恒定效應,沒有改變結果的一致性與穩定性,因而,不影響信度。

下面介紹信度的3種彼此等價的統計定義。

定義1:信度是一個被試團體的真分數的變異與實得分數的變異數之比。即

公式2-1中rxx代表測量的信度,S2T代表真分數變異,S2X代表總變異數,即實得分數的變異。

定義2:信度是一個被試團體的真分數與實得分數的相關系數的平方。即

定義3:信度乃是一個測驗X(A卷)與它的任意一個平行測驗X'(B卷)的相關系數。即

其中,定義1和定義2只有理論意義,只有定義3才具有實際意義。

二、信度的指標

(一)信度系數和信度指數

信度系數是一種相關系數,是指同一受測者樣本所得的兩組資料的相關。是表示測量信度高低的指標,其閾值為(0,1),由于隨機誤差的存在,沒有百分之一百準確可靠的測量,故r=1是理論上的值。信度系數有多種,一個測驗可以有多個信度估計值,同一種信度系數也會因樣本、測查時間不同而有多個。

此外,描述測量一致性程度的指標還可以用信度指數,它實際上是信度系數的平方根。

(二)測量的標準誤

是一次測量中誤差大小的客觀指標,是指實得分數中有多少比例是由誤差導致的。標準誤的公式為

由公式2-4可以看出,標準誤與信度系數呈負相關,信度越高,標準誤越小,信度越低,標準誤越大。

信度可以幫助進行不同測驗分數的比較。具體辦法是采用差異的標準誤來進行差異的顯著性檢驗,其公式為

公式2-5中,S為相同信度的標準分數的標準差,rxx和rxy分別是兩個測驗的信度系數。

值得注意的是,信度系數只是對測量分數一致性的估計,但并沒有指出不一致的原因,同時,獲得較高的信度只是測驗有效的必要條件而非充分條件。

三、信度的評估方法

(一)重測信度

用同一個測驗,對同一組被試前后兩次施測,兩次測驗分數所得的相關系數為重測信度。其大小等于同一組被試在兩次測驗上所得分數的皮爾遜積差相關系數。

重測信度值越大,說明前后兩次測驗結果越一致,被試的心理特質受被試狀態和環境變化的影響越小,該測驗跨時間的穩定性越好。由于重測信度具有跨時間上的穩定性,重測信度較高的測驗被用于預測人在短期內的情況是比較好的。重測信度的誤差來源有:測驗所測的特性本身就不穩定;成熟、知識的積累、聯系和記憶效果這些變量都具有個體差異;此外,還有偶發因素帶來的誤差等。

重測信度的使用具有一定的前提條件:第一,所測量的心理特性必須是穩定的;第二,遺忘和練習的效果基本上相互抵消;第三,在兩次施測間隔期內,被試沒有獲得更多的學習和訓練。

(二)復本信度

根據一組被試在兩個平行(等值)測驗上的得分計算的相關系數即為復本信度。其大小等于同一批被試在兩個復本測驗上所得分數的皮爾遜積差相關系數。如果兩個復本測驗是同時連續施測的,稱為等值性系數。這個系數反映兩個復本測驗的題目差別所帶來的變異情況。如果兩個復本測驗是相距一段時間分兩次施測的,則稱為穩定-等值性系數(重測復本信度)。題目差別、施測時的時間差別都會導致穩定-等值性系數不同。它是對信度最嚴格的檢驗,其值最低。

復本信度的誤差來源有:非平行測驗的兩個復本之間的差異;被試的情緒波動、動機變化等;測驗情景的變化,偶發因素的干擾等。

復本信度使用的前提條件:第一,要構造出兩份或兩份以上真正平行的測驗(即A、B卷)。所謂真正平行,即復本測驗之間必須在題目內容、數量、形式、難度、區分度、指導語、時限以及所用的例題、公式和測驗等其他方面都相同或相似。第二,被試要有條件接受兩個測驗。

(三)分半信度

按正常的程序實施測驗,然后將全部項目分為相等的兩半(一般使用奇偶分半法),根據個人在這兩半測驗的分數計算其相關系數。有時也被稱作內部一致性系數。

分半信度的計算方法與復本信度類似,但需要注意的是,被試在兩個分半測驗上分數的相關只是半個測驗的信度,必須使用公式加以校正。當兩部分方差相等(方差齊性檢驗呈齊性時),可以用斯皮爾曼-布朗公式加以校正

公式2-6中,rhh為兩半分數間的相關系數,rxx為整個測驗的信度值。

分半信度通常是在只能施測一次或沒有復本的情況下使用。分半時操作方法有很多,如按題號的奇偶性分半、按題目的難度分半、按題目的內容分半等。同一個測驗通常會有多個分半信度值。

(四)同質性信度

同質性信度也稱內部一致性系數,指的是測驗內部所有題目間的一致性程度。一致性有兩個含義,即測驗題目測的是同一種心理特質;所有題目得分之間都具有較高的正相關。

當一個測驗具有較高的同質性信度時,說明測驗主要測的是某一單個心理特質,實測結果就是該特質水平的反映;若同質性信度不高,說明測驗結果可能是幾種心理特質的綜合反映。測量單一特性是同質性高的必要而非充分條件,同質性高是測得單一特質的充分條件。同質性的計算方法有四種。

1.庫德-理查遜信度系數20(KR20)

公式2-7中,K是題目數,pi為第i題的通過率,qi為第i題的未通過率,S2x為整個測驗的總分方差。庫德-理查遜公式20僅適用于(0,1)記分的測驗。

2.庫德-理查遜信度系數21(KR21)

公式2-8中,各指標與KR20相同,只適合分別表示題目的平均通過率和失敗率,只有當所有題目的難度接近時才適用。

3.克龍巴赫系數

庫德-理查遜公式只適用于﹙0,1﹚記分的測驗,若測驗采用的不是﹙0,1﹚記分,庫德-理查遜公式就不適用了,一般采用克龍巴赫系數。

公式2-9中,各指標與KR20相同,S2i是所有被試在第i題上的分數變異。庫德-理查遜公式其實是克龍巴赫系數在﹙0,1﹚記分時的特例。

(五)評分者信度

評分者信度是指多個評分者給同一批人的答卷進行評分的一致性程度。隨機抽取部分試卷,由兩個或多個評分者獨立按評分標準打分,然后求評分之間的相關。當評分者人數為兩人時,可用積差相關和等級相關;當評分者人數多于兩人時,評分者信度可用肯德爾和諧系數進行估計;當評分者人數K=(3~20),被評者人數N=(3~7)時,可直接查W表檢驗,當實際計算的W值大于表中對應值時,說明評分者所得信度較高;若被評對象多于7個,則可計算X2值,作X2檢驗。計算方法為

一般要求在成對的受過訓練的評分者之間平均一致性達0.90以上,才認為評分是客觀的。

四、影響信度的因素

測驗的信度與很多因素都有著密切的聯系,測驗中的各種因素都有可能影響信度。主要的影響因素有:

(一)被試方面

就單個被試而言,被試的身心健康狀況、應試動機、注意力、耐心、求勝心、作答態度(猜測)等會影響測量誤差。就被試團體而言,整個團體內部水平的離散程度以及團體的平均水平都會影響測量信度。

(二)主試者方面

就施測者而言,若不按指導手冊中的規定施測,或故意制造緊張氣氛,或給以暗示、協助等,都會影響測量的信度,導致測量信度降低。

(三)評分者方面

就評分者而言,評分者對測量特質的理解、對測量標準的把握、自身行為風格的嚴謹程度等都會影響測驗的信度。若評分標準掌握不一,或前緊后松,甚至隨心所欲,則也會降低測量信度。

(四)施測情境方面

凡是影響受測者的因素都可能影響信度??紙鍪欠癜察o、光線和通風情況是否良好、所需設備是否齊全、桌面是否合乎要求、空間闊窄是否恰當等都可能影響測量信度。

(五)測量工具方面

測量工具是否性能穩定是測量工作成敗的關鍵因素之一。一般情況下,試題的取樣、試題之間的同質性程度、試題的難度等都是影響測驗穩定性的主要因素。

(六)兩次施測的間隔時間

計算重測信度和穩定性與等值性系數時,兩次測驗相隔時間越短,其信度值越大;間隔時間越長,各種影響測試結果的不確定因素就越多,誤差可能越大,信度值就可能越小。

針對以上這些影響測驗信度的因素,常用于提高測量信度的方法有:

(一)適當增加測驗中與原題目具有良好同質性的題目,增加測驗的長度。要注意:第一,新增題目必須與試卷中原有項目同質;第二,新增項目的數量必須適度,注意邊際效應。

(二)將測驗中所有試題的難度控制在中等水平,整個題量接近正態分布。也就是說,使測題的難度在0.5±0.2的范圍,且中間難度的題目數量多,兩端題目數量偏少。

(三)努力提高測驗試題的區分度。測驗項目能敏感地將不同水平的受測者鑒別出來,以確保整個測驗的鑒別力。

(四)選取恰當的被試團體,提高測驗在各同質性較強的亞團體上的信度。一定要弄清楚常模團體的年齡、性別、文化程度、職業、愛好等因素。只有各亞團體信度值都合乎要求的測驗才具有廣泛的應用。

(五)主試者規范操作。嚴格執行施測規程,評分者嚴格按照標準給分,施測場地按施測手冊的要求進行布置,減少無關因素的干擾。

五、信度與測驗結果的解讀

(一)解釋真實分數與實得分數的相關

信度系數可以解釋為總的方差中有多少比例是由真實分數的方差決定的,也就是測驗的總變異中真分數造成的變異占百分之幾。

(二)確定信度可以接受的水平

不同的測驗有不同的信度水平要求,一般原則是:當rxx<0.70時,測驗不能用于對個人做出評價和預測,也不能作團體比較;當0.70≤rxx≤0.85時,可用于團體比較;當rxx>0.85時,才能用來鑒別或預測個人成績或作為。

(三)解釋個人分數的意義

測量必然有隨機誤差,測量的標準誤是一次測量中誤差大小的客觀指標,從信度可以解釋個人分數的意義,這是測量標準誤的應用。信度可以估計真分數的范圍,了解實得分數再測時可能的變化情形。根據標準誤的公式可以看出,如果知道了信度系數和標準差就可以計算出標準誤,進而估計出真分數的可能范圍,對團體中任何一個人的測驗成績作恰當的解釋。不同的置信水平對應不同的置信區間,取95%的置信水平,其置信區間為:

也就是說,真分數大約有95%的可能性在實得分數±1.96SE的范圍內波動,高于上限和低于下限的可能性只有5%。例如,在一個智力測驗中,某個被試的IQ為100,這是否反映了他的真實水平?如果再測一次,他的分數將改變多少?已知該智力測驗的標準差為15,信度系數為0.84,套用公式得SE=6,即IQ=100±1.96×6=100±11.76,我們可以說這個被試的真實IQ可能落在88與112之間,即若再測一次他的智商,低于88或高于112的可能性不超過5%。

(四)比較不同測驗分數的差異

信度可以幫助進行不同測驗分數的比較。具體辦法是采用差異的標準誤來進行差異的顯著性檢驗,參見公式2-5。

例如,某被試在韋氏成人智力測驗中言語智商為102,操作智商為110。已知兩個分數都是以100為平均數、15為標準差的標準分數。假設言語測驗和操作測驗的分半信度分別為0.87和0.88。其操作智商是否顯著高于言語智商呢?

先計算出差異分數的標準誤:SED=7.5。

在統計上,經常要求兩個分數的差異程度達到0.05的顯著水平,才能承認不是誤差的影響。因此,將差異標準誤(7.5)乘以1.96,結果為14.7,這表明個體在韋氏測驗兩半得分的差異高于大約15分才能達到0.05的顯著水平,被試的差異分數110-102=8是不顯著的。

主站蜘蛛池模板: 白山市| 桦南县| 连山| 滕州市| 亳州市| 满城县| 尼木县| 彰化县| 望城县| 客服| 嘉禾县| 松江区| 筠连县| 满城县| 巢湖市| 罗甸县| 晋州市| 山东| 玉山县| 弥勒县| 沽源县| 阜城县| 靖江市| 京山县| 张家界市| 银川市| 沅陵县| 清丰县| 舟山市| 宿松县| 淳安县| 黑山县| 青冈县| 五台县| 梨树县| 新源县| 称多县| 凌云县| 鱼台县| 彭泽县| 司法|