第六節 效度
一、效度的定義
所謂效度就是正確性程度,即測量工具確能測出其所要測量的特質的程度。效度越高,即表示測量結果越能顯示其所要測量的對象的真正特征。效度是任何科學的測量工具所必須具備的條件。
測量的效度可以決定所建立的理論解釋的正確程度。人們對某種理論的反駁通常是指出這一理論對某一變量的測量是無效的,因此,它對變量間關系的理論解釋也是無效的。
對效度的檢驗可以保證不同的研究人員對某一研究變量的意義與內涵有一致的理解。盡管每種測量工具都有其適用范圍和局限性,不存在對所有現象都有效的測量工具,但是,一種有效的測量工具可以被不同的研究人員用來觀測同一種現象或同一個概念,這樣才能保證他們所測量的內容是一致的和可比的。
在選擇測量工具和設計問卷、表格時,首先要考慮其效度。也就是說,要考慮“測量出來的東西是否真的是研究者想要得到的東西”,“所測得的結果是否能正確、有效地說明所要研究的現象”。
二、效度的基本原理
鑒別效度,必須確定測量的目的與范圍,考慮所要測量的內容是什么,分析其性質及表現特征,進而核查測量的內容是否與測量的目的相符,以此判斷測量結果反映所要測量特質的程度。
假設某種測量的目的在于衡量個體在某項屬性(如工資收入)上的差異情況,則一群被調查者在該測量中得分的總變異量包括三個部分:一為個體在與該屬性有關的共同特質上所造成的變異量
,二為與該屬性無關的其他個別特質(如獎金、補貼、親友贈款等)所造成的變異量
,其余為隨機誤差變異量
,可用公式表示:

從上述測量分數變異的觀點來看,效度就是在測量得分的總變異量中,由所要測量的特質所造成的變異量所占的百分比:

三、效度的檢查
效度是一個多層面的概念,它是相對于特定的研究目的和研究側面而言的。檢驗效度必須針對其特定的目的、功能及適用范圍,從不同的角度收集各方面的資料分別進行。檢驗效度的方法很多,大體分為內容效度、準則效度和建構效度。
(一)內容效度(或表面效度)
考察內容效度旨在系統地檢查測量內容的適當性,并依據我們對所研究的概念(變量)的了解去鑒別測量內容是否反映了這一概念的基本內容。
內容效度實質上是個判斷問題,K.D.貝利在《社會研究方法》一書中提出,它必須“考慮兩個主要問題:(1)測量工具所測量的是否正是調查人員所想要測量的那種行為?(2)測量工具是否提供了有關那種行為的適當樣品?”
第一個問題涉及研究者的主觀判斷能力或定義性的判斷。第二個問題取決于研究者對研究變量的全面了解。例如,政治知識的考試雖然不可能列出所有的內容,但是考卷中必須對政治知識的每一部分都列出幾道試題,作為這一部分的樣品。這樣,就能通過考察這些樣品是否代表了變量的各個部分來評判考卷的內容效度。
檢查內容效度就是檢查由概念到指標的經驗推演是否符合邏輯,是否有效。對此只能憑借人們的主觀判斷和共同定義,因為對一個概念的理解是因人而異的,但在科學研究中,需要以大多數科學家所接受的概念定義為標準。
(二)準則效度(效標效度)
準則是被假設或被定義為有效的測量標準,符合這種標準的測量工具可以作為測量某一特定現象或概念的效標。對同一概念的測量可以使用多種測量工具,其中每種測量方式與效標的一致性稱為準則效度。
準則效度有各種形式。如果效標或準則是依據將來實際發生的情況而建立的,那么這種準則效度可稱為預測效度。如果效標是與某種測量方式同時被證明為有效的,則稱之為共變效度。如果效標是以實際經驗判斷為準的,則稱為實用效度。
預測效度是將已經得到的測量結果與未來實際發生的情況進行比較,以檢查兩者的一致性。例如,設計一種預測學生學習成績的量表或測驗,用它來測量學生畢業時的學習成績。如果在學生畢業時,實際的學習成績確實與預測值相一致,那么這一量表或測驗就具有預測效度。研究人員可以繼續使用它來預測其他學生的成績。
共變效度是用來判斷其他的測量工具是否可以取代作為效標的測量工具。例如,假設有一種高度精確的,但是卻費時、費力的心理測驗方法;它通過復雜的測量可以鑒別出某種精神疾病,但這種心理測驗方法不可能在短時間內檢查大量樣本。如果能夠設計出另一種簡單的、自我填寫的量表方法,而且這一量表的測量結果與心理測驗的結果高度相關的話(即具有共變效度),那么它就可以替代心理測驗方法。
實用效度通常用來檢查測量工具的實際效果。由于對某些現象的測量過去并沒有一定的標準,所以只能依據實際經驗來檢驗測量工具的有效性。例如,近年來在我國采用的對干部能力素質的測評方法,其效度通常是依據組織部門和熟悉人對被測干部實際狀況的了解來做出經驗判斷的。實用效度與共變效度有些近似,如定量化的干部測評方法就是以組織部門傳統的考察干部的方法為效標,當它具有較高的效標效度時,由于它省時間、簡便易行,所以就能取代過去沿用的老方法。
準則效度可以用兩種測量工具得出的觀測值之間的相關系數來衡量,而不是靠主觀判斷,但它的局限性是:有些作為效標的測量工具只是假定有效的,它本身是否真正有效并沒有理論依據,這一缺陷是心理量度化方法所共有的。
(三)建構效度
考察建構效度是要了解測量工具是否反映了概念和命題的內部結構。它通常在理論性研究中使用。由于它是通過與理論假設相比較來檢查的,因此建構效度也稱為理論效度。
理論假設一般是陳述兩個概念(X和Y)之間具有相關關系,那么在經驗層次上對X的測量與對Y的測量也應當是相關的。前面已講過,測量同一個概念可以用多個指標,當用X和Y的多個指標來測量兩個概念之間的關系時,如果不同指標的測量都反映出理論所假設的關系,那么這些測量就具有建構效度。
例如,假設“工作積極性”(X)與“對閑暇時間的利用”(Y)是正相關的,對“工作積極性”在經驗層次上可選擇兩個指標,一個是“工作的主動性程度”(x1),另一個是“工作動機”(x2)。對于“閑暇時間的利用”這一變量可以設置“有效活動占用率”(y1)這一指標來測量。如果x1與y1, x2與y1都是正相關,則稱這一測量具有建構效度。反之,則稱測量工具或理論不具有建構效度。
以上三種效度可用圖6.6來表示:

圖6.6 檢查效度的三種程序
(四)內在效度與外在效度
測量都是在具體的時間、地點對具體的調查對象所作的觀測。如果在一項具體研究中,對上述三種效度(內容效度、準則效度、建構效度)的檢查沒有發現問題的話,就可以認為這一研究具有內在效度,它的資料和結論可以有效地解答所研究的問題。但是,這一研究結論的有效性是否可以適用于其他時間、地點和對象呢?這就涉及外在效度的問題了。可以說,內在效度是指一項研究的資料和結論的有效性,而外在效度是指這種研究結論的普遍有效性。
例如在美國的一些城市抽取幾百名工人進行研究發現,“當代工人的階級意識普遍淡漠”,那么,這一結論是否適用于各個國家,或美國的各個城市,還是僅適用于這幾百名工人呢?它是否僅適用于80年代或進行研究的某一年(1984年)呢?由這一例子可以看出,對外在效度的檢查要考慮樣本的代表性和特殊性,以及研究時間、地點、情境和研究內容的普遍意義。
四、信度與效度的關系
信度和效度都是科學的測量工具所必須滿足的條件。兩者的關系是:(1)信度低,效度不可能高。如果收集的資料不可信、不可靠,那么它肯定不能有效地說明所研究的對象。(2)信度高,效度未必高(效度有可能很低)。例如即使精確可靠地測出了一個人的經濟收入,也未必能說明他的消費水平。(3)效度低,信度有可能很高。例如一項研究即使未能有效地說明社會流動的主要原因,但它有可能精確、可靠地調查出各個時期、各種類型的人的流動數量。(4)效度高,信度必然也高。如果有效地說明了某種現象,那么它的資料和結論都必然是且必須是可信的。由這些關系可以看出,測量的信度是效度的必要條件,但不是充分條件,無信度必然無效度,但有信度未必有效度。反之,效度是信度的充分條件但不是必要條件,有效度必然會有信度,但無效度卻未必無信度。圖6.7是對兩者關系的圖示。

圖6.7 信度與效度的關系
下面我們再從測量理論的角度考察信度與效度的關系。由前面所介紹的幾個計算公式可知:

其中為觀測值的總變異量,
為所測變量的變異量,
為其他變量的變異量,
為隨機誤差的變異量。
由[3]可轉換為:

將[1]、[2]代入[4]可得:

由此可知,效度系數等于信度系數減去。由于其他變量的影響是內含在測量工具之中的,因此很難測出他們的變異量(
),而信度系數則可由相關系數計算。所以在一些研究中,研究者常用信度系數來近似地說明效度,但這是有缺陷的,因為在社會研究中,其他無控制的變量對資料的效度有很大影響。所以還是應當通過對內容效度、準則效度和建構效度的檢查來說明研究的有效程度。
最后,我們再對影響效度的因素做一簡單說明。由信度和效度的關系可知,所有影響信度的因素也必然影響效度。此外,除隨機誤差外,效度還受到系統偏差和其他變量的影響。對這些影響可主要考慮兩個方面:(1)測量工具。測量的效度在很大程度上取決于試題的效度。因此,在設計問卷、量表和調查提綱時要審慎地考慮調查的項目和內容,并對概念的操作定義和試題的內容效度進行檢查。(2)樣本的代表性。它是影響外在效度的重要因素。要提高研究的外在效度,就有必要采用概率抽樣的方法,而且當研究總體的異質性很高時,還應加大調查的樣本量。