官术网_书友最值得收藏!

1.4 置信區間

考慮表1-1中假設例子中的研究17和30。研究17,r=0.31和N=69,發現在0.01水平上是顯著相關的。研究30,r=0.31和N=26,發現相關性不顯著。也就是說,兩位具有相同發現(r=0.31)的作者得出了相反的結論。作者17得出的結論是,組織承諾與工作滿意度高度相關,而作者30認為它們是不相關的。因此,兩項相同的研究結果,可能會導致綜述作者聲稱“文獻中的結果是相互矛盾的。”

如果用置信區間來解釋這兩項研究結果,結論就大不相同。作者17報告了r=0.31的結果,95%置信區間為0.10≤ρ≤0.52。作者30報告了r=0.31的結果,95%置信區間為-0.04≤ρ≤0.66。研究結果之間沒有沖突;兩個置信區間基本上重疊。

現在考慮表1-1中的研究26和30。研究26發現r=0.53,N=26,在0.01水平上是顯著的。研究30發現r=0.31,N=26,是不顯著的。也就是說,這兩項研究具有相同的樣本量,但結果明顯不同。使用顯著性檢驗,可以得出的結論是,一定有某種調節變量可以解釋這種差異。這個結論是錯誤的。

如果使用置信區間考察這兩項研究,則結論會有所不同。研究26的置信區間為0.25≤ρ≤0.81,研究30的置信區間為-0.04≤ρ≤0.66。確實,研究30的置信區間包括ρ=0,而研究26的置信區間不包括ρ=0;這是顯著性檢驗所記錄的事實。然而,關鍵的是,這兩個置信區間的重疊區間為0.25≤ρ≤0.66。因此,一起考慮這兩項研究就可以得出正確的結論,即兩項研究可能意味著具有相同群體相關性ρ值。實際上,重疊區間包括真值,ρ=0.33。

具有相同群體值的兩項研究可以具有不重疊的置信區間,這是一個低概率事件(約5%)。但是,置信區間并不是區分研究結果的最佳方法;這種區分屬于元分析。

由于兩個原因,置信區間比顯著性檢驗提供更多的信息。第一,區間適當地以觀察值為中心,而不是以零假設的零值為中心。第二,置信區間為研究者提供了小樣本研究中不確定性的正確圖像。看到置信區間寬至-0.04≤ρ≤0.66,可能令人不安,但是這遠遠超過多年來因“相互矛盾的結果”的錯誤觀念而產生的挫敗感。

置信區間通常被定義為“小樣本量”的研究。假設我們希望將相關系數的置信區間定義為與第一個數字相關,即寬度為±0.05。然后,對于小的群體相關性,最小樣本量約為1 538。如果樣本量為1 000就足夠了,總體相關性必須至少為0.44。因此,在這一準確性標準下,對于相關性研究,“小樣本量”包括所有少于1 000人的研究,并且通常延伸到1 000人以上。

實驗研究有類似的計算方法。如果使用d統計量(到目前為止最常用的選擇),那么只有當樣本量為3 076時,才會將小效應量指定為第一個數字。若效應量更大,則樣本必須大于3 076。例如,若群體平均數之間的差異為0.30標準差,則使精確度在0.30±0.05范圍內的最小樣本量為6 216個。因此,考慮這種準確性標準,在實驗研究中,“小樣本量”從3 000開始,并且通常遠遠超出這個標準。實際上,在大多數行為實驗室中,實驗研究的總Ns在20~50之間。

自1990年出版本書第1版以來,人們對置信區間和效應量的點估計優于顯著性檢驗的認識呈指數級增長。美國心理學會(APA)顯著性檢驗工作組的報告(Wilkinson & APA統計推斷工作組,1999)指出,研究者應報告效應量估計值和置信區間。APA發表手冊的第5版和第6版指出,初始研究幾乎總是需要報告效應量估計值和置信區間(APA,2001,2009)。現在,21種心理學和教育方面的研究期刊都要求報告這些統計數據(Thompson,2002)。有些人認為,計算置信區間所需方法的信息并不足夠可用。然而,現在一些有用且信息豐富的統計學教科書是圍繞效應量和置信區間的點估計而不是顯著性檢驗設計的(Cumming,2012;Kline,2004;Lockhart,1998;Smithson,2000)。Cumming(2012)一書包括很好的在線計算機程序,使計算變得更容易,并且說明了關鍵的統計事實和原則。Thompson(2002)提供了許多關于置信區間計算的信息,并引用了許多有用的參考文獻(例如:Kirk,2001;Smithson,2001)。2001年8月出版的《教育與心理測量》雜志專刊,完全致力于計算和解釋置信區間的方法。還有許多其他類似的出版物(例如,Borenstein,1994)。

盡管有這些進展,但大多數發表的文章仍使用顯著性檢驗。鑒于這種實踐已完全不可信,這該是一個什么樣的迷局?Orlitzky(2011)認為,問題在于反對顯著性檢驗的證據尚未制度化。那些詆毀顯著性檢驗的文章旨在誘導單個研究者改變他們的統計實踐,而不是為了更廣泛、更系統或更制度化的改變。但是,對單個研究人員來說,很難反對大多數期刊中已經制度化的實踐。他認為,需要的是研究文化中自上而下學科范式的轉變。這是一個寬泛的建議。例如,他說,敦促個別期刊編輯要求效應量和置信區間,將產生很小的變革。在整個學科層面必須有一個可執行的協議,必須在初始研究中使用適當的數據分析程序,同時在研究生課程中教授研究方法的方式也必須發生重大變化。這是文化變革的一個長期命題。幸運的是,正如我們接下來將看到的那樣,即使顯著性檢驗繼續用于單個初始研究,元分析也有可能在發展累積知識方面取得進展。

主站蜘蛛池模板: 商洛市| 雷波县| 邛崃市| 萨迦县| 同心县| 嘉义县| 讷河市| 承德县| 墨竹工卡县| 桑日县| 伊金霍洛旗| 共和县| 临桂县| 葫芦岛市| 平江县| 资中县| 石河子市| 北辰区| 南康市| 屏山县| 邯郸县| 鸡东县| 青浦区| 泽州县| 板桥市| 西畴县| 丹巴县| 黄平县| 克拉玛依市| 惠水县| 汝南县| 福安市| 通州市| 石首市| 那曲县| 平凉市| 临朐县| 横峰县| 台北县| 勃利县| 星子县|