- 統計學習理論與方法:R語言版
- 左飛
- 1540字
- 2020-10-16 16:24:25
4.5 克魯斯卡爾-沃利斯檢驗
如果從總體1中隨機抽取了一組樣本,又從總體2中隨機抽取了一組樣本;威爾科克森秩和檢驗就可以用來分析這兩個樣本所代表的總體1和總體2是否具有相同的分布。現在如果有來自三個或更多獨立總體的樣本數據,能否用一種方法來分析它們所代表的總體是否具有相同的分布呢?這時所采用的方法就是克魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗,又稱H檢驗。本書后面還會介紹到單向方差分析(ANOVA),該方法可以用來檢驗一些樣本均值之間的差別是否顯著,但方差分析要求所有有關的總體都是正態分布的。如同其他非參數檢驗一樣,克魯斯卡爾-沃利斯檢驗并不要求總體服從正態分布或者任意其他的特殊分布。
克魯斯卡爾-沃利斯檢驗的原假設和備擇假設一般如下:
H0:樣本來自于具有相同分布的總體。
H1:樣本來自于具有不同分布的總體。
克魯斯卡爾-沃利斯檢驗的統計量定義為

其中ni是樣本i的觀察值數量,i=1,2,…,k,k是樣本的個數,nT是混合后的總樣本容量,即

另外,Ti是樣本i在總的樣本觀察值中的秩和。對于給定的顯著水平α,如果統計量H超過自由度為k-1的χ2的臨界值,則拒絕原假設。
通常要求每個樣本中至少有5個觀察值,這樣檢驗統計量H的分布才能用χ2分布來近似。這個檢驗統計量H其實就是本書后面將要討論的方差分析中檢驗統計量F的秩形式。當對秩進行處理,而非對原始值進行處理時,許多量是已經預先知道的。例如,所有秩的和可以表示為nT(nT+1)/2。表達式

其中

合并了秩的加權方差,以得到這里的給出的檢驗統計量H。這個H的表達式與前面給出的表達式在代數上是相等的。但前面H的形式處理起來更加簡便。盡管克魯斯卡爾-沃利斯檢驗計算起來非常容易,但它并沒有F檢驗那樣有效,因此它可能會需要更加明顯的差別來拒絕零假設。
當樣本觀察值的秩有大量相等時,用

來進行修正,其中tj是第j個相等秩組中的觀察值數量。
下面結合一個例子來演示使用克魯斯卡爾-沃利斯檢驗的基本方法。為研究煤礦粉塵作業環境對塵肺的影響,將18只大鼠隨機分到X、Y和Z三個組,每組6只,分別在地面辦公樓、煤炭倉庫和礦井下,12周后測量大鼠全肺濕重(單位:g),數據見表4-21,問不同環境下大鼠全肺濕重有無差別?
表4-21 大鼠全肺濕重數據/g

首先,根據描述提出下列原假設和備擇假設:
H0:三組沒有差異(即它們來自同一總體)。
H1:三組中至少有一個和其他組不同。
在計算統計量H之前,首先從低到高排列18個樣本數據,并編秩。中間數據的處理結果如表4-22所示。其中處理相等數據時的方法前面已經多次講到,這里不再贅述。
表4-22 中間數據處理結果

計算三組秩和的結果如下
TX=1.5+1.5+5+6+8+10=32
TY=3+8+8+11+12.5+14=56.5
TZ=4+12.5+15+16+17+18=82.5
根據三組秩的和可以對統計量H進行計算

因為含有相同大小的數據,所以使用H′,對H進行修正。其中

將該值代入到H′,于是可得

可見,盡管涉及相等的秩幾乎占到總數的一半,H′的值和H仍然非常相近。由于自由度為k-1=2,所以可在R中使用下面的代碼來計算P值。

由于P值小于0.05,所以拒絕原假設,認為三個組的測試結果之間存在有顯著的差異。
上述計算結果在R中可以使用非常簡單的代碼來得到,下面的代碼同樣得出了7.5055的H′統計量以及0.023 45的P值。

本章向讀者介紹了幾種常用的非參數檢驗方法。與參數檢驗方法相比,非參數檢驗方法不受總體分布的限制,適用范圍更廣,使用起來也更簡便。但還需指出,當測量的數據能夠滿足參數統計的所有假設時,非參數檢驗方法雖然也可以使用,但效果遠不如參數檢驗方法。當數據滿足假設條件時,參數統計檢驗方法能夠從其中廣泛地充分地提取有關信息。非參數統計檢驗方法對數據的限制較為寬松,只能從中提取一般的信息,相對參數統計檢驗方法會浪費一些信息。所以對于參數檢驗方法而言,應該注意把握它們適用的條件,在具有應用時,更應審慎檢查這些條件是否滿足。針對具體問題,要注意分析問題本身所提供的信息,審慎選擇檢驗方法。
- PostgreSQL 11 Server Side Programming Quick Start Guide
- Dreamweaver CS3網頁制作融會貫通
- Visual FoxPro 6.0數據庫與程序設計
- Photoshop CS3圖像處理融會貫通
- 愛犯錯的智能體
- SAP Business Intelligence Quick Start Guide
- 智能生產線的重構方法
- 大數據技術基礎:基于Hadoop與Spark
- 實用網絡流量分析技術
- LMMS:A Complete Guide to Dance Music Production Beginner's Guide
- Silverlight 2完美征程
- Mastering Exploratory Analysis with pandas
- Cloudera Hadoop大數據平臺實戰指南
- RealFlow流體制作經典實例解析
- 精通ROS機器人編程(原書第2版)