官术网_书友最值得收藏!

4.5 克魯斯卡爾-沃利斯檢驗

如果從總體1中隨機抽取了一組樣本,又從總體2中隨機抽取了一組樣本;威爾科克森秩和檢驗就可以用來分析這兩個樣本所代表的總體1和總體2是否具有相同的分布。現在如果有來自三個或更多獨立總體的樣本數據,能否用一種方法來分析它們所代表的總體是否具有相同的分布呢?這時所采用的方法就是克魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗,又稱H檢驗。本書后面還會介紹到單向方差分析(ANOVA),該方法可以用來檢驗一些樣本均值之間的差別是否顯著,但方差分析要求所有有關的總體都是正態分布的。如同其他非參數檢驗一樣,克魯斯卡爾-沃利斯檢驗并不要求總體服從正態分布或者任意其他的特殊分布。

克魯斯卡爾-沃利斯檢驗的原假設和備擇假設一般如下:

H0:樣本來自于具有相同分布的總體。

H1:樣本來自于具有不同分布的總體。

克魯斯卡爾-沃利斯檢驗的統計量定義為

其中ni是樣本i的觀察值數量,i=1,2,…,kk是樣本的個數,nT是混合后的總樣本容量,即

另外,Ti是樣本i在總的樣本觀察值中的秩和。對于給定的顯著水平α,如果統計量H超過自由度為k-1的χ2的臨界值,則拒絕原假設。

通常要求每個樣本中至少有5個觀察值,這樣檢驗統計量H的分布才能用χ2分布來近似。這個檢驗統計量H其實就是本書后面將要討論的方差分析中檢驗統計量F的秩形式。當對秩進行處理,而非對原始值進行處理時,許多量是已經預先知道的。例如,所有秩的和可以表示為nTnT+1)/2。表達式

其中

合并了秩的加權方差,以得到這里的給出的檢驗統計量H。這個H的表達式與前面給出的表達式在代數上是相等的。但前面H的形式處理起來更加簡便。盡管克魯斯卡爾-沃利斯檢驗計算起來非常容易,但它并沒有F檢驗那樣有效,因此它可能會需要更加明顯的差別來拒絕零假設。

當樣本觀察值的秩有大量相等時,用

來進行修正,其中tj是第j個相等秩組中的觀察值數量。

下面結合一個例子來演示使用克魯斯卡爾-沃利斯檢驗的基本方法。為研究煤礦粉塵作業環境對塵肺的影響,將18只大鼠隨機分到XYZ三個組,每組6只,分別在地面辦公樓、煤炭倉庫和礦井下,12周后測量大鼠全肺濕重(單位:g),數據見表4-21,問不同環境下大鼠全肺濕重有無差別?

表4-21 大鼠全肺濕重數據/g

首先,根據描述提出下列原假設和備擇假設:

H0:三組沒有差異(即它們來自同一總體)。

H1:三組中至少有一個和其他組不同。

在計算統計量H之前,首先從低到高排列18個樣本數據,并編秩。中間數據的處理結果如表4-22所示。其中處理相等數據時的方法前面已經多次講到,這里不再贅述。

表4-22 中間數據處理結果

計算三組秩和的結果如下

TX=1.5+1.5+5+6+8+10=32

TY=3+8+8+11+12.5+14=56.5

TZ=4+12.5+15+16+17+18=82.5

根據三組秩的和可以對統計量H進行計算

因為含有相同大小的數據,所以使用H′,對H進行修正。其中

將該值代入到H′,于是可得

可見,盡管涉及相等的秩幾乎占到總數的一半,H′的值和H仍然非常相近。由于自由度為k-1=2,所以可在R中使用下面的代碼來計算P值。

由于P值小于0.05,所以拒絕原假設,認為三個組的測試結果之間存在有顯著的差異。

上述計算結果在R中可以使用非常簡單的代碼來得到,下面的代碼同樣得出了7.5055的H′統計量以及0.023 45的P值。

本章向讀者介紹了幾種常用的非參數檢驗方法。與參數檢驗方法相比,非參數檢驗方法不受總體分布的限制,適用范圍更廣,使用起來也更簡便。但還需指出,當測量的數據能夠滿足參數統計的所有假設時,非參數檢驗方法雖然也可以使用,但效果遠不如參數檢驗方法。當數據滿足假設條件時,參數統計檢驗方法能夠從其中廣泛地充分地提取有關信息。非參數統計檢驗方法對數據的限制較為寬松,只能從中提取一般的信息,相對參數統計檢驗方法會浪費一些信息。所以對于參數檢驗方法而言,應該注意把握它們適用的條件,在具有應用時,更應審慎檢查這些條件是否滿足。針對具體問題,要注意分析問題本身所提供的信息,審慎選擇檢驗方法。

主站蜘蛛池模板: 哈密市| 平武县| 得荣县| 河南省| 开阳县| 炉霍县| 裕民县| 开鲁县| 和龙市| 吴江市| 鞍山市| 景洪市| 平舆县| 德化县| 泰州市| 绥中县| 呼伦贝尔市| 花垣县| 永丰县| 隆尧县| 绥德县| 晴隆县| 五大连池市| 杭锦旗| 大新县| 南漳县| 大城县| 蛟河市| 会泽县| 化德县| 新野县| 黔南| 利辛县| 大悟县| 河池市| 尼木县| 绥德县| 横山县| 涿鹿县| 象山县| 新乡市|