- 統計學習理論與方法:R語言版
- 左飛
- 6346字
- 2020-10-16 16:24:20
2.2 假設檢驗
假設檢驗是除參數估計之外的另一類重要的統計推斷問題。它的基本思想可以用小概率原理來解釋。所謂小概率原理,就是認為小概率事件在一次試驗中是幾乎不可能發生的。也就是說,對總體的某個假設是真實的,那么不利于或不能支持這一假設的事件在一次試驗中是幾乎不可能發生的;要是在一次試驗中該事件竟然發生了,我們就有理由懷疑這一假設的真實性,進而拒絕這一假設。
2.2.1 基本概念
大衛·薩爾斯伯格(David Salsburg)在《女士品茶:20世紀統計怎樣變革了科學》一書中,以英國劍橋一群科學家及其夫人們在一個慵懶的午后所做的一個小小的實驗為開篇,為讀者展開了一個關于20世紀統計革命的別樣世界。而開篇這個品茶故事大約是這樣的,當時一位女士表示向一杯茶中加入牛奶和向一杯奶中加入茶水,兩者的味道品嘗起來是不同的。她的這一表述立刻引起了當時在場的眾多睿智頭腦的爭論。其中一位科學家決定用科學的方法來測試一下這位女士的假設。這個人就是大名鼎鼎的英國統計與遺傳學家,現代統計科學的奠基人羅納德·費希爾(Ronald Fisher)。費希爾給這位女士提供了8杯兌了牛奶的茶,其中一些是先放的牛奶,另一些則是先放的茶水,然后費希爾讓這位女士品嘗后判斷每一杯茶的情況。
現在問題來了,這位女士能夠成功猜對多少杯茶的情況才足以證明她的理論是正確的,8杯?7杯?還是6杯?解決該問題的一個有效方法是計算一個P值,然后由此推斷假設是否成立。P值(P-value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明原假設情況的發生的概率很小,而如果確實出現了P值很小的情況,根據小概率原理,我們就有理由拒絕原假設。P值越小,拒絕原假設的理由就越充分。就好比說種瓜得瓜,種豆得豆。在原假設“種下去的是瓜”這個條件下,正常得出來的也應該是瓜。相反,如果得出來的是瓜這件事越不可能發生,我們否定原假設的把握就越大。如果得出來的是豆,也就表明得出來的是瓜這件事的可能性小到了零,這時我們就有足夠的理由推翻原假設。也就可以確定種下去的根本就不是瓜。
假定總共的8杯兌了牛奶的茶中,有六杯的情況都被猜中了。現在我們就來計算一下這個P值。不過在此之前,還需要先建立原假設和備擇假設。原假設通常是指那些單純由隨機因素導致的采樣觀察結果,通常用H0表示。而備擇假設,則是指受某些非隨機原因影響而得到的采樣觀察結果,通常用H1表示。如果從假設檢驗具體操作的角度來說,常常把一個被檢驗的假設稱為原假設,當原假設被拒絕時而接收的假設稱為備擇假設,原假設和備擇假設往往成對出現。此外,原假設往往是研究者想收集證據予以反對的假設,當然也是有把握的、不能輕易被否定的命題,而備擇假設則是研究者想收集證據予以支持的假設,同時也是無把握的、不能輕易肯定的命題作。
就當前所討論的飲茶問題而言,顯然在不受非隨機因素影響的情況下,那個常識性的,似乎很難被否定的命題應該是“無論是先放茶水還是先放牛奶是沒有區別的”。如果將這個命題作為H0,其實也就等同于那個女士對茶的判斷完全是隨機的,因此她猜中的概率應該是0.5。這時隨機變量X~B(8,0.5),即滿足n=8,p=0.5的二項分布。相應的備擇假設H1為該女士能夠以大于0.5的概率猜對茶的情況。
直觀上,如果8杯兌了牛奶的茶中,有6杯的情況都被猜中了,則可算出,這個值大于0.5,但這是否大到可以令我們相信先放茶水還是先放牛奶確有不同這個結論。所以需要來計算一下P值,即Pr(X≥6)。使用下面這段代碼可以算得P值是0.144 531 2。

可見,P值并不是很顯著。通常都需要P值小于0.05,才能令我們有足夠的把握拒絕原假設。而本題所得結果則表明沒有足夠的證據支持我們拒絕原假設。所以如果那位女士猜對了八杯中的六杯,也沒有足夠的證據表明先加牛奶或者先加茶水會有何不同。
還應該注意到以上所討論的是一個單尾的問題。因為備擇假設是說該女士能夠以大于0.5的概率猜對茶的情況。我們日常遇到的很多問題也有可能是雙尾的,比如原假設是概率等于某個值,而備擇假設則是不等于該值,即大于或者小于該值。在這種情況下,通常需要將算得的P值翻倍,除非已經求得的P值大于0.5,此時我們就令P值為1。另外,當n較大的時候,還可以用正態分布來近似二項分布。
1965年,美國聯邦最高法院對斯文訴阿拉巴馬州一案做出了裁定。該案也是法學界在研究預斷排除原則時常常被提及的著名案例。本案的主角斯文是一個非洲裔美國人,他被控于阿拉巴馬州的塔拉迪加地區對一名白人婦女實施了強奸犯罪,并因此被判處死刑。最終案件被上訴至最高法院,理由是陪審團中沒有黑人成員,斯文據此認為自己受到了不公正的審判。
最高法院駁回了上述請求。根據阿拉巴馬州法律,陪審團成員是從一個100人的名單中抽選的,而當時的100個備選成員中有8名是黑人。根據訴訟過程中的無因回避原則,這8名黑人被排除在了此處審判的陪審團之外,而無因回避原則本身是受憲法保護的。最高法院在裁決書中也指出:“無因回避的功能不僅在于消除雙方的極端不公正,也要確保陪審員僅僅依賴于呈現在他們面前的證據做出裁決,而不能依賴于其他因素……無因回避可允許辯護方通過預先審核程序中的調查提問以確定偏見的可能,消除陪審員的敵意。”此外最高法院還認為,在陪審團備選名單上有8名黑人成員,表明整體比例上的差異很小,所以也就不存在刻意引入或者排除一定數量的黑人成員的意圖。
阿拉巴馬州當時規定只要超過21歲就符合陪審團成員的資格。而在塔拉迪加地區滿足這個條件的人大約有16 000人,其中26%是非洲裔美國人。我們現在的問題就是,如果這100名備選的陪審團成員確實是從符合條件的人群中隨機選取的,那么其中黑人成員的數量會否是8人或者更少?可以在R中用下列命令計算得到我們想要的答案。

概率是0.000 004 7,也就相當于二十萬分之一的機會。
對于假設檢驗而言,也可以使用正態分布的近似參數來計算置信區間。唯一的不同在于此時是在原假設H0:p=p0的前提下計算概率值,所以原來在計算置信區間時所采用的近似

現在就不再需要了。取而代之的是在計算標準誤差和P值時直接使用p0即可。
如果估計值用表示,其(估計的)標準誤差是

檢驗統計量為

是當n比較大時,在原假設前提下,通過對標準正態分布的近似得到的。
繼續前面的例子,現在原假設可以表述為H0:p=0.26,相對應的備擇假設為H1:p<0.26。在一個100人的備選陪審團名單中有8名黑人成員,此時P值可由下式給出

由此便可以拒絕原假設,從而認為法院的裁定在很大程度上是錯誤的。
需要說明的是,當使用正態分布(它是連續的)作為二項分布(它是離散的)的近似時,要對二項分布中的離散整數x進行連續性修正,將數值x用從x-0.5到x+0.5的區間來代替(即加上與減去0.5)。就本題而言,為了得到一個更好的近似,連續性修正就是令Pr(X≤8)≈Pr(X?<8.5)。所以有

此處無意要對連續性修正做過多的解釋,但請記住,若不使用連續性修正,那么所得P值將總是偏小,相應的置信區間也偏窄。
上述計算過程在R中可以使用prop.test來實現,示例代碼如下。

如同前面所分析的那樣,如果不使用正態分布對二項分布做近似,僅僅基于二項分布來進行檢驗也是可行的。此時需要用到binom.test函數,示例代碼如下。

2.2.2 兩類錯誤
對原假設提出的命題,要根據樣本數據提供的信息進行判斷,并得出“原假設正確”或者“原假設錯誤”的結論。而這個判斷有可能正確,也有可能錯誤。前面在假設檢驗的基本思想中已經指出,假設檢驗所依據的基本原理是小概率原理,由此原理對原假設做出判斷,而在整個推理判斷過程中所運用的是一種反證法的思路。由于小概率事件,無論其概率多么小,仍然還是有可能發生的,所以利用前面方法進行假設檢驗時,有可能做出錯誤的判斷。這種錯誤的判斷有兩種情形:一方面,當原假設H0成立時,由于樣本的隨機性,結果拒絕了H0,犯了“棄真”錯誤,又稱為第一類錯誤,也就是當應該接受原假設H0而拒絕這個假設時,稱為犯了第一類錯誤。當小概率事件確實發生時,就會導致拒絕H0而犯第一類錯誤,因此犯第一類錯誤的概率為α,即假設檢驗的顯著性水平。另一方面,當原假設H0不成立時,因樣本的隨機性,結果接受了H0,便犯了“存偽”錯誤,又稱為第二類錯誤。即當應該拒絕原假設H0而接受了這個假設時,稱為犯了第二類錯誤。犯第二類錯誤的概率為β。
當原假設H0為真,我們卻將其拒絕,如果犯這種錯誤的概率用α表示,那么當H0為真時,沒有拒絕它,就表示做出了正確的決策,其概率顯然就應該是1-α;當原假設H0為假,我們卻沒有拒絕它,犯這種錯誤的概率用β表示。那么,當H0為假,我們也正確地拒絕了它,其概率自然為1-β。正確決策和錯誤決策的概率可以歸納為表2-7。
表2-7 假設檢驗中各種可能結果及其概率

人們總是希望兩類錯誤發生的概率α和β都越小越好,然而,實際中,這很難做到。當樣本容量n確定后,如果α變小,則檢驗的拒絕域變小,相應的接受域就會變大,因此β值也就隨之變大;相反,若β變小,則不難想到α又會變大。我們有時不得不在兩類錯誤之間做權衡。通常來說,哪一類錯誤所帶來的后果更嚴重、危害更大,在假設檢驗中就應該把哪一類錯誤作為首選的控制目標。但實際檢驗時,通常所遵循的原則都是控制犯第一類錯誤的概率α,而不考慮犯第二類錯誤的概率β,這樣的檢驗稱為顯著性檢驗。這里所討論的檢驗,都是顯著性檢驗。又由于顯著性水平α是預先給定的,因而犯第一類錯誤的概率是可以控制的。而犯第二類錯誤的概率通常是不可控的。
2.2.3 均值檢驗
根據假設檢驗的不同內容和進行檢驗的不同條件,需要采用不同的檢驗統計量,其中z統計量和t統計量是兩個最主要也最常用的統計量。它們常常用于均值和比例的假設檢驗。具體選擇哪個統計量往往要考慮樣本量的大小以及總體標準差σ是否已知。事實上因為統計實驗往往是針對來自某一總體的一組樣本而進行的,所以更多的情況下,我們都認為總體標準差σ是未知的。在參數估計部分,我們已經學習了對單總體樣本的均值估計以及雙總體樣本的均值差估計,本節的內容大致上都是基于前面這些已經得到的結果而進行的。
樣本量大小是決定選擇哪種統計量的一個重要考慮因素。因為大樣本條件下,如果總體是正態分布,樣本統計量也服從正態分布;即使總體是非正態分布的,樣本統計量也趨近于正態分布。所以大樣本下的統計量將都被看成是正態分布的,此時需要使用z統計量。z統計量是以標準正態分布為基礎的一種統計量,當總體標準差σ已知時,它的計算公式如下

正如前面剛剛說過的,實際中總體標準差σ往往很難獲取,這時一般用樣本標準差s來代替,如此一來上述公式便可改寫為

在樣本量較小的情況下,且總體標準差未知,由于檢驗所依賴的信息量不足,只能用樣本標準差來代替總體標準差,此時樣本統計量就服從t分布,故應使用t統計量,其計算公式為

這里t統計量的自由度為n-1。
仍以土壤pH值檢驗的數據為例,現在想問該區域的土壤是否是中性的(即pH=7)?為此首先提出原假設和備擇假設如下:
H0:pH=7, H1:pH≠7
該題目顯然屬于小樣本且總體方差未知的情況,此時可以計算其t統計量如下

因為這是一個雙尾檢驗,所以可在R中計算其P值如下

注意到以上結果與先前使用t.test()函數算得的結果是一致的,下面我們就來分析一下這個結果意味著什么。首先可以在R中使用下面的代碼來求出雙尾檢驗的兩個臨界值。

由于原假設是pH=7,那么它不成立的情況就有兩種,要么pH>7,要么pH<7,所以它是一個雙尾檢驗。如圖2-4所示,其中兩部分陰影的面積之和占總圖形面積的5%,即兩邊各2.5%。一方面已經算得的t統計量要小于臨界值-2.1199,對稱地,t統計量的相反數也大于另外一個臨界值2.1199,即樣本數據的統計量落入了拒絕域中。樣本數據的統計量對應的P值也小于0.05的顯著水平,所以應該拒絕原假設。由此認為該區域的土壤不是中性的。

圖2-4 雙尾檢測的拒絕域與接受域
除了進行雙尾檢驗以外,當然還可執行一個單尾檢驗。比如現在問該區域的土壤是否呈酸性(即pH<7),那么便可提出如下的原假設與備擇假設
H0:pH=7, H1:pH<7
此時所得之t統計量并未發生變化,但是P值卻不同了,可以在R中算得P值如下。

如圖2-5所示,t統計量小于臨界值-1.7459,即樣本數據的統計量落入了拒絕域中。樣本數據的統計量對應的P值也小于0.05的顯著水平,所以應該拒絕原假設。由此認為該區域的土壤是酸性的。

圖2-5 單尾檢測的拒絕域與接受域
以上單尾檢驗過程也可以使用t.test()函數來完成,只需將其中的參數alternative的值置為“less”即可。下面給出示例代碼。

相比之下,討論雙總體均值之差的假設檢驗其實更有意義。因為在統計實踐中,最常被問到的問題就是兩個總體是否有差別。例如,醫藥公司研發了一種新藥,在進行雙盲對照實驗時,新藥常常被用來與安慰劑做比較。如果新藥在統計上不能表現出與安慰劑的顯著差別,顯然這種藥就是無效的。再比如前面討論過的飼料問題,當我們對比兩種飼料的效果時,必然要問及它們之間是否有差別。
同在研究雙總體均值差的區間估計問題時所遵循的思路一致,此時仍然分獨立樣本數據和配對樣本數據兩種情況來討論。
對于獨立樣本數據而言,如果兩個總體的方差和
未知,但是可以確定
,那么在此情況下檢驗統計量的計算公式為

其中s′的表達式本章前面曾經給出,這里不再重復。另外,t分布的自由度為n1+n2-2。
仍然以飼料與肉雞增重的數據為例,現在我們想知道兩種飼料在統計上是否有差異,為此提出原假設和備擇假設如下
H0:μ1=μ2, H1:μ1≠μ2
在原假設前提下,可以計算檢驗統計量的數值為

這仍然是一個雙尾檢測,所以可以使用如下所示的R代碼來求得檢驗臨界值。

因為-2.365≤-0.9019≤2.365,所以檢驗統計量落在了接受域中。更進一步還可以在R中使用下面的代碼來算得與檢驗統計量相對應的P值。

因為P值=0.397,大于0.05的顯著水平,所以我們無法拒絕原假設,即不能認為兩種飼料之間存在差異。以上計算結果與本章前面由t.test()函數所得之結果是完全一致的。
對于獨立樣本數據而言,若兩個總體的方差和
未知,且
,那么在此情況下檢驗統計量的計算公式為

此時檢驗統計量近似服從一個自由度為的t分布,
前面已經給出,這里不再重復。
仍然以飼料與肉雞增重的數據為例,并假設兩個總體的方差不相等,同樣提出原假設和備擇假設如下
H0:μ1=μ2, H1:μ1≠μ2
在原假設前提下,可以計算檢驗統計量的數值為

這仍然是一個雙尾檢測,所以可以使用如下所示的R代碼來求得檢驗臨界值

因為-2.658≤-0.9357≤2.658,所以檢驗統計量落在了接受域中。更進一步還可以在R中使用下面的代碼來算得與檢驗統計量相對應的P值。

因為P值=0.3968,大于0.05的顯著水平,所以我們無法拒絕原假設,即不能認為兩種飼料之間存在差異。以上計算結果與本章前面由t.test()函數所得之結果是完全一致的。
最后來研究雙總體均值差的假設檢驗,樣本數據屬于配對樣本的情況。此時的假設檢驗其實與單總體均值的假設檢驗基本相同,即把配對樣本之間的差值看成是從單一總體中抽取的一組樣本。在大樣本條件下,兩個總體間各差值的標準差σd未知,所以用樣本差值的標準差sd來代替,此時統計量的計算公式為

其中,d是一組配對樣本之間的差值,表示各差值的均值;μ表示兩個總體中配對數據差的均值。
在樣本量較小的情況下,樣本統計量就服從t分布,故應使用t統計量,其計算公式為

這里t統計量的自由度為n-1。
繼續前面關于雙總體均值差中配對樣本的討論,欲檢驗喂食了兩組不同飼料的肉雞在增重數據方面是否具有相同的均值,現提出下列原假設和備擇假設
H0:μ1=μ2, H1:μ1≠μ2
在原假設前提下,很容易得出配對差的均值μ也為零的結論,于是可以計算檢驗統計量如下

這仍然是一個雙尾檢測,所以可以使用如下所示的R代碼來求得檢驗臨界值。

因為3.235>2.571,所以檢驗統計量落在了拒絕域中。更進一步還可以在R中使用下面的代碼來算得與檢驗統計量相對應的P值。

因為P值=0.023 05,小于0.05的顯著水平,所以應該拒絕原假設,即認為兩種飼料之間存在差異。以上計算結果與本章前面由t.test()函數所得之結果是完全一致的。
- GNU-Linux Rapid Embedded Programming
- 現代測控電子技術
- 網上沖浪
- Blockchain Quick Start Guide
- 塊數據5.0:數據社會學的理論與方法
- 傳感器與物聯網技術
- 具比例時滯遞歸神經網絡的穩定性及其仿真與應用
- ESP8266 Home Automation Projects
- 新編計算機組裝與維修
- 電氣控制與PLC技術應用
- 大數據驅動的機械裝備智能運維理論及應用
- Building a BeagleBone Black Super Cluster
- 統計挖掘與機器學習:大數據預測建模和分析技術(原書第3版)
- 青少年VEX IQ機器人實訓課程(初級)
- ADuC系列ARM器件應用技術