官术网_书友最值得收藏!

2.2 數(shù)據(jù)的統(tǒng)計推論的基本方法

在實際工作中,我們常常會基于數(shù)據(jù)分析或統(tǒng)計推論來總結(jié)數(shù)據(jù)的規(guī)律,即根據(jù)抽樣的樣本數(shù)據(jù)選擇統(tǒng)計量,進而推斷數(shù)據(jù)的總體分布及數(shù)值特征等情況。統(tǒng)計推論是數(shù)理統(tǒng)計研究的核心。

2.2.1 數(shù)據(jù)抽樣

數(shù)據(jù)抽樣主要用于有效、正確地收集數(shù)據(jù),通過樣本情況來了解總體。

如果抽樣的樣本不能代表觀測的總體,則抽出的樣本存在偏倚。如果使用錯誤的樣本進行分析,則顯然會對數(shù)據(jù)的總體集中趨勢、離散趨勢和分布形態(tài)等進行錯誤的描述,甚至會形成截然不同的觀點,并做出錯誤的決策。因此,我們需要使用正確的抽樣方法做數(shù)據(jù)抽樣,以保證分析結(jié)果的準確性。

1.抽樣的基本方法

抽樣的基本方法包括簡單隨機抽樣、分層抽樣、整體抽樣和系統(tǒng)抽樣等,如表2-6所示。

表2-6

續(xù)表

簡單隨機抽樣被使用得最多,但是在選擇抽樣方法之前,需要適當了解數(shù)據(jù)的基本特征。

注意:抽樣的方法并不一定是一次性抽樣,而是一個逐步確定的過程。通過對第一次抽樣的樣本進行基礎數(shù)據(jù)分析,判斷該部分數(shù)據(jù)與總體數(shù)據(jù)的基本差異,如果差異過大,則修正抽樣方式。

我們可以通過抽樣的樣本數(shù)據(jù)對總體數(shù)據(jù)進行估計,估計的內(nèi)容包括集中趨勢、離散趨勢、分布形態(tài)等度量指標。同樣,根據(jù)中心極限定理可知,抽樣樣本的均值應該約等于總體均值。但是,抽樣樣本也有與總體存在已知差異的地方,例如,抽樣樣本的方差比總體的方差略小,這是因為樣本的數(shù)量少于總體,所以異常值的數(shù)量也比總體的要少,故其波動比總體方差小。

2.抽樣導致的數(shù)據(jù)偏差

抽樣的樣本經(jīng)過糾正或調(diào)整后,可使得樣本的數(shù)據(jù)情況與總體的數(shù)據(jù)情況類似,但是仍然存在數(shù)據(jù)偏差現(xiàn)象,典型的偏差類型有樣本偏差、幸存者偏差、概率偏差、信息繭房等,如表2-7所示。

表2-7

續(xù)表

2.2.2 參數(shù)估計

參數(shù)估計(Parameter Estimation)是指根據(jù)抽取的隨機樣本來估計總體分布中未知參數(shù)的過程。若按照參數(shù)估計形式進行分類,則可以分為點估計(Point Estimation)和區(qū)間估計(Interval Estimation)兩種,它們之間的對比如表2-8所示。

表2-8

1.點估計

總體分布參數(shù)在很多情況下是未知的,點估計是使用樣本來計算一個值(如均值、方差等)。由于計算的是一個未知的值,因此稱作點估計。點估計值通常被當作未知數(shù)的最可能的值,例如,估計一個城市的常住人口數(shù)量。

在點估計中,常見的估計方法有極大似然估計、最小二乘估計、貝葉斯估計等,估計原理如表2-9所示。

表2-9

當然,對于點估計的最終結(jié)果是需要進行評估的,一般來說,評估方法應包括無偏性、有效性和一致性三個方面。

(1)無偏性。如果估計值的期望值等于被估計的參數(shù)值,則稱此估計量為無偏估計,與之相反,則稱為有偏估計。一般來說,若是多次抽樣樣本的點估計結(jié)果均在期望值附近輕微擺動,則可以說估計結(jié)果是無偏的。無偏性的直觀意義是樣本估計量的數(shù)值在參數(shù)的真值附近擺動。如圖2-6所示,中間的小實心圓表示目標值,虛線表示允許的誤差范圍,一個“×”代表一個估計值。

圖2-6

(2)有效性。若估計值越靠近目標,效果越好,則這個靠近可以用方差來衡量。此外,有效性與無偏性沒有直接關(guān)系,但是當一個參數(shù)有多個無偏估計時,則估計方差越小,估計值越有效,如圖2-7所示。

圖2-7

(3)一致性。在點估計過程中,若隨著樣本量的不斷增大,參數(shù)的估計結(jié)果均趨于被估計的參數(shù)值,則表明估計具有一致性。

2.區(qū)間估計

區(qū)間估計是以一定的概率保證估計包含總體參數(shù)的一個值域。通常是給定置信水平,根據(jù)估計值確定真實值可能出現(xiàn)的區(qū)間。該區(qū)間通常以估計值為中心,被稱為置信區(qū)間。

用抽樣的樣本來估計總體是很難達到絕對準確無誤的,因此在估計總體指標時,必須同時考慮估計誤差的大小區(qū)間。一方面,區(qū)間估計對范圍的大小進行了估計;另一方面,估計了總體指標落在這個區(qū)間的概率。區(qū)間估計既可以表明估計結(jié)果的準確度,又可以表明這個估計結(jié)果的可靠度,因此區(qū)間估計的結(jié)果非常具有邏輯性。

例如,在使用樣本均值對總體均值進行估計時,樣本均值的分布規(guī)律大致如下:

(1)當為大樣本時,樣本均值服從期望值為總體均值μ、方差為σ2/n的正態(tài)分布。

總體均值μ在1-α的置信水平下的置信區(qū)間為,zα/2標準正態(tài)分布的α/2分位點。相當于給樣本均值的標準差提供了一個系數(shù)。在實際使用時一般是查詢標準正態(tài)分布表,其中,被稱作置信下限,被稱作置信上限。

(2)當為小樣本時,總體也服從正態(tài)分布的前提下,若已知標準差σ,則樣本均值服從正態(tài)分布,標準化之后服從標準正態(tài)分布,總體均值μ在1-α的置信水平下的置信區(qū)間為。若未知標準差σ,則樣本均值經(jīng)過標準之化后服從自由度為n-1的t分布,總體均值μ在1-α的置信水平下的置信區(qū)間為

區(qū)間估計在實際生活中十分常見,即使不懂算法原理也經(jīng)常會用到。例如,預估明天的氣溫,一般來說會說氣溫在30℃左右或30℃~35℃,很少會說31.5℃。如果加上概率,則會說“明天氣溫90%的概率在30℃~35℃”。

下面用一個示例介紹區(qū)間估計的計算。假設果園里有一片桃樹,隨機測量了49個桃子,平均直徑為56mm,標準差為10mm,設定置信水平在95%時計算桃子可能的真實平均直徑區(qū)間,計算公式為。目前已知樣本均值,由標準正態(tài)分布表可知,在95%置信水平下系數(shù)z=1.96、標準差σ=10、n=49,則桃子在95%的置信水平下真實平均直徑區(qū)間為(53.2mm, 58.8mm)。

2.2.3 假設檢驗

假設檢驗(Hypothesis Testing)是一種統(tǒng)計推斷方法,用于判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起的,還是本質(zhì)差別造成的。在假設檢驗中,關(guān)鍵問題有兩個:一方面,在原假設成立的情況下,如何計算樣本值或某一極端值發(fā)生的概率;另一方面,如何界定小概率事件。

1.基本思路

假設檢驗的基本思路如下:

① 對總體參數(shù)值提出假設,又稱作原假設;

② 利用樣本數(shù)據(jù)提供的信息驗證提出的假設是否成立(即統(tǒng)計推斷的過程)。

如果樣本數(shù)據(jù)提供的信息不能證明原假設成立,則應拒絕原假設;反之,如果樣本數(shù)據(jù)提供的信息不能證明原假設不成立,則不應拒絕原假設。

在統(tǒng)計學里面定義了一個P值,用來反映某一事件發(fā)生的可能性大小。在假設檢驗中,一般用P值來衡量檢驗結(jié)果。P值表示當原假設為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。如果P值很小,則說明原假設情況發(fā)生的概率很??;反之,根據(jù)小概率原理,則可以拒絕原假設。一般來說,P值越小,結(jié)果越顯著。

注意:檢驗結(jié)果的顯著程度是根據(jù)P值的大小和實際情況來定的。

假設檢驗的核心思想是“小概率反證法”,在假設的前提下,估算某事件發(fā)生的可能性。如果該事件是小概率事件,通常在一次檢驗中是不可能發(fā)生的,但是卻發(fā)生了,這時就可以推翻之前的假設,接受備選假設。

例如,對于假設問題“通過拋硬幣猜正反面游戲,判斷張三是否具備準確猜硬幣正反面的能力”??紤]到一般人不具備該能力,因此原假設為“張三不具備該能力”,備選假設為“張三具備該能力”。

在10次拋硬幣猜正反面游戲?qū)嶒炛?,假定結(jié)果為其中9次張三準確猜出正反面。

判斷張三是否具備該能力的方法是,若每次猜對正反面的概率是概率極低,假定猜對8次,則說明張三具備猜硬幣正反面的能力。計算猜對8次及以上的概率為式(2-3)。

因此原假設存在比較顯著的差異,用1減P值表示備選假設的置信度,因此拒絕原假設,備選假設成立,即張三具備該能力。

常用的假設檢驗方法有參數(shù)檢驗(Parameter Test)和非參數(shù)檢驗(Non-Parametric Test)兩種。一般來說,參數(shù)檢驗會假設總體服從正態(tài)分布,樣本統(tǒng)計服從t分布,并對總體分布中的一些未知參數(shù)進行統(tǒng)計推斷。如果總體分布未知并且樣本量較小,無法通過中心極限定理推斷出總體的集中趨勢和離散趨勢,則在這種情況下,可以使用非參數(shù)檢驗。非參數(shù)檢驗不對總體分布進行任何假設,而是直接通過樣本分析推斷總體分布。參數(shù)檢驗和非參數(shù)檢驗的對比如表2-10所示。

表2-10

與參數(shù)檢驗相比,非參數(shù)檢驗的適用范圍更廣,特別適用于小樣本、總體分布未知或偏態(tài)、方差不齊,以及混合樣本等類型的數(shù)據(jù)。

2.參數(shù)檢驗

參數(shù)檢驗是在數(shù)據(jù)分布已知的情況下,對數(shù)據(jù)分布的參數(shù)是否落在相應范圍內(nèi)進行檢驗。其中,總體分布是給定的或是假定的,只是其中一些參數(shù)的取值或范圍未知,分析的主要目的是估計參數(shù)的取值,或?qū)ζ溥M行某種統(tǒng)計檢驗。參數(shù)檢驗有兩類經(jīng)典的假設問題,總體均值假設問題和總體比例假設問題。

(1)總體均值假設問題。例如,根據(jù)某果園的統(tǒng)計資料,上一年該果園蘋果的平均重量為203克。為判斷該果園今年的蘋果重量與上一年相比有無顯著差異,從該果園中隨機抽取300個蘋果,測得其平均重量為196克。從樣本數(shù)據(jù)看,上一年的蘋果重量比今年的略高,但這種差異可能是由抽樣的隨機性帶來的,即上一年的蘋果重量和今年的并沒有顯著差異。究竟是否存在顯著差異?可以先假設上一年的蘋果重量和今年的沒有顯著差異,然后利用樣本信息檢驗這個假設是否成立。

(2)總體比例假設問題。例如,某廠生產(chǎn)的鋼材,按規(guī)定該鋼材長度不得小于250cm,現(xiàn)從某批鋼材中任意抽取50根,發(fā)現(xiàn)有3根鋼材長度小于250cm。若規(guī)定在一批鋼材中,鋼材長度不合格的比例達到5%就不得出廠,問該批鋼材能否出廠?可以先假設該批鋼材的不合格率不超過5%,然后用樣本不合格率來檢驗假設是否正確。

參數(shù)檢驗的步驟大致如下:

① 提出原假設H0和備選假設H1。H0表示樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1表示樣本與總體或樣本與樣本間存在本質(zhì)差異。提前設定檢驗水準α為0.05或0.01。

② 選定統(tǒng)計檢驗的方法,由樣本觀測值按相應的公式計算出統(tǒng)計量的大小,根據(jù)數(shù)據(jù)的類型和特點,可分別選用單樣本t檢驗、F檢驗、獨立樣本t檢驗、配對樣本t檢驗和二項分布檢驗等,如表2-11所示。

表2-11

續(xù)表

③ 根據(jù)統(tǒng)計量的大小及其分布,確定檢驗假設成立的可能性P值的大小并判斷結(jié)果。若P>α,結(jié)論為按α所取水準不顯著,不拒絕原假設H0,即認為差別很可能是由抽樣誤差造成的,在統(tǒng)計上不成立;如果Pα,結(jié)論為按α所取水準顯著,拒絕原假設H0,接受備選假設H1,認為此差別不大,可能僅由抽樣誤差所致,故在統(tǒng)計上成立。

參數(shù)檢驗在實際中應用非常廣泛,為了更好地理解參數(shù)檢驗,下面通過示例介紹參數(shù)檢驗的基本思路和方法,如表2-12所示。

表2-12

設該校男生的身高為X,符合正態(tài)分布,即XN(μ,σ2),樣本均值為、樣本標準差為S,需檢驗假設,即H0:μ=170,H1:μ≠170。由于σ2未知,因此可以采用t檢驗,當原假設H0為真時:

統(tǒng)計量,拒絕域為。

由于n=49,,S=15,t0.025(48)≈2.01(查詢t檢驗臨界值分布表得來的),可計算|t|:

因此可以接受原假設H0,認為在顯著性水平為0.05下,該校男生的平均身高為170cm。

3.非參數(shù)檢驗

非參數(shù)檢驗:對總體分布形式所知甚少,需要對未知分布函數(shù)的形式及其他特征進行假設檢驗。參數(shù)檢驗是針對參數(shù)做的假設,非參數(shù)檢驗是針對總體分布情況做的假設,二者的根本區(qū)別在于參數(shù)檢驗要用到總體的信息,以總體分布和樣本信息對總體參數(shù)進行推斷,非參數(shù)檢驗則無須利用總體的信息。

非參數(shù)檢驗的檢驗方法相對較多,但是這些方法是有共性的,基本的思想比較相似,考慮到非參數(shù)檢驗未知總體分布,因此可以通過排秩(排序或相對大?。┑姆椒ㄒ?guī)避不是正態(tài)分布的問題,用抽樣樣本的排序情況推斷總體的分布情況。例如,從已知有序的數(shù)值序列中隨機抽取幾個數(shù)值,若抽樣數(shù)值是降序排列的,則可以估計總體也符合降序排列。非參數(shù)檢驗的部分檢驗方法如圖2-8所示。

圖2-8

以二項分布檢驗為例,假設檢驗問題為某水生植物在我國河流中的覆蓋率是否達到30%(5%顯著性水平),通過在國內(nèi)各個河流中抽樣,發(fā)現(xiàn)總抽樣的121個河流中有48個河流發(fā)現(xiàn)了該水生植物的存在。

因此設定原假設H0為該水生植物在我國的河流中覆蓋率未超過30%,設定備選假設H1為該水生植物在我國的河流中覆蓋率已超過30%。若原假設H0成立,則該覆蓋率的總體是一個伯努利分布,因此總體均值為0.3,方差為p(1-p)=0.3×0.7=0.21,標準差約為0.46,無須基于樣本的方法進行估計。

根據(jù)中心極限定理,樣本的均值分布符合正態(tài)分布,即此樣本的均值等于總體的均值,即0.3,而此正態(tài)分布的標準差為總體標準差。而實際抽樣的情況是樣本均值為,由此可計算出統(tǒng)計量:。查詢標準正態(tài)分布表單側(cè)0.05的z值結(jié)果為1.65,因此拒絕原假設H0。

參數(shù)檢驗的效果要優(yōu)于非參數(shù)檢驗,因此當數(shù)據(jù)符合參數(shù)檢驗的條件時,建議優(yōu)先采用參數(shù)檢驗。如果數(shù)據(jù)條件適當,則可以將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布的序列;如果數(shù)據(jù)條件不適當,則采用非參數(shù)檢驗。兩者的優(yōu)/劣勢對比如表2-13所示。

表2-13

主站蜘蛛池模板: 应用必备| 咸丰县| 马公市| 日土县| 尚志市| 沾化县| 昭平县| 天峻县| 扬中市| 远安县| 南阳市| 汤原县| 永丰县| 方城县| 益阳市| 扬州市| 乃东县| 新郑市| 青岛市| 抚顺市| 民乐县| 上栗县| 永泰县| 昌吉市| 柘城县| 滦平县| 健康| 渑池县| 尚志市| 张家界市| 喀喇| 德州市| 伊吾县| 漠河县| 武陟县| 长武县| 吴江市| 柯坪县| 杭锦后旗| 乐山市| 西林县|