官术网_书友最值得收藏!

6.隨處可見的鐘形曲線:中心極限定理

上一節中,通過賭徒謬誤介紹了概率論中的大數定律。大數定律說的是當隨機事件重復多次時頻率的穩定性,隨著試驗次數的增加,事件發生的頻率逐漸穩定于某個常數,即實驗得到的頻率將趨近于預期的“概率”。對拋硬幣實驗而言,如果硬幣是兩面理想對稱的,那么,拋多次之后,正面(1)出現的頻率將逼近0.5;如果硬幣不對稱,正面(1)出現的頻率也將逼近某一個極限值p,即出現1的概率。

· 概率分布函數

大數定律決定試驗多次后平均值的極限,但并未涉及事件頻率(或者概率)的分布問題。隨機變量取值概率形成的分布稱為概率分布。概率分布函數在概率論中有其嚴格的定義,這里我們首先從通俗意義上理解一下“分布”。

圖1-6-1 概率分布函數和概率密度函數例子

(a)3歲男孩身高的分布;(b)分布函數和密度函數

比如說,統計100個3歲男孩的身高數據,結果如圖1-6-1(a)左邊的表格所示。我們可以將男孩的身高看作一個隨機變量,這100個數據代表身高的100個樣本值。這些樣本值從91cm 到100cm 變化,表中沒有給出每個樣本的準確數值,只給出了每1 cm范圍中的樣本數目(人數)。位于每一段身高范圍中的人數可以轉換成身高取值在該范圍的概率,分別對應于1-6-1(a)右圖中的兩個垂直坐標軸。由此數據可計算身高的平均值大約為95.5cm。顯而易見,平均值僅僅描述了這100個數據的部分特征,并不能說明100個數據在每個值附近的分布情況。也就是說,分布描述的是每一個不同的數據段中的人數,在總人數中所占的比例,也就是概率。比如,從1-6-1(a)右圖可知:男孩身高在95~96cm 的概率是22%,93~94cm 的概率是14%,99~100cm的概率是2%……

圖1-6-1(a)右圖所示圖像的包絡線是概率分布的密度函數px)。另一個相關概念是概率分布函數Px0),指的是xx0范圍內事件發生的概率。概率分布函數和概率密度函數之區別見圖1-6-1(b)。

· 二項分布

回到拋硬幣的例子,拋硬幣的概率可以用二項分布描述。比如說,我們將一枚均勻硬幣拋4次,正反(1、0)出現的可能性有16種(可用從0000到1111的16個二進制數表示),大數定律中涉及的概率p=0.5,指的是這16種情形的平均值。而所謂“分布函數”,則是描述這16種可能性在概率圖中分別所處的位置。從理論上說,這16種可能性中,1出現0、1、2、3、4次的概率,分別是1/16、4/16、6/16、4/16、1/16。圖1-6-2(a)顯示的便是當實驗次數n=4時,1的概率對不同“出現次數”的分布情形。

圖1-6-2 多次拋硬幣得到正面的概率分布(彩圖附后)

(a)正面的次數;(b)二項分布

顯而易見,拋硬幣概率的分布圖形隨著拋擲次數n的變化而變化。拋硬幣實驗n次的概率分布就是二項分布。對對稱硬幣來說,二項分布是一個取值對應于二項式系數的離散函數,也就是帕斯卡三角形中的第n行。當實驗次數n增大,可能的排列數也隨之增多,比如,當n=4時對應于(1、4、6、4、1);當n=5時,對應于帕斯卡三角形中的第5行(1、5、10、10、5、1)……然后再依次類推下去。圖1-6-2 (b)中,畫出了n=5、20、50的概率分布圖。

圖1-6-2所示是“概率”分布圖,不是真實實驗所得的“頻率”分布圖。中心極限定理說的不僅僅是當實驗次數很大時“頻率”逼近“概率”的問題,而更為重要的是:當n足夠大時,二項分布逼近一個特別的理想分布:正態分布,也被稱為高斯分布。因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。

為了更為直觀地理解大數定律和中心極限定理,在圖1-6-3中,將拋硬幣所得的結果用數值表示(正面=1,反面=-1)。如此賦值以后,大數定律指的是:拋硬幣多次(n趨近無限大)后,結果的平均值將趨近于0,即正反面出現次數相等,其數值相加而互相抵消了。中心極限定理則除了考慮平均值(=0)之外,還考慮結果的分布情形:如圖1-6-3(b)所示,如果只拋1次,出現正面(1)和反面(-1)的概率相等,對應于公平硬幣的等概率分布,平均值為0。當拋擲次數n增加,平均值的極限值仍然保持為0,但點數和的分布情形變化了。n趨近無窮時,分布趨于正態分布,這是中心極限定理的內容。

圖1-6-3 大數定律和中心極限定理(彩圖附后)

(a)大數定律:平均值趨于0; (b)中心極限定理:趨于正態分布

二項分布不一定是對稱的。圖1-6-2及圖1-6-3的圖形對稱,因為所示是均勻硬幣(p=0.5)的概率分布,如果正面出現的概率p不等于0.5,即不是理想的均勻硬幣的話,得到正反兩面的概率不同,概率分布圖便可能不對稱。圖1-6-4顯示的是p=0.1到1變化,n=20的概率分布圖。

圖1-6-4 不對稱二項分布

除了二項分布之外,還有許多其他類型的概率分布,如泊松分布、指數分布、幾何分布等。此外,對連續型隨機變量,概率分布函數的概念用概率密度函數代替。

最常見的概率分布是正態分布。

正態分布最早是法國數學家棣莫弗(1667—1754)在1718年左右發現的。他為解決朋友提出的一個賭博問題,而去認真研究了二項分布。他發現當實驗次數增大時,二項分布(p=0.5)趨近于一個看起來呈鐘形的曲線。從圖1-6-2(b)中n=50的二項分布也看出這點。因為二項分布中需要用到階乘的計算,棣莫弗由此而首先發現了(后被斯特靈證明)斯特靈公式,很方便用于n很大時階乘的近似計算。棣莫弗進一步從理論上推導出了高斯分布的表達式。

大量的統計實驗結果告訴我們:鐘形曲線隨處可見。我們的世界似乎被代表正態分布的“鐘形”包圍著,很多事物都是服從正態分布的:人的高度、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數、面包的分量、學生的考試分數,等等。19世紀的著名數學家龐加萊曾經說過:“每個人都相信正態法則,實驗家認為這是一個數學定理,數學家認為這是一個實驗事實。”大自然造物的美妙深奧、鬼斧神工,往往使人難以理解。鐘形分布曲線無處不在,這是為什么呢?其奧秘來自于中心極限定理。

· 中心極限定理

如上所述,棣莫弗證明了p=0.5時二項分布的極限為高斯分布。后來,著名法國數學家拉普拉斯對此作了更詳細的研究,并證明了p不等于0.5時二項分布的極限也是高斯分布。之后,人們將此稱為棣莫弗—拉普拉斯中心極限定理【11】

再后來,中心極限定理的條件逐漸從二項分布推廣到獨立同分布隨機序列,以及不同分布的隨機序列。因此,中心極限定理不是一個定理,成為研究何種條件下獨立隨機變量之和的極限分布為正態分布的一系列命題的統稱。

不得不承認中心極限定理的奇妙。在一定條件下,各種隨意形狀概率分布生成的隨機變量,它們加在一起的總效應,是符合正態分布的。這點在統計學實驗中特別有用,因為實際上的隨機生物過程或物理過程,都不是只由一個單獨的原因產生的,它們受到各種各樣隨機因素的影響。然而,中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什么樣的,當實驗次數n充分大時,所有這些隨機分量之和近似是一個正態分布的隨機變量(圖1-6-5)。

圖1-6-5 中心極限定理

在實際問題中,常常需要考慮許多隨機因素所產生的總影響。例如,許多因素決定了人的身高:營養、遺傳、環境、族裔、性別,等等,這些因素的綜合效果,使得人的身高基本滿足正態分布。另外,在物理實驗中,免不了有誤差,而誤差形成的原因五花八門。如果能夠分別清楚產生誤差的每種單一原因,誤差的分布曲線可能不是高斯的,但是所有誤差加在一起時,實驗者通常得到一個正態分布。

· 高爾頓釘板試驗

弗朗西斯·高爾頓(Sir Francis Galton,1822—1911)是英國著名的統計學家、心理學家和遺傳學家。他是達爾文的表弟,雖然不像達爾文那樣聲名顯赫,但也不是無名之輩。并且,高爾頓幼年是神童,長大是才子,九十年的人生豐富多彩,是個名副其實的博學家。他涉獵范圍廣泛,研究水平頗深,縱觀科學史,在同輩學者中能望其項背之人寥寥可數。他涉足的領域包括天文、地理、氣象、機械、物理、統計、生物、遺傳、醫學、生理、心理等,還有與社會有關的人類學、民族學、教育學、宗教,以及優生學、指紋學、照相術、登山術,等等。

在達爾文發表了《物種起源》之后,高爾頓也將研究方向轉向生物及遺傳學,他第一個對同卵雙胞胎進行研究,論證了指紋的永久性和獨特性。他從遺傳的觀點研究人類智力并提出“優生學”,是第一個強調把統計學方法應用到生物學中去的人,他設計了一個釘板實驗,希望從統計的觀點來解釋遺傳現象。

如圖1-6-6中所示,木板上訂了數排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子之間;從入口處放入若干直徑略小于釘子間距的小球,小球在下落的過程中碰到任何釘子后,都將以1/2的概率滾向左邊,以1/2的概率滾向右邊,碰到下一排釘子時又是這樣。如此繼續下去,直到滾到底板的格子里為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似于正態分布。因此,高爾頓釘板實驗直觀地驗證了中心極限定理。

圖1-6-6 高爾頓釘板實驗

· 中心極限定理的意義

中心極限定理似乎解釋了處處是正態分布的原因,但仔細一想又不明白了:為什么大自然這個“上帝”創造出來一個中心極限定理呢?科學之所以如此有趣,正是在于這種連續不斷的“為什么”激發出來的好奇心,一個又一個的追問和困惑吸引我們對世界萬物進行永無止境的探索!

物理學中有一個最小作用量原理【12】,無疑是大自然最迷人、最美妙的原理之一。它的簡潔性和普適性令人震撼,就像歌德的詩句中所描述的:“寫這靈符的是何等神人?使我內心的沸騰化為安寧,寸心充滿歡愉!它以玄妙的靈機,為我揭開自然的面巾!”大自然猶如一個經濟學家,總是使得物理系統的作用量取極值。概率和統計中的中心極限定理,往往也帶給人們類似的震撼和驚喜。事實上,中心極限定理也與一個極值“原理”有關,那是我們在本書的后面章節中將介紹的“熵最大原理”。正態分布是在所有已知均值及方差的分布中,使得信息熵有最大值的分布。換言之,正態分布是在均值以及方差已知的各種分布中,被大自然選擇出來的“特殊使者”,有其深奧的物理意義,充分表現出隨機中的必然。就像光線選擇時間最短的路徑傳播,引力場中的物體沿測地線運動一樣,隨機變量按照最優越的鐘形曲線分布!

就數學理論而言,正態分布的確有不少優越性:①兩個正態分布的乘積仍然是正態分布;②兩個正態分布的和是正態分布;③正態分布的傅里葉變換仍然是正態分布。

我們還可以用與微積分中泰勒展開類比的方法,來理解大數定律和中心極限定理。微積分中,將一個連續可導函數fx)在a的鄰域泰勒展開為冪級數,可以近似計算函數的值:

這里,0階近似fa)是fx)在a處的值,1階修正中的f′a)是fx)在a處的一階導數值……剩余的是高階小量,一定的條件下可忽略不計。從上式可知,函數泰勒展開的n階系數是函數的n階導數除以n的階乘,即fn)a)/n! 。類似于此,我們可對隨機變量X作形式上的展開:

X=nEX)+sqrt(n)std(XN(0,1)+…

其中隨機變量的期望值EX)對應于fa),標準方差的平方根std(X)對應于一階導數,正態分布N(0,1)對應于(x-a),后面是可以忽略的高階小量。此外,也可以用物理學中“矩”的概念來描述隨機變量的各階參數:期望值μ是一階矩,方差σ2是二階矩。大數定律給出一階矩,表示隨機變量分布的中心;中心極限定理給出二階矩(方差),表示分布對中心(期望值)的離散程度。如果還考慮高階小量的話,三階矩對應“偏度”,描述分布偏離對稱的程度;四階矩對應峰度,描述隨機分布“峰態”的高低。正態分布的偏度和峰度皆為0,因此,正態分布只需要兩個參數μσ就完全決定了分布的性質,見圖1-6-7(b)。圖1-6-7(a)顯示的是,無論總體分布是何種形狀,根據中心極限定理,當抽樣數n足夠大時,其分布可用兩個簡單參數的正態分布近似。這點給實際計算帶來許多方便,再一次體現了中心極限定理的威力。

圖1-6-7 正態分布

(a)總體分布和抽樣分布;(b)正態分布兩個參數μσ

· 中心極限定理的應用

中心極限定理從理論上證明了,在一定的條件下,對于大量獨立隨機變量來說,只要每個隨機變量在總和中所占比重很小,那么不論其中各個隨機變量的分布函數是什么形狀,也不論它們是已知還是未知,當獨立隨機變量的個數充分大時,它們的和的分布函數都可以用正態分布來近似。這就是為什么實際中遇到的隨機變量,很多都服從正態分布的原因,這使得正態分布既成為統計理論的重要基礎,又是實際應用的強大工具。中心極限定理和正態分布在概率論、數理統計、誤差分析中占有極其重要的地位。

正態分布的應用非常廣泛,下面便舉兩個簡單例子予以說明。

例1:小王到某保險公司應聘,經理給他出了一道考題:如果讓你設計一項人壽保險,假設客戶的數目有1萬左右,被保險人每年交200元保費,保險的賠償金額為5萬元,估計當地一年的死亡率(自然+意外)為0.25%左右,那么你會如何計算公司的獲利情況?

小王在經理面前緊張地估算了一下:從1萬個客戶得到的保費是200萬元,然后1萬人乘以死亡率,可能有25人死亡,賠償金額為25×5萬元,等于125萬元。所以,公司可能的收益應該是200萬元減去125萬元,等于75萬元左右。經理面露滿意的笑容,但又繼續問:75萬元只是一個大概可能的數目。如果要你具體大略地估計一下,比如說公司一年內從這個項目得到的總收益為50萬~100萬元的概率是多少,或者是需要估計公司虧本的概率,你怎么算呢?

這下難倒了小王:要真正計算概率需要用到分布,這是什么分布啊?小王腦袋里突然冒出大學統計課上學過的“中心極限定理”。1萬個客戶的數目應該足夠大了,所以這道題目應該可以用正態分布來計算。然而,正態分布需要知道平均值和方差,又該如何計算它們呢?小王心想,這種人壽保險的規則是,受保人死亡公司給賠償,沒死就不賠償,是一個像拋硬幣一樣的“二項分布”問題,只不過這里死亡的概率比較小,不像拋公平硬幣時正面(或反面)出現的概率各有50%。這個問題中保險公司賠償的概率只是0.25%。但沒關系,照樣可以應用正態分布來近似,只要知道了期望和方差,概率便不難計算。小王回想起來正態分布的簡單圖像以及幾個關鍵數值,于是,在紙上畫了畫,算了算(圖1-6-8):這個具體情況下,二項分布的平均值μ=EX)=np=10000×0.25%=25,二項分布的方差(σ2=Var(X)=np(1-p)=25),由此可以得到σ=5。

圖1-6-8 正態分布用于估計人壽保險

然后,要計算公司賺50萬~100萬元的概率,從圖1-6-8可知,也就是死亡人數在20~30之間的概率,剛好就是從μ-σμ+σ之間的面積,在68.2%左右。至于公司何種情況下會虧本呢?直觀而言,如果死亡的人數多于40,公司便虧本了,概率到底是多少呢?同樣可用正態分布圖進行估計,40和25之間相差15,等于3σ,因而得到概率大約等于0.1 %,所以,保險公司虧本的概率幾乎為零。

例2:圖1-6-9(a)是美國2010年1547990個SAT考試成績的原始數據,其中有1313812個分數在1850之下,有74165個成績是在2050分以上。由此我們從原始數據可以算出:分數在1850分之下的比例是84.9%,分數在2050之上的比例是4.79%。

圖1-6-9 SAT成績

(a)SAT成績原始數據;(b)求分數低于1850分的比例;(c)求分數高于2050分的比例

圖1-6-9 (續)

另一方面,原始的結果可以用一個平均分數μ=1509,標準方差的平方根σ=312的正態曲線來近似。因此,我們也可以從正態分布曲線來計算分數低于1850分及高于2050分的百分比,它們分別對應于圖1-6-9(b)和(c)中陰影部分的面積。根據高斯積分求出兩個圖中的面積分別為0.8621和0.0418。對照從原始數據的計算結果0.849和0.0479,相差非常小。

主站蜘蛛池模板: 沈丘县| 基隆市| 阿拉善左旗| 固原市| 大同市| 卓尼县| 马尔康县| 邵东县| 十堰市| 绍兴县| 西乌珠穆沁旗| 宁城县| 民和| 萨迦县| 潮安县| 顺平县| 淄博市| 克山县| 左云县| 德钦县| 清流县| 昌吉市| 徐汇区| 黄梅县| 木兰县| 麻栗坡县| 哈尔滨市| 湟中县| 开封县| 敦煌市| 瓦房店市| 玉溪市| 铜陵市| 华阴市| 铁岭县| 南丹县| 台中县| 巨鹿县| 云阳县| 淮北市| 鹤峰县|