官术网_书友最值得收藏!

第四章 正態分布和極限定理

第一節 什么是正態分布

第二章談到,為了全面了解變量,必須研究它的分布。分布的圖形是多種多樣的,有單峰、雙峰、對稱、非對稱、偏態、U形、J形等等。但在自然、經濟、社會等領域內,如人的身高、體重、一片森林的高度、學生成績、人的智商、測量的誤差、甚至公共入口門檻的磨損、海浪的高度等等隨機變量,都服從一類確定的分布規律,這類分布規律叫做正態分布。這種分布除了在自然界、社會經濟生活中大量存在外,還由于任何變量,不管其原有分布如何,如果把它們n個加在一起,當n大于一定數之后,例如大于30(n>30),那么,其和的分布必然接近正態分布。這就是有名的中心極限定理。它在抽樣、統計推論中都占有很重要的位置。因此,可以說,在各種分布中,正態分布居于首要的地位。

正態分布(又稱常態分布或高斯分布),是最初由德國數學家高斯在研究誤差理論時發現的。現在通過實例來闡述導出正態分布的思想和方法,這是很有啟發性的。

[例]1.以下是100人初婚年齡的統計。根據統計分為七個區間,如表4-1所示。

表 4-1

根據表中數據,它的頻率直方圖,如圖4-1所示。

圖 4-1

圖中橫軸為變量x,縱軸為頻率密度=頻率/組距。由于年齡是連續型的變量,我們可以把區間越分越細,不是用兩歲作為一個區間,而是用一歲,半歲……甚至更小到無窮小,作為一個區間,于是直方圖寬度越變越細,最終只剩下了中心值形成的線段,現在把這些緊挨著的中心值連接起來,就成了一條平滑的曲線,它稱作為正態分布的密度曲線,可見,分布密度曲線φ(x)實際上就是頻率直方圖的極限分布或理論分布。

分布密度曲線也可稱作概率密度曲線,因為分布密度下任意兩點x1-x2之間的面積,從直方圖來說,就是變量x在取值區間x1-x2的頻率,區間的頻率越高,人們從總體中抽取到該區間的可能性越大,而可能性大小是用概率來度量的,因此,對于平滑了的分布密度曲線,我們把頻率引申為概率P,縱軸的單位把頻率密度引申為概率密度。(頻率和概率的關系,在本章后面的大數定理中,還會進一步說明。)把分布密度曲線稱為概率密度曲線。而概率的概念對抽樣調查更為重要。

從圖(4-1)上可以看到,這條分布密度曲線φ(x)具有對稱起伏的形狀,形成“鐘形”曲線。它具有如下三個特征。

1.一個高峰:曲線是單峰,有一個最高點。

當x向左或向右遠離時,曲線不斷地降低。“中間高,兩邊低”與一個尖塔或古鐘相似。

2.一個對稱軸。曲線在高峰處有一個對稱軸,在軸的左右兩邊是對稱的。對稱軸是直線x=μ。

3.一個漸近線。曲線無論向左或向右延伸,都愈來愈接近橫軸,但不會和橫軸相交,以橫軸為漸近線。

由于正態分布曲線是單峰、對稱的。因此具有這種分布的變量,它的眾值、中位值和均值三者必然是重疊的。

根據實踐的經驗和理論的分析,正態分布的分布密度(概率密度)表達式(4-1)為:

其中π=3.14,e=2.72。

從正態分布的數學表達式,可以看出,當μ和σ確定后,正態曲線的圖形也就唯一地被確定了。μ和σ稱作正態分布曲線的兩個參數。

下面分別討論這兩個參數對曲線形狀的影響。

1.φ(x)在x=μ處達到峰值,在x=μ±σ處有拐點,且以直線x=μ為對稱軸(圖4-2)。

圖 4-2

因此,在σ2一定的情況下,若μ增大,則圖形右移,反之μ減小,則圖形左移,但整個圖形形狀不變(圖4-3)。

圖 4-3

其中μ3>μ2>μ1?

2.改變σ2值:當μ不變的情況下,σ越小,則對應的圖形越尖瘦。圖4-4給出了σ=2,σ=1,σ=0.5三種正態分布密度曲線。

圖 4-4

綜合圖4-3和圖4-4,說明正態分布曲線的位置,是由μ決定的。而正態分布曲線的形狀“高、矮、胖、瘦”的特點,則是由σ所決定。

那么,參數μ和σ代表的意義是什么呢?實際上,通過積分,可以發現,μ和σ不是別的,μ正是正態分布曲線的均值,σ正是正態分布曲線的標準差。由于分布對應的是變量的總體描述,所以正態分布的μ和σ,是正態分布的總體均值和總體標準差。

以上μ和σ對圖形影響的討論,也正好反映了均值和標準差對分布影響的一般特征。

三、正態曲線下的面積

為了形象地理解正態曲線下面積所代表的含義,我們把正態曲線看做是一種極限的直方圖。它的組距甚小,以至于中心值頂點的連線已是一條平滑的曲線。而正態曲線下的面積,實際就是由這無數個小直方形拼接而成的(圖4-5)。

圖 4-5

每一小塊面積根據直方圖的定義,代表的是隨機變量ξ在該小塊取值Δxi所出現的概率,或者說代表了總體中隨機變量ξ在該小塊取值Δxi的概率?

因此任意兩點x1-x2曲線下的概率,就是把從x1到x2點所有這些小塊面積加起來:

當然Δxi要非常之小,小到Δxi?0,只有這樣才能正確算出正態曲線下任意兩點x1-x2間的面積,一般它要通過積分才能算出,這里給出正態分布幾個典型取值間的面積或概率值:

1.變量取值在區間[μ-σ,μ+σ]之間的概率(圖4-6):

P(μ-σ≤ξ≤μ+σ)=0.6827

圖4-6表明,變量取值在范圍[μ-σ,μ+σ]之間的概率為0.6827,其中μ、σ正如正態曲線的數學式(4-1)所表達的:μ代表總體的均值;σ代表總體的標準差。

圖 4-6

2.變量取值在區間[μ-2σ,μ+2σ]之間的概率(圖4-7):

P(μ-2σ≤ξ≤μ+2σ)=0.9545

圖4-7表明,變量取值在[μ-2σ,μ+2σ]之間的概率為0.9545。

圖 4-7

3.變量取值在區間[μ-3σ,μ+3σ]之間的概率(圖4-8):

P(μ-3σ≤ξ≤μ+3σ)=0.9973

圖4-8表明,變量取值在[μ-3σ,μ+3σ]之間的概率為0.9973。

圖 4-8

根據正態分布圖形的對稱性,如果用σ作為取值的組距,那么,圍繞著μ,各σ所代表的概率將如圖4-9所示[6]

圖 4-9

主站蜘蛛池模板: 淮北市| 龙泉市| 佳木斯市| 连南| 营口市| 西华县| 洛南县| 云龙县| 贵州省| 射洪县| 曲周县| 温宿县| 开平市| 定远县| 鸡西市| 东光县| 鹤岗市| 吉林省| 应城市| 南投市| 固始县| 绥江县| 云安县| 五常市| 略阳县| 临汾市| 连州市| 清涧县| 南城县| 浦县| 阳信县| 杨浦区| 峡江县| 清水县| 广河县| 汨罗市| 衡阳市| 乌兰浩特市| 金乡县| 正阳县| 中牟县|