官术网_书友最值得收藏!

1.3 基本概率分布模型

概率分布是概率論的基本概念之一,它被用來表述隨機變量取值的概率規律。從廣義上說,概率分布是指稱隨機變量的概率性質;從狹義上說,它是指隨機變量的概率分布函數(Probability Distribution Function,PDF)。或稱累積分布函數。可以將概率分布大致分為離散和連續兩種類型。

1.3.1 離散概率分布

1.伯努利分布

伯努利分布(Bernoulli Distribution)又稱兩點分布。設試驗只有兩個可能的結果:成功(記為1)與失敗(記為0),則稱此試驗為伯努利試驗。若一次伯努利試驗成功的概率為p,則其失敗的概率為1-p,而一次伯努利試驗的成功的次數就服從一個參數為p的伯努利分布。伯努利分布的概率質量函數是

PX=k=pk(1-p1-kk=0,1

顯然,對于一個隨機試驗,如果它的樣本空間只包含兩個元素,即S={e1e2},總能在S上定義一個服從伯努利分布的隨機變量

來描述這個隨機試驗的結果。滿足伯努利分布的試驗有很多,例如,投擲一枚硬幣觀察其結果是正面還是反面,或者對新生嬰兒的性別進行登記等。

可以證明,如果隨機變量X服從伯努利分布,那么它的期望為p,方差為p(1-p)。

2.二項分布

考查由n次獨立試驗組成的隨機現象,它滿足以下條件:重復n次隨機試驗,且這n次試驗相互獨立;每次試驗中只有兩種可能的結果,而且這兩種結果發生與否互相對立,即每次試驗成功的概率為p,失敗的概率為1-p。事件發生與否的概率在每一次獨立試驗中都保持不變。顯然,這一系列試驗構成了一個n重伯努利試驗。重復進行n次獨立的伯努利試驗,試驗結果所滿足的分布就稱為是二項分布(Binomial Distribution)。當試驗次數為1時,二項分布就是伯努利分布。

Xn次獨立重復試驗中成功出現的次數,顯然X是可以取0,1,2,…,nn+1個值的離散隨機變量,則當X=k時,其概率質量函數表示為

很容易證明,服從二項分布的隨機變量Xnp為期望,以np(1-p)為方差。

3.負二項分布

如果伯努利試驗獨立地重復進行,每次成功的概率為p,0<p<1,一直進行到累積出現了r次成功時停止試驗,則試驗失敗的次數服從一個參數為(rp)的負二項分布。可見,負二項分布與二項分布的區別在于:二項分布是固定試驗總次數的獨立試驗中,成功次數k的分布;而負二項分布是累積到成功r次時即終止的獨立試驗中,試驗總次數的分布。如果令X表示試驗的總次數,則

上式之所以成立,是因為要使得第n次試驗時正好是第r次成功,那么前n-1次試驗中有r-1次成功,且第n次試驗必然是成功的。前n-1次試驗中有r-1次成功的概率是

而第n次試驗成功的概率為p。因為這兩件事相互獨立,將兩個概率相乘就得到前面給出的概率質量函數。而且還可以證明:如果試驗一直進行下去,那么最終一定能得到r次成功,即有

若隨機變量X的概率質量函數由前面的式子給出,那么稱X為參數(rp)的負二項隨機變量。負二項分布又稱帕斯卡分布。特別地,參數為(1,p)的負二項分布就是下面將介紹的幾何分布。

可以證明,服從負二項分布的隨機變量X之期望為r/p,而它的方差為r(1-p)/p2

4.多項分布

二項分布的典型例子是扔硬幣,硬幣正面朝上概率為p,重復扔n次硬幣,k次為正面的概率即為一個二項分布概率。把二項分布公式推廣至多種狀態,就得到了多項分布(Multinomial Distribution)。一個典型的例子就是投擲n次骰子,出現1點的次數為y1,出現2點的次數為y2,……,出現6點的次數為y6,那么試驗結果所滿足的分布就是多項分布,或稱多項式分布。

多項分布的PMF為

其中,

5.幾何分布

考慮獨立重復試驗,每次的成功率為p,0<p<1,一直進行到試驗成功。如果令X表示需要試驗的次數,那么

P X=n()=(1-pn-1pn=1,2,…

上式成立是因為要使得X等于n,充分必要條件是前n-1次試驗失敗而第n次試驗成功。又因為假定各次試驗都是相互獨立的,于是得到上式成立。

由于

這說明試驗最終會成功的概率為1。若隨機變量的概率質量函數由前式給出,則稱該隨機變量是參數為p的幾何隨機變量。

可以證明,服從幾何分布的隨機變量X之期望等于1/p,而它的方差等于(1-p)/p2

6.超幾何分布

超幾何分布是統計學上的一種離散型概率分布,從一個有限總體中進行不放回的采樣時常會遇到它。假設N件產品中有M件次品,在不放回的采樣中,抽取n件時得到X=k件次品的概率分布就是超幾何分布,它的概率質量函數為

其中r=min(nM)。

最后討論服從參數為(nNM)的超幾何隨機變量X的期望和方差。

利用恒等式

可得

其中,Y是服從超幾何分布的隨機變量,其參數為(n-1,N-1,M-1)。因此,在上面的等式中令k=1,有E[X]=nM/N

再令上面式子中的k=2,可得

后一個等式用到了前面關于超幾何分布之期望的計算結果。又由E[X]=nM/N,可推出

p=M/N,且利用等式

得到

可見,當n遠小于N時,即抽取的個數遠小于產品總數N時,每次抽取后,總體中的不合格品率p=M/N改變甚微,這時不放回采樣就可以近似看成是放回采樣,超幾何分布可用二項分布近似。

7.泊松分布

最后考慮另外一種重要的離散概率分布——泊松(Poisson)分布。單位時間、單位長度、單位面積、單位體積中發生某一事件的次數常可以用泊松分布刻畫。例如,某段高速公路上一年內的交通事故數和某辦公室一天中收到的電話數可以認為近似服從泊松分布。泊松分布可以看成是二項分布的特殊情況。在二項分布的伯努利試驗中,如果試驗次數n很大,而二項分布的概率p很小,且乘積λ=np比較適中,則事件出現次數的概率可以用泊松分布逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應物。泊松分布的概率質量函數為

其中,參數λ是單位時間(或單位面積)內隨機事件的平均發生率。

接下來利用二項分布的概率質量函數以及微積分中的一些關于數列極限的知識來證明上述公式。

結論得證。

最后,為了幫助讀者更好地理解證明過程,這里對其中一項極限的計算做如下補充解釋。因為已知λ=np,并且n→∞,相應地有p→0,于是

或者也可以從另外一個角度證明這個問題,如下

m=n/λ,顯然當n→∞時,有m→∞,于是考慮如下極限

所以,

1.3.2 連續概率分布

1.均勻分布

均勻分布是最簡單的連續概率分布。如果連續型隨機變量X具有如下概率密度函數

則稱X在區間(ab)上服從均勻分布,記為XUab)。

在區間(ab)上服從均勻分布的隨機變量X,具有如下意義的等可能性,即它落在區間(ab)中任意長度的子區間內的可能性是相同的。或者說它落在區間(ab)的子區間內的概率只依賴于子區間的長度,而與子區間的位置無關。

由概率密度函數的定義式,可得服從均勻分布的隨機變量X的累積分布函數為

如果隨機變量X在(ab)上服從均勻分布,那么它的期望就等于該區間的中點的值,即(a+b)/2,而它的方差則等于(b-a2/12。

2.指數分布

泊松過程的等待時間服從指數分布。若連續型隨機變量X的概率密度函數為

其中,λ>0為常數,則稱X服從參數為λ的指數分布。如圖1-3所示為不同參數下的指數分布概率密度函數圖。

由前面給出的概率密度函數,可得滿足指數分布的隨機變量X的分布函數如下:

圖1-3 指數分布的PDF圖

特別地,服從指數分布的隨機變量X具有以下特別的性質:對于任意st>0,有

P{X>s+t|X>s}=P{X>t}

這是因為

上述性質稱為無記憶性。如果X是某一元件的壽命,那么該性質表明:已知元件使用了s小時,它總共能用至少s+t小時的條件概率,與從開始使用時算起它至少能使用t小時的概率相等。這就是說,元件對它已使用過s小時是沒有記憶的。指數分布的這一特性也正是其應用廣泛的原因所在。

如果隨機變量X服從以λ為參數的指數分布,那么它的期望等于1/λ,方差等于期望的平方,即1/λ2

3.正態分布

高斯分布又稱正態分布,最早是由法國數學家棣莫弗在求二項分布的漸近公式中得到的。大數學家高斯在研究測量誤差時從另一個角度導出了它。后來,拉普拉斯和高斯都對其性質進行過研究。一維高斯分布的概率密度函數為

式中第一個參數μ是遵從高斯分布的隨機變量的均值,第二個參數σ是此隨機變量的標準差,所以高斯分布可以記作Gauss(μσ)。但需要注意的是,此時的記法應寫作Nμσ2),這里σ2是隨機變量的方差。

可以將正態分布函數簡單地理解為“計算一定誤差出現概率的函數”。例如某工廠生產長度為L的釘子,而由于制造工藝的原因,實際生產出來的釘子長度存在一定的誤差d,即釘子的長度在區間(L-dL+d),如果想知道生產出的釘子中某一特定長度釘子的概率是多少,就可以利用正態分布函數計算。

設上例中生產出的釘子長度為L1,則生產出長度為L1的釘子的概率為p(L1),套用上述公式,其中μLσ的取值與實際生產情況有關,則有

設誤差x=L1-L,則

當參數σ取不同值時,px)曲線如圖1-4所示。可見,正態分布描述了一種概率隨誤差量增加而逐漸遞減的統計模型,正態分布是概率論中最重要的一種分布,經常用來描述測量誤差、隨機噪聲等隨機現象。服從正態分布的隨機變量的概率分布規律為:取μ鄰近的值的概率大,而取離μ越遠的值的概率越小;參數σ越小,分布越集中在μ附近,σ越大,分布越分散。通過前面的介紹可知,在高斯分布中,參數σ越小,曲線越高越尖;σ越大,曲線越低越平緩。

圖1-4 正態分布

從函數的圖像中可以發現,正態分布的概率密度函數是關于μ對稱的,且在μ處達到最大值,在正(負)無窮遠處取值為0。它的形狀是中間高兩邊低的,圖像是一條位于x軸上方的鐘形曲線。當μ=0,σ2=1時,稱為標準正態分布,記作N(0,1)。

概率積分是標準正態概率密度函數的廣義積分,根據基本的概率知識,我們知道

那么如何證明呢?借助本書第1章中已經得到的概率積分就能非常容易地證明上面這個結論。概率積分表明

可以令y=x/,即x=y,然后做變量替換,得

4.伽馬分布

伽馬函數Γx)定義為

根據分部積分法,可以證明伽馬函數具有如下遞歸性質:

Γ(x+1)=xΓx

容易發現,它還可以看作是階乘在實數集上的延拓,即

Γx)=(x-1)!

圖1-5 伽馬分布的概率密度函數圖形

如果隨機變量具有密度函數

則稱該隨機變量具有伽馬分布,其參數為(αλ),其中α>0稱為形狀參數,λ>0稱為尺度參數。

圖1-5演示了固定λ值,α取不同值時的伽馬分布概率密度函數圖形。可見當α≤1時,函數是單調遞減的。當α>1時函數會出現一個單峰,峰值位于x=(α-1)/λ處。隨著α值的增大,函數圖形變得越來越低矮且平緩。而且α=1的伽馬分布就是前面已經介紹過的指數分布。

利用伽馬函數的性質,可以算得

即伽馬分布的數學期望為α/λ。據此還推出伽馬分布的方差為var(X)=α/λ2

λ=1/2,α=n/2的伽馬分布(n是一個正整數)稱為自由度為nχ2分布,記作Xχ2n),其數學期望EX)=n,概率密度函數為

設想在n維空間中試圖擊中某一個靶子,其中各坐標的偏差相互獨立且為標準正態分布,則偏差的平方服從自由度為nχ2分布。χ2分布與正態分布關系密切,它也是統計學中最重要的三大分布之一,本章后面還會再用到它。

5.貝塔分布

貝塔函數的定義為

而且貝塔函數還與伽馬函數有如下關系:

如果隨機變量具有密度函數

則稱該隨機變量具有貝塔分布(在其他x處,px)=0,上述將此略去未表),記作beta(ab),其中a>0和b>0都是形狀參數。顯然貝塔分布的概率密度函數還可以寫成

當形狀參數中ab取不同值時,貝塔分布的概率密度函數圖形會出現非常顯著的差異,如圖1-6所示。從圖中也可以看出,beta(1,1)在[0,1]區間上均勻分布。

圖1-6 貝塔分布的概率密度函數圖形

貝塔函數的數學期望為a/(a+b),這是因為

還可以證明貝塔函數的方差為

1.3.3 在R語言中使用內嵌分布

R語言已經為常用的概率分布模型提供了強有力的支持,掌握這些方法可以使用戶在進行統計分析時事半功倍,得心應手。

總的來說,R語言中提供了4類有關統計分布的函數:密度函數、(累積)分布函數、分位數函數和隨機數函數。它們都與分布的英文名稱(或其縮寫)相對應。表1-1中列舉了R中常用的15種分布的中英文名稱、R中的函數名和函數中的參數選項。我們在前面的某些例子中已經體驗過了R為這些分布所提供的函數。對于所給的分布函數名,加前綴“d”(代表分布)就得到相應的分布函數(如果是連續函數,則指PDF,對于離散分布,則指PMF);加前綴“p”(代表累積分布函數或概率)就得到相應的CDF;加前綴“q”(代表分位函數)就得到相應的分位數函數;加前綴“r”(代表隨機模擬)就得到相應的隨機數產生函數。這4類函數的第一個參數是有規律的。

表1-1 R語言中常用的分布類型

如果R中的分布函數名為func,則形如dfunc的函數就提供了相應的概率分布函數,而且它的第一個參數一般為x,x是一個數值向量。此類函數的調用格式如下:

    dfunc(x, p1, p2, …)

類似地,形如pfunc的函數提供了相應的累積分布函數,它的第一個參數一般為q,q是一個數值向量。此類函數的調用格式為

    pfunc(q, p1, p2, …)

形如qfunc的函數提供了相應的分位數函數,其第一個參數一般為p,p為由概率構成的向量,此類函數的調用格式為

    qfunc(p, p1, p2, …)

形如rfunc的函數提供了相應的隨機數生成函數,其第一個參數一般為n,用以指示生成數據的個數。但也有特例,例如rhyper和rwilcox的第一個參數為nn,這兩個分布類型在表中并未列出。此類函數的調用格式為

    rfunc(n, p1, p2, …)

上述各表達式中的p1,p2,…對應于具體分布的參數值,即表1-1中所列的各參數選項。在實踐中,讀者可查閱R幫助文檔中的說明了解更多細節。

最后通過幾個例子簡單演示它們的使用。首先模擬生成10個服從標準正態分布的隨機數,可以使用如下語句:

    > rnorm(10)
    [1] 0.23478908  -1.04106797  1.83878341  0.56621874  0.21183802
    [6] -0.41287121  -0.03715736  0.49791239  0.19461168  -0.80418611

在下面這段示例代碼中,模擬生成了1000個服從標準正態分布的隨機數,并通過這些數據點繪制出相應的概率密度函數圖。顯然其結果應當是一個接近鐘形的圖像。然后再通過標準正態分布的概率密度函數直接作圖,并將兩個結果并列顯示在窗口中。

    > normal.pop <- rnorm(1000)
    > par(mfrow = c(1, 2))#準備在一行中繪制兩個并列的圖
    > plot(density(normal.pop), xlim = c(-4, 4), main = "標準正態分布(模擬)")
    > curve(dnorm(x), from = -4, to = 4, main = "標準正態分布(標準)")

執行上述代碼,其運行結果如圖1-7所示。

累積分布函數通常是可逆的,這一點非常有用。前面介紹的形如qfunc的分位數函數其實就可以理解成相應累積分布函數的反函數。關于分位數的意義本章后面還有更為詳細的介紹。此處僅就分位數函數是累積分布函數的反函數這一點幫助讀者建立一個初步的感性認識。為了說明這一點,不妨以二項分布為例,在隨機變量0~10取值情況下,繪制其概率質量函數,結果如圖1-8(a)所示。

圖1-7 繪圖結果

然后再生成其相應的累積分布函數,并繪制出圖形,其結果如圖1-8(b)所示。

圖1-8 二項分布的PMF和CDF

最后將生成的累積分布函數的函數值作為輸入參數傳遞給相應的分位數函數,易見所得之結果即為累積分布函數的自變量取值,即證明分位數函數本質上就是相應累積分布函數的反函數。

    > inverse_cdf <- qbinom(cdf, 10, 0. 5)
    > inverse_cdf
    [1] 0  1  2  3  4  5  6  7  8  9  10

有興趣的讀者也可嘗試用圖形來表達上述函數關系,結果將更加直觀。

概率分布是對現實世界中客觀規律的高度抽象和數學表達,在統計分析中無處不在。R語言所提供的這些實現和模擬概率分布的函數在實際應用中發揮了極大的作用。

主站蜘蛛池模板: 河池市| 汉中市| 磐石市| 石柱| 德清县| 中牟县| 武鸣县| 穆棱市| 崇礼县| 乌鲁木齐县| 东乡县| 盘锦市| 乌拉特后旗| 闻喜县| 屯门区| 西林县| 来凤县| 明溪县| 德格县| 汉沽区| 竹山县| 贵德县| 望奎县| 海南省| 克拉玛依市| 金塔县| 宝清县| 田东县| 陇南市| 荃湾区| 扎鲁特旗| 拉萨市| 晋城| 阿拉善左旗| 如东县| 榆树市| 伊春市| 宁安市| 榆社县| 乐东| 蓝山县|