書名: 統(tǒng)計(jì)學(xué)習(xí)理論與方法:R語言版作者名: 左飛本章字?jǐn)?shù): 2286字更新時(shí)間: 2020-10-16 16:24:17
1.1 基本概念
由隨機(jī)試驗(yàn)E的全部可能結(jié)果所組成的集合稱為E的樣本空間,記為S。例如,考慮將一枚質(zhì)地均勻的硬幣投擲三次,觀察其正面(用H表示)、反面(用T表示)出現(xiàn)的情況。則上述擲硬幣的試驗(yàn)之樣本空間為
S={(TTT),(TTH),(THT),(HTT),(THH),(HTH),(HHT),(HHH)}
隨機(jī)變量(Random variable)是定義在樣本空間之上的試驗(yàn)結(jié)果的實(shí)值函數(shù)。如果令Y表示投擲硬幣三次后正面朝上出現(xiàn)的次數(shù),那么Y就是一個(gè)隨機(jī)變量,它的取值為0,1,2,3之一。顯然Y是一個(gè)定義在樣本空間S上的函數(shù),它的取值范圍就是集合S中的任何一種情況,而它的值域就是0到3范圍內(nèi)的一個(gè)整數(shù)。例如,Y(TTT)=0。
因?yàn)殡S機(jī)變量的取值由試驗(yàn)結(jié)果決定,所以也將隨機(jī)變量的可能取值賦予概率。例如針對(duì)隨機(jī)變量Y的不同可能取值,其對(duì)應(yīng)的概率分別為

對(duì)于隨機(jī)變量X,如下定義的函數(shù)F
F(x)=P{X≤x},-∞<x<∞
稱為X的累積分布函數(shù)(Cumulative Distribution Function,CDF),簡(jiǎn)稱分布函數(shù)。因此,對(duì)任一給定的實(shí)數(shù)x,分布函數(shù)等于該隨機(jī)變量小于等于x的概率。
假設(shè)a≤b,由于事件{X≤a}包含于事件{X≤b},可知前者的概率F(a)要小于等于后者的概率F(b)。換句話說,F(x)是x的非降函數(shù)。
如果一個(gè)隨機(jī)變量最多有多個(gè)可能取值,則稱這個(gè)隨機(jī)變量為離散的。對(duì)于一個(gè)離散型隨機(jī)變量X,定義它在各特定取值上的概率為其概率質(zhì)量函數(shù)(Probability Mass Function,PMF),即X的概率質(zhì)量函數(shù)為
p(a)=P{X=a}
概率質(zhì)量函數(shù)p(a)在最多可數(shù)個(gè)a上取非負(fù)值,也就是說如果X的可能取值為x1,x2,…,那么p(xi)≥0,i=1,2,…,對(duì)于所有其他x,則有p(x)=0。由于X必定取值于{x1,x2,…},因此有

離散型隨機(jī)變量的可能取值個(gè)數(shù)要么是有限的,要么是可數(shù)無限的。除此之外,還有一類隨機(jī)變量,它們的可能取值是無限不可數(shù)的,這種隨機(jī)變量就稱為連續(xù)型隨機(jī)變量。
對(duì)于連續(xù)型隨機(jī)變量X的累積分布函數(shù)F(x),如果存在一個(gè)定義在實(shí)軸上的非負(fù)函數(shù)f(x),使得對(duì)于任意實(shí)數(shù)x,有下式成立

則稱f(x)為X的概率密度函數(shù)(Probability Density Function,PDF)。顯然,當(dāng)概率密度函數(shù)存在的時(shí)候,累積分布函數(shù)是概率密度函數(shù)的積分。
由定義知道,概率密度函數(shù)f(x)具有如下性質(zhì)
- f(x)≥0
- 對(duì)于任意實(shí)數(shù)a和b,且a≤b,則根據(jù)牛頓-萊布尼茨公式有

在上式中令a=b,可以得到

也就是說,對(duì)于一個(gè)連續(xù)型隨機(jī)變量,它取任何固定值的概率都等于0。因此對(duì)于一個(gè)連續(xù)型隨機(jī)變量,有

概率質(zhì)量函數(shù)和概率密度函數(shù)的不同之處就在于:概率質(zhì)量函數(shù)是對(duì)離散隨機(jī)變量定義的,其本身就代表該值的概率;而概率密度函數(shù)是對(duì)連續(xù)隨機(jī)變量定義的,且它本身并不是概率,只有對(duì)連續(xù)隨機(jī)變量的概率密度函數(shù)在某區(qū)間內(nèi)進(jìn)行積分后才能得到概率。
對(duì)于一個(gè)連續(xù)型隨機(jī)變量而言,它取任何固定值的概率都等于0,也就是說考察隨機(jī)變量在某一點(diǎn)上的概率取值是沒有意義的。因此,在考察連續(xù)型隨機(jī)變量的分布時(shí),我們看的是它在某個(gè)區(qū)間上的概率取值。我們更需要的是其累積分布函數(shù)。
以正態(tài)分布為例,做其累積分布函數(shù)。對(duì)于連續(xù)型隨機(jī)變量而言,累積分布函數(shù)是概率密度函數(shù)的積分。如圖1-1(a)中橫坐標(biāo)等于1.0的點(diǎn),它對(duì)應(yīng)的函數(shù)值約為0.8413。如果在圖1-1(b)中過橫坐標(biāo)等于1.0的點(diǎn)做一條垂直于橫軸的直線,根據(jù)積分的幾何意義,則該直線與其左側(cè)的正態(tài)分布概率密度函數(shù)曲線所圍成的面積就約等于0.8413。

圖1-1 標(biāo)準(zhǔn)正態(tài)分布的PDF和CDF
用數(shù)學(xué)公式來表達(dá),則標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)為

所以有

這也符合前面所給出的結(jié)論,即累積分布函數(shù)F(xi)是xi的非降函數(shù)。
繼續(xù)前面的例子,易得

上面這個(gè)式可以解釋為:在標(biāo)準(zhǔn)正態(tài)分布里,隨機(jī)變量取值小于或等于1.0的概率是84.13%。這其實(shí)已經(jīng)隱約看到分位數(shù)的影子了,而分位數(shù)的特性在累積分布函數(shù)里表現(xiàn)得更為突出。

圖1-2 累積分布函數(shù)及其反函數(shù)
分位數(shù)是在連續(xù)隨機(jī)變量場(chǎng)合中使用的另外一個(gè)常見概念。設(shè)連續(xù)隨機(jī)變量X的累積分布函數(shù)為F(x),概率密度函數(shù)為p(x),對(duì)任意α,0<α<1,假如xα滿足條件

則稱xα是X分布的α分位數(shù),或稱α下側(cè)分位數(shù)。假如滿足條件

則稱是X分布的α上側(cè)分位數(shù)。易見,
,即α下側(cè)分位數(shù)可轉(zhuǎn)化為1-α上側(cè)分位數(shù)。中位數(shù)就是0.5分位數(shù)。
從分位數(shù)的定義中還可看出,分位數(shù)函數(shù)是相應(yīng)累積分布函數(shù)的反函數(shù),則有xα=F-1(α)。圖1-2所示為正態(tài)分布的累積分布函數(shù)及其反函數(shù)(將自變量與因變量的位置對(duì)調(diào))。根據(jù)反函數(shù)的基本性質(zhì),它的函數(shù)圖形與原函數(shù)圖形關(guān)于x=y對(duì)稱,關(guān)于這一點(diǎn),圖中所示的結(jié)果是顯然的。
累積分布函數(shù)就是其值在分布中百分等級(jí)的映射。如果累積分布函數(shù)CDF是x的函數(shù),其中x是分布中的某個(gè)值,計(jì)算給定x的CDF(x),就是計(jì)算樣本中小于等于x的值的比例。而分位數(shù)函數(shù)則是累積分布函數(shù)的反函數(shù),它的自變量是一個(gè)百分等級(jí),而它輸出的值是該百分等級(jí)在分布中對(duì)應(yīng)的值。這也就是分位數(shù)函數(shù)的意義。
累積分布函數(shù)通常是可逆的,這一點(diǎn)非常有用,后面我們?cè)诮榻B蒙特卡洛采樣法時(shí)還會(huì)再用到累積分布函數(shù)及其反函數(shù)。
當(dāng)隨機(jī)變量X和Y相互獨(dú)立時(shí),從它們的聯(lián)合分布求出X+Y的分布常常是十分重要的。假如X和Y是相互獨(dú)立的連續(xù)型隨機(jī)變量,其概率密度函數(shù)分別為fX和fY,那么X+Y的分布函數(shù)可以如下得到

可見分布函數(shù)FX+Y是分布函數(shù)FX和FY(分別表示X和Y的分布函數(shù))的卷積。通過對(duì)上式求導(dǎo),我們還可以得到X+Y的概率密度函數(shù)fX+Y如下

設(shè)隨機(jī)變量X和Y相互獨(dú)立,,
,則由上述結(jié)論還可以推得Z=X+Y仍然服從正態(tài)分布,且有
。這個(gè)結(jié)論還能推廣到n個(gè)獨(dú)立正態(tài)隨機(jī)變量之和的情況。即如果
,其中i=1,2,…,n,且它們相互獨(dú)立,則它們的和Z=X1+X2+…+Xn仍然服從正態(tài)分布,且有
。更一般地,可以證明有限個(gè)相互獨(dú)立的正態(tài)隨機(jī)變量的線性組合仍然服從正態(tài)分布。
- 數(shù)據(jù)中心建設(shè)與管理指南
- 步步圖解自動(dòng)化綜合技能
- Enterprise PowerShell Scripting Bootcamp
- Google SketchUp for Game Design:Beginner's Guide
- 貫通Java Web開發(fā)三劍客
- 液壓機(jī)智能故障診斷方法集成技術(shù)
- Linux Shell編程從初學(xué)到精通
- Linux Shell Scripting Cookbook(Third Edition)
- 傳感器原理與工程應(yīng)用
- Serverless Design Patterns and Best Practices
- 新一代人工智能與語音識(shí)別
- Eclipse RCP應(yīng)用系統(tǒng)開發(fā)方法與實(shí)戰(zhàn)
- Wireshark Revealed:Essential Skills for IT Professionals
- Raspberry Pi 3 Projects for Java Programmers
- 從實(shí)踐中學(xué)嵌入式Linux操作系統(tǒng)