- 機器學習中的數學修煉
- 左飛編著
- 2339字
- 2023-09-26 15:47:18
1.1 概率論的基本概念
由隨機試驗E的全部可能結果所組成的集合稱為E的樣本空間,記為S。例如,考慮將一枚質地均勻的硬幣投擲3次,觀察其正面(用H表示)、反面(用T表示)出現的情況,則上述擲硬幣的試驗之樣本空間為
S={(TTT),(TTH),(THT),(HTT),(THH),(HTH),(HHT),(HHH)}
隨機變量(Random Variable)是定義在樣本空間之上的試驗結果的實值函數。如果令Y表示投擲硬幣3次后正面朝上出現的次數,那么Y就是一個隨機變量,它的取值為0、1、2、3之一。顯然Y是一個定義在樣本空間S上的函數,它的取值范圍就是集合S中的任何一種情況,而它的值域就是0~3的一個整數。例如,Y(TTT)=0。
因為隨機變量的取值由試驗結果決定,所以也對隨機變量的可能取值賦予概率。例如,針對隨機變量Y的不同可能取值,其對應的概率分別為

對于隨機變量X,如下定義的函數F
F(x)=P{X≤x}, -∞<x<+∞
稱為X的累積分布函數(Cumulative Distribution Function,CDF),簡稱分布函數。因此,對任一給定的實數x,分布函數等于該隨機變量小于或等于x的概率。
假設a≤b,由于事件{X≤a}包含于事件{X≤b},可知前者的概率F(a)小于或等于后者的概率F(b)。換句話說,F(x)是x的非降函數。
如果一個隨機變量最多有可數多個可能取值,則稱這個隨機變量為離散的。對于一個離散型隨機變量X,定義它在各特定取值上的概率為其概率質量函數(Probability Mass Function,PMF),即X的概率質量函數為
p(a)=P{X=a}
概率質量函數p(a)在最多可數個a上取非負值,也就是說,如果X的可能取值為x1,x2,…,那么p(xi)≥0,i=1,2,…,對于所有其他x,則有p(x)=0。由于X必取值于{x1,x2,…},因此有

離散型隨機變量的可能取值個數或者是有限的,或者是可數無限的。除此之外,還有一類隨機變量,它們的可能取值是無限不可數的,這種隨機變量就稱為連續型隨機變量。
對于連續型隨機變量X的累積分布函數F(x),如果存在一個定義在實軸上的非負函數f(x),使得對于任意實數x,有下式成立:

則稱f(x)為X的概率密度函數(Probability Density Function,PDF)。顯然,當概率密度函數存在的時候,累積分布函數是概率密度函數的積分。
由定義知道,概率密度函數f(x)具有如下性質:
(1)f(x)≥0
(2)f(x)dx=1
(3)對于任意實數a和b,且a≤b,則根據牛頓-萊布尼茨公式,有

在上式中令a=b,可以得到

也就是說,對于一個連續型隨機變量,取任何固定值的概率都等于0。因此對于一個連續型隨機變量,有

概率質量函數與概率密度函數的不同之處在于:概率質量函數是對離散隨機變量定義的,其本身就代表該值的概率;而概率密度函數是對連續隨機變量定義的,它本身并不是概率,只有對連續隨機變量的概率密度函數在某區間內進行積分后才能得到概率。
對于一個連續型隨機變量而言,取任何固定值的概率都等于0,也就是說,考查隨機變量在某一點上的概率取值是沒有意義的。因此,在考查連續型隨機變量的分布時,我們看的是它在某個區間上的概率取值。這時更需要的是其累積分布函數。
以正態分布為例,做其累積分布函數。對于連續型隨機變量而言,累積分布函數是概率密度函數的積分。如圖1-1(b)橫坐標等于1的點,它對應的函數值約為0.8413。如果在圖1-1(a)中過橫坐標等于1的點做一條垂直于橫軸的直線,根據積分的幾何意義,則該直線與圖1-1(a)的正態分布概率密度函數曲線所圍成的面積就約等于0.8413。

圖1-1 標準正態分布的PDF和CDF
用數學公式表達,則標準正態分布的概率密度函數為

所以有

這也符合前面所給出的結論,即累積分布函數F(xi)是xi的非降函數。
繼續前面的例子,易得

上式可以解釋為:在標準正態分布中,隨機變量取值小于或等于1.0的概率是84.13%。這其實已經隱約看到分位數的影子了,而分位數的特性在累積分布函數中表現得更為突出。
分位數是在連續隨機變量場合中使用的另外一個常見概念。設連續隨機變量X的累積分布函數為F(x),概率密度函數為p(x),對于任意α,0<α<1,假如xα滿足條件

則稱xα是X分布的α分位數,或稱α下側分位數。假如滿足條件

則稱是X分布的α上側分位數。易見,
=x1-α,即α下側分位數可轉化為1-α上側分位數。中位數就是0.5分位數。

圖1-2 累積分布函數及其反函數
從分位數的定義中還可看出,分位數函數是相應累積分布函數的反函數,則有xα=F-1(α)。如圖1-2所示為正態分布的累積分布函數及其反函數(將自變量與因變量的位置對調)。根據反函數的基本性質,它的函數圖形與原函數圖形關于x=y對稱,關于這一點,圖1-2所示的結果是顯然的。
累積分布函數就是值到其在分布中百分等級的映射。如果累積分布函數CDF是x的函數,其中x是分布中的某個值,計算給定x的CDF(x),就是計算樣本中小于或等于x的值的比例。分位數函數則是累積分布函數的反函數,它的自變量是一個百分等級,而它輸出的值是該百分等級在分布中對應的值。這就是分位數函數的意義。
累積分布函數通常是可逆的,這一點非常有用,后面在介紹蒙特卡洛采樣法時還會再用到累積分布函數及其反函數。
當隨機變量X和Y相互獨立時,從它們的聯合分布求出X+Y的分布常常是十分重要的。假如X和Y是相互獨立的連續型隨機變量,其概率密度函數分別為fX和fY,那么X+Y的分布函數可以如下得到:

可見,分布函數FX+Y是分布函數FX和FY(分別表示X和Y的分布函數)的卷積。通過對上式求導,還可以得到X+Y的概率密度函數fX+Y如下:

設隨機變量X和Y相互獨立,X~N(μ1,),Y~N(μ2,
),則由上述結論還可以推得Z=X+Y仍然服從正態分布,且有Z~N(μ1+μ2,
+
)。這個結論還能推廣到n個獨立正態隨機變量之和的情況。即如果Xi~N(μi,
),i=1,2,…,n,且它們相互獨立,則它們的和Z=X1+X2+…+Xn仍然服從正態分布,且有Z~N(μ1+μ2+…+μn,
+
+…+
)。更一般地,可以證明有限個相互獨立的正態隨機變量的線性組合仍然服從正態分布。