- 機器學習中的數學修煉
- 左飛編著
- 2718字
- 2023-09-26 15:47:19
1.2 隨機變量數字特征
隨機變量的累積分布函數、離散型隨機變量的概率質量函數或者連續型隨機變量的概率密度函數都可以較完整地對隨機變量加以描述。除此之外,一些常數也可以被用來描述隨機變量的某一特征,而且在實際應用中,人們往往對這些常數更感興趣。由隨機變量的分布所確定的,能刻畫隨機變量某一方面特征的常數稱為隨機變量的數字特征。
1.2.1 期望
概率論中一個非常重要的概念就是隨機變量的期望。如果X是一個離散型隨機變量,并具有概率質量函數
p(xk)=P{X=xk}, k=1,2,…
如果級數

絕對收斂,則稱上述級數的和為X的期望,記為E[X],即

換言之,X的期望就是X所有可能取值的加權平均,每個值的權重就是X取該值的概率。
如果X是一個連續型隨機變量,其概率密度函數為f(x),若積分

絕對收斂,則稱上述積分的值為隨機變量X的數學期望,記為E(X)。即

定理:設Y是隨機變量X的函數,Y=g(X),g是連續函數。如果X是離散型隨機變量,它的概率質量函數為p(xk)=P{X=xk},k=1,2,…,若

絕對收斂,則有

如果X是連續型隨機變量,它的概率密度函數為f(x),若

絕對收斂,則有

該定理的重要意義在于當求E(Y)時,不必算出Y的概率質量函數(或概率密度函數),利用X的概率質量函數(或概率密度函數)即可。這里不具體給出該定理的證明,但由此定理可得如下推論。
推論:若a和b是常數,則E[aX+b]=aE[X]+b。
證明:(此處僅證明離散的情況,連續的情況與此類似)

于是推論得證。
1.2.2 方差
方差(Variance)是用來度量隨機變量及其數學期望之間偏離程度的量。
定義:設X是一個隨機變量,X的期望μ=E(X),若E[(X-μ)2]存在,則稱E[(X-μ)2]為X的方差,記為D(X)或var(X),即
D(X)=var(X)=E{[X-E(X)]2}
在應用上還引入量,記為σ(X),稱為標準差或均方差。
隨機變量的方差是刻畫隨機變量相對于期望值的散布程度的一個度量。下面導出var(X)的另一公式

也即
var(X)=E[X2]-(E[X])2
可見,X的方差等于X2的期望減去X期望的平方。這也是實際應用中最方便的計算方差的方法。上述結論對于連續型隨機變量的方差也成立。
最后,給出關于方差的幾個重要性質。
(1)設是C常數,則D(C)=0;
(2)設X是隨機變量,C是常數,則有
D(CX)=C2D(X), D(X+C)=D(X)
(3)設X、Y是兩個隨機變量,則有
D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}
特別地,如果X、Y彼此獨立,則有
D(X+Y)=D(X)+D(Y)
這一性質還可以推廣到任意有限多個相互獨立的隨機變量之和的情況。
(4)D(X)=0的充要條件是X以概率1取常數E(X),即
P{X=E(X)}=1
前3個性質請讀者自行證明,最后一個性質的證明將在本章的后續篇幅中給出。
設隨機變量X具有數學期望E(X)=μ,方差D(X)=σ2≠0,記

則X*的數學期望為0、方差為1,并稱X*為X的標準化變量。
證明:
E(X*)=E(X-μ)=
[E(X)-μ]=0

根據1.2.1節最后給出的結論,若Xi~N(μi,),i=1,2,…,n,且相互獨立,則它們的線性組合C1X1+C2X2+…+CnXn,仍服從正態分布,C1,C2,…,Cn是不全為0的常數。于是,由數學期望和方差的性質可知

1.2.3 矩與矩母函數
隨機變量X的期望E[X]也稱為X的均值或者一階矩(Moment),此外,方差D(X)是X的二階中心矩。更廣泛地,有如下概念:
若E[Xk]存在,k=1,2,…,則稱其為X的k階原點矩,簡稱k階矩。根據之前給出的定理,亦可知

若E{[X-E(X)]k}存在,其中k=2,3,…,則稱其為X的k階中心矩。
概率論中不僅有中心矩,事實上還有其他形式的矩。下面總結了不同的“矩”概念之定義。設X、Y是兩個隨機變量,
(1)若E( Xk),k=1,2,…存在,則稱它為X的k階原點矩,記為v=E( Xk) 。
(2)若E{[X-E(X)]k},k=1,2,…存在,則稱它為X的k階中心矩,記為μk=E[X-E(X)]k。
(3)若E( XkYl),k,l=1,2,…存在,則稱它為X、Y的k+l階混合原點矩。
(4)若E{[X-E(X)]k[Y-E(Y)]l},k,l=1,2,…存在,則稱它為X、Y的k+l階混合中心矩。
所以,數學期望、方程、協方差都是矩,是特殊的矩。
有了矩的概念之后,還需要知道矩母函數(Moment-Generating Function,MGF)的定義,后面在進行中心極限定理的證明時,還會遇到它。
在概率論中,隨機變量的矩母函數是描述其概率分布的一種可選方式。隨機變量X的矩母函數定義為
Mx(t)=E(etX) , t∈
前提是這個期望值存在。事實上,矩母函數確實并非一直都存在。
根據上面的定義還可知道,如果X服從離散分布,其概率質量函數為p(x),則

如果X服從連續分布,其概率密度函數為p(x),則

之所以稱為矩母函數,就在于通過它的確可以生成隨機變量的各階矩。根據麥克勞林公式(MacLaurin’s Series),

因此有

對于上式逐次求導,并計算t=0點的值就會得到

最后,作為一個例子,我們來討論正態分布的矩母函數。令Z為標準正態隨機變量,則有

因此,標準正態隨機變量的矩母函數為。對于一般的正態隨機變量,只需做線性變換X=μ+σ Z,其中μ和σ分別是Z的期望和標準差。此時可得

1.2.4 協方差與協方差矩陣
前面談到,方差是用來度量隨機變量和其數學期望之間偏離程度的量。隨機變量與其數學期望之間的偏離其實就是誤差。所以方差也可以認為是描述一個隨機變量內部誤差的統計量。與此相對應地,協方差(Covariance)是一種用來度量兩個隨機變量之總體誤差的統計量。
更為正式的表述應該是:設(X,Y)是二維隨機變量,則稱E{[X-E(X)][Y-E(Y)]}為隨機變量X與Y的協方差,記為cov(X,Y),即
cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
協方差表示的是兩個變量的總體誤差。如果兩個變量的變化趨勢一致,也就是說,如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值。如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。
與協方差息息相關的另外一個概念是相關系數(或稱標準協方差),它的定義為:設(X,Y)是二維隨機變量,若cov(X,Y)、D(X)、D(Y)都存在,且D(X)>0,D(Y)>0,則稱ρXY為隨機變量X與Y的相關系數,即

還可以證明:-1≤ρXY≤1。
如果協方差的結果為正值,則說明兩者是正相關的;結果為負值就說明是負相關的;如果結果為0,也就是統計上說的“相互獨立”,即二者不相關。另外,從協方差的定義上也可以看出一些顯而易見的性質,如
(1)cov(X,X)=D(X)
(2)cov(X,Y)=cov(Y,X)
顯然第一個性質其實就表明:方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
兩個隨機變量之間的關系可以用一個協方差表示。對于由n個隨機變量組成的一個向量,我們想知道其中每對隨機變量之間的關系,就會涉及多個協方差。協方差多了就自然會想到用矩陣形式表示,也就是協方差矩陣。
設n維隨機變量(X1,X2,…,Xn)的二階中心矩存在,記為
cij=cov(Xi,Yj) =E{[Xi-E(Xi)][Yj-E( Yj)]}, i,j=1,2,…,n
則稱矩陣

為n維隨機變量X1,X2,…,Xn()的協方差矩陣。