- 統計學習理論與方法:R語言版
- 左飛
- 850字
- 2020-10-16 16:24:19
1.5 經驗分布函數
設(X1,X2,…,Xn)是總體X的一個樣本。如果是關于樣本(X1,X2,…,Xn)的函數并滿足如下條件:它總是取樣本觀察值(x1,x2,…,xn)按從小到大排序后第i個值為自己的觀測值。那么就稱
,
,…
為順序統計量。順序統計量可以簡記為

特別地

稱和
分別為樣本的最小值和最大值。并稱
為樣本的極差。
此外,還可以定義

為樣本的中位數。
基于順序統計量,我們就可以來討論經驗分布函數(Empirical Distribution Functions,EDF)當概念了。設x1,x2,…,xn是總體X的一組容量為n的樣本觀測值,將它們按從小到大的順序重新排列為,
,…
,對于任意實數x,定義函數

則稱Fn(x)為總體X的經驗分布函數。它還可以簡記為,其中?{x1,x2,…,xn}表示x1,x2,…,xn中不大于x的個數。
另外一種常見的表示形式為

其中,I是指示函數(indicator function),即

因此,求經驗分布函數Fn(x)在一點x處的值,只要求出隨機變量X的n個觀測值x1,x2,…,xn中小于或等于x的個數,再除以觀測次數n即可。由此可見,Fn(x)就是在n次重復獨立實驗中事件{X≤x}出現的頻率。

圖1-9 經驗分布函數的圖形
經驗分布函數Fn(x)的圖形(如圖1-9所示)是一條呈跳躍上升的階梯形曲線。如果樣本觀測值x1,x2,…,xn中沒有重復的數值,則每一跳躍為1/n,若有重復l次的值,則按1/n的l倍跳躍上升。圖中圓滑曲線是總體X的理論分布函數F(x)的圖形。若把經驗分布函數的圖形連成折線,那么它實際就是累積頻率直方圖的上邊。這和概率分布函數的性質是一致的。
根據大數定理可知,當試驗次數增大時,事件的頻率穩定于概率。那么,當試驗次數增大時,表示事件{X≤x}出現頻率的經驗分布函數是否接近于事件{X≤x}出現概率的總體分布函數呢?這個問題可由格利文科定理(Glivenko Theorem)來回答。
格利文科定理:設總體X的分布函數為F(x),經驗分布函數為Fn(x),則有

該定理揭示了總體X的理論分布函數與經驗分布函數之間的內在聯系。它指出當樣本容量足夠大時,從樣本算得的經驗分布函數Fn(x)與總體分布函數F(x)相差的最大值也可以足夠小,這就是用樣本來推斷總體的數學依據。