鑫渔乐三色鳄鱼

書名：統計學習理論與方法：R語言版
作者名：左飛
本章字數： 850字
更新時間： 2020-10-16 16:24:19

1.5　經驗分布函數

設（X₁，X₂，…，X_n）是總體X的一個樣本。如果是關于樣本（X₁，X₂，…，X_n）的函數并滿足如下條件：它總是取樣本觀察值（x₁，x₂，…，x_n）按從小到大排序后第i個值為自己的觀測值。那么就稱，，…為順序統計量。順序統計量可以簡記為

特別地

稱和分別為樣本的最小值和最大值。并稱為樣本的極差。

此外，還可以定義

為樣本的中位數。

基于順序統計量，我們就可以來討論經驗分布函數（Empirical Distribution Functions，EDF）當概念了。設x₁，x₂，…，x_n是總體X的一組容量為n的樣本觀測值，將它們按從小到大的順序重新排列為，，…，對于任意實數x，定義函數

則稱F_n（x）為總體X的經驗分布函數。它還可以簡記為，其中^?｛x₁，x₂，…，x_n｝表示x₁，x₂，…，x_n中不大于x的個數。

另外一種常見的表示形式為

其中，I是指示函數（indicator function），即

因此，求經驗分布函數F_n（x）在一點x處的值，只要求出隨機變量X的n個觀測值x₁，x₂，…，x_n中小于或等于x的個數，再除以觀測次數n即可。由此可見，F_n（x）就是在n次重復獨立實驗中事件｛X≤x｝出現的頻率。

圖1-9　經驗分布函數的圖形

經驗分布函數F_n（x）的圖形（如圖1-9所示）是一條呈跳躍上升的階梯形曲線。如果樣本觀測值x₁，x₂，…，x_n中沒有重復的數值，則每一跳躍為1/n，若有重復l次的值，則按1/n的l倍跳躍上升。圖中圓滑曲線是總體X的理論分布函數F（x）的圖形。若把經驗分布函數的圖形連成折線，那么它實際就是累積頻率直方圖的上邊。這和概率分布函數的性質是一致的。

根據大數定理可知，當試驗次數增大時，事件的頻率穩定于概率。那么，當試驗次數增大時，表示事件｛X≤x｝出現頻率的經驗分布函數是否接近于事件｛X≤x｝出現概率的總體分布函數呢？這個問題可由格利文科定理（Glivenko Theorem）來回答。

格利文科定理：設總體X的分布函數為F（x），經驗分布函數為F_n（x），則有

該定理揭示了總體X的理論分布函數與經驗分布函數之間的內在聯系。它指出當樣本容量足夠大時，從樣本算得的經驗分布函數F_n（x）與總體分布函數F（x）相差的最大值也可以足夠小，這就是用樣本來推斷總體的數學依據。

官术网_书友最值得收藏!

統計學習理論與方法：R語言版

1.5 經驗分布函數

1.5　經驗分布函數