官术网_书友最值得收藏!

1.5 預備知識:統計學基礎

1.5.1 隨機現象、隨機試驗與概率

隨機現象是無法事先準確確定其結果的現象。在社會經濟領域中,隨機現象是普遍存在的,研究隨機現象,對認識這些現象是非常必要的。

觀察隨機現象或為了觀察隨機現象而進行的試驗稱為隨機試驗。隨機現象可以重復多次;可能的結果不止一個,但事先可知;每次試驗都會出現上述結果中的某一個,但事先不能預知是哪一個。

隨機試驗的每個可能結果稱為一個樣本點,全體樣本點的集合稱為樣本空間。隨機試驗的結果稱為隨機事件,隨機事件由一系列樣本點組成。

某隨機事件A發生的可能性稱為事件A發生的概率,記為p(A),(0≤p(A)≤1)。p(A)=0表示不可能發生的事件,p(A)=1表示必然發生的事件。

1.5.2 隨機變量

以隨機試驗的結果為取值的變量稱為隨機變量。一個隨機變量具有下列性質:可以取許多不同的數值,取這些數值的概率為p

重復抽樣得到的樣本就是一個隨機變量,所謂“樣本容量為n的樣本”就是n個相互獨立且與總體有相同分布的隨機變量X1,…,Xn。每次具體抽樣所得的數據,就是n元隨機變量的一個觀察值,記為(X1,…,Xn)。

隨機變量可以分為離散隨機變量和連續隨機變量。一個離散隨機變量只能取有限(或可數無窮)多個值,例如,投擲骰子的所有可能點數為1~6中的任何一個,我們就可以定義隨機變量為點數X=1,2,3,4,5,6,因此它是一個離散隨機變量。連續隨機變量可以取某一區間的任何值,如人的身高、體重、學生的分數等都是連續隨機變量。

X為一隨機變量,對任意實數x,稱F(x)=p(X<x)為隨機變量X的分布函數。對于連續隨機變量:

其中f(x)≥0。

我們稱f(x)為X的概率分布密度函數,簡稱為分布密度。

分布密度函數具有如下性質:

(1)f(x)≥0;

(2)=1;

(3)

(4)F′(x)=f(x)。

如果X的分布密度為f(x),則記為X~f(x)。

1.5.3 隨機變量的數字特征

1.數學期望

數學期望也稱為均值,它描述隨機變量(總體)的一般水平,從計算方法上看它是一個加權平均值。

離散隨機變量X的數學期望記為E(X)或μ,定義如下:

式中 p(x)——取x值的概率。

連續隨機變量數學期望的定義如下:

式中 f(x)——分布密度。

數學期望具有如下性質。

(1)如果ab為常數,則E(aX+b)=aE(X)+b,特別的是E(b)=b

(2)如果XY為兩個隨機變量,則E(X+Y)=E(X)+E(Y)。

(3)如果g(x)和f(x)分別為X的兩個函數,則E[g(X)+f(X)]=E[g(X)]+E[f(X)]。

(4)如果XY是兩個獨立的隨機變量,則E(XY)=E(X)E(Y)。

2.方差

如果隨機變量X的數學期望E(X)存在,稱[X-E(X)]為隨機變量X的離均差或離差,顯然,隨機變量離均差的數學期望是0,即E[X-E(X)]=0。

隨機變量離差平方的數學期望叫作隨機變量的方差,記作Var(X)或σ2,即:

方差的算術平方根稱為標準差,即:

方差和標準差刻畫了隨機變量取值相對于均值的分散程度,方差或標準差的值越大,說明隨機變量的取值越分散。

方差具有以下性質(c是常數):

(1)Var(c)=0;

(2)Var(c+X)=Var(X);

(3)Var(cX)=c2Var(X);

(4)X,Y為相互獨立的隨機變量,則

Var(X+Y)=Var(X)+Var(Y)=Var(X-Y)

(5)Var(X)=E(X2)-(E(X))2

3.協方差

X,Y是兩個隨機變量,定義X,Y的協方差為

如果X=Y,則有Cov(XY)=E[X-E(X)]2=Var(X)=σ2

4.相關系數

描述XY線性相關程度可以用相關系數度量,XY的相關定義為

相關系數的取值范圍為[-1,1],ρ>0說明XY為正相關,反之為負相關;越接近1,說明XY的相關程度越高,反之越低。

1.5.4 重要的理論分布

1.正態分布

分布密度為

正態分布如圖1-1所示。

圖1-1 正態分布

正態分布取決于兩個參數:均值μ和方差σ2。如果X服從正態分布,則記為X~N(μ,σ2)。

如果正態分布μ=0,σ2=1,則稱其為標準正態分布,記為Z~N(0,1)。標準正態分布的分布密度為

標準正態分布的分布函數記為Φ(Z),即,它有三個重要的性質:

(1)p(a<Z<b)=Φ(b)(a);

(2)Φ(-a)=1(a);

(3)

利用這三個性質,可以查標準正態分布表得到相應的概率。

可以證明,對于任意一個正態分布,我們都可以通過標準化變換為標準正態分布:

這樣,我們可以求出任意一個正態分布所對應的概率。

關于正態分布還有一個重要的結論:如果X1,X2,…,Xn都是服從的獨立隨機變量,那么其線性組合也服從均值為、方差為的正態分布,即:

2.χ2分布

Z1Z2,…,Zk是互相獨立的標準化的正態分布變量,則服從自由度為kχ2分布,記為Z~χ2(k)。

χ2分布取決于自由度kχ2分布的分布密度圖像是一個右偏分布(見圖1-2),當k的值越來越大時,χ2分布的分布密度圖像會越來越趨于對稱。一般認為,當自由度超過100時,χ2分布近似為正態分布。

圖1-2 χ2分布圖

χ2分布表可以得到給定自由度及上側面積的臨界值。

3.t分布

如果Z1~N(0,1),Z2~χ2(k),則服從t分布,記為t~t(k)。

t分布取決于自由度,形態是對稱分布,與標準正態分布近似,但比較平緩(見圖1-3),當自由度越來越大時,趨近于標準正態分布。

圖1-3 t分布與標準正態分布

t分布表可以得到給定自由度及上側面積的臨界值。

4.F分布

如果Z1~χ2(k1),Z2~χ2(k2),則服從自由度為k1k2F分布,記為F~F(k1,k2),其中k1稱為分子自由度,k2稱為分母自由度。

F分布取決于自由度,是右偏分布(見圖1-4)。

圖1-4 F分布

F分布表可以得到給定自由度及上側面積的臨界值。

1.5.5 統計推斷

1.參數估計

參數估計是用樣本統計量估計總體參數的統計方法。參數估計分為點估計和區間估計兩種,進行參數估計需要知道統計量的分布——抽樣分布。

在參數估計中用得最多的是用樣本平均數估計總體均值,關于樣本平均數的抽樣分布的結論是中心極限定理。

設總體均值為μ,且存在有限方差σ2,從中抽取樣本容量為n的樣本。當樣本容量足夠大時,樣本平均數的抽樣分布近似地服從正態分布。這個結論用數學表達式表示為

根據中心極限定理,可以認為樣本平均數圍繞在總體均值μ附近,故對于某一個樣本平均數,可以認為,即μ的一個點估計值。

在點估計的基礎上,給出μ的一個取值范圍,稱為區間估計。

當總體方差已知,大樣本,顯著性水平為α時,μ的1的置信區間是:

其中Z~N(0,1)。

當總體方差未知,大樣本,顯著性水平為α時,μ的1的置信區間是:

如果是小樣本,則要求總體服從正態分布,仍然可以用式(1-16)和式(1-17)進行估計。

此外,我們可以得到常用的統計量樣本比率、樣本方差的抽樣分布,并運用這些分布對對應的總體比率和總體方差進行估計。

2.假設檢驗

假設檢驗也稱為顯著性檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差還是本質差別造成的統計推斷方法。其基本原理是先對總體的特征做出某種假設,然后通過抽樣研究的統計推理,對此假設應該被拒絕還是接受做出推斷。

假設檢驗的邏輯方法是反證法和小概率原理,并運用樣本統計量的分布來進行判斷。其基本步驟為:提出假設→建立檢驗統計量并確定其分布→設定顯著性水平并構造拒絕域→根據檢驗統計量的值做決策。

假設檢驗的決策規則是:如果檢驗統計量的值落入拒絕域,則拒絕原假設,否則不拒絕。

上述決策的方法稱為臨界值法,我們還可以根據檢驗統計量的伴隨概率——p值進行檢驗。決策的規則是:如果p值小于顯著性水平,則拒絕原假設,否則不拒絕。

限于篇幅,對于統計學的具體內容,讀者可參閱其他專門的統計學資料。

主站蜘蛛池模板: 大同市| 界首市| 临猗县| 察隅县| 封丘县| 天水市| 兴山县| 蓝山县| 句容市| 远安县| 揭阳市| 阳高县| 繁峙县| 宣恩县| 会同县| 峨眉山市| 遵义县| 崇州市| 南雄市| 历史| 新乐市| 寻乌县| 灵武市| 洛南县| 邳州市| 前郭尔| 淮滨县| 抚顺县| 沭阳县| 金阳县| 灵石县| 南宫市| 苏尼特左旗| 崇仁县| 彝良县| 昌吉市| 邛崃市| 冀州市| 漳平市| 无棣县| 新兴县|