- 計量經濟學基礎(第3版)
- 張兆豐主編
- 2133字
- 2024-05-23 16:57:33
1.5 預備知識:統計學基礎
1.5.1 隨機現象、隨機試驗與概率
隨機現象是無法事先準確確定其結果的現象。在社會經濟領域中,隨機現象是普遍存在的,研究隨機現象,對認識這些現象是非常必要的。
觀察隨機現象或為了觀察隨機現象而進行的試驗稱為隨機試驗。隨機現象可以重復多次;可能的結果不止一個,但事先可知;每次試驗都會出現上述結果中的某一個,但事先不能預知是哪一個。
隨機試驗的每個可能結果稱為一個樣本點,全體樣本點的集合稱為樣本空間。隨機試驗的結果稱為隨機事件,隨機事件由一系列樣本點組成。
某隨機事件A發生的可能性稱為事件A發生的概率,記為p(A),(0≤p(A)≤1)。p(A)=0表示不可能發生的事件,p(A)=1表示必然發生的事件。
1.5.2 隨機變量
以隨機試驗的結果為取值的變量稱為隨機變量。一個隨機變量具有下列性質:可以取許多不同的數值,取這些數值的概率為p。
重復抽樣得到的樣本就是一個隨機變量,所謂“樣本容量為n的樣本”就是n個相互獨立且與總體有相同分布的隨機變量X1,…,Xn。每次具體抽樣所得的數據,就是n元隨機變量的一個觀察值,記為(X1,…,Xn)。
隨機變量可以分為離散隨機變量和連續隨機變量。一個離散隨機變量只能取有限(或可數無窮)多個值,例如,投擲骰子的所有可能點數為1~6中的任何一個,我們就可以定義隨機變量為點數X=1,2,3,4,5,6,因此它是一個離散隨機變量。連續隨機變量可以取某一區間的任何值,如人的身高、體重、學生的分數等都是連續隨機變量。
若X為一隨機變量,對任意實數x,稱F(x)=p(X<x)為隨機變量X的分布函數。對于連續隨機變量:

其中f(x)≥0。
我們稱f(x)為X的概率分布密度函數,簡稱為分布密度。
分布密度函數具有如下性質:
(1)f(x)≥0;
(2)=1;
(3);
(4)F′(x)=f(x)。
如果X的分布密度為f(x),則記為X~f(x)。
1.5.3 隨機變量的數字特征
1.數學期望
數學期望也稱為均值,它描述隨機變量(總體)的一般水平,從計算方法上看它是一個加權平均值。
離散隨機變量X的數學期望記為E(X)或μ,定義如下:

式中 p(x)——取x值的概率。
連續隨機變量數學期望的定義如下:

式中 f(x)——分布密度。
數學期望具有如下性質。
(1)如果a,b為常數,則E(aX+b)=aE(X)+b,特別的是E(b)=b。
(2)如果X,Y為兩個隨機變量,則E(X+Y)=E(X)+E(Y)。
(3)如果g(x)和f(x)分別為X的兩個函數,則E[g(X)+f(X)]=E[g(X)]+E[f(X)]。
(4)如果X,Y是兩個獨立的隨機變量,則E(XY)=E(X)E(Y)。
2.方差
如果隨機變量X的數學期望E(X)存在,稱[X-E(X)]為隨機變量X的離均差或離差,顯然,隨機變量離均差的數學期望是0,即E[X-E(X)]=0。
隨機變量離差平方的數學期望叫作隨機變量的方差,記作Var(X)或σ2,即:

方差的算術平方根稱為標準差,即:

方差和標準差刻畫了隨機變量取值相對于均值的分散程度,方差或標準差的值越大,說明隨機變量的取值越分散。
方差具有以下性質(c是常數):
(1)Var(c)=0;
(2)Var(c+X)=Var(X);
(3)Var(cX)=c2Var(X);
(4)X,Y為相互獨立的隨機變量,則
Var(X+Y)=Var(X)+Var(Y)=Var(X-Y)
(5)Var(X)=E(X2)-(E(X))2。
3.協方差
設X,Y是兩個隨機變量,定義X,Y的協方差為

如果X=Y,則有Cov(X,Y)=E[X-E(X)]2=Var(X)=σ2。
4.相關系數
描述X與Y線性相關程度可以用相關系數度量,X與Y的相關定義為

相關系數的取值范圍為[-1,1],ρ>0說明X與Y為正相關,反之為負相關;越接近1,說明X與Y的相關程度越高,反之越低。
1.5.4 重要的理論分布
1.正態分布
分布密度為

正態分布如圖1-1所示。

圖1-1 正態分布
正態分布取決于兩個參數:均值μ和方差σ2。如果X服從正態分布,則記為X~N(μ,σ2)。
如果正態分布μ=0,σ2=1,則稱其為標準正態分布,記為Z~N(0,1)。標準正態分布的分布密度為

標準正態分布的分布函數記為Φ(Z),即,它有三個重要的性質:
(1)p(a<Z<b)=Φ(b)-Φ(a);
(2)Φ(-a)=1-Φ(a);
(3)。
利用這三個性質,可以查標準正態分布表得到相應的概率。
可以證明,對于任意一個正態分布,我們都可以通過標準化變換為標準正態分布:

這樣,我們可以求出任意一個正態分布所對應的概率。
關于正態分布還有一個重要的結論:如果X1,X2,…,Xn都是服從的獨立隨機變量,那么其線性組合
也服從均值為
、方差為
的正態分布,即:

2.χ2分布
設Z1,Z2,…,Zk是互相獨立的標準化的正態分布變量,則服從自由度為k的χ2分布,記為Z~χ2(k)。
χ2分布取決于自由度k。χ2分布的分布密度圖像是一個右偏分布(見圖1-2),當k的值越來越大時,χ2分布的分布密度圖像會越來越趨于對稱。一般認為,當自由度超過100時,χ2分布近似為正態分布。

圖1-2 χ2分布圖
查χ2分布表可以得到給定自由度及上側面積的臨界值。
3.t分布
如果Z1~N(0,1),Z2~χ2(k),則服從t分布,記為t~t(k)。
t分布取決于自由度,形態是對稱分布,與標準正態分布近似,但比較平緩(見圖1-3),當自由度越來越大時,趨近于標準正態分布。

圖1-3 t分布與標準正態分布
查t分布表可以得到給定自由度及上側面積的臨界值。
4.F分布
如果Z1~χ2(k1),Z2~χ2(k2),則服從自由度為k1,k2的F分布,記為F~F(k1,k2),其中k1稱為分子自由度,k2稱為分母自由度。
F分布取決于自由度,是右偏分布(見圖1-4)。

圖1-4 F分布
查F分布表可以得到給定自由度及上側面積的臨界值。
1.5.5 統計推斷
1.參數估計
參數估計是用樣本統計量估計總體參數的統計方法。參數估計分為點估計和區間估計兩種,進行參數估計需要知道統計量的分布——抽樣分布。
在參數估計中用得最多的是用樣本平均數估計總體均值,關于樣本平均數的抽樣分布的結論是中心極限定理。
設總體均值為μ,且存在有限方差σ2,從中抽取樣本容量為n的樣本。當樣本容量足夠大時,樣本平均數的抽樣分布近似地服從正態分布。這個結論用數學表達式表示為

根據中心極限定理,可以認為樣本平均數圍繞在總體均值μ附近,故對于某一個樣本平均數
,可以認為
,即
是μ的一個點估計值。
在點估計的基礎上,給出μ的一個取值范圍,稱為區間估計。
當總體方差已知,大樣本,顯著性水平為α時,μ的1-α的置信區間是:

其中Z~N(0,1)。
當總體方差未知,大樣本,顯著性水平為α時,μ的1-α的置信區間是:

如果是小樣本,則要求總體服從正態分布,仍然可以用式(1-16)和式(1-17)進行估計。
此外,我們可以得到常用的統計量樣本比率、樣本方差的抽樣分布,并運用這些分布對對應的總體比率和總體方差進行估計。
2.假設檢驗
假設檢驗也稱為顯著性檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差還是本質差別造成的統計推斷方法。其基本原理是先對總體的特征做出某種假設,然后通過抽樣研究的統計推理,對此假設應該被拒絕還是接受做出推斷。
假設檢驗的邏輯方法是反證法和小概率原理,并運用樣本統計量的分布來進行判斷。其基本步驟為:提出假設→建立檢驗統計量并確定其分布→設定顯著性水平并構造拒絕域→根據檢驗統計量的值做決策。
假設檢驗的決策規則是:如果檢驗統計量的值落入拒絕域,則拒絕原假設,否則不拒絕。
上述決策的方法稱為臨界值法,我們還可以根據檢驗統計量的伴隨概率——p值進行檢驗。決策的規則是:如果p值小于顯著性水平,則拒絕原假設,否則不拒絕。
限于篇幅,對于統計學的具體內容,讀者可參閱其他專門的統計學資料。