官术网_书友最值得收藏!

第1章 線性回歸與隨機(jī)過程方法

1.1 線性回歸原理

1.1.1 回歸模型與最小二乘估計(jì)

許多應(yīng)用問題的研究,往往歸結(jié)為弄清楚一些有關(guān)變量之間的聯(lián)系,在現(xiàn)實(shí)中,這些變量往往呈現(xiàn)出非確定性的關(guān)系,它的特征是因變量Y所取的值與自變量X1,…,Xp有關(guān)系,但這種關(guān)系沒有密切到可以確切決定的程度,實(shí)用上,人們常常以下述模型

來表述這種關(guān)系,其中,f是多元函數(shù),ε為零均值的隨機(jī)擾動(dòng)項(xiàng)。隨機(jī)擾動(dòng)項(xiàng)的存在使YX1,…,Xp的關(guān)系成為非確定性的。不確定性的程度取決于這一項(xiàng)影響的大小,而f可以稱為回歸函數(shù)。

當(dāng)回歸函數(shù)f取為線性函數(shù)時(shí),式(1.1)化為

式(1.2)為線性模型,線性回歸的任務(wù)是由觀察數(shù)據(jù)估計(jì)線性回歸函數(shù)并進(jìn)行統(tǒng)計(jì)推斷。

假定進(jìn)行了n次試驗(yàn)或觀察,得到了變量(Y,X1,…,Xp)的n組觀察值。

Y1X11X12X1p

Y2X21X22X2p

…………………………

YnXn1Xn2Xnp

又設(shè)第i次觀察中隨機(jī)誤差ε取值為εii=1,…,n),應(yīng)該注意的是,誤差εi的取值是不能觀察到的。根據(jù)模型(1.2)有

則可將式(1.3)寫成矩陣的形式

對(duì)于線性回歸模型,常用的有下述兩種假定:

1° Gauss-Markov假定

=0,

Var(ε)=σ2I

2°正態(tài)假定

εN(0,σ2I)。

用最小二乘估計(jì)法,可以推導(dǎo)出回歸系數(shù)的估計(jì)公式。最小二乘估計(jì)法引入二次損失函數(shù)

其中

然后定出使

即以作為β的估計(jì)。這個(gè)估計(jì)簡稱為LS估計(jì)。由于

Lβ)=‖Y2-2(XTYTβ+βTXT

如果X是列滿秩矩陣,從而XTX是正定陣,根據(jù)LS估計(jì)的定義,它應(yīng)滿足

由此可得

式(1.6)稱為回歸模型(1.4)的正規(guī)方程。由正規(guī)方程知LS估計(jì)

得到后,可用

作為σ2的估計(jì),關(guān)于這些估計(jì)量的性質(zhì)有如下結(jié)論:

β的無偏估計(jì),即=β

2°在Gauss-Markov假定下有

3°在Gauss-Markov假定下,在β的任一線性函數(shù)dTβ的一切線性無偏估計(jì)類中,其LS估計(jì),也只有,其方差達(dá)到最小;

4°在正態(tài)假定下,~N(β,σ2XTX-1);

5°在Gauss-Markov假定下,由(1.8)所確定的為σ2的一個(gè)無偏估計(jì);

6°在正態(tài)假定下

獨(dú)立

1.1.2 線性檢驗(yàn)和置信區(qū)間

要成功地使用回歸分析方法,有兩個(gè)問題須處理好:一是選擇適當(dāng)?shù)淖宰兞浚欢沁x定適當(dāng)?shù)幕貧w函數(shù)形式。對(duì)第二個(gè)問題除少數(shù)情況外,往往找不到足夠的根據(jù)去支持任何一種特定的選擇。于是為簡單計(jì)算且作為一種近似,人們多轉(zhuǎn)向于線性函數(shù)。只要有可能和必要,應(yīng)當(dāng)通過種種途徑對(duì)線性回歸的形式是否正確進(jìn)行考察。通過實(shí)際觀察數(shù)據(jù)去作檢驗(yàn),是重要的途徑之一。

1.1.2.1 回歸顯著性檢驗(yàn)

設(shè)取定了自變量X1,…,Xp,且決定采用線性回歸方程。進(jìn)行了n次觀測后得數(shù)據(jù)

因此可算出回歸系數(shù)β0,β1,…,βp的估計(jì)。如果j=1,…,p),則實(shí)際上X1,…,Xp整個(gè)與Y的關(guān)系很小。這時(shí)經(jīng)驗(yàn)回歸方程

也就沒有什么實(shí)際意義。這引導(dǎo)我們考慮假設(shè)檢驗(yàn)問題

上述假設(shè)檢驗(yàn)問題通常稱為回歸顯著性檢驗(yàn)問題。如果通過檢驗(yàn)接受了假設(shè)H0,則考慮X1,…,Xp對(duì)Y的線性回歸沒有實(shí)際意義。造成這種情況的原因可能有兩種:一是對(duì)Y有顯著性影響的自變量沒有包含在X1,…,Xp中,這將使模型誤差ε很大;二是回歸系數(shù)并非線性的,這需要我們作進(jìn)一步的研究。

如果經(jīng)過檢驗(yàn)否定了假設(shè)H0,則可認(rèn)為所選自變量全體對(duì)Y確實(shí)是有關(guān)的,因而基于它們的線性回歸方程,在實(shí)際上就有一定的意義。由于是在線性回歸前提下討論,我們也可以把假設(shè)H0是否成立解釋為X1,…,Xp全體對(duì)Y的線性相關(guān)是否顯著。但需注意的是,當(dāng)H0被否定時(shí),只能說采用基于自變量的回歸有一定的意義,而并不能武斷地作出線性回歸方程是合用的結(jié)論。因?yàn)橥耆锌赡?span id="rgymapq" class="italic">X1,…,Xp并沒有包括與Y有密切關(guān)系的自變量,也可能回歸函數(shù)的最佳選擇并不是線性的。因此,如果繼續(xù)朝這兩個(gè)方向努力,也許能夠得到一個(gè)更好的回歸模型。

設(shè)有了樣本(1.9),一般n個(gè)YY1,…,Yn不全相同,用統(tǒng)計(jì)學(xué)的術(shù)語說,有變差存在。其值可用總離差平方和

來衡量,這里為Y的樣本均值。可以證明SST可分解為回歸方差SSE和剩余方差SSR之和

進(jìn)一步可證明下述結(jié)論:

定理1.1 若假設(shè)H0為真,則在正態(tài)模型的條件下有

這里Fp,n-p-1)是第一自由度為p,第二自由度為n-p-1的F分布。

由上述定理,在給定顯著水平α后,根據(jù)自由度ν1=p,ν2=n-p-1查得F分布的臨界值Fα=Fαν1,ν2),如果FFα,那么拒絕假設(shè)H0,表明這些自變量對(duì)Y有顯著性影響;而若FFα,則接受H0,表明所有自變量對(duì)Y均沒有影響。

1.1.2.2 部分回歸系數(shù)顯著性檢驗(yàn)

首先討論各個(gè)自變量的顯著性檢驗(yàn)。設(shè)想已選好自變量X1,…,Xp,但根據(jù)某種考慮,我們懷疑其中某個(gè)自變量,例如Xp,實(shí)際上與Y的關(guān)系不大。如果這是事實(shí),則可以丟掉Xp以簡化模型而對(duì)模型的功效無實(shí)質(zhì)損害。或者反過來提問題:原先已選入了自變量X1,…,Xp-1,現(xiàn)在又有新的變量Xp提供考慮,是否應(yīng)予以選入。如果回答是肯定的,則Xp選入后可改善模型的功效。在一定意義上,后面的這個(gè)問題可歸于前者:可以一開始就把X1,…,Xp全作為已選入的,在這個(gè)基礎(chǔ)上去檢驗(yàn)Xp的作用是否顯著。如果是顯著的,則Xp應(yīng)當(dāng)吸收進(jìn)來。把自變量Xi叫做回歸因子,其系數(shù)βi稱為Y關(guān)于回歸因子Xi的回歸系數(shù)。說某個(gè)因子Xi對(duì)Y作用不顯著是指原假設(shè)

不被否定。因此對(duì)式(1.13)作顯著性檢驗(yàn),即為挑選重要因子,剔除不顯著因子的工作。

可以證明[1]H0下有

于是利用式(1.14)可對(duì)H0進(jìn)行檢驗(yàn)。記,其中,稱ViY關(guān)于因子Xi的偏回歸平方和。

進(jìn)一步,如果要檢驗(yàn)回歸系數(shù)中部分回歸系數(shù)的顯著性問題,上述的討論就失去了意義。為此,下面將作進(jìn)一步討論。假設(shè)有p個(gè)因子的模型為

如果知道Yi不但受到上述p個(gè)因子的影響,還受到另外l-p個(gè)回歸因子Xp+1,…,Xllp)的影響,則包括全部回歸因子的回歸模型應(yīng)為

這時(shí)不但要考慮各個(gè)Xp+1,…,Xl對(duì)Y的影響,還要考慮它們是否同時(shí)對(duì)Y有顯著影響。前一個(gè)問題類似于前面的討論,這里不再提及。對(duì)于后一個(gè)問題,可構(gòu)造假設(shè)

類似于回歸顯著性的討論,令

對(duì)于式(1.15)而言

對(duì)于式(1.16)來說

其中p,l為各自模型回歸因子的個(gè)數(shù)。可以證明:對(duì)于在式(1.16)相對(duì)于式(1.15)增加的新回歸因子的F統(tǒng)計(jì)量是

從而可用該統(tǒng)計(jì)量對(duì)H0進(jìn)行檢驗(yàn),以推斷回歸變量中部分回歸系數(shù)對(duì)Y的影響程度。

1.1.2.3 一般線性假設(shè)的檢驗(yàn)與置信區(qū)間

現(xiàn)在討論描述假設(shè)檢驗(yàn)和置信區(qū)間的一個(gè)廣義方法。如果已知的分布,考慮如下的線性變換

這里C是任意常數(shù)矩陣,其秩rank(C)=r,且rp+1,如果C是單位矩陣,即,那么的分布就是的分布。更簡單的情形如設(shè)C=(1,0,…,0),則的分布就是單一變量的分布。r是將要檢驗(yàn)的變量數(shù)目。

可以求出的分布。因?yàn)?/p>

所以在正態(tài)假定下有N,σ2CXTX-1CT)。根據(jù)χ2-分布的定義

為自由度為rχ2-分布,它被r除以后,并用σ2的估計(jì)值代替σ2,就得到F統(tǒng)計(jì)量

F服從自由度為r,n-p-1的F分布。這個(gè)基本統(tǒng)計(jì)量是用來構(gòu)造β的置信區(qū)間和進(jìn)行假設(shè)檢驗(yàn)的工具。從這個(gè)基本結(jié)果出發(fā),簡單的選取特定的矩陣C,就可以作出任何數(shù)目的各種各樣的檢驗(yàn)。在前面討論的各種檢驗(yàn)均為它的特殊情形。

顯著性檢驗(yàn)的一般形式可由下述概率公式給出:

在給定顯著性水平α下,FFα=Fαr,n-p-1)的概率等于1-α。如果FFα,接受假設(shè)H0,否則若FFα,則拒絕H0。同時(shí)根據(jù)式(1.24)大括弧中的不等式,可以構(gòu)造出的1-α置信區(qū)間,即

以下先討論置信區(qū)間問題:

1.聯(lián)合置信域 為了得到所有βi的聯(lián)合置信域,可令C=I,在這種情況下,1-α置信區(qū)間為

上式除β以外其他都是已知的,滿足這個(gè)不等式的β值形成一個(gè)p+1維橢球。

2.若干個(gè)βi的聯(lián)合置信域 不失一般性,把感興趣的回歸變量重新整理放在后面,譬如說有r個(gè)。現(xiàn)在討論這r個(gè)變量系數(shù)的聯(lián)合置信域。令

βrβ的最后r個(gè)分量所構(gòu)成的r維列向量,因此

自然βr的估值滿足

現(xiàn)在計(jì)算

這里將XTX相應(yīng)的矩陣分塊為,所以VrV=(XTX-1的右下部r×rC22。從而由式(1.25),βr的1-α聯(lián)合置信域?yàn)?/p>

3.單個(gè)βi的置信區(qū)間 對(duì)于式(1.27),若假設(shè)r=1,則多維橢球置信域就變?yōu)橐痪S區(qū)間,也就是單個(gè)βi的置信區(qū)間。因此,單個(gè)βi的置信域?yàn)?/p>

這里ViiV=XTX的第i行第i列的元素。從而βi的置信區(qū)間為

還可以進(jìn)一步用t分布表示這一結(jié)果。由于這里具有自由度1和n-p-1,它恰好與n-p-1個(gè)自由度的相同,于是

因此式(1.28)變?yōu)?/p>

這里的有時(shí)被稱作估計(jì)值的方差估計(jì)值,記作si,即si的估計(jì)值。

4.一般線性檢驗(yàn) 一般來說,對(duì)若干個(gè)系數(shù)的聯(lián)合檢驗(yàn),構(gòu)造如下假設(shè)

H0=r0,H1r0

這里r0是常數(shù)列向量,常常取r0=0。通常有兩種等價(jià)的方法進(jìn)行上述假設(shè)檢驗(yàn)。

第一種方法是按式(1.25)構(gòu)造的置信區(qū)間,然后觀察其表示的區(qū)域內(nèi)是否包含向量r0。若不包括,則拒絕H0,接受H1;否則接受H0而拒絕H1,說明無顯著差異。

另一種方法是用r0代替式(1.24)中的,得

計(jì)算F值,若計(jì)算的F值大于臨界值Fα,拒絕H0,接受H1;否則接受H0,拒絕H1

1.1.3 均差法與判定系數(shù)

均差法是從n個(gè)樣本觀察值的均值出發(fā)推導(dǎo)最小二乘估計(jì)式,由線性回歸模型(1.2)易得

其中

為各自的樣本均值。

則可得

寫成矩陣形式有

其中

式(1.32)的最小二乘估計(jì)為

通過計(jì)算易知仍有

成立。下面分別導(dǎo)出判定系數(shù)。

因?yàn)?/p>

代入上式得

由于表示未被回歸方程解釋的殘差平方和,而總離差平方和是

這里有Y=(Y1,…,YnT

于是總離差中由回歸方程解釋的部分為

R2為多重判定系數(shù)。

為了比較不同組回歸變量的解釋能力,常利用經(jīng)自由度調(diào)整后的判定系數(shù)。根據(jù)判定系數(shù)的定義

這里分別為不能被模型解釋的殘差平方和與總離差平方和被n除。這些方差的無偏估計(jì)式分別為,因此校正后的判定系數(shù)為:

比較R2-R2可知,對(duì)于R2,它并不隨回歸模型中回歸因子變量增加而減小,而-R2則將隨著回歸變量個(gè)數(shù)的增加而減小。

對(duì)于均差法,總的離差平方和為yTy,因此判定系數(shù)的公式為

主站蜘蛛池模板: 香河县| 邳州市| 丹寨县| 高州市| 洪洞县| 如皋市| 衡东县| 公安县| 天峨县| 晋宁县| 类乌齐县| 阿拉善盟| 沭阳县| 鄂托克旗| 松原市| 平南县| 林周县| 城步| 桃园市| 岗巴县| 梧州市| 通化市| 综艺| 双桥区| 资溪县| 襄垣县| 六安市| 革吉县| 大丰市| 台中市| 自治县| 肃宁县| 工布江达县| 新宁县| 新晃| 长泰县| 丹巴县| 勃利县| 江北区| 江达县| 白城市|