- 系統(tǒng)辨識及其在水電能源中的應用
- 張勇傳主編
- 14字
- 2019-01-04 00:39:13
第1章 線性回歸與隨機過程方法
1.1 線性回歸原理
1.1.1 回歸模型與最小二乘估計
許多應用問題的研究,往往歸結為弄清楚一些有關變量之間的聯(lián)系,在現(xiàn)實中,這些變量往往呈現(xiàn)出非確定性的關系,它的特征是因變量Y所取的值與自變量X1,…,Xp有關系,但這種關系沒有密切到可以確切決定的程度,實用上,人們常常以下述模型

來表述這種關系,其中,f是多元函數(shù),ε為零均值的隨機擾動項。隨機擾動項的存在使Y與X1,…,Xp的關系成為非確定性的。不確定性的程度取決于這一項影響的大小,而f可以稱為回歸函數(shù)。
當回歸函數(shù)f取為線性函數(shù)時,式(1.1)化為

式(1.2)為線性模型,線性回歸的任務是由觀察數(shù)據(jù)估計線性回歸函數(shù)并進行統(tǒng)計推斷。
假定進行了n次試驗或觀察,得到了變量(Y,X1,…,Xp)的n組觀察值。
Y1X11X12…X1p
Y2X21X22…X2p
…………………………
YnXn1Xn2…Xnp
又設第i次觀察中隨機誤差ε取值為εi(i=1,…,n),應該注意的是,誤差εi的取值是不能觀察到的。根據(jù)模型(1.2)有

令

則可將式(1.3)寫成矩陣的形式

對于線性回歸模型,常用的有下述兩種假定:
1° Gauss-Markov假定
Eε=0,
Var(ε)=σ2I。
2°正態(tài)假定
ε~N(0,σ2I)。
用最小二乘估計法,可以推導出回歸系數(shù)的估計公式。最小二乘估計法引入二次損失函數(shù)

其中

然后定出使

即以作為β的估計。這個估計簡稱為LS估計。由于
L(β)=‖Y‖2-2(XTY)Tβ+βTXTXβ,
如果X是列滿秩矩陣,從而XTX是正定陣,根據(jù)LS估計的定義,它應滿足

由此可得

式(1.6)稱為回歸模型(1.4)的正規(guī)方程。由正規(guī)方程知LS估計

得到后,可用

作為σ2的估計,關于這些估計量的性質有如下結論:
1°為β的無偏估計,即
=β;
2°在Gauss-Markov假定下有

3°在Gauss-Markov假定下,在β的任一線性函數(shù)dTβ的一切線性無偏估計類中,其LS估計,也只有
,其方差達到最小;
4°在正態(tài)假定下,~N(β,σ2(XTX)-1);
5°在Gauss-Markov假定下,由(1.8)所確定的為σ2的一個無偏估計;
6°在正態(tài)假定下

且與
獨立
1.1.2 線性檢驗和置信區(qū)間
要成功地使用回歸分析方法,有兩個問題須處理好:一是選擇適當?shù)淖宰兞浚欢沁x定適當?shù)幕貧w函數(shù)形式。對第二個問題除少數(shù)情況外,往往找不到足夠的根據(jù)去支持任何一種特定的選擇。于是為簡單計算且作為一種近似,人們多轉向于線性函數(shù)。只要有可能和必要,應當通過種種途徑對線性回歸的形式是否正確進行考察。通過實際觀察數(shù)據(jù)去作檢驗,是重要的途徑之一。
1.1.2.1 回歸顯著性檢驗
設取定了自變量X1,…,Xp,且決定采用線性回歸方程。進行了n次觀測后得數(shù)據(jù)

因此可算出回歸系數(shù)β0,β1,…,βp的估計。如果
(j=1,…,p),則實際上X1,…,Xp整個與Y的關系很小。這時經(jīng)驗回歸方程

也就沒有什么實際意義。這引導我們考慮假設檢驗問題

上述假設檢驗問題通常稱為回歸顯著性檢驗問題。如果通過檢驗接受了假設H0,則考慮X1,…,Xp對Y的線性回歸沒有實際意義。造成這種情況的原因可能有兩種:一是對Y有顯著性影響的自變量沒有包含在X1,…,Xp中,這將使模型誤差ε很大;二是回歸系數(shù)并非線性的,這需要我們作進一步的研究。
如果經(jīng)過檢驗否定了假設H0,則可認為所選自變量全體對Y確實是有關的,因而基于它們的線性回歸方程,在實際上就有一定的意義。由于是在線性回歸前提下討論,我們也可以把假設H0是否成立解釋為X1,…,Xp全體對Y的線性相關是否顯著。但需注意的是,當H0被否定時,只能說采用基于自變量的回歸有一定的意義,而并不能武斷地作出線性回歸方程是合用的結論。因為完全有可能X1,…,Xp并沒有包括與Y有密切關系的自變量,也可能回歸函數(shù)的最佳選擇并不是線性的。因此,如果繼續(xù)朝這兩個方向努力,也許能夠得到一個更好的回歸模型。
設有了樣本(1.9),一般n個Y值Y1,…,Yn不全相同,用統(tǒng)計學的術語說,有變差存在。其值可用總離差平方和

來衡量,這里為Y的樣本均值。可以證明SST可分解為回歸方差SSE和剩余方差SSR之和

進一步可證明下述結論:
定理1.1 若假設H0為真,則在正態(tài)模型的條件下有

這里F(p,n-p-1)是第一自由度為p,第二自由度為n-p-1的F分布。
由上述定理,在給定顯著水平α后,根據(jù)自由度ν1=p,ν2=n-p-1查得F分布的臨界值Fα=Fα(ν1,ν2),如果F>Fα,那么拒絕假設H0,表明這些自變量對Y有顯著性影響;而若F<Fα,則接受H0,表明所有自變量對Y均沒有影響。
1.1.2.2 部分回歸系數(shù)顯著性檢驗
首先討論各個自變量的顯著性檢驗。設想已選好自變量X1,…,Xp,但根據(jù)某種考慮,我們懷疑其中某個自變量,例如Xp,實際上與Y的關系不大。如果這是事實,則可以丟掉Xp以簡化模型而對模型的功效無實質損害。或者反過來提問題:原先已選入了自變量X1,…,Xp-1,現(xiàn)在又有新的變量Xp提供考慮,是否應予以選入。如果回答是肯定的,則Xp選入后可改善模型的功效。在一定意義上,后面的這個問題可歸于前者:可以一開始就把X1,…,Xp全作為已選入的,在這個基礎上去檢驗Xp的作用是否顯著。如果是顯著的,則Xp應當吸收進來。把自變量Xi叫做回歸因子,其系數(shù)βi稱為Y關于回歸因子Xi的回歸系數(shù)。說某個因子Xi對Y作用不顯著是指原假設

不被否定。因此對式(1.13)作顯著性檢驗,即為挑選重要因子,剔除不顯著因子的工作。
可以證明[1]在H0下有

于是利用式(1.14)可對H0進行檢驗。記,其中
,稱Vi為Y關于因子Xi的偏回歸平方和。
進一步,如果要檢驗回歸系數(shù)中部分回歸系數(shù)的顯著性問題,上述的討論就失去了意義。為此,下面將作進一步討論。假設有p個因子的模型為

如果知道Yi不但受到上述p個因子的影響,還受到另外l-p個回歸因子Xp+1,…,Xl(l>p)的影響,則包括全部回歸因子的回歸模型應為

這時不但要考慮各個Xp+1,…,Xl對Y的影響,還要考慮它們是否同時對Y有顯著影響。前一個問題類似于前面的討論,這里不再提及。對于后一個問題,可構造假設

類似于回歸顯著性的討論,令

對于式(1.15)而言

對于式(1.16)來說

其中p,l為各自模型回歸因子的個數(shù)。可以證明:對于在式(1.16)相對于式(1.15)增加的新回歸因子的F統(tǒng)計量是

從而可用該統(tǒng)計量對H0進行檢驗,以推斷回歸變量中部分回歸系數(shù)對Y的影響程度。
1.1.2.3 一般線性假設的檢驗與置信區(qū)間
現(xiàn)在討論描述假設檢驗和置信區(qū)間的一個廣義方法。如果已知的分布,考慮如下的線性變換

這里C是任意常數(shù)矩陣,其秩rank(C)=r,且r≤p+1,如果C是單位矩陣,即,那么
的分布就是
的分布。更簡單的情形如設C=(1,0,…,0),則
的分布就是單一變量
的分布。r是將要檢驗的變量數(shù)目。
可以求出的分布。因為

所以在正態(tài)假定下有~N(Cβ,σ2C(XTX)-1CT)。根據(jù)χ2-分布的定義

為自由度為r的χ2-分布,它被r除以后,并用σ2的估計值代替σ2,就得到F統(tǒng)計量


即F服從自由度為r,n-p-1的F分布。這個基本統(tǒng)計量是用來構造β的置信區(qū)間和進行假設檢驗的工具。從這個基本結果出發(fā),簡單的選取特定的矩陣C,就可以作出任何數(shù)目的各種各樣的檢驗。在前面討論的各種檢驗均為它的特殊情形。
顯著性檢驗的一般形式可由下述概率公式給出:

在給定顯著性水平α下,F≤Fα=Fα(r,n-p-1)的概率等于1-α。如果F<Fα,接受假設H0,否則若F>Fα,則拒絕H0。同時根據(jù)式(1.24)大括弧中的不等式,可以構造出Cβ的1-α置信區(qū)間,即

以下先討論置信區(qū)間問題:
1.聯(lián)合置信域 為了得到所有βi的聯(lián)合置信域,可令C=I,在這種情況下,1-α置信區(qū)間為

上式除β以外其他都是已知的,滿足這個不等式的β值形成一個p+1維橢球。
2.若干個βi的聯(lián)合置信域 不失一般性,把感興趣的回歸變量重新整理放在后面,譬如說有r個。現(xiàn)在討論這r個變量系數(shù)的聯(lián)合置信域。令

即βr為β的最后r個分量所構成的r維列向量,因此

自然βr的估值滿足

現(xiàn)在計算

這里將XTX相應的矩陣分塊為,所以Vr是V=(XTX)-1的右下部r×r塊C22。從而由式(1.25),βr的1-α聯(lián)合置信域為

3.單個βi的置信區(qū)間 對于式(1.27),若假設r=1,則多維橢球置信域就變?yōu)橐痪S區(qū)間,也就是單個βi的置信區(qū)間。因此,單個βi的置信域為

這里Vii為V=XTX的第i行第i列的元素。從而βi的置信區(qū)間為

還可以進一步用t分布表示這一結果。由于這里具有自由度1和n-p-1,它恰好與n-p-1個自由度的
相同,于是

因此式(1.28)變?yōu)?/p>

這里的有時被稱作估計值
的方差估計值,記作si,即si為
的估計值。
4.一般線性檢驗 一般來說,對若干個系數(shù)的聯(lián)合檢驗,構造如下假設
H0∶Cβ=r0,H1∶Cβ≠r0。
這里r0是常數(shù)列向量,常常取r0=0。通常有兩種等價的方法進行上述假設檢驗。
第一種方法是按式(1.25)構造Cβ的置信區(qū)間,然后觀察其表示的區(qū)域內是否包含向量r0。若不包括,則拒絕H0,接受H1;否則接受H0而拒絕H1,說明無顯著差異。
另一種方法是用r0代替式(1.24)中的Cβ,得

計算F值,若計算的F值大于臨界值Fα,拒絕H0,接受H1;否則接受H0,拒絕H1。
1.1.3 均差法與判定系數(shù)
均差法是從n個樣本觀察值的均值出發(fā)推導最小二乘估計式,由線性回歸模型(1.2)易得

其中

為各自的樣本均值。

則可得

寫成矩陣形式有

其中

式(1.32)的最小二乘估計為

通過計算易知仍有

成立。下面分別導出判定系數(shù)。
因為

將代入上式得

由于表示未被回歸方程解釋的殘差平方和,而總離差平方和是

這里有Y=(Y1,…,Yn)T。
于是總離差中由回歸方程解釋的部分為

令

稱R2為多重判定系數(shù)。
為了比較不同組回歸變量的解釋能力,常利用經(jīng)自由度調整后的判定系數(shù)。根據(jù)判定系數(shù)的定義

這里和
分別為不能被模型解釋的殘差平方和與總離差平方和被n除。這些方差的無偏估計式分別為
和
,因此校正后的判定系數(shù)為:

比較R2和-R2可知,對于R2,它并不隨回歸模型中回歸因子變量增加而減小,而-R2則將隨著回歸變量個數(shù)的增加而減小。
對于均差法,總的離差平方和為yTy,因此判定系數(shù)的公式為
