- 系統(tǒng)辨識(shí)及其在水電能源中的應(yīng)用
- 張勇傳主編
- 3756字
- 2019-01-04 00:39:14
第1章 線性回歸與隨機(jī)過程方法
1.1 線性回歸原理
1.1.1 回歸模型與最小二乘估計(jì)
許多應(yīng)用問題的研究,往往歸結(jié)為弄清楚一些有關(guān)變量之間的聯(lián)系,在現(xiàn)實(shí)中,這些變量往往呈現(xiàn)出非確定性的關(guān)系,它的特征是因變量Y所取的值與自變量X1,…,Xp有關(guān)系,但這種關(guān)系沒有密切到可以確切決定的程度,實(shí)用上,人們常常以下述模型

來表述這種關(guān)系,其中,f是多元函數(shù),ε為零均值的隨機(jī)擾動(dòng)項(xiàng)。隨機(jī)擾動(dòng)項(xiàng)的存在使Y與X1,…,Xp的關(guān)系成為非確定性的。不確定性的程度取決于這一項(xiàng)影響的大小,而f可以稱為回歸函數(shù)。
當(dāng)回歸函數(shù)f取為線性函數(shù)時(shí),式(1.1)化為

式(1.2)為線性模型,線性回歸的任務(wù)是由觀察數(shù)據(jù)估計(jì)線性回歸函數(shù)并進(jìn)行統(tǒng)計(jì)推斷。
假定進(jìn)行了n次試驗(yàn)或觀察,得到了變量(Y,X1,…,Xp)的n組觀察值。
Y1X11X12…X1p
Y2X21X22…X2p
…………………………
YnXn1Xn2…Xnp
又設(shè)第i次觀察中隨機(jī)誤差ε取值為εi(i=1,…,n),應(yīng)該注意的是,誤差εi的取值是不能觀察到的。根據(jù)模型(1.2)有

令

則可將式(1.3)寫成矩陣的形式

對(duì)于線性回歸模型,常用的有下述兩種假定:
1° Gauss-Markov假定
Eε=0,
Var(ε)=σ2I。
2°正態(tài)假定
ε~N(0,σ2I)。
用最小二乘估計(jì)法,可以推導(dǎo)出回歸系數(shù)的估計(jì)公式。最小二乘估計(jì)法引入二次損失函數(shù)

其中

然后定出使

即以作為β的估計(jì)。這個(gè)估計(jì)簡稱為LS估計(jì)。由于
L(β)=‖Y‖2-2(XTY)Tβ+βTXTXβ,
如果X是列滿秩矩陣,從而XTX是正定陣,根據(jù)LS估計(jì)的定義,它應(yīng)滿足

由此可得

式(1.6)稱為回歸模型(1.4)的正規(guī)方程。由正規(guī)方程知LS估計(jì)

得到后,可用

作為σ2的估計(jì),關(guān)于這些估計(jì)量的性質(zhì)有如下結(jié)論:
1°為β的無偏估計(jì),即
=β;
2°在Gauss-Markov假定下有

3°在Gauss-Markov假定下,在β的任一線性函數(shù)dTβ的一切線性無偏估計(jì)類中,其LS估計(jì),也只有
,其方差達(dá)到最小;
4°在正態(tài)假定下,~N(β,σ2(XTX)-1);
5°在Gauss-Markov假定下,由(1.8)所確定的為σ2的一個(gè)無偏估計(jì);
6°在正態(tài)假定下

且與
獨(dú)立
1.1.2 線性檢驗(yàn)和置信區(qū)間
要成功地使用回歸分析方法,有兩個(gè)問題須處理好:一是選擇適當(dāng)?shù)淖宰兞浚欢沁x定適當(dāng)?shù)幕貧w函數(shù)形式。對(duì)第二個(gè)問題除少數(shù)情況外,往往找不到足夠的根據(jù)去支持任何一種特定的選擇。于是為簡單計(jì)算且作為一種近似,人們多轉(zhuǎn)向于線性函數(shù)。只要有可能和必要,應(yīng)當(dāng)通過種種途徑對(duì)線性回歸的形式是否正確進(jìn)行考察。通過實(shí)際觀察數(shù)據(jù)去作檢驗(yàn),是重要的途徑之一。
1.1.2.1 回歸顯著性檢驗(yàn)
設(shè)取定了自變量X1,…,Xp,且決定采用線性回歸方程。進(jìn)行了n次觀測后得數(shù)據(jù)

因此可算出回歸系數(shù)β0,β1,…,βp的估計(jì)。如果
(j=1,…,p),則實(shí)際上X1,…,Xp整個(gè)與Y的關(guān)系很小。這時(shí)經(jīng)驗(yàn)回歸方程

也就沒有什么實(shí)際意義。這引導(dǎo)我們考慮假設(shè)檢驗(yàn)問題

上述假設(shè)檢驗(yàn)問題通常稱為回歸顯著性檢驗(yàn)問題。如果通過檢驗(yàn)接受了假設(shè)H0,則考慮X1,…,Xp對(duì)Y的線性回歸沒有實(shí)際意義。造成這種情況的原因可能有兩種:一是對(duì)Y有顯著性影響的自變量沒有包含在X1,…,Xp中,這將使模型誤差ε很大;二是回歸系數(shù)并非線性的,這需要我們作進(jìn)一步的研究。
如果經(jīng)過檢驗(yàn)否定了假設(shè)H0,則可認(rèn)為所選自變量全體對(duì)Y確實(shí)是有關(guān)的,因而基于它們的線性回歸方程,在實(shí)際上就有一定的意義。由于是在線性回歸前提下討論,我們也可以把假設(shè)H0是否成立解釋為X1,…,Xp全體對(duì)Y的線性相關(guān)是否顯著。但需注意的是,當(dāng)H0被否定時(shí),只能說采用基于自變量的回歸有一定的意義,而并不能武斷地作出線性回歸方程是合用的結(jié)論。因?yàn)橥耆锌赡?span id="rgymapq" class="italic">X1,…,Xp并沒有包括與Y有密切關(guān)系的自變量,也可能回歸函數(shù)的最佳選擇并不是線性的。因此,如果繼續(xù)朝這兩個(gè)方向努力,也許能夠得到一個(gè)更好的回歸模型。
設(shè)有了樣本(1.9),一般n個(gè)Y值Y1,…,Yn不全相同,用統(tǒng)計(jì)學(xué)的術(shù)語說,有變差存在。其值可用總離差平方和

來衡量,這里為Y的樣本均值。可以證明SST可分解為回歸方差SSE和剩余方差SSR之和

進(jìn)一步可證明下述結(jié)論:
定理1.1 若假設(shè)H0為真,則在正態(tài)模型的條件下有

這里F(p,n-p-1)是第一自由度為p,第二自由度為n-p-1的F分布。
由上述定理,在給定顯著水平α后,根據(jù)自由度ν1=p,ν2=n-p-1查得F分布的臨界值Fα=Fα(ν1,ν2),如果F>Fα,那么拒絕假設(shè)H0,表明這些自變量對(duì)Y有顯著性影響;而若F<Fα,則接受H0,表明所有自變量對(duì)Y均沒有影響。
1.1.2.2 部分回歸系數(shù)顯著性檢驗(yàn)
首先討論各個(gè)自變量的顯著性檢驗(yàn)。設(shè)想已選好自變量X1,…,Xp,但根據(jù)某種考慮,我們懷疑其中某個(gè)自變量,例如Xp,實(shí)際上與Y的關(guān)系不大。如果這是事實(shí),則可以丟掉Xp以簡化模型而對(duì)模型的功效無實(shí)質(zhì)損害。或者反過來提問題:原先已選入了自變量X1,…,Xp-1,現(xiàn)在又有新的變量Xp提供考慮,是否應(yīng)予以選入。如果回答是肯定的,則Xp選入后可改善模型的功效。在一定意義上,后面的這個(gè)問題可歸于前者:可以一開始就把X1,…,Xp全作為已選入的,在這個(gè)基礎(chǔ)上去檢驗(yàn)Xp的作用是否顯著。如果是顯著的,則Xp應(yīng)當(dāng)吸收進(jìn)來。把自變量Xi叫做回歸因子,其系數(shù)βi稱為Y關(guān)于回歸因子Xi的回歸系數(shù)。說某個(gè)因子Xi對(duì)Y作用不顯著是指原假設(shè)

不被否定。因此對(duì)式(1.13)作顯著性檢驗(yàn),即為挑選重要因子,剔除不顯著因子的工作。
可以證明[1]在H0下有

于是利用式(1.14)可對(duì)H0進(jìn)行檢驗(yàn)。記,其中
,稱Vi為Y關(guān)于因子Xi的偏回歸平方和。
進(jìn)一步,如果要檢驗(yàn)回歸系數(shù)中部分回歸系數(shù)的顯著性問題,上述的討論就失去了意義。為此,下面將作進(jìn)一步討論。假設(shè)有p個(gè)因子的模型為

如果知道Yi不但受到上述p個(gè)因子的影響,還受到另外l-p個(gè)回歸因子Xp+1,…,Xl(l>p)的影響,則包括全部回歸因子的回歸模型應(yīng)為

這時(shí)不但要考慮各個(gè)Xp+1,…,Xl對(duì)Y的影響,還要考慮它們是否同時(shí)對(duì)Y有顯著影響。前一個(gè)問題類似于前面的討論,這里不再提及。對(duì)于后一個(gè)問題,可構(gòu)造假設(shè)

類似于回歸顯著性的討論,令

對(duì)于式(1.15)而言

對(duì)于式(1.16)來說

其中p,l為各自模型回歸因子的個(gè)數(shù)。可以證明:對(duì)于在式(1.16)相對(duì)于式(1.15)增加的新回歸因子的F統(tǒng)計(jì)量是

從而可用該統(tǒng)計(jì)量對(duì)H0進(jìn)行檢驗(yàn),以推斷回歸變量中部分回歸系數(shù)對(duì)Y的影響程度。
1.1.2.3 一般線性假設(shè)的檢驗(yàn)與置信區(qū)間
現(xiàn)在討論描述假設(shè)檢驗(yàn)和置信區(qū)間的一個(gè)廣義方法。如果已知的分布,考慮如下的線性變換

這里C是任意常數(shù)矩陣,其秩rank(C)=r,且r≤p+1,如果C是單位矩陣,即,那么
的分布就是
的分布。更簡單的情形如設(shè)C=(1,0,…,0),則
的分布就是單一變量
的分布。r是將要檢驗(yàn)的變量數(shù)目。
可以求出的分布。因?yàn)?/p>

所以在正態(tài)假定下有~N(Cβ,σ2C(XTX)-1CT)。根據(jù)χ2-分布的定義

為自由度為r的χ2-分布,它被r除以后,并用σ2的估計(jì)值代替σ2,就得到F統(tǒng)計(jì)量


即F服從自由度為r,n-p-1的F分布。這個(gè)基本統(tǒng)計(jì)量是用來構(gòu)造β的置信區(qū)間和進(jìn)行假設(shè)檢驗(yàn)的工具。從這個(gè)基本結(jié)果出發(fā),簡單的選取特定的矩陣C,就可以作出任何數(shù)目的各種各樣的檢驗(yàn)。在前面討論的各種檢驗(yàn)均為它的特殊情形。
顯著性檢驗(yàn)的一般形式可由下述概率公式給出:

在給定顯著性水平α下,F≤Fα=Fα(r,n-p-1)的概率等于1-α。如果F<Fα,接受假設(shè)H0,否則若F>Fα,則拒絕H0。同時(shí)根據(jù)式(1.24)大括弧中的不等式,可以構(gòu)造出Cβ的1-α置信區(qū)間,即

以下先討論置信區(qū)間問題:
1.聯(lián)合置信域 為了得到所有βi的聯(lián)合置信域,可令C=I,在這種情況下,1-α置信區(qū)間為

上式除β以外其他都是已知的,滿足這個(gè)不等式的β值形成一個(gè)p+1維橢球。
2.若干個(gè)βi的聯(lián)合置信域 不失一般性,把感興趣的回歸變量重新整理放在后面,譬如說有r個(gè)。現(xiàn)在討論這r個(gè)變量系數(shù)的聯(lián)合置信域。令

即βr為β的最后r個(gè)分量所構(gòu)成的r維列向量,因此

自然βr的估值滿足

現(xiàn)在計(jì)算

這里將XTX相應(yīng)的矩陣分塊為,所以Vr是V=(XTX)-1的右下部r×r塊C22。從而由式(1.25),βr的1-α聯(lián)合置信域?yàn)?/p>

3.單個(gè)βi的置信區(qū)間 對(duì)于式(1.27),若假設(shè)r=1,則多維橢球置信域就變?yōu)橐痪S區(qū)間,也就是單個(gè)βi的置信區(qū)間。因此,單個(gè)βi的置信域?yàn)?/p>

這里Vii為V=XTX的第i行第i列的元素。從而βi的置信區(qū)間為

還可以進(jìn)一步用t分布表示這一結(jié)果。由于這里具有自由度1和n-p-1,它恰好與n-p-1個(gè)自由度的
相同,于是

因此式(1.28)變?yōu)?/p>

這里的有時(shí)被稱作估計(jì)值
的方差估計(jì)值,記作si,即si為
的估計(jì)值。
4.一般線性檢驗(yàn) 一般來說,對(duì)若干個(gè)系數(shù)的聯(lián)合檢驗(yàn),構(gòu)造如下假設(shè)
H0∶Cβ=r0,H1∶Cβ≠r0。
這里r0是常數(shù)列向量,常常取r0=0。通常有兩種等價(jià)的方法進(jìn)行上述假設(shè)檢驗(yàn)。
第一種方法是按式(1.25)構(gòu)造Cβ的置信區(qū)間,然后觀察其表示的區(qū)域內(nèi)是否包含向量r0。若不包括,則拒絕H0,接受H1;否則接受H0而拒絕H1,說明無顯著差異。
另一種方法是用r0代替式(1.24)中的Cβ,得

計(jì)算F值,若計(jì)算的F值大于臨界值Fα,拒絕H0,接受H1;否則接受H0,拒絕H1。
1.1.3 均差法與判定系數(shù)
均差法是從n個(gè)樣本觀察值的均值出發(fā)推導(dǎo)最小二乘估計(jì)式,由線性回歸模型(1.2)易得

其中

為各自的樣本均值。

則可得

寫成矩陣形式有

其中

式(1.32)的最小二乘估計(jì)為

通過計(jì)算易知仍有

成立。下面分別導(dǎo)出判定系數(shù)。
因?yàn)?/p>

將代入上式得

由于表示未被回歸方程解釋的殘差平方和,而總離差平方和是

這里有Y=(Y1,…,Yn)T。
于是總離差中由回歸方程解釋的部分為

令

稱R2為多重判定系數(shù)。
為了比較不同組回歸變量的解釋能力,常利用經(jīng)自由度調(diào)整后的判定系數(shù)。根據(jù)判定系數(shù)的定義

這里和
分別為不能被模型解釋的殘差平方和與總離差平方和被n除。這些方差的無偏估計(jì)式分別為
和
,因此校正后的判定系數(shù)為:

比較R2和-R2可知,對(duì)于R2,它并不隨回歸模型中回歸因子變量增加而減小,而-R2則將隨著回歸變量個(gè)數(shù)的增加而減小。
對(duì)于均差法,總的離差平方和為yTy,因此判定系數(shù)的公式為

- 陳滿祥水文水資源論文續(xù)集
- 內(nèi)蒙古河套灌區(qū)渠道襯砌和渠系建筑物設(shè)計(jì)圖集
- 全球典型國家電力經(jīng)濟(jì)發(fā)展報(bào)告(三):金磚國家
- 小型水工建筑物設(shè)計(jì)
- 氣候變化和人類活動(dòng)對(duì)白龍江流域徑流的影響研究
- 遙感技術(shù)在水環(huán)境評(píng)價(jià)中的應(yīng)用
- Concrete Mixers for Building Water and Hydropower Project(水利水電建設(shè)用混凝土攪拌機(jī)英文版)
- 流域水資源承載力與水環(huán)境問題研究
- 村鎮(zhèn)供水與飲水安全
- 灌區(qū)量水技術(shù)及其自動(dòng)化
- 湖北水資源可持續(xù)發(fā)展報(bào)告(2015)
- 呼和浩特抽水蓄能電站工程
- 西南地區(qū)深切河谷大型堆積體工程地質(zhì)研究與實(shí)踐
- 2014年全國水利發(fā)展統(tǒng)計(jì)公報(bào)=2014 Statistic Bulletin on China Water Activities
- 海河流域河湖健康評(píng)估研究與實(shí)踐