官术网_书友最值得收藏!

2.1.5 模型假設檢驗

線性回歸模型必須滿足必要的假設前提,包括:

1)Y的平均值能夠準確地被由X構成的線性函數求解出來。

2)解釋變量X和隨機擾動項不存在線性關系。

3)解釋變量X之間不存在線性關系(或強相關)。

4)假設隨機誤差項是一個均值為0的正態分布,且方差恒定。

5)隨機誤差是獨立的。

我們建立的線性回歸模型僅僅做到準確是不夠的,只有滿足了這五個前提假設,模型才有可能是正確的。線性回歸模型如果不能滿足這五個前提假設,則需要對數據進行一些變換,這也是線性回歸中的難點。大體上,算法越簡單越需要(或者稱為“便于”)分析師進行更多的人工干預和優化。

1.假定1:線性假定

如果利用線性回歸方程解出來的系數為0,即相當于,則一定程度上說明了Y和X之前沒有線性關系(可能存在其他非線性關系)。問題在于,由于樣本的偏差,即便Y和X線性關系不顯著,最終解出來的系數也不會正好等于0,甚至可能不是一個很小的數(例如:X的單位為元或者萬元,系數就會有量級上的差異),所以需要通過統計檢驗來判定系數為0的可能性。

(1)回歸方程整體顯著性檢驗

1)原假設為和線性關系不顯著。

2)備擇假設為H1:存在任意一個回歸方程整體顯著。

3)計算檢驗統計量:,表示自變量個數。

4)確定臨界值:基于顯著性水平α,設定臨界值Fα

5)做出決策:若,拒絕;否則,接受

(2)回歸系數顯著性檢驗

1)原假設為線性關系不顯著。

2)備擇假設為線性關系顯著。

3)計算檢驗統計量:

4)確定臨界值:基于顯著性水平α,設定臨界值

5)做出決策:若,拒絕;否則,接受

明顯地,如果做簡單線性回歸,回歸系數顯著性檢驗與方程整體顯著性檢驗是等價的。

假設失效的影響:如果模型的線性關系假設不成立,意味著模型中可能還有X2、ln(X)等非線性情形,或者因變量無法由自變量線性表示,此時所得到的模型參數無法證實刻畫數據包含的內部規律。

假設失效解決方法:如果自變量與因變量的關系是非線性的,則可以考慮對自變量做X2、ln(X)等非線性變換后,再做線性回歸。

需要注意的是,本小節前面講過,如果為0,則一定程度上說明了Y和Xj之前沒有線性關系。其中,“一定程度上”的表述只是為了更加準確地表明回歸系數檢驗的作用。我們不可以說Y之所以與Xj有關,是因為是統計顯著的(不為0)[1]。注意,切勿反復使用t檢驗和F檢驗來建立模型。當然,不妨將學術爭議留給學者們。在實踐中,我們保證最終模型的回歸系數都是顯著的即可,如不顯著則考慮刪除對應解釋變量。

2.假定2:正交假定(外生性假定)

線性回歸要求誤差項與所有的解釋變量X不相關,且其期望為0。即:

該假定提示我們在建立模型時,只要同時和X、Y相關的變量就應該納入模型,否則回歸系數就是有偏的。

該假定可應用于Hausman檢驗,通過工具變量法得到參數的一致估計量,再檢驗該估計量與普通最小二乘估計量的差異是否顯著,以檢驗解釋變量與隨機擾動項是否相關。這要求我們尋找一個和解釋變量相關但是和誤差項無關的工具變量,而這通常難以做到,屬于計量經濟學的前沿問題。

學者們也提出了其他的解決方法,但大多數文獻中給出的解決建議針對的是某種特定情況,并且是在很強的假設前提下。此外,最小二乘法本身就是正交變換,即使該假設不被滿足,任何估計的方法產生的殘差都會和解釋變量正交。因此多數實踐中,我們可以不對該假設做檢驗,只是盡量注意不在模型中遺漏重要變量,尤其要保證對數據的觀測盡可能準確。

3.假定3:自變量不存在多重共線性

在多元線性回歸模型中,解釋變量之間不能存在線性關系,強相關也不可以。多元線性回歸模型的參數估計如下:

可以看到,如果X的任意分量有線性關系,則不存在,即便不是完全的多重共線性也會導致回歸系數的標準誤差很大(相對于回歸系數本身),以至于回歸系數的估計失去價值。

多重共線性示例如圖2-12所示。

圖2-12 多重共線性圖示

如圖2-12所示,如果X1和X2有著較強的線性關系(可以想象,極端情況下二者完全線性相關的情形),多一個樣本點或少一個樣本點建立的模型會有很大的差異,這是參數估計標準誤差過大的直觀體現。

另外,回想一下模型解釋中,βi代表其他自變量不變時,Xi變化對Y的影響。當Xi與其他自變量有線性關系時,很難在保持其他自變量不變的情況下,僅Xi發生變化,這也意味著沒有方法能從所給的樣本中把Xi與其他自變量的影響分解開來,所以多重共線性也會造成模型解釋上存在問題。

要檢驗解釋變量是否存在多重共線性,我們可以使用方差膨脹因子/特征根與條件指數/無截距的多重共線性分析等多種方法。方差膨脹因子計算公式如下:

其中,表示以Xi為因變量、其他X做自變量建立回歸方程時的擬合優度。如果該值很大,說明Xi與其他X存在較強的線性關系,此時方差膨脹因子VIi會比較大。一般情況下,方差膨脹因子大于10,會被認為存在較強的多重共線性問題。

多重共線性的解決方法有多種,具體如下。

1)提前篩選變量。在回歸之前通過決策樹、隨機森林、相關檢驗或變量聚類方法篩選變量,存在多重共線性的自變量有較大可能被刪除。決策樹是貪婪算法,理論上在大部分情況下起效;相關檢驗只能發現兩個變量之間的線性關系,不適用于所有情況。不過,提前篩選變量簡單、易用。

2)子集選擇。這是傳統的方法,包括逐步回歸和最優子集法等,對可能的部分子集擬合線性模型,利用判別準則(如AIC、BIC、Cp、調整R2等)決定最優的模型。因為該方法同樣屬于貪婪算法,理論上只是在大部分情況下起效,實際中往往與方法1相結合。

3)收縮方法。收縮方法又稱正則化(Regularization),主要包括嶺回歸(Ridge Reg-ression)和Lasso回歸。通過對最小二乘估計法加入罰約束,使某些系數的估計為0或接近0(系數為0相當于刪除了對應的自變量)。該方法會在后面詳細介紹。

4)維數縮減。主成分回歸(PCR)和偏最小二乘回歸(PLS)方法把p個自變量投影到m維空間(m<p),利用投影得到的不相關自變量的組合建立線性模型。這種方法的可解釋性差,不常使用。

此外,在后續案例中,我們還會從業務理解入手,構造新變量代替存在多重共線性的變量,以獲取更好的模型效果和可解釋性。

4.假定4:擾動項獨立同分布

線性回歸要求擾動項間相互獨立,且遵循同一分布,要求方差齊性,即至少滿足:

殘差是樣本Y的測量值與估計值的差,是隨機擾動項在某份樣本中的實際度量。線性回歸中的隨機擾動項是隨機產生的。如果其不獨立,說明不是隨機誤差,仍舊會有重要的信息蘊含在其中而未被提取出,因此樣本殘差也應當是獨立的。同樣地,殘差須服從同一分布,其方差是齊性的。殘差在擬合線周圍的分布如圖2-13所示。

圖2-13 擾動項獨立同分布

要驗證該假設,最簡單的辦法是做殘差與因變量的估計量的散點圖,并根據散點的分布做出判斷。除了做圖,我們也可以選擇Breusch-Pagan檢驗。注意,該檢驗的原假設是同方差,備擇假設是異方差,這樣讀者根據輸出的P值就可以直觀判斷了。

如果殘差不是同分布或者方差齊性,則可能異方差、自相關等情況。我們需要根據具體的情況進行不同的處理,具體示例將在2.1.6節中給出。

5.假定5:擾動項服從正態分布

擾動項除了要遵循獨立同分布,還要服從正態分布。

熵普遍被用作信息量的度量。在所有分布當中,正態分布的熵是最大的,因此可以認為在均值方差一定的情況下,正態分布是最隨機的。在線性回歸中,數據包含的所有信息均已經被提取,因此留下來的殘差隨機分布,不包含對模型構建有價值的信息。

圖2-14 正態假設QQ圖

驗證正態假設最簡單的辦法是使用QQ圖。它可以比較一個分布與指定的(正態)分布的接近程度,如圖2-11所示。

從圖2-14中可以看到,橫軸代表理論分布的分位點,縱軸代表樣本分位點,如果樣本符合理論上的(正態)分布,則散點位于45°對角線上(理論分布的分位點=樣本分位點),偏離越大說明越不符合正態分布。

如果采用統計檢驗的方法,則可以選擇KS檢驗(Kolmogorov-Smirnov Test)。其原假設數據是正態分布的,這樣可以直接根據輸出的P值對檢驗結果進行分析。

如果殘差不是正態分布的,OLS估計的標準誤差將不可靠。實踐中,如果殘差不是正態分布,需關注兩端樣本的異常值是否合理,如果不合理可以考慮刪除異常值再建模,此外也可以考慮對變量做非線性變換。

關于正態性假設對于線性回歸的重要性,目前各方還有一些有價值的觀點[2],有興趣的讀者可以關注,這里不做深入闡述。

[1] 參見達摩達爾·N·古扎拉蒂所著的《計量經濟學基礎》。

[2] https://www.qualitydigest.com/inside/quality-insider-article/should-residuals-be-normal.html#。

主站蜘蛛池模板: 喀喇| 滁州市| 井研县| 丹凤县| 康平县| 稻城县| 于都县| 仙桃市| 杭锦旗| 英山县| 德钦县| 玛纳斯县| 滁州市| 岳西县| 民县| 衡阳县| 保山市| 弥渡县| 山阴县| 三门县| 蒲江县| 芦溪县| 抚州市| 临桂县| 湘潭县| 成武县| 崇明县| 营口市| 巩留县| 江门市| 广宗县| 葵青区| 江口县| 诏安县| 新河县| 图们市| 龙海市| 西华县| 武乡县| 十堰市| 商南县|