- 金融商業算法建模:基于Python和SAS
- 趙仁乾 田建中 葉本華 常國珍
- 2597字
- 2021-11-05 17:52:04
2.1.1 線性回歸模型概述
需要被預測的變量稱為因變量、被解釋變量或反應變量,習慣上用來表示;相對應的,用于預測的變量稱為自變量、解釋變量或預測變量,習慣上用來表示。
建模分析中,Y為連續型變量的預測問題稱為回歸問題,Y為離散型變量的預測問題則稱為分類問題。例如,通過客戶的收入(X)來預測客戶信用卡支出(Y),這就是一個典型的回歸問題。
1.簡單線性回歸模型
假設Y與X存在線性關系,當X是一維變量(即只有一列)時,適合用簡單線性回歸模型。簡單線性回歸的模型表示如下:

其中,Y是因變量;X是自變量;ε是擾動項;是未知參數,
稱為截距項,
稱為斜率。
簡單線性回歸的建模目標為:評估預測變量在解釋反應變量的變異或表現時的顯著性;在給定預測變量值的情況下預測反應變量值。簡單線性回歸可以直觀地以圖形表示,如圖2-1所示。

圖2-1 簡單線性回歸圖示
假設X與Y之間存在線性關系,即理論上二者的關系如圖2-1中虛線所示,模型方程為,其中ε是擾動項。擾動項表示由個體變異導致的偏離理論模型的情況。實際工作中,我們不可能直接知道這種規律,只能通過統計建模的方法探究理論上的模型,即通過抽樣方法采集大量樣本來估計理論模型的參數。這些獲取到的散點除了受擾動項影響之外,還受抽樣偏差的影響,造成散點圖不是完全對稱地分布在虛線附近。理論中的直線我們無法獲得,只能通過樣本來推斷參數β。根據已有樣本獲得的最優模型如圖2-1中實線所示。因為是通過樣本推斷出來的,模型參數及反應變量都是估計值,因此使用
表示。這里需要強調的是,因為抽樣永遠有偏差,我們只能通過正確的抽樣方法盡可能地降低抽樣偏差,但是不可能將其消除。
樣本點與模型預測值之間的差值稱為殘差,即:

殘差越小,說明模型越準確。因為樣本有n條記錄,所以我們希望計算出來的參數能使得殘差的平方和達到最小,即最小化下列函數:

其中,L是關于的函數,被稱為損失函數或者代價函數;
和
則是已知的樣本值。要獲得L達到最小值時的
,我們需要得到
的駐點。因此令其一階導數為0,即:

解方程組獲得最優的為:

其中,和
分別表示解釋變量和反應變量的樣本均值。
這種方法被稱為普通最小二乘法(Ordinary Least Square,OLS),被稱為模型的最小二乘估計,具有無偏性和最小方差性的優點。無偏性指參數估計量的期望值等于真實方程中的參數值。不過,這只是說這種估計方法是無偏的,如果樣本本身抽樣有偏,估計值還是有偏的。最小方差性指滿足高斯經典假設前提下,最小二乘法估計出的參數是所有估計中方差最小的。具有這類性質的估計被稱為最優線性無偏估計(Best Linear Unbiased Estimate,BLUE)。
2.多元線性回歸模型
多元線性回歸,顧名思義,其解釋變量為兩個及以上,一個兩變量的回歸方程如下:

其中,Y是因變量;和
是自變量;ε是擾動項;
和
是未知系數。
當參數β已知時,該方程可以表示為在三維空間中的一個平面,如圖2-2所示。
如果我們對每個變量進行一些非線性變換,多元線性回歸模型也可以擬合為一個曲面,例如方程:

盡管自變量包含平方項,該方程仍然屬于多元線性回歸模型,只需要將平方項視作一個新的自變量。該模型在三維空間中呈現為一個曲面,如圖2-3所示。

圖2-2 多元線性回歸圖示

圖2-3 多元線性回歸圖形——曲面
可以看到,線性回歸盡管簡單,但當模型設置足夠復雜時,仍然具較強的表達能力。
多元線性回歸的求解與簡單線性回歸類似,其未知參數的解可以表示為:

其中,X和Y是以矩陣或向量的形式表示的,。
線性回歸方程的解析解形式,我們僅做了解即可,因為矩陣求逆計算復雜度較高。隨著大數據時代的到來,人們不得不尋找更加高效的數值計算方式,如梯度下降等。從實戰角度看,大量的統計分析和機器學習框架實現了高效的線性回歸求解,我們會更加關注這些框架的應用,而非如何實現算法。
3.擬合優度R2與調整R2
(1)擬合優度R2
數值預測模型的評估有很多指標,如MSE、RMSE等,其中擬合優度R2常常用于線性回歸模型的評估,且該指標具有較好的可解釋性,如圖2-4所示。

圖2-4 模型解釋數據變異圖示
樣本值與估計值的離差平方和被看作是在估計值基礎上的數據變異程度,這個變異可以從三個方面來衡量。
·樣本的總變異表示為,這個值是在沒有任何已知X信息基礎上Y的不確定性表達,相當于只用樣本均值
作為個體數值估計(基線模型)時的差異。
·線性回歸模型可以消除一部分關于Y的不確定性,即在X已知的基礎上,線性回歸模型解釋了的數據變異為,即線性回歸估計相對于樣本均值(基線模型)的差異。
·對應地,未能被模型解釋的數據變異則為,相當于用線性回歸估計值
做個體數值預測時的差異,即殘差平方和。這個值越小,說明模型擬合越好。
從數學上可以證明:總變異=模A型解釋的變異+模型未能解釋的變異。擬合優度R2定義為模型可解釋的數據變異占總變異的比值為:

R2最大值為1,越接近1,說明模型解釋的變異相對于總變異越多,模型越好;R2的值越小,說明模型解釋的變異相對于總變異越少,模型越差;R2為1,則說明模型成功解釋了樣本值相對于均值的所有變異。
(2)調整后的R2
可以很容易地發現,在多元線性回歸中,每增加一個自變量,擬合優度一定會上升,即便增加的是一個毫不相關的變量,無非會解得該變量的系數為0,相當于沒增加該變量,擬合優度至少是不下降的。
一個模型變量越多,對樣本的擬合程度會越好,但模型會越復雜,越容易造成過度擬合,即對現有樣本擬合得很好,但換一個觀察期或者換一批樣本,模型的效果會大幅下降。
實際上,越簡單的模型越不容易過度擬合,并且更容易解釋,我們希望能在獲取較好的擬合效果的同時模型越簡單越好,因此需要設計一個同時反映擬合優度與模型的復雜度的指標。調整R2(也稱校正R2)就是這樣一個指標,計算公式如下:

當有截距項時,i等于1,反之等于0;n為用于擬合該模型的觀察值數量;k為模型中參數的個數,即進入模型的變量個數;R2為擬合優度。
可以看到,擬合優度R2越大,則調整R2也越大,但如果進入模型的變量k變多,調整R2會有下降的趨勢。隨著變量的增加,調整R2上升的速度會低于R2的上升速度,甚至當增加的變量相關性較差時,調整R2會出現下降的情況。通過平衡變量的數量與模型的擬合程度,調整R2可以用于變量的篩選。
除了調整R2外,赤池信息量(AIC)或者貝葉斯信息量(BIC)也可用于變量的篩選。它們的計算公式不同,但基本原理一致,都是通過平衡擬合程度與變量數量來尋找較好的變量組合。
值得注意的是,調整R2僅用于變量篩選,即所謂的選取最優模型。評估最終模型的擬合程度時,還是使用R2。
- GitHub Essentials
- 云計算服務保障體系
- Libgdx Cross/platform Game Development Cookbook
- 云計算與大數據應用
- Remote Usability Testing
- INSTANT Android Fragmentation Management How-to
- 改變未來的九大算法
- 大數據數學基礎(Python語言描述)
- 從Lucene到Elasticsearch:全文檢索實戰
- Oracle 11g數據庫管理員指南
- Access 2010數據庫應用技術教程(第二版)
- 社交網站的數據挖掘與分析(原書第2版)
- Configuration Management with Chef-Solo
- Learning Construct 2
- Getting Started with Review Board