官术网_书友最值得收藏!

2.1 回歸分析與最小二乘法

在有監(jiān)督學(xué)習(xí)任務(wù)中,若預(yù)測(cè)變量為離散變量,則稱其為分類問題;而預(yù)測(cè)變量為連續(xù)變量時(shí),則稱其為回歸問題。

回歸分析是一種用于確定兩種或兩種以上變量間相互依賴關(guān)系的統(tǒng)計(jì)分析方法。按照問題所涉及變量的多少,可將回歸分析分為一元回歸分析和多元回歸分析;按照自變量與因變量之間是否存在線性關(guān)系,分為線性回歸分析和非線性回歸分析。如果在某個(gè)回歸分析問題中,只有兩個(gè)變量,一個(gè)自變量和一個(gè)因變量,且自變量與因變量之間的函數(shù)關(guān)系能夠用一條直線來近似表示,那么稱其為一元線性回歸分析。

回歸分析的基本步驟如下:

① 分析預(yù)測(cè)目標(biāo),確定自變量和因變量;

② 建立合適的回歸預(yù)測(cè)模型;

③ 相關(guān)性分析;

④ 檢驗(yàn)回歸預(yù)測(cè)模型,計(jì)算預(yù)測(cè)的誤差;

⑤ 計(jì)算并確定預(yù)測(cè)值。

最小二乘法又稱為最小平方法,是一種常用的數(shù)學(xué)優(yōu)化方法。最小二乘法的原理是通過最小化誤差平方和尋找與數(shù)據(jù)匹配的最佳函數(shù)。最小二乘法的應(yīng)用十分廣泛,既可以用于參數(shù)估計(jì),也可以用于曲線擬合,以及一些其他的優(yōu)化問題。

下面以一元線性回歸問題為例,來解釋最小二乘法的具體用法。

對(duì)于一元線性回歸模型,假設(shè)從總體中獲取了n組觀察值(xi,yi),i=1,2,",n,其中xi,yiR。那么這n組觀察值在二維平面直角坐標(biāo)系中對(duì)應(yīng)的就是平面中的n個(gè)點(diǎn),此時(shí)有無數(shù)條曲線可以擬合這n個(gè)點(diǎn)。通常情況下,希望回歸函數(shù)能夠盡可能好地?cái)M合這組值。綜合來看,當(dāng)這條直線位于樣本數(shù)據(jù)的中心位置時(shí)似乎最合理。因此,選擇最佳擬合曲線的標(biāo)準(zhǔn)可確定為:總擬合誤差(即總殘差)最小。對(duì)于總擬合誤差,有3個(gè)標(biāo)準(zhǔn)可供選擇。

(1)用“殘差和”表示總擬合誤差,但“殘差和”會(huì)出現(xiàn)相互抵消的問題。

(2)用“殘差絕對(duì)值”表示總擬合誤差,但計(jì)算絕對(duì)值相對(duì)較為麻煩。

(3)用“殘差平方和”表示總擬合誤差。最小二乘法采用的就是按照“殘差平方和最小”所確定的直線。用“殘差平方和”計(jì)算方便,而且對(duì)異常值會(huì)比較敏感。

假設(shè)回歸模型(擬合函數(shù))為:

則樣本(xi,yi)的誤差為:

其中 f(xi)為xi的預(yù)測(cè)值(擬合值),yixi對(duì)應(yīng)的實(shí)際值。

最小二乘法的損失函數(shù)Q也就是殘差平方和,即:

通過最小化Q來確定直線方程,即確定β0和β1,此時(shí)該問題變成了求函數(shù)Q的極值問題。根據(jù)高等數(shù)學(xué)的知識(shí)可知,極值通常是通過令導(dǎo)數(shù)或者偏導(dǎo)數(shù)等于0而得到,因此,求Q關(guān)于未知參數(shù)β0和β1的偏導(dǎo)數(shù):

通過令偏導(dǎo)數(shù)為0,可求解函數(shù)的極值點(diǎn),即:

將樣本數(shù)據(jù)(xi,yi),i=1,2,",n代入,即可得到的具體值。這就是利用最小二乘法求解一元線性回歸模型參數(shù)的過程。

主站蜘蛛池模板: 班玛县| 石阡县| 葵青区| 五寨县| 新邵县| 英吉沙县| 三门峡市| 高陵县| 扶余县| 临汾市| 军事| 寻甸| 凤翔县| 凌云县| 乐昌市| 简阳市| 台南市| 西昌市| 新密市| 保德县| 道孚县| 郎溪县| SHOW| 梧州市| 肇庆市| 南京市| 肇源县| 唐海县| 盐亭县| 集贤县| 安宁市| 内丘县| 公安县| 成安县| 常宁市| 崇文区| 彰化县| 肇东市| 故城县| 姜堰市| 邳州市|