mg不朽情缘bug

書名：機(jī)器學(xué)習(xí)與大數(shù)據(jù)技術(shù)
作者名：牟少敏
本章字?jǐn)?shù)： 1013字
更新時(shí)間： 2019-09-12 15:13:56

2.1 回歸分析與最小二乘法

在有監(jiān)督學(xué)習(xí)任務(wù)中，若預(yù)測(cè)變量為離散變量，則稱其為分類問題；而預(yù)測(cè)變量為連續(xù)變量時(shí)，則稱其為回歸問題。

回歸分析是一種用于確定兩種或兩種以上變量間相互依賴關(guān)系的統(tǒng)計(jì)分析方法。按照問題所涉及變量的多少，可將回歸分析分為一元回歸分析和多元回歸分析；按照自變量與因變量之間是否存在線性關(guān)系，分為線性回歸分析和非線性回歸分析。如果在某個(gè)回歸分析問題中，只有兩個(gè)變量，一個(gè)自變量和一個(gè)因變量，且自變量與因變量之間的函數(shù)關(guān)系能夠用一條直線來近似表示，那么稱其為一元線性回歸分析。

回歸分析的基本步驟如下：

① 分析預(yù)測(cè)目標(biāo)，確定自變量和因變量；

② 建立合適的回歸預(yù)測(cè)模型；

③ 相關(guān)性分析；

④ 檢驗(yàn)回歸預(yù)測(cè)模型，計(jì)算預(yù)測(cè)的誤差；

⑤ 計(jì)算并確定預(yù)測(cè)值。

最小二乘法又稱為最小平方法，是一種常用的數(shù)學(xué)優(yōu)化方法。最小二乘法的原理是通過最小化誤差平方和尋找與數(shù)據(jù)匹配的最佳函數(shù)。最小二乘法的應(yīng)用十分廣泛，既可以用于參數(shù)估計(jì)，也可以用于曲線擬合，以及一些其他的優(yōu)化問題。

下面以一元線性回歸問題為例，來解釋最小二乘法的具體用法。

對(duì)于一元線性回歸模型，假設(shè)從總體中獲取了n組觀察值(xi,yi)，i=1,2,",n，其中xi,yi∈R。那么這n組觀察值在二維平面直角坐標(biāo)系中對(duì)應(yīng)的就是平面中的n個(gè)點(diǎn)，此時(shí)有無數(shù)條曲線可以擬合這n個(gè)點(diǎn)。通常情況下，希望回歸函數(shù)能夠盡可能好地?cái)M合這組值。綜合來看，當(dāng)這條直線位于樣本數(shù)據(jù)的中心位置時(shí)似乎最合理。因此，選擇最佳擬合曲線的標(biāo)準(zhǔn)可確定為：總擬合誤差（即總殘差）最小。對(duì)于總擬合誤差，有3個(gè)標(biāo)準(zhǔn)可供選擇。

（1）用“殘差和”表示總擬合誤差，但“殘差和”會(huì)出現(xiàn)相互抵消的問題。

（2）用“殘差絕對(duì)值”表示總擬合誤差，但計(jì)算絕對(duì)值相對(duì)較為麻煩。

（3）用“殘差平方和”表示總擬合誤差。最小二乘法采用的就是按照“殘差平方和最小”所確定的直線。用“殘差平方和”計(jì)算方便，而且對(duì)異常值會(huì)比較敏感。

假設(shè)回歸模型（擬合函數(shù)）為：

則樣本(xi,yi)的誤差為：

其中 f(xi)為xi的預(yù)測(cè)值（擬合值），yi為xi對(duì)應(yīng)的實(shí)際值。

最小二乘法的損失函數(shù)Q也就是殘差平方和，即：

通過最小化Q來確定直線方程，即確定β0和β1，此時(shí)該問題變成了求函數(shù)Q的極值問題。根據(jù)高等數(shù)學(xué)的知識(shí)可知，極值通常是通過令導(dǎo)數(shù)或者偏導(dǎo)數(shù)等于0而得到，因此，求Q關(guān)于未知參數(shù)β0和β1的偏導(dǎo)數(shù)：

通過令偏導(dǎo)數(shù)為0，可求解函數(shù)的極值點(diǎn)，即：

將樣本數(shù)據(jù)(xi,yi)，i=1,2,",n代入，即可得到和的具體值。這就是利用最小二乘法求解一元線性回歸模型參數(shù)的過程。

官术网_书友最值得收藏!

機(jī)器學(xué)習(xí)與大數(shù)據(jù)技術(shù)

2.1 回歸分析與最小二乘法