- 機器學習(第2版)
- 趙衛東 董亮編著
- 980字
- 2025-01-16 17:43:26
2.1.6 邏輯回歸
邏輯回歸(Logistic Regression)是一種預測分析,解釋因變量與一個或多個自變量之間的關系,與線性回歸的不同之處就是它的目標變量有幾種類別,所以邏輯回歸主要用于解決分類問題。與線性回歸相比,它是用概率的方式,預測出屬于某一分類的概率值。如果概率值超過50%,則屬于某一分類。此外,它的可解釋性強,可控性高,并且訓練速度快,特別是經過特征工程之后效果更好。
按照邏輯回歸的基本原理,求解過程可以分為以下3步。
(1)找一個合適的預測分類函數,用來預測輸入數據的分類結果,一般表示為h函數,需要對數據有一定的了解或分析,然后確定函數的可能形式。
(2)構造一個損失函數,該函數表示預測輸出(h)與訓練數據類別(y)之間的偏差,一般是預測輸出與實際類別的差,可對所有樣本的偏差求 R2值等作為評價標準,記為 L(θ)函數。
(3)找到 L(θ)函數的最小值,因為值越小表示預測函數越準確。求解損失函數的最小值采用梯度下降法。
二分類問題中一般使用 Sigmoid 函數作為預測分類函數,其函數公式為,對應的函數圖像是一條取值在0和1之間的S形曲線,如圖2-5所示。

圖2-5 Sigmoid函數
二分類問題使用概率來實現預測,首先構造h函數:

其中,θ0、θ1、θ2就是要求解的方程參數值,θ0為截距。假設X 是自變量的矩陣,θ是線性方程系數矩陣:

對 h 函數的表示形式進行簡化,得到如下公式:

其中,hθ(x)函數的值表示概率值,即結果取1的概率。因此,對于輸入x,分類屬于類別1和類別0的概率分別用如下公式表示:

當函數的結果大于50%時,可以認為屬于類別1的可能性較高。當然,閾值50%可以結合實際業務進行調整。
在求解過程中,關鍵是如何確定θ的值。首先要定義損失函數L(θ),即誤差評價指標。在邏輯回歸中損失函數采用對數損失函數:
![L(y?,y)=-[y log 2y?+(1-y)log2(1-y?)]](https://epubservercos.yuewen.com/325728/31664380603480106/epubprivate/OEBPS/Images/figure-0044-0063.jpg?sign=1755753497-orTOBelQ3knTOFsGKVG5OTPzRzDfrKvI-0-136df4245661ea00b33cb8be59a89851)
當真實值y=1時,,當預測值
越接近1時,
就越接近值0,表示損失函數值越小,誤差越小。而當預測值
越接近于0時,
就越接近負無窮,加上負號后就代表誤差越大。
當真實值y=0時,,當預測值
越接近0時,
也越接近0,表示損失函數值越小,誤差越小。而當預測值
越接近1時,
越接近負無窮,加上負號后就代表誤差越大。
基于上述損失函數公式,計算所有樣本的損失函數結果,并采用梯度下降法不斷迭代求偏導,逐漸逼近θ的最佳值,使損失函數取得極小值。其中損失函數一般采用最大似然估計或對數似然函數來代替。對邏輯回歸算法的效果評估,一般采用曲線下面積(Area Under the Curve, AUC)指標來評價。