官术网_书友最值得收藏!

  • 機器學習(第2版)
  • 趙衛東 董亮編著
  • 980字
  • 2025-01-16 17:43:26

2.1.6 邏輯回歸

邏輯回歸(Logistic Regression)是一種預測分析,解釋因變量與一個或多個自變量之間的關系,與線性回歸的不同之處就是它的目標變量有幾種類別,所以邏輯回歸主要用于解決分類問題。與線性回歸相比,它是用概率的方式,預測出屬于某一分類的概率值。如果概率值超過50%,則屬于某一分類。此外,它的可解釋性強,可控性高,并且訓練速度快,特別是經過特征工程之后效果更好。

按照邏輯回歸的基本原理,求解過程可以分為以下3步。

(1)找一個合適的預測分類函數,用來預測輸入數據的分類結果,一般表示為h函數,需要對數據有一定的了解或分析,然后確定函數的可能形式。

(2)構造一個損失函數,該函數表示預測輸出(h)與訓練數據類別(y)之間的偏差,一般是預測輸出與實際類別的差,可對所有樣本的偏差求 R2值等作為評價標準,記為 L(θ)函數。

(3)找到 L(θ)函數的最小值,因為值越小表示預測函數越準確。求解損失函數的最小值采用梯度下降法。

二分類問題中一般使用 Sigmoid 函數作為預測分類函數,其函數公式為,對應的函數圖像是一條取值在0和1之間的S形曲線,如圖2-5所示。

圖2-5 Sigmoid函數

二分類問題使用概率來實現預測,首先構造h函數:

hθ(x)=g(θ 0+θ1x1+θ2x2)

其中,θ0、θ1θ2就是要求解的方程參數值,θ0為截距。假設X 是自變量的矩陣,θ是線性方程系數矩陣:

TX =(x1,x2),θ=(θ1,θ2)T

h 函數的表示形式進行簡化,得到如下公式:

hx gθ( )= ( T )θX =XTθ-+1 e 1

其中,hθ(x)函數的值表示概率值,即結果取1的概率。因此,對于輸入x,分類屬于類別1和類別0的概率分別用如下公式表示:

當函數的結果大于50%時,可以認為屬于類別1的可能性較高。當然,閾值50%可以結合實際業務進行調整。

在求解過程中,關鍵是如何確定θ的值。首先要定義損失函數L(θ),即誤差評價指標。在邏輯回歸中損失函數采用對數損失函數:

L(y?,y)=-[y log 2y?+(1-y)log2(1-y?)]

當真實值y=1時,,當預測值越接近1時,就越接近值0,表示損失函數值越小,誤差越小。而當預測值越接近于0時,就越接近負無窮,加上負號后就代表誤差越大。

當真實值y=0時,,當預測值越接近0時,也越接近0,表示損失函數值越小,誤差越小。而當預測值越接近1時,越接近負無窮,加上負號后就代表誤差越大。

基于上述損失函數公式,計算所有樣本的損失函數結果,并采用梯度下降法不斷迭代求偏導,逐漸逼近θ的最佳值,使損失函數取得極小值。其中損失函數一般采用最大似然估計或對數似然函數來代替。對邏輯回歸算法的效果評估,一般采用曲線下面積(Area Under the Curve, AUC)指標來評價。

主站蜘蛛池模板: 太仆寺旗| 沽源县| 修武县| 通河县| 信阳市| 农安县| 西昌市| 南雄市| 镇远县| 宾川县| 靖州| 化隆| 西盟| 南投县| 满洲里市| 潜山县| 定州市| 元阳县| 宕昌县| 图木舒克市| 麻城市| 镶黄旗| 清丰县| 涞源县| 贵港市| 乾安县| 井研县| 岑溪市| 金川县| 团风县| 桦甸市| 阿拉善右旗| 通化县| 康乐县| 仁怀市| 遵义市| 汉寿县| 七台河市| 建湖县| 黄骅市| 林州市|