官术网_书友最值得收藏!

4.1 邏輯回歸簡介

我們在第3章研究了線性回歸的模型建立和參數解集的求解策略,但是,當數據關系呈現非線性化特征時,換句話說,我們需要處理分類任務時線性回歸模型就遇到了瓶頸,解決方案是將線性回歸模型進行升級。因為多元線性回歸的結果是一個連續數值,因此需要找到一個函數,這個函數能夠將線性回歸結果(線性回歸的預測值)轉換為數據集合中的標簽值。比如有一個二分類模型,目的是通過不同的人體數據區分男人和女人,標簽值中有兩種類型,比如男人是0,女人是1。我們通過人體數據的線性組合可以求得一個實數(比如4.5),因此需要通過一個單調函數將這些實數映射成0或者1。

完成這個工作有很多選擇,最簡單的方式是建立一個分段函數:當輸入值是大于0的實數的時候,輸出值是1;當輸入值是小于0的實數的時候,輸出值為0;0點的輸出值是0.5。

但是我們的完美選擇有一個小小的問題,就是上述函數在實數范圍內不可微,這種不可微的特性導致梯度下降算法難以起效。因此,需要找到這個函數的替代函數,這種函數要單調可微,而且要保持分段函數的數據特性。我們可以比較容易地想象出這樣的函數在原點附近斜率會急劇變化,因此對數概率函數(或者稱作邏輯函數(Logistics Function))成為我們的可靠選擇。

從圖4.1可以清楚地看到對數概率函數和分段函數在性質上的統一性。

圖4.1 邏輯函數圖像

我們將函數表達式中的z替換成線性回歸表達式,可以得到如下表達式:

整理后可以得到:

因此,表達式可以指導我們使用線性回歸的模型結果來與當前的標簽值的對數概率進行比較,目的是使模型結果能夠和數據集的標簽的對數概率保持一致。邏輯回歸(Logistic Regression, LR)模型其實僅在線性回歸的基礎上套用了一個邏輯函數,但就是由于這個邏輯函數,使得邏輯回歸模型成為機器學習領域一個重要的模型。

主站蜘蛛池模板: 大化| 克拉玛依市| 咸丰县| 剑阁县| 娱乐| 老河口市| 仁寿县| 于田县| 西藏| 黑河市| 北流市| 岚皋县| 东台市| 扶绥县| 民勤县| 中西区| 玛多县| 宣化县| 岳普湖县| 富蕴县| 凌云县| 聊城市| 泰宁县| 滁州市| 鄂尔多斯市| 泰兴市| 临漳县| 措美县| 隆昌县| 拜泉县| 忻州市| 色达县| 大连市| 伽师县| 金阳县| 东宁县| 剑河县| 巴彦淖尔市| 买车| 定结县| 镇坪县|