官术网_书友最值得收藏!

2.3.5 模型建立

確定了目標和變量后,就可以正式進入模型搭建的環節了。由于信貸場景下客戶只有正常和逾期兩種可能性,是一個典型的二分類問題,因此評分卡模型采用最經典的邏輯回歸(Logistic Regression,LR),邏輯回歸的計算公式如下:

其中y是因變量,x是自變量,w和b是需要求解的模型參數。我們可以畫出y關于z(x)的曲線,如圖2-5所示。

圖2-5 邏輯回歸曲線

在圖2-5中,隨著橫軸z(x)的增加,y也在連續地增加,并且y始終落在[0,1]的區間內,因而邏輯回歸確實可以很好地滿足信貸場景下對于客戶正常和逾期兩種狀態的預測。

將邏輯回歸的公式稍作變換,可以得到如下公式:

這里ln y/(1-y)是關于y的對數概率(Log Odds,也被稱為Logit),因此邏輯回歸本質上也就是y的Logit函數關于x的線性回歸。

關于如何求解模型參數w和b,這里利用極大似然估計(Maximum Likelihood Estimate,MLE),希望得到的模型預測每個樣本屬于其真實狀態的概率越大越好,似然函數如下:

對于公式(2-13),可以取對數后利用梯度下降法(Gradient Descent Method)或者牛頓法(Newton Method)求解,由于過程較為復雜且不是本書的重點,這里不再具體展開。

主站蜘蛛池模板: 松江区| 桂平市| 邯郸市| 台山市| 林口县| 晋宁县| 景洪市| 闵行区| 乡宁县| 莱芜市| 湘阴县| 巴中市| 行唐县| 宝清县| 报价| 武穴市| 会泽县| 马尔康县| 来安县| 慈利县| 商洛市| 微博| 黔西县| 兖州市| 黄梅县| 股票| 乌兰县| 田林县| 新安县| 炉霍县| 淄博市| 蒙阴县| 苏尼特左旗| 莲花县| 青浦区| 大姚县| 古交市| 裕民县| 利川市| 类乌齐县| 延川县|