官术网_书友最值得收藏!

2.3.4 變量篩選

傳統(tǒng)的評分卡模型通常只能容納10~15個變量,這是因為過多的變量會在線性模型中相互影響,降低每個變量權重的置信度,并且加重后期模型維護的負擔。因此,需要一個變量篩選的環(huán)節(jié),找出一個客戶的若干個最具有代表性的特征。變量篩選通常從穩(wěn)定性、信息值、相關性、解釋性四個方面考慮。

(1)穩(wěn)定性

穩(wěn)定性是評分卡入模變量需要考慮的首要條件,因為只有穩(wěn)定的模型才能給業(yè)務人員的風險決策提供可靠的量化指標,穩(wěn)定性通常利用群體穩(wěn)定度指標(Population Stability Index,PSI)來評估。PSI描述的是不同條件下樣本分布的差異,計算公式如下:

其中n為區(qū)間數(shù),Bi為基準組樣本在第i區(qū)間內占比,Ci為對照組樣本在第i區(qū)間內占比。一般而言,小于0.1說明變量穩(wěn)定性高,0.1~0.25說明變量穩(wěn)定性一般,0.25以上說明變量穩(wěn)定性低。

以捷信客戶“外部評分”指標為例,計算6個月前后貸款申請客群該指標的PSI,其中6個月前客群作為基準組等頻劃分為10個區(qū)間,6個月后客群作為對照組,將最后一列求和得到PSI<0.1,說明該指標較為穩(wěn)定,如表2-7所示。

表2-7 捷信客戶“外部評分”指標PSI

(2)信息值

信息值(Information Value,IV)是評分卡模型中衡量變量重要性的指標。通常來說,小于0.02說明變量無預測能力,0.02~0.1說明變量具有弱預測能力,0.1~0.3說明變量具有中預測能力,0.3以上說明變量具有強預測能力。IV的計算基于證據權重(Weight of Evidence,WOE),WOE衡量了一個變量各個分箱區(qū)間內逾期樣本的分布情況,絕對值越大說明該區(qū)間內逾期樣本和正常樣本的區(qū)隔程度越高。第i個區(qū)間WOE的計算公式如下:

其中Bi是該區(qū)間內的逾期樣本數(shù),BT是總的逾期樣本數(shù),Gi是該區(qū)間內的正常樣本數(shù),GT是總的正常樣本數(shù)。

對于變量的IV,其實是該變量各個區(qū)間WOE的加權和,計算公式如下:

其中n是該變量的分箱區(qū)間總數(shù)。

我們仍然以捷信客戶“外部評分”指標為例,計算其關于逾期標簽的WOE和IV,其中缺失值單獨作為一個區(qū)間,其余等頻劃分為10個區(qū)間,各個區(qū)間的好壞樣本數(shù)及WOE值如表2-8所示。

表2-8 捷信客戶“外部評分”指標WOE

將表2-8中各個區(qū)間WOE值代入公式(2-8),計算“外部評分”的IV值為0.3064,說明該指標具有較強的預測能力。

(3)相關性

變量的相關性包括單變量之間的相關性(Correlation)和多變量之間的共線性(Multicollinearity)。相關性是線性模型中需要注意的問題,因為變量之間過高的相關性會影響對應權重預測的置信區(qū)間,進而導致權重置信度下降。這里的相關性檢驗利用皮爾遜相關系數(shù)(Pearson Correlation Coefficient)構造相關性矩陣,找出相互關聯(lián)的變量組。計算變量X和Y之間相關系數(shù)的計算公式如下:

其中μX是變量X的平均值,σX是變量X的標準差,μY是變量Y的平均值,σY是變量Y的標準差。相關系數(shù)落在[-1,1]的區(qū)間內,絕對值越大說明相關性越強,絕對值為1說明兩個變量中的點都落在一條直線上,絕對值為0說明兩個變量之間沒有線性關系。

共線性是對相關性的進一步補充,其衡量的是一個變量與一組變量之間的線性關系,這里我們會用到方差膨脹系數(shù)(Variance Inflation Factor,VIF)。VIF解釋了變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比,VIF越大說明共線性越嚴重,通常大于10可以認為共線性較強。VIF的計算公式如下:

其中Ri2是第i個變量作為因變量與其他變量回歸的確定系數(shù)。

(4)解釋性

在最終進入模型訓練之前,還需要檢查每個入模變量的解釋性。這里要求變量WOE的分布具有一定的單調性,說明逾期率在每個區(qū)間內呈現(xiàn)遞增或者遞減的趨勢,方便后期給出客戶信用評分的減分原因和優(yōu)化意見。如果重要變量WOE不滿足單調性,可以嘗試合并相鄰的區(qū)間重新計算WOE;如果調整區(qū)間后變量的單調性依然難以保證,則只能將該變量篩除。

在捷信客戶貸款申請樣本中,計算“外部評分”指標各個區(qū)間的WOE并畫圖,觀察可得該變量具有較好的單調性,隨著“外部評分”的增大,客群的逾期率逐步降低,如圖2-3所示。

圖2-3 捷信客戶“外部評分”指標WOE分布

對于捷信客戶樣本中的另一個指標“貸款年費”,雖然IV值較高,但是WOE分布的單調性較差,客群的逾期率隨著“貸款年費”先降低再升高,違背指標解釋性的要求,所以從入模變量中剔除。該變量的WOE如圖2-4所示。

圖2-4 捷信客戶“貸款年費”指標WOE分布

主站蜘蛛池模板: 瑞丽市| 陈巴尔虎旗| 左贡县| 铁岭县| 南部县| 满洲里市| 新巴尔虎左旗| 颍上县| 浠水县| 富平县| 浦东新区| 阜康市| 山丹县| 松阳县| 长顺县| 错那县| 和平区| 临沭县| 寿光市| 龙胜| 昔阳县| 夏津县| 游戏| 页游| 麟游县| 雅江县| 乌恰县| 海淀区| 长岭县| 蓝山县| 武城县| 饶河县| 延吉市| 武乡县| 瑞丽市| 涡阳县| 鲁山县| 图片| 苍山县| 金堂县| 永城市|