官术网_书友最值得收藏!

2.3.3 變量分箱

客戶的特征數據分為離散型變量和連續型變量兩類。例如學歷,包括“小學”“中學”“大學”“碩士生”“博士生”等,屬于離散型變量。而客戶的年收入,有可能從幾千到幾十萬不等,屬于連續型變量。在評分卡模型的開發中,風控人員會傾向于將所有的變量分箱做離散化處理,這樣做一是可以提高模型的穩定性,二是可以更好地觀察每個變量和逾期的趨勢關系。通常一個連續型變量會按照樣本個數平均分為10~20個區間,離散型變量不做操作或者合并一些較為接近的區間,缺失值單獨作為一個區間。分箱后的變量在各個區間內的逾期樣本數量占比要求具有一定的單調性,并且趨勢與業務經驗一致,否則去除該變量。

主站蜘蛛池模板: 平乐县| 吉林省| 溧水县| 西贡区| 玉林市| 盐山县| 宿迁市| 清涧县| 丽水市| 保山市| 达日县| 鄂托克前旗| 翁牛特旗| 理塘县| 新龙县| 兰坪| 乐亭县| 保德县| 磐安县| 仪征市| 咸宁市| 辉县市| 徐闻县| 博罗县| 开封县| 遂川县| 庆元县| 肥乡县| 昌都县| 钟山县| 调兵山市| 隆回县| 泰宁县| 台南县| 五峰| 镇平县| 海盐县| 扎鲁特旗| 班玛县| 钦州市| 日喀则市|