- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 282字
- 2021-04-02 09:32:54
2.3.3 變量分箱
客戶的特征數據分為離散型變量和連續型變量兩類。例如學歷,包括“小學”“中學”“大學”“碩士生”“博士生”等,屬于離散型變量。而客戶的年收入,有可能從幾千到幾十萬不等,屬于連續型變量。在評分卡模型的開發中,風控人員會傾向于將所有的變量分箱做離散化處理,這樣做一是可以提高模型的穩定性,二是可以更好地觀察每個變量和逾期的趨勢關系。通常一個連續型變量會按照樣本個數平均分為10~20個區間,離散型變量不做操作或者合并一些較為接近的區間,缺失值單獨作為一個區間。分箱后的變量在各個區間內的逾期樣本數量占比要求具有一定的單調性,并且趨勢與業務經驗一致,否則去除該變量。