评分卡建设系列内容第三课:变量分组(强弱之分)
The following article is from 消费金融风控联盟 Author 刘鹏程
学习分组之前我们需要了解几个概念:WOE与IV
WOE的全称是“Weight ofEvidence”,即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理。IV的全称是Information Value,中文意思是信息价值,或者信息量;
我们在用各种模型方法构建分类模型时,需要对自变量进行筛选。比如我们有N多个个候选自变量,通常做法是把N个变量直接放到模型中去进行拟合训练,从这N个自变量中挑选一部分来变量(这个过程本质就是对强变量和弱变量的区分,一般建模过程都需要挑选强变量)放进模型中。挑选这些变量过程是个比较麻烦的,需要考虑很多因素,例如业务因素、环境因素等很多因素。其中最主要和最直接的衡量标准是变量的可预测能力。从逻辑上来讲可以理解为“用IV去衡量变量预测能力”。例如我们假设在一个分类问题中,目标变量的类别分为:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,这些所需要的信息就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
对于WOE 和IV的数学计算公式如下:
假设good为好客户(未违约),bad为坏客户(违约)
WOEi=ln(pgoodpbad)
=ln(good占比bad占比)
=ln(#goodi#goodT#badi#badT)WOEi=ln(pgoodpbad)=ln(good占比bad占比)
=ln(#goodi#goodT#badi#badT)
#good(i)表示每组中标签为good的数量,#good(T)为good的总数量;bad相同。
IV衡量的是某一个变量的信息量,公式如下:
IV=∑i=1N(good占比−bad占比)∗WOEi
IV | 预测能力 |
<0.03 | 无预测能力 |
0.03~0.09 | 低 |
0.1~0.29 | 中 |
0.3~0.49 | 高 |
>=0.5 | 极高 |
分组一般原则
客户年龄分段 | 坏客户 | 好客户 | Woe | IV |
18-24 | 50 | 600 | 0.328925031 | 0.014557687 |
24-35 | 140 | 1600 | 0.280134867 | 0.028817702 |
35-45 | 100 | 1300 | 0.408967739 | 0.046962803 |
45-55 | 150 | 300 | -1.462834438 | 0.383206629 |
合计 | 440 | 3800 | 0 | 0 |
IV合计 | 0.47354482 |
客户性别分段 | 坏客户 | 好客户 | Woe | IV |
男 | 300 | 2300 | -0.119099692 | 0.00911768 |
女 | 140 | 1500 | 0.215596346 | 0.016504983 |
合计 | 440 | 3800 | 0 | 0 |
IV合计 | 0.025622663 |
信息值列表 | |||
Obs | 变量名 | 变量描述 | 信息值(IV) |
1 | busicode | 业务品种 | 0.8344 |
2 | usingType | 用途分类 | 0.5919 |
3 | compbizfield | 现单位所属行业 | 0.4528 |
4 | highestdegree | 最高学历 | 0.4524 |
5 | rate1 | (申请)浮动比率 | 0.306 |
6 | position | 职位 | 0.2502 |
7 | occupation | 职业 | 0.2486 |
8 | islocalresidence | 是否本地常驻户口 | 0.233 |
9 | assuranceMethod | 担保方式 | 0.2257 |
10 | compSeniority | 现单位工作年限 | 0.2246 |
11 | wrkSeniority | 现行业就业年限 | 0.1984 |
12 | firstAmtRatio1 | (申请)首付比率 | 0.1969 |
13 | payFrequency | 还款频率 | 0.1787 |
14 | compBizOwShType | 单位性质 | 0.1221 |
15 | dkqx | 贷款期限 | 0.1195 |
16 | posLevel | 职称 | 0.0947 |
17 | rm_dm | 申请贷款金额与抵押担保金额的比例 | 0.0856 |
18 | sex | 性别 | 0.085 |
19 | inhabitstatus | 居住状况 | 0.0722 |
20 | notFinishedLoanM | 借款人当前未结清贷款笔数 | 0.0683 |
21 | usemode | 额度使用方式 | 0.0578 |
22 | inc_lmp | 个人收入与每月付款比例 | 0.0552 |
23 | floatFlag1 | (申请)浮动标志 | 0.0405 |
24 | dependentCnt | 供养人口数 | 0.0329 |
25 | have_comptelphone | 是否填写单位电话 | 0.0291 |
26 | jnbClientType | 是否本行现有客户 | 0.0265 |
27 | have_homephoneno | 是否填写家庭电话 | 0.0126 |
28 | age | 年龄 | 0.0097 |
29 | rateType | 利率类型 | 0.0055 |
30 | busiState | 业务状态 | 0.0025 |
31 | currArrearsAbove30DIn6M | 借款人最近6个月内30天及以上拖欠次数 | 0.002 |
32 | maritalSta | 婚姻状况 | 0.0009 |
33 | have_mobile | 是否填写移动电话 | 0.0008 |
34 | currArrearsAbove60DIn6M | 借款人最近6个月是否有60天及以上拖欠行为 | 0 |
35 | currArrearsAbove90D | 借款人过去是否有90天及以上拖欠行为 | 0 |
36 | currArrearsM | 借款人当前拖欠贷款笔数 | 0 |
37 | currArrearsMAbove30D | 借款人当前30天及以上拖欠贷款笔数 | 0 |
下一步就是根据相关强弱变量进行建模开发。
来源|消金风控联盟
作者|刘鹏程
更多精彩,戳这里: