查看原文
其他

评分卡建设系列内容第三课:变量分组(强弱之分)

66号学苑 2022-09-08

The following article is from 消费金融风控联盟 Author 刘鹏程

学习分组之前我们需要了解几个概念:WOE与IV


WOE的全称是“Weight ofEvidence”,即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理。IV的全称是Information Value,中文意思是信息价值,或者信息量;

 

我们在用各种模型方法构建分类模型时,需要对自变量进行筛选。比如我们有N多个个候选自变量,通常做法是把N个变量直接放到模型中去进行拟合训练,从这N个自变量中挑选一部分来变量(这个过程本质就是对强变量和弱变量的区分,一般建模过程都需要挑选强变量)放进模型中。挑选这些变量过程是个比较麻烦的,需要考虑很多因素,例如业务因素、环境因素等很多因素。其中最主要和最直接的衡量标准是变量的可预测能力。从逻辑上来讲可以理解为“用IV去衡量变量预测能力”。例如我们假设在一个分类问题中,目标变量的类别分为:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,这些所需要的信息就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。


对于WOE 和IV的数学计算公式如下:


假设good为好客户(未违约),bad为坏客户(违约)

WOEi=ln(pgoodpbad)

=ln(good占比bad占比)

=ln(#goodi#goodT#badi#badT)WOEi=ln(pgoodpbad)=ln(good占比bad占比)

=ln(#goodi#goodT#badi#badT)


#good(i)表示每组中标签为good的数量,#good(T)为good的总数量;bad相同。


IV衡量的是某一个变量的信息量,公式如下: 


        IV=∑i=1N(good占比−bad占比)∗WOEi


IV可用来表示一个变量的预测能力。


IV

预测能力

<0.03

无预测能力

0.03~0.09

0.1~0.29

0.3~0.49

>=0.5

极高


分组一般原则


1.组间差异大

2.组内差异小

3.每组占比不低于5%

4.必须有好、坏两种分类

 

下面我们通过一个举例说明。


客户年龄分段

坏客户

好客户

Woe

IV

18-24

50

600

0.328925031

0.014557687

24-35

140

1600

0.280134867

0.028817702

35-45

100

1300

0.408967739

0.046962803

45-55

150

300

-1.462834438

0.383206629

合计

440

3800

0

0




IV合计

0.47354482


通过IV值可以看得出来。预测能力属于较高。

 

客户性别分段

坏客户

好客户

Woe

IV

300

2300

-0.119099692

0.00911768

140

1500

0.215596346

0.016504983

合计

440

3800

0

0




IV合计

0.025622663


从上述数据来看,通过男女进行划分,预测能力非常低,不建议选用。

 

用上述的方法根据我们客户的实际情况们可以获得到的数据进行IV处理。得出如下数据:

 

信息值列表




Obs

变量名

变量描述

信息值(IV

1

busicode

业务品种

0.8344

2

usingType

用途分类

0.5919

3

compbizfield

现单位所属行业

0.4528

4

highestdegree

最高学历

0.4524

5

rate1

(申请)浮动比率

0.306

6

position

职位

0.2502

7

occupation

职业

0.2486

8

islocalresidence

是否本地常驻户口

0.233

9

assuranceMethod

担保方式

0.2257

10

compSeniority

现单位工作年限

0.2246

11

wrkSeniority

现行业就业年限

0.1984

12

firstAmtRatio1

(申请)首付比率

0.1969

13

payFrequency

还款频率

0.1787

14

compBizOwShType

单位性质

0.1221

15

dkqx

贷款期限

0.1195

16

posLevel

职称

0.0947

17

rm_dm

申请贷款金额与抵押担保金额的比例

0.0856

18

sex

性别

0.085

19

inhabitstatus

居住状况

0.0722

20

notFinishedLoanM

借款人当前未结清贷款笔数

0.0683

21

usemode

额度使用方式

0.0578

22

inc_lmp

个人收入与每月付款比例

0.0552

23

floatFlag1

(申请)浮动标志

0.0405

24

dependentCnt

供养人口数

0.0329

25

have_comptelphone

是否填写单位电话

0.0291

26

jnbClientType

是否本行现有客户

0.0265

27

have_homephoneno

是否填写家庭电话

0.0126

28

age

年龄

0.0097

29

rateType

利率类型

0.0055

30

busiState

业务状态

0.0025

31

currArrearsAbove30DIn6M

借款人最近6个月内30天及以上拖欠次数

0.002

32

maritalSta

婚姻状况

0.0009

33

have_mobile

是否填写移动电话

0.0008

34

currArrearsAbove60DIn6M

借款人最近6个月是否有60天及以上拖欠行为

0

35

currArrearsAbove90D

借款人过去是否有90天及以上拖欠行为

0

36

currArrearsM

借款人当前拖欠贷款笔数

0

37

currArrearsMAbove30D

借款人当前30天及以上拖欠贷款笔数

0

 

我们优先选择具有较强区分能力的强变量,少选择弱变量,不选择0变量。

下一步就是根据相关强弱变量进行建模开发。


来源|消金风控联盟

作者|刘鹏程


更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|信贷常用风险指标|

|数据挖掘建模之常见概率分布总结|

|python评分卡建模—WOE编码及IV值计算|


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存