评分卡建设系列内容第二课:数据清理与选取
The following article is from 消费金融风控联盟 Author 刘鹏程
66号学苑小书童:在上期评分卡建设的系列内容中,我们提到了“评分卡建设系列内容第一课:数据选取与抽样”,本次分享,我们来到评分卡建设的第二步骤“数据清理与选取”。
为了进一步确认用户及数据质量好坏,在表现期的情况下,做逾期分布分析,结果如下表所示:
下图是各个阶段的账龄的预期表现。
上课的图可能看到比较头晕,下面我们看看各个阶段的数据。请看一下图例
这是账龄在18个月内逾期期数,分布结果显示1期逾期分布从开户后首月的60个到开户后第二个月上升到327个。此后,1期逾期期数在300上下波动,在开户后第13个月达到最大值,之后趋于稳定; 2期、3期逾期分布数随着开户的时间递增,在开户后13个月有一个波动后开始趋于稳定。
根据以上分析,需要业务部门给予一个考虑,即未来考察信用风险,主要是针对某个时间段?还是申请人开户时间长短?这一数据显现需要深入思考并且加入业务模式的分析。
时间段的好处是便于看到政策以及营销等业务活动的影响,缺点是信用风险的反应时间有滞后;申请开户时间长短的好处在于对信用风险的反应较及时,但是不便于看到政策以及营销等业务活动的影响。
下面我们继续讨论。
1) 迁徙率
在评分卡开发过程中,业务部门确认排除条件之后对表现端账户表现数据的滚动率进行了趋势上的分析。这里的滚动率指的是相邻两个月内上月各逾期状态向本月更高的逾期状态发展的概率。滚动率分析后所得分析结果对于表现端“好坏”定义有较强的参考意义。
分析采用的数据是申请时间业务12个月内的做过排除处理的申请,从业务开展上线到这18个月之间的每月逾期期数。可以按每相邻两个月一张表格计算,每张表的表头,启用带有实际意义的名称代表的是哪两个相邻月的逾期期数进行滚动分析,
如下表所示;表的最左列代表本月(2008年12月)的逾期期数列表,上数第三列代表下月(2009年1月)逾期期数列表。表内数字含义为上月各逾期状态的账户在本月各逾期状态的分布情况,每张表格中第一行与第一列内的数字0-7分别代表本月与上月逾期期数M0-M7。对于每张表的每一行的第一项为上月某逾期状态的账户在本月各逾期状态的账户分布数,第二项为上月各逾期状态在本月各逾期状态中分布的百分比。这里的滚动率举例如:M1向M1发展的概率,M1向M2发展的概率。
从上表中可以看到,1期逾期在接下来的一个月保持1期逾期与滚到2期逾期的平均总滚动率为51.95%,最小值虽然只有27.88%但是最高值高达75.32%,表明1期逾期已经代表了潜在的很大的信用风险;
2期逾期在接下来的一个月保持2期逾期与滚到3期逾期的滚动率平均值高达73.75%;3期逾期在接下来的一个月保持3期逾期与滚到4期逾期的滚动率平均值高达78.39% ,表明更高的逾期状态代表更大的信用风险。
趋势图表明, 1期逾期的滚动率随着表现期的延长不断增长,这说明把1期逾期定为坏是合理的,因为1期逾期有非常大机会变得更坏,并且一直坏下去。
从固定窗口滚动率来看,一个比较严的“坏”的定义是将1期逾期定为“坏”。
从上表中可以看到,1期逾期在接下来的一个月保持1期逾期与滚到2期逾期的平均总滚动率为41.25%,最小值为19.57%,最高值达64.26%。
2期逾期在接下来的一个月保持2期逾期与滚到3期逾期的滚动率平均值高达69.63%;3期逾期在接下来的一个月保持3期逾期与滚到4期逾期的滚动率平均值高达78.74% ,表明更高的逾期状态代表更大的信用风险。
趋势图表明,1期逾期的滚动率随着表现期的延长不断增长,这说明把1期逾期定为坏是合理的,因为1期逾期有非常大机会变得更坏,并且一直坏下去。
从移动窗口滚动率来看,一个比较严的“坏”的定义是将1期逾期定为“坏”。
1) 表现层级分布
按照、1次逾期1期、1次逾期2期、 2次逾期1期、2次逾期2期、3次逾期1期、3次逾期2期、1次逾期3期、2次逾期3期等类型进行数据分类汇总表样。
对于不同类型的逾期和严重程度,建议分别使用不同颜色于选择不同的层级作为“坏”的下限标准。一般建议“坏”的标准如下:(1次2期逾期;3+次1期逾期;2次1期逾期)
最后,通过数据选择,将好、中、坏客户三部分数据进行抽样选取,相关数据如下表所示。
本内容主要目的:通过对预期数据的挖掘和分析,定义出什么是好,什么是坏,什么是中。对于数据选择方面,我个人认为,抽样代表着部分,如果有能力还是希望以全量数据进行建模,毕竟抽样适合测试用,全量适合全面分析。具体情况还需要具体分析并根据实际情况规划处适合自己的方法。
来源|消费金融风控联盟
作者|刘鹏程
更多精彩,戳这里:
2018开年大课,阅读原文,即可报名