评分卡建设系列内容第一课:数据选取与抽样
The following article is from 消费金融风控联盟 Author 刘鹏程
开发评分卡,我们希望选用的历史数据距离现在较近,以保证现有的和未来的开发人群分布不会有较大的偏差。
数据选取时间窗示意图如下图所示,其中观察窗与表现窗内的时间为观察期与表现期。
观察窗、表现窗的选择
1.观察窗选择:某个时间阶段,例如采用申请件进件量如下表所示:
从图中我们可以看到,观察期内申请件共17,353条申请,满足评分卡对数据总量的需求。
数据暂略。
2.表现期选择
一般表现期选择为12个月,某国际著名的零售信贷风险管理解决方案提供商的研究结果指出,对于申请类型的评分卡,申请信息的预测能力通常在开户3个月后开始降低,在8个月左右降低到三分之一左右,开户后更多的是依靠客户的行为信息对未来表现进行预测。
一般来说,在放贷机构业务中有逾期的账户数目比例不高(整正规放贷的机构。。因为你懂得。。),为了满足评分卡开发对“坏”账户数目的要求(800-1200个),将表现期定为12-18个月之间,以期为单位,最小账期是月就按照月,最小账期是周、日的,则按照3-6个月进行换算。
3.表现窗选择:
表现窗的选择方法,业内有两种常用方法,分别是固定表现窗与移动表现窗。
定义为:
1) 固定表现窗:在观察窗后选定一定期限作为表现期,不同时间的申请件表现期不同。固定窗口表现期主要反应固定的自然时间段与信用风险的关系。
2) 移动表现窗:在申请开户后选择固定时间长度作为表现期,所有申请考察的表现期均相同。移动窗口表现期主要反应开户时间长短与信用风险的关系。
在本次项目中将根据业务考虑与数据实际情况选择较合适的方法。
4.排外条件
由于某些申请在处理的过程中,获得特别的对待,所以这一类申请被批准后的表现,包括还款情况、使用情况、拖欠情况等都会发生与众不同的现象。因此,这些申请数据不应当用来开发评分卡,这些观察数据在开发评分卡的过程中首先被剔除。评分卡应用的范围也将不包括这一类型的申请。比较典型的例子是不需经过正常途径直接被批准办卡的高端申请人,他们往往会被赋予更高的信用额度和更优惠的待遇。对这一类申请人也采用评分是没有意义的。
另外,放贷机构再收到国家政策影响后,将会在业务中停止某些个贷产品,对于这些产品的申请不会再出现,保留他们的数据会对其他产品的评分结果产生影响,所以对这类申请进行评分也是没有意义的,也要把它们列为排外条件中。
排外条件是以业务逻辑为主,综合数据情况和采用专家建议,以确定了申请阶段风险评分模型开发排外条件与逻辑,以下是详细描述:
如果是精英贷产品的申请,年龄大于45岁以及小于22岁的需要被排除
如果是预付卡类产品的申请,年龄小于18与大于55岁的要被排除;
有申请无表现的记录排除(因为这些人可能并未有借贷记录);
被拒绝的申请有表现(错误记录,很少);
需要特别指出的是,即使人行征信显示有瑕疵或者不良,也需要跑进行机构内评分,所以不建议把人行不良信息作为排外条件(同业或三方征信的与此类似,不再赘述)。
5.表现期内逾期期数分布
建议以固定表现窗表现数据集进行分析:
例如某逾期分布情况
基于逾期数据给出的分布统计与汇总。
在表现期内1期、2期逾期期数分布,X轴是日期,Y轴是逾期数据
根据上图所示结果,有如下结论:中国农历传统节日春节前后几个月内的逾期状态波动较大,业务上解释收到跨年资金流的等影响造成,具体原因可深入到业务中进行分析调研,这里不再详细列出。
与其同时,再对几个主要产品进行了逾期分布分析,增加业务部门考虑的产品的逾期分布和分析。
来源|消费金融风控联盟
作者|刘鹏程
更多精彩,戳这里:
2018开年大课,阅读原文,即可报名