干货|【风控总监训练营第5课】揭秘大数据风控数据来源及分析技巧(下)
4月20日,66号风控总监训练营第5课正式开课,本期某持牌消费金融公司风控负责人聂老师继续为大家带来主题为《揭秘大数据风控数据来源及分析技巧》下半课时的分享。本节课,聂老师主要从内外部数据源的接入分析及使用、数据源后续监控分析两个角度为大家进行深入讲解。
以下是本次分享的部分干货。
一、样本准备的三个阶段
1.抽样数据样本的结构
在抽取样本阶段,我们需要考虑目前线上产品的比例,渠道及时间等维度对测试效果可能产生的影响,在抽取样本的时候要尽量避免这些影响,然后使得我们后续之后的测试效果尽量贴近反映我们线上真实使用的情况。
2.抽样数据样本的业务目标定义
给抽样数据样本本身的好坏下定义也是我们的业务目标,这个目标需要跟我们产品的目标保持一致,或者是跟我们要解决的问题的目标保持一致。
3.测试评价方法
在测试数据源的时候,我们需要考虑是要做单变量的分析测试,还是把所有变量放到模型当中来测试效果。
以上就是我们在收集样本和样本准备阶段,我们需要考虑的三点。
二、两种主流的数据收集方法
目前有两种主流的数据收集方法。
一种是补查数据的方式,通过线下准备一批贷后数据发给数据供应商,通过线下批量调用查取再分析。
优点:数据源使用之前准备周期短,结果会出得比较快;
缺点:如果所查数据源不支持回溯,补查收集的数据可能包括贷后,影响测试效果。
第二种是审批时调用实时收集
如果对数据需求程度比较低,审批时对线上申请单实时调用数据,但不做规则,只是收集数据,有贷后表现后再分析使用。
优点:最真实模拟线上情况,排除因时间造成的测试数据源效果的干扰因素;
缺点:数据源使用之前准备周期长。
值得大家注意的是,有些数据源并不支持第一种数据收集方法,比如需要客户实时授权数据:征信、各种爬虫数据等。
三、数据源效果评估
下面我给大家介绍一下数据源效果评估的常用指标。
1.覆盖率和命中率
覆盖率和命中率是大家最常用的指标,尤其是覆盖率,覆盖率是我们往下测试数据的一个风向标。为什么?因为在使用数据的过程中,如果覆盖率太低,哪怕效果再好,对于模型和规则的提升帮助也不会太大。
对于命中率来说,针对黑名单等数据源,命中率是非常重要的。
2.IV值
针对变量,IV衡量的是某一个变量的信息量。
3.K-S和AUC
K-S和AUC是用来评估模型排序能力好坏的指标,对于K-S和AUC来说,更多针对数据源是分数,比如芝麻分等。
同时可以将需要测试的变量建模,再看K-S,AUC评估数据源变量的有效性。
四、数据源后续监控分析
下面,我想给大家介绍一下数据源后续监控分析的一些思路和方法。首先,数据源后续监控分析主要包括三个部分。一是数据源命中和覆盖率分析;二是数据源逾期率分析;三是数据源单变量分析。
值得注意的是,对于数据源我们需要做到实时监控和定期分析。原因有两点。
1.在一开始使用数据源的过程中,由于数据源没法回溯或者其他的一些原因,但我们又急需使用这批数据源去做线上的实时调用测试,因此后续我们需要拿这批数据源的实际使用效果与前期实时调用测试时的效果进行比对,然后根据实际情况再去优化我们现有的审批策略和模型;
2.在经过一段时间以后,数据源由于客群发生变化等原因也是有不同程度的变化的。
在有了贷后表现之后,可以对比下我们现有的规则和模型与过去在做测试、建模的时候反映的实际情况是否一致。换句话说就是如何判断我们的规则和模型在真实线上生产时是否有效?
选取规则拒绝与规则通过账户比较贷后:
1.如果规则拒绝账户的逾期率>规则通过账户的逾期率,说明规则有效;
2.如果规则拒绝账户的逾期率<=规则通过账户的逾期率,说明规则制定的不合理,可以根据前面步骤根据业务经验重新制定,也可以暂停此规则再收集一段时间数据,如果最后结果还是这样,可以考虑将规则返过来使用;
当然最后,我们还是需要弄清楚为什么规则制定是有问题的。
对于模型后续的数据源的使用的监控和分析,主要通过以下三点去判断。
1.模型分的分布是否与开始分析时一样
对于模型分的分布,我们需要经常观察,大家可以看到上图中,我们有一个测试有一个开发,开发我们可以认为是生产上的一个环境,测试可以认为是在底下做建模的时候一个表现的情况,我们可以在后期定期对于我们模型分的分布做一个监控。看线上跑出来的模型分是否与线下是一致的。假设是一致的,说明之前跑的没有问题,客群也相同;假设差异很大,则要不就是之前收集的抽样数据并不能反映出当时数据库或者线上的真实情况,还有可能是因为近期线上的客群发生了变化,这时候可能需要重新训练一个新的模型。
2.观察模型分与逾期率是否保持单调
3.有贷后后定期计算KS,AUC,如果KS,AUC效果不是很好,累计一段时间样本后可以考虑重新训练个模型
课程结束后,聂老师还为同学们做了耐心的解答~
Q:没有人行征信,有没有可替代的数据源?主要针对负债和信用记录?
A:银联等类支付的交易数据对于计算个人的收支是对于计算个人收支是非常有参考意义的,还有常用的社保、公积金、信用卡账单等可以去帮助我们了解客户收入、支出情况的数据作为个人收支的数据源也是可以放到我们授信和核额的模型里去的。
想看到本次课程更加全面的内容以及更加精彩的案例实操展示吗?那就快来报名的我们的风控总监训练营吧~下周四晚8点,我们将为大家带来本次风控总监训练营的第七课“大数据风控建模与评分卡策略”下半课时的内容。阅读原文,即可报名哦~
参加过我们课程的同学反响都很好哦~
更多精彩,戳这里:
阅读原文,即可报名