一份案例:如何选择合适的第三方数据源
不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。
不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。
如何选择合适的第三方数据源,保证风险可控的前提下节省数据成本,一份实操案例教你来选!
案例介绍
一份案例:现有1000个样本数据,分别测试2家黑名单,2家欺诈名单与2家多头,如何选择合适的第三方数据源?
首先要专业科普选择第三方数据源重要考察的5大指标计算公式(以黑名单为例):
1.查得率(Search rate)=查得数/样本量
2.覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
3.误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
4.有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
5.无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量
其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准。
其中前三个指标是重点考察,如果想更全面的测试第三方数据源,后面两个差异率指标也可以加入考核标准。
测试数据与考核指标关系图如下
数据介绍
1000个测试样本数据中,审批结果字段表示样本通过和拒绝,其中通过样本中有未逾期和发生逾期的客户样本,拒绝样本中有通过黑名单库拒绝客户,也有其他原因产生拒绝。比如,数据源1(黑名单)代表一家提供黑名单数据的数据供应商A,数据源2(黑名单)代表另一家提供黑名单数据的数据供应商B,以此类推。
分析方法
本次以黑名单数据测试为例讲解
对1000条测试数据返回结果进行整理可以总结出如上数据概要,对比看到数据源1的返回结果如下:
1.查得总量814个;
2.命中黑名单35个;
3.通过中为Good3个;
4.通过中为Bad8个;
5.其他拒绝为22个;
数据源2的测试返回情况以此类推。
采用专业考察第三方数据源的五大指标,对以上返回结果计算分析得到以下结果:
按照文章开始介绍的指标分析方法,对比数据源1和数据源2的测试结果可以得出如下结论:
1.数据供应商1的查得率、覆盖率高于数据供应商2大约5%、4%;
2.数据供应商1的误拒率低于数据供应商2大约0.3%;
3.数据供应商1的有效差异率低于数据供应商2大约8%,无效差异率低于数据供应商2大约7%;
依据五大指标分析标准,SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准!
最终分析结论:
数据供应商2虽然覆盖的黑名单比数据供应商1的更广,但其不如数据供应商1精准,更偏向选择数据供应商1的黑名单数据。
想要了解查得率在80%还是70%比较好?误拒率的容忍线在哪里?更多指标的深度含义?不妨参加金融科技应用研究院(简称FAL)3月份大力筹备的第四期量化风控全线条训练营!
来源|金融科技应用学苑
66号学苑&金融科技应用研究院 共同出品
更多精彩,戳这里: