无人行征信、芝麻分、无学历,三方数据污染严重,风控该如何来做?
近几个月,国家政策不断收紧,对互金的管控越来越严格。且“噩耗”不断,可谓是祸不单行。
最开始,芝麻分没了,风控无奈:我擦!
然后,学信网不再提供学历查询了,风控乱了:靠!
现在,银行不会再给合作互金公司提供征信查询服务的消息已经做实,风控哭了:不活了!
这时,各个三方数据服务公司成了救世主,想要芝麻分?来,我帮你爬!想要学历?我这里有!然而,圈里人在测试了一些三方数据后发现,现在很多数据源污染严重,可信度越来越低。
怎么办?如此大环境下,风控可如何是好?看来只能靠自己了!
不得不说,现在很多互金公司,甚至银行,更多还是基于人行征信、黑名单和设备指纹来做风控的。对于建模和评分卡,也大多是依赖于人行、学历、运营商以及互联网征信数据(购买各种三方数据)。人行征信、芝麻分和学历信息的缺失,必然会非常影响模型效果。为了对抗这一问题,黄姐姐将分享一个基于用户行为数据的反欺诈方法。
最近刚刚结束了一个互金客户的项目,为了对抗未来可能的数据缺失,我们在本项目中,仅拿到了用户从下载到申请授信整个流程的行为数据。先贴一下此产品的申请流程,如下:
整个申请需要填写9个页面(蓝色方框),在每一个页面,我们都可获得用户操作的具体时间,设备信息(device id、iccid、imsi、imei等)和环境信息(ip,gps,bssid,ssid等)。此外,我们还可获得用户的通讯录,手机安装的app list以及通话记录。基于这些数据,黄姐姐做出来怎样的效果?先说下结论,相比于客户人行征信模型,我们的增益率做到了17%+,其中,高信心值坏用户误伤比(好人坏人比)略高于3,仅高信心值用户一年就可为客户挽回近千万元。
那么黄姐姐是怎么做到的呢?先插播一个小对话。今天,跟一个非常优秀的模型工程师XP聊天。
XP:黄姐姐,你觉得,反欺诈建模,到底是业务重要,还是模型重要?
黄姐姐:如果非要让我选一个,我选业务。
XP:你知道吗?我刚做模型工程师的时候,野心勃勃想要改变劳动结构,感觉模型基本能解决大部分人力,我做模型工程师就是为了解放人力!
黄姐姐:哈哈,我们都是这么想的。
XP:但是后来,我发现,我苦逼兮兮调了一个模型2周,提升了3%-4%,而增加了一个有效的业务衍生字段,啪的一下,提高了一倍!我很不服气啊!
黄姐姐:这很正常,所以,我才选业务。
XP:我现在很苦恼,是继续苦逼兮兮地去调模型,还是干脆去研究业务算了。
黄姐姐:我百度有一个好朋友,算法工程师,非常厉害。他跟我讲,模型做到最后,就是去不断做特征。世界上,成熟的算法就那么多,就拿社交网络分析为例,社区发现算法虽然有好几个变种,但是中心思路都是一样的,只是在时间复杂度和边的计算上略有差别。所以,我才特别注重业务知识,一个好的业务字段的衍生,有可能会让一个模型起死回生。当然,前提是,这个模型也不能太烂。
熟悉黄姐姐的人都知道,黄姐姐始终坚持一个原则:脱离了业务的反欺诈都是耍流氓。想要靠纯粹的全量暴力特征组合去建模是不现实的,一是复杂度太高,二是大部分都是无效的(噪声会很高)。这个项目也是一样的,黄姐姐花了很多精力研究用户的行为,从业务层面做了一些有效的特征衍生。在此,分享几个有趣的特征:
1.ICCID:大家都知道,ICCID是跟SIM卡相关的数据,但黄姐姐发现,会有同一个ICCID对应多个手机号码的情况,这是如何做到的?经过调研,我们发现,市面上有一种卡,美其名曰“空白多号卡”,现在最多可支持8个号码的写入,如下图所示。于是,我们可以衍生一个字段:每一个iccid对应的手机号个数;
2. IMSI:IMSI与ICCID类似,且可以解析出手机号。黄姐姐发现,会有不同申请人共用一个device id的情况(这是很常见的手法),很奇怪的是,这些人对应的IMSI也相同,也就是,这部设备里插的是同一张sim卡。通过解析,我们发现,此IMSI对应的手机号与申请人提交的手机号并不相同,也就是,这并非申请人本人的手机。于是,我们可以衍生一个字段:IMSI解析的手机号是否与申请人手机号一致(可以对抗“一键新机”);
3. IP跳转跨度大:申请时的IP定位地址是A城市,但日后的app使用数据包括借款时的IP都是在B城市,有可能是中介远程做单。于是,我们可以衍生一个字段:IP跳转跨城市;
4. 通讯录重合人数:很多中介在帮忙做包装的时候,都会对通讯录和通话记录有一些要求,比如,通话记录要大于50条,通讯录人数要大于80人等。于是,对于一些不满足要求的用户,中介会耍聪明去导入一些联系人以达到这个指标。黄姐姐发现一个有意思的群组,10个人,其中30+用户都是重复的。当然,这有可能是公司同事或者同学造成的,不能说这样就一定坏,但是,至少我们知道,这是一群有关系的人:要么是同一个中介包装出来的,要么是一群相互认识的人。于是,我们可以衍生一个字段:一个手机号码出现在通讯录的次数;
5. 通话记录:同时接了某一个号码的电话,或者同时拨打了某个电话,也是一个可以考量的维度。这一点要特别说明,由于通话记录的体量非常大,通常需要做过滤处理才能使用。另外,还有一个维度可以考量,就是与公司内部员工有往来的电话号码。现在无论是互金还是银行,我们无法保证自己公司员工是否会对外提供风控策略信息谋取不法收入(内外勾结),黄姐姐就潜伏在各种银行业务员的群,教你如何从银行贷到款。于是,我们可以衍生两个字段:同一个号码出现的被叫人人数;一个号码是否与内部员工有往来。
6. 下载渠道:从全量数据来看,大部分用户都还是用手机自带APP商城来下载APP的,例如,华为用华为应用商城,小米用小米应用商城,OPPO用OPPO可可软件商店。当一个用户是通过浏览器搜索,或者某个广告渠道(如广点通)下载时,便可特别关注。当然,这不能说从其他渠道就坏,这个只是一个考量维度,验证是否有欺诈属性,还会要用扩维的思维。于是,我们可以衍生一个字段:是否用手机自带应用商城下载app;
7. 申请用时:从全量统计来看,申请用时过短的用户可能是操作熟练工(中介或申请过其他贷款类产品),申请过长则有可能是中介远程单(前半部分用户完成,后半部分中介完成,中介不一定立马做完)。合理地设置这一阈值(可以按照比例动态调整),可以将hurt ratio降低2-3倍。于是,我们可以衍生一个字段:申请用时过长/过短。
8. 手机号码验真:为了获取用户的授权,从运营商拿到用户的通话详单,通常需要对手机号码进行验真,也就是输入手机号的服务密码。在本项目中,黄姐姐看到一个很“可爱”的中介,耐心值= 2。什么意思呢?这个群组中,75%的用户在手机号码验真是,密码输入错的次数都是2。我们来yy一下这个操作员的操作场景。问用户,你知道手机服务密码吗?用户说:知道。结果,第一次输入,错误!第二次输入,又错误!于是,中介小哥哥不耐烦了,赶紧去查询一下再告诉我吧!好了,第三次,正确。当然,我要再次强调,这只是一个考量维度哦,错误次数一样不是说明就坏!于是,我们可以使用一个字段来做聚类:手机号服务密码错误次数。
类似的还有,申请环节是否切换过device,几个用户是否在某几个相同的网络环境下出现,注册时间是否集中,进入到申请页面的上一个页面是否相同(流程),是否安装其他贷款类app(可用关键词匹配),身份证年纪和填写的学历是否合理(年纪轻,学历高),工作年限和年收入是否合理(工作年限少,收入非常高)等等。
好,衍生字段先分享这么多。
特征衍生好后,就是选择一个合适的模型来分析了。可以看到,以上特征大多适用于聚类算法,包括社交网络分析。这一点在黄姐姐的专栏“大数据反欺诈”中都有介绍,这里不再重复。
小小的总结:央行妈妈对我们越来越严格,导致曾经非常好用的数据,未来都有无法获得的风险。如何单纯从用户行为分析,来丰富我们识别风险的维度,已经变得越来越重要。再牛逼的模型工程师,没有对业务知识的了解,也无法有效地衍生特征,所谓“巧妇难为无米之炊”是也。而如果冷冰冰的一盆米,没有厨师,同样无法烹饪出美味佳肴,这是个相互配合的过程。所以是不是说,每一个模型工程师身边,都缺一个黄姐姐呢?【自恋脸】
来源|知乎
作者|黄姐姐HJJ
扫描二维码,即可报名
阅读原文,即可报名
更多精彩,戳这里: