查看原文
其他

反欺诈之血缘关系分析和犯罪传导监测

DataVisor黄姐姐 66号学苑 2022-09-08

文前小故事:隔壁阿姨最近总是带个包鬼鬼祟祟地出去,妈妈好奇,今天跑过去串门,问她最近在忙什么,她一下就忍不住哭了起来:


我被人骗了……好多人去要钱……我把我姐和我女儿也坑了……那是我姐夫的安葬费……还有我侄子……


妈妈安慰她,让她慢慢说。然后才理出了事情的原委:她在超市门口接到小传单,理财投资,年化18%~24%,就自己投了10万块进去,感觉很好,每个月都返利息,还安排他们去旅游,送各种日用品。后来,她陆续拉着自己的姐姐,女儿,侄子,七大姑八大姨都去投资,自己也追投了几十万。去年4月份,投资公司老板跑路到了美国。从去年到现在,她总是去参与各种各样的“讨债”活动,但也都是无功而返。


这样的事情并不少见,一个人是受害者,会无意间牵连自己的亲朋好友也成了受害者;一个人推销保险,也都是先从亲戚朋友下手;一个人搞传销,会把亲爸亲妈亲同学发展成下线;一个人犯罪,会拉着全村人一起犯罪(比如电影
《巨额来电》中的林阿海)……


近期,一银行找到我,说他们现在有一个立项,题目是《数据血缘关系智能分析和犯罪风险传导监测》,希望听听我的建议。今天正好听到妈妈跟我说起这件事,就想,还是针对这个课题,好好整理下思路,讲一讲我的看法吧。同样还是黄姐姐的风格,为了仅围绕反欺诈做探讨,本文仅会讲解与反欺诈相关的知识点,想系统学习的朋友,请参照其他资料。


#数据血缘关系


数据血缘关系,英文Pedigree,也称Provenance或linkage,指的是数据源(source)到衍生(derivation)字段的链路,也就是数据从产生,到加工组合拆解,再到最后消亡的整个生命周期的过程,用一个成语概括,就是数据的“来龙去脉”。之所以称为“血缘关系”,是因为这与人类社会很像。通过一步的加工可类比“直系血亲”,通过多步的加工可类比“旁系血亲”。这里举个例子,以下是从一个用户那里获取的user agent

Mozilla/5.0 (Linux; Android 7.0; BAC-AL00 Build/HUAWEIBAC-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044022 Mobile Safari/537.36 MicroMessenger/6.6.6.1300(0x26060634) NetType/WIFI Language/zh_CN


从这里,我们可以分解出:手机品牌、操作系统、版本号、网络情况、浏览器信息等等,这些字段的“父亲”就是user agent,属于直系血亲。现在,我们通过这里解析的操作系统+版本号,再加上从其他渠道获得的device id和电池电量,将4个字段组合成一个新字段,命名fingerprint。那么,fingerprint则拥有4个“父亲”,与user agent属于旁系血亲。市面上有很多帮忙梳理数据血缘关系的工具,基本思路都是将其链路可视化。一般有:信息节点、数据流转线路、清洗规则节点、转换规则节点、数据归档销毁规则节点。


对于反欺诈建模,数据清洗和特征衍生往往是第一步,也是最为重要的一步。可以说,数据质量直接影响着模型结果(用烂水果,无论如何都榨不出一杯美味的果汁)。而数据血缘关系,无论从数据价值评估还是从数据关系梳理上,都可以给建模人员提供有效的帮助。这里再举一个前两天遇到的案例,一个群组84人,我们发现这些人有人用wifi,有人用4G,IP却完全相同,十分诡异。在去对这一现象做判断前,我们先是要确定数据的准确性,也就是追根溯源,看网络信息是从哪个源头衍生出来的,再去判断这个源头的有效性。如果有一个好的数据血缘分析工具,则可以快速定位。如果判断数据准确,才能再进行下一步分析:使用4G的IP是否都是定位在运营商基站?同一地点连接的基站是否会跳转?是否有人开了热点?还是这是模拟器造成的诡异现象?


总之,数据血缘关系分析,可以应用于整个反欺诈建模过程:从数据预处理,参数初始化,到结果分析。


#犯罪风险传导


一提到风险传导,可能很多业内人士都会想到宏观经济中的其他风险向业内传导,比如整个经济的大萧条;或者微观经济中银行间或同一银行业务间的风险传导。事实上,犯罪风险传导与此类似,也都是从风险源,经过某些传导载体,传导到各个节点,最后再传递到我们的研究对象,也就是风险接受者。这一过程,可能还有外部风险的影响,比如政策影响、失业比例等等。如下图所示:


风险传导图


为了方便大家理解,这里举个例子。信用卡代还业务刚刚兴起时,银行信用卡坏账率有显著的下降。因为银行信用卡的逾期会上征信,所以一是很多暂时没办法偿还信用卡的人,会利用信用卡代还业务偿还信用卡,这样,银行的信用风险降低了。另外,很多信用卡代还业务在推广期,对人员资质审核要求比较低,所以很多骗贷人员也盯上了这一福利,进行大肆骗贷,也给银行的欺诈风险减压。某一新型业务的兴起,通常会在短期内影响整个大环境的风险分布,信用卡代还就是一个典型案例。一段时间后,信用卡代还业务的风控不断加强,口子不断收紧,会导致骗贷团伙转移到其他口子,比如P2P或者消费贷。


对于反欺诈的犯罪风险传导,一是要从业务层面分析;二是从数据层面分析。对于前者,需要从政策、宏观经济、失业率、同业分析、近业分析、竞业分析等等角度来看(比如信用卡代还对信用卡逾期的影响);对于后者,则可以借助各种数学模型来分析。以下以图分析为例,简单介绍如何进行犯罪风险传导分析。图分析理论中最经典的要数社交网络分析,关于社交网络分析的基础知识和应用请参照黄姐姐之前的系列文章基于社交网络分析算法(SNA)的反欺诈》。


首先,我们要明确犯罪风险传导监测的目的,那就是提前预警。也就是对于一个群组,当某几个人开始犯案时,其犯案手段可能会传导到其他人,或者带领其他人一起犯案,就像文前小故事里提到的几个例子。这里,首先犯案的可以理解成风险传导图中的“风险源”,传导载体可以理解成社交网络分析中的“边”,节点可以理解成关联社群(community),风险接受者就是我们想要去阻拦的潜在犯罪者。


现在,假设我们已经通过社交网络分析发现了一个团体,其关联性比如:


1. 同时连接过某一个wifi,假设wifi名叫“撸个口子回家过年”;

2.同时办理了某银行的某个卡种的信用卡;

3. 都居住在某个小区,白天GPS定位显示都集中在某个棋牌室;

4. 同一天出现了异地消费。

某个社群


这时,我们发现,红圈中圈出来的5个人都向银行提出了贷款申请,其中2个人审批通过且已经出现M3+逾期,另外3人被拒。这时,我们就有理由怀疑,整个群组都有骗贷嫌疑。那么,对于这个群体,其在进行贷款或信用卡申请时,我们则需要特别注意,要么拒绝,要么降低其额度,以降低风险。


进一步分析,其背后动机可能是这样的:一群闲散人员,不务正业,每天的工作就是打麻将,他们相互认识。可能在某天被某个外部人员游说,带其到某个诈骗团伙接受培训,并交了入伙费(异地消费),回来后,他们也开始从事诈骗工作,第一步就是骗贷。而为了试探什么样的条件才能通过银行贷款审核,红圈中的五个人身先士卒,进行尝试。对于其中2个成功骗贷的人,就可以作为成功范例,传授其他人经验(开始传导)。


对于犯罪风险传导监测模型的收益,黄姐姐拿一个实际案例来举例,在C银行的合作项目中,我们采用犯罪风险传导监控,对潜伏用户做提前预警,结果是平均可以比C银行提前2.5天发现坏人,44%的用户至少提前1天就被检测到其犯罪动机。如下图所示,发现我们的检测点都集中在0-20天,而C银行的检测则在0-60天均匀分布。



对于检测量,可以看到,通过潜伏分析,可以大大改善C银行延迟检测的尾部效应,如下图所示:

结语:当今的社会是一个关系型社会,一个圈子会倾向于做同一件事,同为受害者或欺诈者。比如,孤寡老人圈子会成为电信诈骗的目标,而犯罪团伙也通常是曾经的朋友或者亲戚组成的,就算你一个外人想加入,也必须通过熟人介绍才行,也已然成为行规。数据血缘关系分析作为反欺诈建模的基础,犯罪风险传导监测则作为反欺诈建模的理论依据和目标,越来越受到银行风控领域的重视。


[1] Provenance, Lineage, and Workflows:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.406.8789&rep=rep1&type=pdf

[2] 数据之间有血缘关系?数据治理不得不懂的血缘关系梳理方法

http://www.sohu.com/a/161142366_99934777

[3]风险传导机理与风险能量理论

https://wenku.baidu.com/view/ef9f413ff08583d049649b6648d7c1c708a10b86.html

[4]商业银行风险传导

http://www.docin.com/p-1270342141.html


来源|知乎

作者|DataVisor黄姐姐

想获知更多关于互金反欺诈的深度内容,欢迎参加黄姐姐的公开课


点击阅读原文,即可报名



更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|基于社交网络分析算法(SNA)的反欺诈(二)|

|基于社交网络分析算法(SNA)的反欺诈(一)|

|反欺诈干货|互金之套路与反套路|

|反欺诈之四大杀器|



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存