基于社交网络分析算法(SNA)的反欺诈(一)
社交网络分析算法并不新鲜,且已经广泛应用于社交人物影响力计算、好友和商品推荐、社交圈子分析等领域。近几年,社交网络分析算法的应用不断拓展,已经开始应用于各种金融和保险等反欺诈领域,且效果很好。
为了讲解基于SNA的反欺诈,我先简单介绍下SNA的原理。为了方便理解,我会直接忽略很多细节(例如:入度和出度的概念),以下内容都是为了有助于理解反欺诈建模,想了解SNA更系统的知识请参看其他材料。
#基础知识#
节点(Vertice)和边(Edge)
社交网络,顾名思义,就是表现人和人之间关系的网络。类似的,社交网络分析算法,也就是为了研究节点(可以理解成人)和节点关系(边,可以理解成人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。
为了方便对下文指标的理解,我们定义节点数 N = |V|, 边数 M = |E|
图(Graph),有向图,无向图
用边把节点连接起来形成的网络,称为图(Graph)。图又可以分成无向图和有向图,如下图所示:
无向图仅表示节点和节点之间是否有关系,例如:在P2P行业反欺诈建模中,我们通过申请者通讯录去获取其社会关系,例如,如果张三和李四的通讯录都有老赖王五,那么,张三和李四的贷款申请违约风险就会比较高。
有向图相比于无向图会携带方向信息,一个最简单的例子就是传销图。传销有非常成熟的上下线制度,是发展团队十分迅速有效的手法,也被互联网公司广泛用于发展用户——好友邀请制度,此外,保险销售公司也有类似的提成机制。如被不法分子利用规则,对互联网公司,产生的后果就是大规模虚假注册;对保险销售公司,产生的后果就是内外勾结骗取额外提成。
社区(Community),非重叠社区,重叠社区
社区可以理解成UML中的群组,也就是同一个社区中节点和节点关系紧密,而社区和社区之间关系稀疏。
如果任意两个社区的节点集合的交集为空则被称为非重叠社区,否则称为重叠社区。
派系(Clique),完全子图
派系是指任意两个点都相连的节点的集合,又称为完全子图。
#分析指标#
指标一:度
简单来讲,度就是指从你这个节点发散出去了多少条边,或者可以理解成你有多少个朋友。
指标二:度中心性
我们在每个节点上都标注上其度的值大小,如下图所示:
我们接下来做标准化处理,用度除以最大连接可能(N-1),则得到:
形象地讲,中心性指越高,表示与你有联系的人越多,或者说,你的社交人物影响力就大。这是一个社交网站分析用户行为时一个常用的指标。
指标三:集中度(Centrality)
集中度表示一个群体的紧密程度,或者可以理解成密度。集中度又可以分为度集中度,紧密集中度和介数集中度,还有图集中度、特征向量集中度等,以下我们主要介绍前三种。
3.1 度集中度(Degree centrality)
度量集中度的方式有很多,例如,基尼系数、标准差和Freeman集中度公式。以下,我们以Freeman集中度通用公式为例计算:
其中,v*指度最大的节点。
根据上述公式计算如下两图的度集中度:
3.2 紧密集中度(Closeness centrality)
依赖于从一个结点出发到其它所有结点的最短路径长度,并被定义为总长度的倒数。
节点i的紧密中心如下所示:
而通常我们讲紧密中心度,是指其标准化形式,也即总距离长除以(N-1)
3.3 介数集中度(betweenness centrality)
直观理解,介数就是多少个节点对必须经过本节点实现最小跳数互达。定义如下:
其中,gjk表示节点jk最短路径的个数,gjk(i)表示i位于最短路径的个数。
同样,我们将其标准化,除以除本节点外其他节点对个数,得到:
还是以下面两图作为示例来计算介数集中度:
A在(B,C),(B,D),(B,E),(B,F),(C,D),(C,E),(C,F),(D,E),(D,F),(E,F)十个节点对的最短路径上,非标准化值为10;
BCDEF不在任何节点对的最短路径上,所以非标准化值为0。
简单解释一下:
对于节点A和E,都不在任何节点对的最短路径上,所以为0;
对于节点B,在(A,C),(A,D)和(A,E)三个节点对最短路径上,非标准化值为3。类似地,节点D与B情况相同,也为3;
对于节点C,在(A,D),(A,E),(B,D)和(B,E)四个节点对最短路径上,非标准化值为4。
感谢作者mryqu:http://blog.sina.com.cn/s/blog_72ef7bea0102v748.html
感谢作者du00cs:http://blog.sina.com.cn/s/blog_439371b501012lgt.html
感谢作者fionaplanet:http://www.cnblogs.com/fionacai/p/6262527.html
Centrality定义:维基百科https://en.wikipedia.org/wiki/Centrality
来源|知乎
作者|DataVisor黄姐姐
想获知更多关于互金反欺诈的深度内容,欢迎参加黄姐姐的公开课
点击阅读原文,即可报名
更多精彩,戳这里: