独家干货|无监督学习在反欺诈中的应用
5月29日,66号学苑邀请到DataVisor高级风控顾问黄莹为大家带来主题为”无监督学习在反欺诈中的应用”的线上课程。本节课,黄老师主要从反欺诈技术的发展历程、什么是聚类、无监督学习应用于反欺诈的原理以及具体应用四大角度来对本节内容进行具体阐释。
以下是本次分享的部分干货。
一、反欺诈技术的发展历程
反欺诈技术的的发展经历了四个阶段,第一阶段黑名单、信誉库和设备指纹;第二阶段规则系统;第三阶段有监督的机器学习;第四阶段无监督的大数据欺诈检测。目前来说,前三种还是大家应用最为普遍的,尤其对于小贷公司,黑名单和规则系统的投入是非常大的。
但是不得不承认的是,随着骗子攻击手法的不断变化,实际上这样的反欺诈手段仅仅只能对已知的欺诈形势做一个拦截。那么对于一些新型的攻击和欺诈方式,尤其是一些新业务上线的时候,我们没有标签,该怎么办?这实际上就是无监督学习能够解决的事情。
二、什么是聚类
下图是一个经典的机器学习的分类,分为监督学习、无监督学习和强化学习,那么在有监督学习和无监督学习之间又有一个半监督学习。今天跟大家主要讲解的是无监督学习中聚类这块的内容。
反欺诈最常用的两种方法,一种是聚类,一种是离群点检测或者叫异常值检测。离群点检测有自己的优势,但是相比于聚类而言,就是它的误伤比比较高。
那什么是聚类?
聚类是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似/相关,类别之间的数据相似度/相关度比较小,属于无监督学习。我们把聚类应用在无监督上的时候,会去看两个性质,第一个性质是一致性,第二个性质是关联性。
下图中的左图就是一个比较经典的一致性的聚类图。右图是比较经典的关联性的一个图。
三、无监督学习应用于反欺诈
下面我会给大家重点介绍无监督学习应用于反欺诈的原理,主要有四个步骤,第一是特征提取,第二是聚类分析,第三是图分析,最后是结果排序评分。这其中特征提取是最为核心的一步。
1.第一步:特征提取
上图是特征工程的一个流程图。我们从下往上看,最下面是数据的输入,将数据输入hadoopde的一个平台,然后通过初步的场景设定,我们会去定义要提取哪几个事件,是注册、申请、交易还是后面的其他环节?
接下来,我们会利用一些技术,比如说最常用的统计分析、自然语言处理、图形分析等等,去把行为特征提取出来,然后再到最上面是动态特征提取比较多。
那这张图的右边还有两个框。其中业务知识是个我个人比较看重的。在做项目的过程中,你的业务知识会非常有效地帮助你做特征工程。因为当你对业务知识比较熟悉的时候,你能很快地定位到你的风险点在哪里,或者你会比较清楚现在整个业态、整个大的政策是什么样的,你的比较相似的行业处于什么一种什么样的风险情况下,那他们现在处于这样的风险会不会转移到我们目前的一个业务。所以对业务的了解,实际上对于我们特征工程是非常有帮助的。
2.第二步:聚类分析
在第一步特征工程结束后,我们会把一个基础字段和特征工程衍生出来的这些字段,把它撞成一个大的长项量,来去映射到一个特征空间里面,然后再去做一个聚类分析。最后我们把这样一个整体的特征向量输入到关联性分析的模块中。
这个模块有两个作用,第一个作用是去做降维,如果维度特别高的话,实际上在做聚类的时候是非常困难的。我们要降低每一个元素之间的关联性,让它们尽量相互地独立;第二个作用是定义它的距离函数,
当关联性分析这个模块做好之后,我们就会到下一个模块去做一个聚类。那聚类结果输入之后,我们会做一些回顾,去看这个聚类结果是什么样的效果。如果说感觉不是特别好的话,我们还需返回到我们关联性分析的模块,重新进行分析。
其实这个循环是不断去做的,我们在调整模型的过程中,其实就是在调整这个环节,具体取决于用户如何来使用这个结果。
3.第三步:图分析
图分析大家可以理解成是交互的分析,跟社交网络分析不同的是,社交网络分析的研究对象是一个人,而图分析研究的对象则是一个小团体。
为什么要做这样一个步骤?
主要有两个目的,第一个目的是我们可以从更高的维度去看小团体和小团体之间是不是也有一定的分工或者相关性。大家知道黑产是有严格分工的,比如他们有情报中心、宣传中心等等;第二就是有些小团体可以连接成更大团体的时候,我们可以从不一样的视角去看他们其中的一个内在,可以给到我们更多的信息。
4.第四步:结果排序评分
经过聚类分析和图分析之后,我们其实对这个群体有了一个大概的判别,那接下来我们对其结果做一个排序和评分。
在做评分的时候,我们会依照两个因素,第一个因素是群组的大小,第二因素是群组的关联性。群组的大小顾名思义就是说你人多,那么评分可能会比较高;关联性则是说明,你所有这些比较坏的属性或者比较诡异的行为都比较一致的时候,我们会认为你的平衡比较高。
想要黄老师手把手教你做第一个无监督项目吗?阅读原文即可报名~
更多精彩,戳这里: