查看原文
其他

小盾干货 | 支付行为交易欺诈模型分析(上)

2016-08-24 周登峰 大数据反欺诈联盟


一问题描述与目标

在经济和社会领域中经常存在欺诈交易等非法活动,从数据分析的角度,欺诈行为通常与异常的观测值相关联,因为这些欺诈行为是偏离常规的。本案例使用的数据是某游戏行业的支付交易数据,目的在于识别出哪些支付行为存在盗卡行为。采用数据挖掘的方法,从数据驱动的角度以及对于业务规则的理解,发现支付数据中欺诈行为。


二欺诈交易的特征

欺诈交易行为经常表现为以下几类特征:交易金额、交易频率异常;交易流向或交易来源异常;交易用途或交易性质异常。以上是从交易行为的角度对欺诈交易特征进行剖析,从交易记录的角度分析,交易金额的异常通常体现在单笔或相关交易记录中,交易频率的异常通常体现在基于时间序列的交易记录中,而交易用途或交易性质的异常则通常体现在交易主体间的交易往来中。


三分析思路与模型构建

交易欺诈侦测是根据银行卡交易行为特征,将交易划分为正常交易或欺诈交易,其实质是一个分类问题,因此基于银行卡历史交易数据,利用数据挖掘中的分类学习算法,建立反欺诈模型。考虑利用组合分类器构建反欺诈模型,分类器组合的目的就是充分利用每个分类器的优点,挖掘分类器之间的互补性。图1 显示了一个分类器组合的简单示意图,x 为数据集中的元素,每个分类器对于一个样例都有一个分类结果y ,通过分类器的组合规则,则可以决策出最终的类别。

图1 组合分类器


通过组合分类器可以显著提高对样本数据的精度,克服单个分类器分类的片面性。但是组合分类器通常也需要更多的模型训练时间,分类结果也很大程度上取决于基分类器的选择。


单个分类器建模过程如下:

经过多种分类模型的测试,最后选出三种分类模型构建组合分类器,分别为逻辑回归、支持向量机和决策树。


1
逻辑回归

2
支持向量机

SVM方法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。


支持向量机的基本思想是:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。其次,它通过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间的期望风险以某个概率满足一定上界。


3
决策树

决策树( Decision Tree )又称为判定树,是运用于分类的一种树结构。其中的每个内部结点( internal node )代表对某个属性的一次测试,每条边代表一个测试结果,叶结点( leaf )代表某个类( class )或者类的分布( class distribution ),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。


构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为 (a = b) 的逻辑判断,其中 a 是属性, b 是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树( ID3 )的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。


使用决策树进行分类分为两步:
第 1 步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。

第 2 步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。


4特征变量提取

数据样本中,变量有支付单号、用户号、卡号、金额、交易时间、IP、预留手机号、IP归属地、手机归属地、用户评级、IMEI(手机串号)、身份证。从上述给出的变量中,基于对欺诈交易行为特征的理解,提取出如下几个特征变量。

但是样本数据中卡号、手机归属地、身份证缺失60%,是否小额试单后再大额支付变量只有一个数据表示在试单,所以不考虑该变量,因而最后从上述变量中选取了6个变量,其中卡号地址速率检测变量,如果无卡号,就用用户号代替计算。最终变量选取为

接着对变量检验,为了检验自变量是否对因变量有显著影响,其中因变量为是否盗卡,对二元变量采用卡方分析,对连续型变量采用T检验来判断是否对因变量有显著影响。经过分析得出6个特征变量都对因变量有显著影响(p<0.05)

然后检验变量之间的相关性,为了避免多重指标带来的多重共线性问题,采用kappa检验,当kappa值小于100时,认为不存在多重共线性,大于1000时,就存在严重共线性,在这两者之间,存在较强的共线性。结果kappa值为10,因此不存在多重共线性问题。此外给出变量之间的相关性矩阵,并没有超过80%的相关系数。

未完待续......


本文获得作者独家授权,转载请注明出处。

点击阅读原文了解同盾风控云服务


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存