查看原文
其他

小盾干货 | 支付行为交易欺诈模型分析(下)

2016-08-24 周登峰 大数据反欺诈联盟

5数据预处理

交易金额数据有少量值缺失,采用样本交易金额的平均值代替。用户等级在做逻辑回归和决策树时,转换成二元变量,新用户为0,普通用户和老用户设为1。而在做支持向量机模型时,还是设计为类别变量,新用户取0,普通用户取1,老用户取2。再对原样本数据进行转换得到上述的特征变量,并且对连续变量进行了0,1归化。


为评估模型效果,将样本数据随机抽样分成训练集和测试集,比例为7:3。


6
模型求解

1
决策树

首先利用训练集对模型进行训练,然后利用测试集对模型性能测试,其中因变量为是否盗卡,自变量有交易金额、卡号地址速率检测、IP地址速率检测,这三者都为连续变量,还有是否在敏感时间登录、是否小额试单后再大额支付和是否常用IP,用户等级属二元变量。


利用R语言求解模型,并利用逐步回归法修正模型。

注:程序中amount代表变量交易金额,IP_fre代表IP地址速率检测,card_fre代表卡号地址速率检测,level1代表用户等级,log_time1代表是否在敏感时间登录,IP_usual1代表是否为常用IP。


结果中可以看出IP_fre没有通过检验,然后对模型进行修正

可以看出此时模型系数都通过检验。得到最后的模型如下:

然后利用测试集对模型性能进行测试,最常见的衡量模型性能的指标有准确度、精确度、召回率和F1值。模型预测的分类结果由混淆矩阵给出。


2
支持向量机

同样的首先利用训练集进行模型训练,然后利用测试集对模型性能进行检验。结果如下:


模型训练得出的其中一个二维的超平面,选取交易金额和IP地址速率检测变量的的超平面。


3
决策树

同样求解模型,决策树树状图如下:


4
组合分类器

将上述三个分类器组合在一起构建一个组合分类器,提高分类模型的外推预测能力。该系统的最终分类结果采用简单多数投票法,预测的类别哪个多就归到该类。结果如下:


7结论与后续改进

通过逻辑回归、支持向量机和决策树构建组合分类器,反欺诈的准确率为98%,精确度为58%,召回率为64%,F1值为61%,考虑到数据质量,60%度的卡号数据缺失,样本浓度为2%的情况下,该结果良好。但是还存在的很大改进余地,首先可以考虑分别对信息全的数据和信息不全的样本分别构建反欺诈模型,这样有助于充分利用样本信息。第二在特征变量的选取上,由于反欺诈经验不足,对业务的理解不够透彻,导致没有准确提取特征变量。第三反欺诈模型非常讲究高分准确度和稳定性,随机抽样分成训练集合和测试集,会造成同期检测,导致过度拟合同期风险,可考虑跨期检测,比如训练集取11月21到11月23日的数据,测试集选取11月24至25日的数据进行测试。第四各分类器分类结果有待改进,比如决策树只分出一个变量做决策树,可考虑调整参数,或者重新设定变量。第五随机森林有比较强的稳定性,可考虑随机森林来做反欺诈模型。


本文获得作者独家授权,转载请注明出处。

点击阅读原文了解同盾风控云服务

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存