查看原文
其他

互联网金融:以大数据为中心的反欺诈体系

2017-03-07 罗鹏 菲凡烽火台
2017-03-07   第12期报告分析


反欺诈解决方案的准确度取决于数据模式是否科学,同时也取决于获取的数据是否全面、准确。



近几年在我国互联网金融的爆发式发展,行业迅速膨胀的背后,是风险的急剧增长。除了传统的信用风险,欺诈已经成为一个主要风险源,在一些P2P网络借贷公司,由于恶意欺诈产生的损失占整体坏账的60%。


传统的风险预防机制已无法适应日益多变的欺诈行为,而基于大数据的反欺诈产品则可以很好的解决此类问题。



大数据应用背景


反欺诈是集风险预防、风险防控和风险分析为一体的系统工程。


当前,欺诈行为往往呈现出变化多样且隐蔽性很强的特征,根据单一的数据信息很难判定是否属于欺诈,而传统的金融企业一般都还是采用“黑白名单”,基于规则的防范机制以及通过自有业务数据进行分析建模等传统方式做反欺诈风控。


由于这些方式往往存在滞后性、机制僵化和数据不全面等弊病,导致金融风控只能做到一定程度的预防,起不到真正的全面风险控制。


一些互联网金融公司以互联网思维做互联网金融业务(P2P、消费金融等),流量至上的原则往往会带来风控的危机。缺乏多维度数据支持以及风控模型的迭代验证,互联网金融的风控步履维艰,行业坏账率高居不下。


因此,通过采集各种渠道数据(包括个人数据、银行账户数据、交易数据以及各类交易日志;以及中国人民银行征信中心的个人信用数据和其他外部数据信息,例如城市住址信息、IP地址信息、物理设备信息和公检法等政府事业部门公共数据信息等),再对数据进行筛选、整合、聚类等数据处理流程,针对未来可能产生欺诈行为的异常信息进行判定。


反欺诈解决方案的准确度取决于数据模式是否科学,同时也取决于获取的数据是否全面、准确,由于数据模型是否科学也是建立在事先对大量数据进行分析的基础上,因此数据是反欺诈解决方案中的根本。



大数据应用特点


大数据其本身具有Volume(规模性)、Velocity(高速性)、Variety(多样性)三大特征。


目前的反欺诈系统数据处理已经具备了Volume(规模性)和Velocity(高速性),而Variety(多样性)方面也在进一步丰富,不仅能分析和处理结构化数据,未来还将完善对邮件、语音、视频等非结构化数据的分析处理,从而在对欺诈行为判断的准确性上得到更深一层的提升。


规模性----

无论是新兴的P2P网络借贷平台、消费金融公司还是传统的证券基金、银行、保险等行业,互联网金融数据的量在用户规模、交易规模方面都呈现持续性增长,导致互联网金融数据必须通过先进的分析工具和学习算法得到及时处理。


高速性----

互联网金融数据的收集与处理必须及时高效,不允许存在较长的延迟,延时反馈会严重影响产品的质量、效率和用户体验,从而造成不必要的损失。


同时,以互联网为媒介的传播,互联网用户的规模和响应速度都在提高,导致数据的增长速度呈指数增加。


多样性----

互联网金融数据的数据类型,除了结构化数据以外,还有半结构化和非结构化数据,例如文本数据。


此外,互联网金融数据来源于不同的金融活动场景,常见的包括P2P网贷、消费金融、银行电商、网络支付、众筹融资和虚拟货币等。


可见,针对不同的金融欺诈场景,反欺诈体系必须具备处理大数据规模性、多样性和高速性的能力,从而根据不同的分析维度,从海量的基础数据中,按照个人基础信息、交易信息、交互信息、行为偏好信息、产品信息等多个维度提炼统计标签和特征变量,构建能够精确判定欺诈行为的智能模型。



大数据分析处理


一个反欺诈体系的完整流程,包括了数据样本的圈定、数据采集、数据分析计算处理、输出产品和商业场景应用。


征信机构和反欺诈平台根据实际需求确定所需要的数据维度和数据来源。


例如对于个人消费贷款,需要采集客户的收入支出、交易流水、工作证明、历史信贷记录、家庭住址等数据资料,对于企业贷款,则需要采集企业基本概况、历史信贷记录、财务状况等。


而先进的统计分析技术、创新建模技术和专业的软件工具以及算法则决定了输出模型的预测能力、排序能力以及分辨能力的强弱性和稳定性,最后直接影响产品在商业场景中的应用。

▲大数据处理流程图

 

通过多渠道获得的大数据信息,各家征信机构和反欺诈平台根据业务需求、应用场景,结合自身特点,利用数学运算和统计学模型进行分析,从而对可能发生的欺诈行为进行判定。


从数据分析技术来看,目前各征信机构和反欺诈平台大多采用比较传统的数据分析方法,例如随机森林模型、决策树模型、逻辑回归模型、神经网络模型、支持向量机、深度学习等模型。


例如芝麻信用的评分模型与美国的FICO十分相似,同时在研究和吸收传统征信评分模型的算法优势上积极尝试了前沿的随机森林、神经网络、机器学习等算法;


前海征信的评分标准与FICO相同,但在变量设计方面,根据其自身的数据特点,改变了部分变量;


腾讯征信利用了其大数据平台TDBank,在不同数据源中,采集处理人物相关行为和基础画像等数据,并利用统计学、传统机器学习的方法,计算出用户信用评分。


以使用较为普遍的神经网络模型技术为例,该模型技术主要通过模拟人脑功能的基本特征,适合处理需要同时考虑许多因素和条件的非线性问题,它具有识别率高、稳定性强且易于系统落地实施等优点。

▲反欺诈神经网络模型

 

以数据为中心的反欺诈体系须遵循系统性、时效性、可操作性、科学性和弹性的设计原则,涵盖互联网金融风险发生可能性的各个环节,从数据收集、数据提取、数据分析和数据分箱等方面环环相扣,制定科学规范的金融反欺诈体系,预防和降低因为决策失误、客观情况变化以及其他原因带来的风险损失。

 

大数据意味着大机会,通过在反欺诈系统中增加对大数据的处理和分析能力,从而让决策更为科学和精准,最终保障用户的资金安全和收益稳定,帮助企业获得显著的绩效改进和业务收益。



<END>


菲凡烽火台用户防骗咨询群!

个人金融产品信息核查;

企业风险程度、业绩等专项委托调查;

一般欺诈行为的数据分析、搜索、知识普及

... ...


 善念 犀利  洞悉 灵敏  

金融法律行为研究会反金融欺诈平台



声明:本文言论不构成任何投资建议,请读者仅供参考,原创文章,转载请注明来源

 评论留言支持我们噢!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存