观点丨​基于图技术和机器学习的反洗钱可疑监测

查看原文

其他

观点丨基于图技术和机器学习的反洗钱可疑监测

Original 金融电子化金融电子化 2021-08-11

欢迎金融科技工作者积极投稿！

各抒己见！

投稿邮箱：

newmedia@fcmag.com.cn

——金融电子化

成都农商银行科技信息总监黄庄庄

随着电信诈骗、贪污腐败、非法融资、走私贩毒甚至恐怖活动等犯罪行为的日益猖獗，洗钱已经从一种资金转移手段发展成了一种独立的犯罪行为，对金融机构和国家安全构成越来越严重的威胁。据国际货币基金组织统计，全球每年非法洗钱的数额约占世界GDP的2%~5%，介于6000亿~1.8万亿美元之间，且以每年1000亿美元的速度不断增加。在当前经济全球化、资本流动国际化的情况下，洗钱活动对国家金融体系的安全及政治经济秩序的危害极大。

2003年3月，中国人民银行发布了《金融机构反洗钱规定》《人民币大额和可疑交易报告管理办法》《金融机构大额和可疑外汇资金交易报告管理办法》，对银行类金融机构明确提出了反洗钱监管要求，确立了我国反洗钱报告和反洗钱信息监测制度的基本框架。为履行反洗钱职责，经国务院批准，人民银行于2003年9月成立了反洗钱局，并于2004年4月，组建了中国反洗钱监测分析中心，负责反洗钱情报的接收和分析工作。2006年10月31日，中华人民共和国第十届全国人民代表大会常务委员会第二十四次会议于通过《中华人民共和国反洗钱法》，自2007年1月1日起施行。同年，中国正式成为国际反洗钱金融行动特别工作组(Financial Action Task Forceon Money Laundering，简称FATF)成员，之后的5年中，我国不断完善反洗钱与反恐怖融资体系和轨制，前后向FATF提交了8份改良情况报告。在2016年G20杭州峰会公报中，习近平主席和各国领导人共同承诺要完善制度，提升国际社会打击洗钱、恐怖融资和逃税的能力。2019年4月，FATF向全球发布了《中国反洗钱和反恐怖融资互评估报告》，在对我国反洗钱工作充分肯定的同时，提出了五点整改意见。

2020年第一季度，我国反洗钱处罚金额再创新高。其中对3家金融机构累计罚单达到5190万元，再一次刷新了我国反洗钱处罚金额的单笔最高纪录。处罚金额之大不仅触目惊心，更体现了我国推动反洗钱工作的决心与努力。随着国际反洗钱互评估后续整改工作的推进，以及《反洗钱法》修改工作的正式启动，未来反洗钱监管将会越来越严，反洗钱监测建模的重要性也与日俱增。

反洗钱可疑监测建模的难点、痛点

尽管反洗钱工作已经受到了各级政府、金融机构的高度重视，但由于洗钱手段的复杂多样，犯罪分子的狡猾多变，如何有效监测洗钱活动仍然是一个巨大挑战。当前，绝大多数反洗钱系统仍然是以专家经验为基础构建监测模型。这些指标规则虽然能够发现一些异常行为，但毕竟大多是根据历史人工经验总结出来的，模型的准确性、覆盖性和稳定性都受到人员水平的较大干扰。而且长久下来，犯罪分子也或多或少掌握了一些规律而故意规避，这样系统就更加难以识别。另一方面，洗钱活动往往是团伙犯罪，而原有规则往往只关注单个账户，对隐藏在资金交易图谱背后的洗钱团伙难以有效识别。人工监测可疑交易的传统模式还会涉及到研判客户交易、求证客户信息真实性以及事实举证等环节。在这一系列工作中，业务人员需要收集可疑案例相关数据，对收集到的数据进行分析，对分析结果进行总结。整个监测过程中的痛点和难点，归纳如下。

（1）监测前：传统打分卡模型指标权重根据经验设定，可疑交易预警量大。

（2）监测中：案例所需数据分散，获取难，展示不直观，分析难度大；人员业务水平和数据分析水平难以完全满足要求，容易疏漏。

（3）监测后：案例监测难以形成统一标准，推广难；案例监测过程无法标准化记录，知识成果难以沉淀；犯罪分子易于掌握规律，人工模型容易失效。

解决方案描述

成都农商银行从2017年开始使用机器学习技术，结合专家特征探索人工智能建模，取得了较好的建模效果，并获得了2018年人民银行科技发展三等奖。2019年，由人民银行牵头，成都农商银行参与到金融科技试点项目中，进一步探索图技术在反洗钱可疑监测建模领域的应用，提出了一套综合使用机器学习、图算法、大数据技术和时序算法，针对复杂资金交易图谱和社区团伙化的犯罪行为，进行可疑监测的建模方法。我行以行内现有历史交易数据资源为基础，使用图数据库构建资金交易图谱，利用社区分类算法进行交易社区划分，集成业务特征、图特征、时序特征，采用多层机器学习建模方法，对可疑交易、可疑客户进行数据挖掘，较大地提高了反洗钱监测工作的有效性，更好地履行反洗钱的责任和义务。

1.使用图数据库构建可视化资金交易图谱

传统关系型数据库在构建复杂资金交易图谱时，往往力不从心。根据实战经验，若交易达到三层关联，就会出现数据库无法响应的状态。而图数据库恰好是一门应对复杂数据关联的技术，以两大核心概念——结点集和连接结点的关系，构成其基础数据结构。与关系型数据库使用关联表来表达关系有所不同，图数据库可以在关系中包含属性，从而提供更为丰富的关系展现方式。

反洗钱监测的重要对象就是账户之间的交易行为。使用传统关系型数据库进行交易分析时，只能从一个账户入手，逐步查询探索其交易行为。使用图数据库，则可用将每个账户作为图的节点，将交易作为连接节点的边。数据入图后，分析人员可以清晰看到每一笔交易的资金流向，便于进行交易的多层探索。这是传统报表查询式数据分析无法达到的效果。图数据库由于其自身结构的优势，可以在短时间内构造复杂的资金交易图谱，使这一切成为可能。在本项目中，我们利用客编、交易流向等数据构建的一张包含20万个客户、日60万笔交易的资金交易图谱，只需要15分钟左右；渲染一张包含200个客户、1000笔交易的资金交易图谱只需要3秒左右。

2.使用社区分类算法划分交易社区

洗钱交易呈现团伙作案的特点，但传统反洗钱建模分析主要关注孤立账户的交易行为。受限于技术手段，它难以将多个账户识别为交易团伙，进而无法以团伙为单位进行关联分析。本项目使用社区发现算法,以模块度增益、信息熵等作为分类指标，自底向上地聚集交易社区，用时40分钟便可从60天内约4000万笔交易数据中，聚集出3.5万个左右的有效交易社区。社区分类算法的应用方式包括。

一是单独使用图进行可疑甄别，通过中心性算法计算社区中节点的点度中心性、紧密中心性或中介中心性等指标，识别出中心节点，配合规则筛选其中的可疑节点进行甄别。如果确认可疑，再以点带面对其所属社区进行可疑性分析。

二是提炼节点的社区属性，如其所属社区在一定时间段内的交易次数、金额等，作为机器学习特征，进行建模。

3.使用时序算法生成时序特征

使用时序算法，分别拟合黑样本数据和待监测客户特定时间段内的交易曲线，计算曲线的峰度、偏度等指标，进行相似度比较，用作机器学习建模中的时序特征。

4.综合业务特征、社区特征、时序特征进行机器学习建模

本项目构建了“图分析→时序分析→业务分析→机器学习”的多层机器学习建模体系，将前三部分输出的社区特征、时序特征，结合业务规则泛化出的业务特征，形成机器学习建模的特征库，进一步通过GBDT或者随机森林等算法进行监督学习训练和可疑预测。

应用成效及展望

通过创新性地综合使用图技术、时序技术、机器学习和大数据技术，成都农商银行丰富了反洗钱可疑监测工具，打破了依赖专家经验建模的传统模式，较大地提升了监测的准确性、覆盖性和质量稳定性。经统计，在地下钱庄、涉税等多业务场景下，相较只依赖于业务特征进行的机器学习建模，准确率提升度达到30%以上，图特征和时序特征贡献度达到30%以上。在缺少黑样本数据或业务特征积累不丰富的情况下，图特征和时序特征起到的作用尤其明显。

未来，我行将深化试点项目，从以下三个方面着手进一步探索金融科技在反洗钱等合规、风控建模领域的应用。首先探索无监督学习，解决建模中黑样本数据较少的问题。其次构建“相似度”矩阵，打破先有犯罪场景后有可疑监测的现状。第三，探索外部合作，在确保信息安全的前提下，补全跨行资金交易图谱。

我们相信，金融科技的发展必将助力我国金融市场稳定、有序、健康的向前发展，也会在习近平总书记强调的做好“六稳”、落实“六保”工作中写下浓墨重彩的一笔。

往期精选：

（点击查看精彩内容）

● 观点丨基于安全多方计算与区块链技术数据共享机制的思考

● 观点丨省联社科技机制体制改革思考

● 观点丨打造最佳客户体验的便民普惠综合服务

● 观点丨金融科技赋能长租公寓平台新活力

● 观点丨证券行业新型私有云进阶之路

关于仿冒我刊收费的声明

我刊自创刊以来，从未向投稿人收取过任何费用。任何以刊发文章为名向投稿人收取费用的行为，均属于对投稿人的欺诈行为。

我刊官网地址为 www.fcmag.com.cn。