视野 | 基于联邦学习的金融同业反欺诈风控研究与实践
来源:隐私计算联盟成员-中原银行股份有限公司
从《通用数据保护条例》(General Data Protection Regulation)到《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。目前数据分散在不同机构,在数据不出库的情况下,如何安全、合规的发挥数据价值成为难点和痛点。
近年来,中原银行积极探索联邦学习等隐私计算技术在银行同业间反欺诈领域的合作,通过建设联邦反欺诈平台,运用联邦学习技术,探索解决行业间数据孤岛问题,实现多家银行机构间在反欺诈领域联合建模,致力于提升银行同业总体反欺诈防护水平。
1银行间反欺诈业务现状
随着支付行为的改变,以及信息技术的快速发展,黑产欺诈和电信诈骗等行为日益猖獗。各家银行机构也纷纷建立反欺诈平台,部署反欺诈规则,在欺诈行为发生时及时阻断交易,防止了大量欺诈案件的发生。但目前传统反欺诈手段还存在一些不足,主要表现在以下几个方面:
1)准确性问题
基于行为特征的专家规则预警量过多,针对正常客户的误判率也过大,进而对业务人员事后案调核实形成巨大压力。基于共享黑名单的反欺诈存在更新不及时、匹配率低等问题,不适宜于同业大规模推广。
2)数据丰富性问题
欺诈场景由于自身特点,行业内案件样本普遍不多,相较于正样本客群,面临反欺诈负样本少的问题,正负样本极不均衡,影响算法模型效果。 为此,面临当前诈骗形势严峻,需采用联邦学习模式,将银行同业成员单位已知欺诈案件特征共享并拉齐,快速部署策略模型,构筑同样水位的反欺诈防线,方能阻止诈骗分子在成员行内实施欺诈,进而保障储户资金安全。
2联邦学习技术概要及建模过程
联邦学习,在基于保障数据安全的一系列技术支持下,能够用"可用不可见"方式实现数据使用和机器学习建模。运用联邦学习技术,可在数据隐私保护下进行大数据合规合作,没有领域和算法限制。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。
根据参与各方数据源分布的情况不同,联邦学习可以被分为三类:横向联邦学习、纵向联邦学习、联邦迁移学习。其中,横向联邦学习指两个数据集的用户特征重叠较多而用户重叠较少的情况下,并取出两个数据集中用户特征相同而用户不完全相同的那部分数据进行训练。横向联邦学习适用于合作机构具备相同业务特点(相同用户行为特征),客群不完全一致的机构间进行联合建模。
横向联邦建模技术满足我们同业间联合建模的诉求,下面介绍横向联邦建模大致过程:
图1 基于横向联邦学习技术的反欺诈建模过程
结合反欺诈场景业务特点,金融同业间横向联邦建模过程可大致总结为以下 5 步:
第一步:合作机构各方分别按照约定的数据标准开发X特征变量,并准备欺诈名单作为Y标签;
第二步:合作各方通过数据库链接、本地文件等形式,将训练数据上传至各自联邦服务器进行特征对齐确定训练样本;
第三步:在确定训练样本后,双方发起授权,任意一方可发起训练任务,进行联合模型训练;
第四步:通过多次模型参数交换迭代,直至模型收敛,获得最优模型参数;
第五步:合作机构可将联合训练的模型部署至各自服务器,用于对新客户进行预测,高危名单推送至下游业务系统供一线人员进行核查验证,核查结果可用于模型迭代优化。
结合上述过程,可以看出,联邦学习本质上是一种分布式机器学习技术,在确保各参与方原始数据不出库前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,既保证了数据使用中不暴露原始数据,又实现了多方共同建模的目的。整个学习训练过程中,没有传输任何原始数据,彻底杜绝数据泄露的隐患,确保数据协作的合法合规性。
3联邦反欺诈平台建设
为了降低联邦学习技术的使用门槛,灵活便捷地进行模型应用内并监控模型效果。中原银行自主开发了应用于反欺诈场景的 “联邦反欺诈平台”。目前,该平台集成了风控管理、数据管理、模型管理、日志管理等功能。初步实现了一站式联邦反欺诈模型的构建及欺诈风险监控。
图2 联邦反欺诈平台功能架构
1)风险大盘
用于监控每次模型预测客户的整理风险情况,包括风险客户量、涉险金额、笔数、风险地图分布等。支持按照业务场景、日期、批次进行选择。其中,风险地图支持按各省市穿透。
图3 联邦反欺诈平台风险大盘
2)数据管理
包括数据标准管理及数据集管理。数据标准管理:用于录入、管理数据标准,支持标准的编辑、发布、分享等功能。数据集管理:旨在管理联邦建模数据源,提供数据建表、数据校验等功能。
3)模型管理
模型管理模块用于管理模型版本及模型预测跑批状态。
4)日志管理
用户将能够查看到平台使用过程中的操作日志,以及操作的状态、报错信息。
4联邦学习在金融同业反欺诈场景应用实践
中原银行在探索同业联邦反欺诈合作过程中的具体案例及实践成果,此案例由中原银行主导、同业银行共同参与探索、研究。项目目前已完成平台部署、数据开发、联邦模型开发、模型部署等工作,并经过近一年的实践验证,当前正处于模型调优阶段。
1、合作场景选择
结合双方反欺诈平台建设情况,试点阶段选择以通用性较好的“个人账户涉诈”场景进行分析,旨在融合同业机构数据,构建联邦学习模型,精准识别交易异常的客户,辅助业务进行账户排查,降低人工成本、提升核查效率。
2、数据标准建设
数据是联邦建模的基础,本项目在实施过程中旨在形成行业统一的反欺诈数据标准。实施过程中,根据各合作机构实际情况选择共有指标及数据口径进行数据开发。
图4 联邦反欺诈数据标准框架概况
基于上面整体标准框架,结合初步试点目标及双方数据情况,初步标准由中原银行提供,由中原银行根据内部分析欺诈客群特征,结合专家经验所得。考虑指标的通用性并达到快速试点的目的,初次标准暂包含客户基础属性、交易信息等30个指标,合作方严格按照此数据标准进行指标开发。
3、模型训练
本次试点,中原银行提供样本量62600,其中黑名单2600;某合作银行提供样本量22449,其中黑名单量1069。(考虑原始数据正负样本比例过于悬殊,此数据样本是在原始数据中适当采样后得到)
通过联邦学习技术,对数据加密、融合、构建联邦模型。联邦学习平台奔着合作共享的思路,支持合作机构双向发起联邦建模,经过模型训练、优化调试,现阶段模型结果如下:
◆ 某合作银行发起联邦建模
1)使用双方数据融合后建模,模型AUC 0.93
2)仅使用自身数据建模,模型AUC 0.91
◆ 中原银行发起联邦建模
1)使用双方数据融合后建模,模型AUC 0.92。
2)使用中原银行自身数据建模,模型AUC 0.90
4、试点成效
模型是否具备真正的应用价值需要经过业务上实际验证。中原银行将基于双方数据构建的联邦模型部署后,经过近一年的试运行及业务核查验证,通过“行内模型+联邦模型”的方式,较单一通过“行内模型”有效风险拦截率提升18.26%。
5、试点结论
1)模型较理想:试点所用指标变量,主要来源为中原银行行内模型探索过程中表现较好的指标,应用于联邦建模,模型评估指标在0.9左右,模型效果比较理想。
2)同业联邦反欺诈方案可行:双方通过合作测试,验证了同业机构在反欺诈领域联邦建模的可行性。
3)业务价值:中原银行方面,虽然联合建模模型指标略有下降,但模型指标稳定在较好水平。由于某合作银行的数据接入,联合模型捕获的欺诈行为信息更丰富,有助于提升模型的稳健性。
5实践总结
本项目在业内首次将联邦学习技术与金融反欺诈结合起来,解决了银行在反欺诈实施过程中负样本少、信息共享困难等问题。经实践验证,项目有效提升了参与行反欺诈模型的识别率和反欺诈风控能力,并有较强的推广潜力。
同时,同业联邦反欺诈合作还面临很大挑战,其中最大的挑战是同业机构对联邦学习认知度较低,对项目合规性存疑,对场景的可落地性存疑。基于此,各金融机构还需在现有数据安全等政策制度下,不断完善平台功能,加强联邦反欺诈文化建设;不断探索新的场景,丰富申请、交易反欺诈联邦合作模式,促进欺诈黑名单的合作共享,致力于同业机构共同提升反欺诈风控水平。
在此,也欢迎金融同业机构能够加入项目试点,共同探索联邦学习等隐私计算技术在反欺诈领域的应用。
作者介绍:
韦东东,中原银行总行数据信息部,高级建模专家。近10年银行业分析建模经验,专注于营销、风控相关分析建模工作。现负责知识图谱、反欺诈、联邦学习等场景相关应用落地工作。
联系方式:weidongdong@zybank.com.cn
*声明:本文仅代表作者本人观点,不代表本人所在机构及隐私计算联盟观点。
往期推荐010203