美国PETs挑战赛案例：如何用联邦学习打击经济犯罪？

Original Nathalie 开放隐私计算 2024-01-09

根据一些机构评估，类似洗钱的金融犯罪每年会对全球经济造成约2万亿美元的损失。而这些非法交易中只有一小部分会被发现，每年被执法机关冻结的非法资产的总价只占损失的1%左右。

所以，提高对可疑交易的检测能力一直是各国银行和国际金融系统追求的目标。

机器学习和人工智能技术的出现和发展，为跟踪各种犯罪活动的资金轨迹提供更强大的洞察力。但是这类技术有个问题，那就是金融机构有充分的理由不愿意相互共享交易数据。

其中一方面担忧来自监管方面，另一方面则是对失去竞争优势的担忧。

最近多个IBM研究院实验室联合一起，在结合一系列加密方法后的新技术后，开发了一种能解决大量共享数据进行联邦学习的隐私安全问题的解决方案，大大改进了对可疑金融交易异常的检测能力。

研究团队将此解决方案提交给了美国隐私增强技术（PETs）挑战赛，并在挑战赛第一阶段的获胜者中排名第二。

PETs有奖挑战赛

有效检测金融犯罪需要拥有不同数据集的多个实体之间的协作。例如，在对一组汇款数据进行训练时，支付网络保存转账的详细信息，而银行保存着账户信息。尽管这些实体之间的信任受到监管和竞争的限制，但它们都一致希望提高对可疑交易的检测效果。联邦学习（FL），特别是垂直联邦学习（VFL），能够使实体间协作训练异常自动检测模型。但在国际金融交易的情况下，数据分为垂直和水平，因此现有的VFL方法不能以即插即用的方式使用。

因此，赛事的挑战是开发一种隐私保护技术来在这种混合环境中训练模型。赛事分为三个阶段：提交理论方案、开发解决方案以及促进红队攻击解决方案。第一阶段于2022年11月结束，在这个阶段，参与者需要提交一个私下训练模型的理论解决方案。评委会根据解决方案的安全性、可行性和可扩展性进行评分。在比赛的下一阶段，参与者将提交其解决方案的源码，并将使用未提前公布的数据进行测试。

IBM 的解决方案

IBM提交的方案是由一个在同态加密、差分隐私、隐私保护的机器学习、联邦学习、对抗性攻击鲁棒性和图形算法等领域具有专业知识的团队开发完成。

IBM提出的解决方案“反洗钱专用垂直联邦学习”(PV4AML) 是一种整体性方法，结合了多种加密、隐私保护和机器学习技术，在联邦学习聚合器的配合下生成随机森林。

模型架构

所提出的解决方案支持支付网络和银行协作训练集成模型（尤其是是随机森林），而无需了解彼此的私有数据集。集成模型能够利用集成的已知属性来减小方差并提高预测准确性。传统上，随机森林由贪心决策树组成，使用一些定义好的标准（例如信息增益）贪心地选择出树中的特征。

该解决方案建议训练出一个由随机决策树（RDT）组成的随机森林。在随机决策树中，树节点的特征是随机选择的，而不是使用选择标准。随机决策树的结构是独立于训练数据构建的。训练数据仅用于确定与树的叶节点关联的标签。

特征隐私保护

提出的解决方案允许支付网络（PN）和每家银行在本地设计复杂的功能。结合交易图的统计特征，包括账户节点及其邻域的属性，可以显着提高训练模型的准确性。

PN 方将一系列经过验证的基于图的金融犯罪检测技术应用于 PN 数据，并将这些结果输入隐私保护决策森林中，以纳入银行数据的影响，而不会将计算结果暴露给PN（反之亦然）。参与者提取的特征保留在参与者本地，训练以及推理协议旨在保护包括聚合器内的其他参与者的特征隐私。

隐私保护训练

使用 RDT 的一个好处是，可以独立于训练数据构建树结构。为了便于展示，PN 构建了树结构。训练过程中最具挑战性的部分是（私下）计算每个叶节点的标签，这可能取决于 PN 和库特征。

该团队提出了一种基于同态加密（HE）的新协议，使PN和银行能够协作计算叶节点的标签。在此协议结束时，PN 不会学习有关任何银行帐户数据集的任何信息，并且银行也不会了解有关 PN 的交易数据集或其他银行帐户数据集的任何信息。

推理攻击保护

为了防止推理攻击，在此处介绍的技术的基础上结合了差分隐私，其中每个银行对在计算同态加密后“红色”叶节点的标签数量时添加了校准的拉普拉斯噪声。

结论

研究团队相信未来对隐私技术、部署可扩展性和新功能可扩展性的独特组合使解决方案在实际部署中极具吸引力。他们将继续开发相关方法，并将向顶级隐私计算会议提交论文。

这项工作由一个多实验室的IBM研究团队进行，成员如下：Nathalie Baracaldo Angel，Nir Drucker，Naoise Holohan，Keith Houck，Swanand Kadhe，Ryo Kawahara，Alan King，Eyal Kushnir，Heiko Ludwig，Ambrish Rawat，Hayim Shaul，Mikio Takeuchi和Yi Zhou。

作者：Nathalie Baracaldo Angel

来源：IBM官网

END

热门文章:

隐私计算头条周刊（08.14-08.20）

零知识证明的三个典型案例

漫画科普丨隐私计算如何实现数据可用不可见？

好书相赠 | 《元宇宙进化逻辑——用确定性的逻辑诠释不确定的未来》

加入我们丨OpenMPC社区招募实习生

继续滑动看下一个