VFL:针对纵向联邦学习的全面综述性文章
图1 | 相关论文(来源:arxiv.org)
文章首次系统阐述了纵向联邦学习的概念和应用,以及提升性能、效率、安全等关键性指标的方法。同时,对于VFL的框架和安全性进行系统的分类分级,并综合各层面建立VFL系统的VFLow框架,在原有性能单一指标维度上加入其他维度(安全、效率和公平性)的指标。最后,文章进一步提出当前VFL的挑战和未来相关研究方向。
图2 | 三类联邦学习(来源:综述论文)
近年来,联邦学习技术作为实现隐私计算的重要技术路径之一,已经成为助力数字经济发展、构建数据要素市场不可或缺的核心关键技术。如图2所示,联邦学习技术根据样本和特征重叠情况可细分为横向联邦学习(HFL)、纵向联邦学习(VFL)和联邦迁移学习(FTL)。其中,VFL主要解决多个参与方拥有相同的样本/用户,而持有不同特征的多方联合建模问题(3方VFL框架如图3所示)。当前,VFL的需求在行业应用中广泛出现并增长迅猛。只拥有少量零散数据的公司和机构一直在寻找补偿数据合作伙伴,以协作开发人工智能(AI)模型,以最大限度地提高数据利用率。与此同时,由于公众对数据泄露和隐私侵犯的担忧日益加剧,全球范围内加强了数据隐私和安全监管。因此,在过去的两年里,开发了许多支持VFL的隐私保护项目和平台(例如FATE、Fedlearner和Pyvertical等),VFL的商业化项目数量和经济价值都有了显著增长。
图3 | 有三方(两个被动方和一个主动方)的VFL框架(来源:综述论文)
在此背景下,鉴于学术界和产业界对VFL技术日益增长的兴趣,为全面理解该领域已有研究工作和还存在的问题,推动该技术的发展,清华大学AIR联合微众银行和亚信科技对VFL的当前进展进行了全面的总结,分别从框架概述、提高VFL效率、提高VFL有效性、保护隐私和防御攻击、VFL中的数据评估与公平性、统一的VFL框架(VFLow)、数据集、应用和开放挑战等多方面进行了全面深入的分析。在框架概述方面,我们概述了FL的概念和分类(包括HFL、VFL和FTL),然后深入探讨在不同的数据分布下的VFL的分类和变体(如图4所示)。
在提高VFL效率方面,针对在实际生产的VFL系统中,网络的异构性、较长的地理距离和大量的加密数据使得协调成为通信的瓶颈,我们在文章中总结归纳和讨论了当前有效的技术方法,包括采用FedBCD等本地多步迭代算法,异步更新策略,单次通讯和量化压缩等方法降低通讯代价。
图4 | VFL的四种主要变体(一个主动方和两个被动方)(来源:综述论文)
在提高VFL有效性方面,针对传统的VFL只能利用有限对齐的标记样本限制联合训练效果等挑战,文章归纳了更好地利用现有数据建立联合VFL模型或帮助参与方构建本地预测模型的方法,包括采用自监督、半监督、知识蒸馏和迁移学习等几类方法的技术路线。在保护隐私和防御攻击方面,文章首先回顾了典型VFL框架中涉及的隐私保护协议(例如隐私集合求交协议、保护隐私的训练协议等);并根据在VFL训练和推理过程中所保护和暴露的内容进行了总结,讨论了其他采用放松或增强的隐私约束的协议,并对协议的安全性进行了系统的安全级别划分(如图5所示);最后,我们讨论了防止数据泄露(攻击方法包括标签推理攻击和特征推理攻击等,防御方法包括加密方法、非加密方法和其它新兴防御方法等)和防御后门攻击的相关方法和研究。
图5 | 保护隐私的培训协议安全分级(来源:综述论文)
在VFL中的数据评估与公平性方面,随着工业用例的增长,在各方之间建立稳定和可持续的联盟的一个关键挑战是缺乏公平的数据评估和分配利润的激励设计。此外,负责任的VFL框架还应解决对某些人群的各种偏见问题。因此,我们在文章中讨论了VFL数据评估、解释性和公平性的研究进展。结合上述各层面,我们提出了一个统一的VFL框架,称为VFLow(如图6所示)。在VFLow中,我们考虑了主要的约束条件,包括性能、隐私、效率和公平性,并从框架设置、模型类别、模型性能、效率改进策略、数据安全防御策略以及公平性改进策略等方面来指导VFL算法的设计。
图6 | VFLow:一个建立、设计和优化VFL算法的框架(来源:综述论文)
此外,我们还在文章中列出了当前VFL工作中常用的数据集,概述VFL在推荐系统、金融、医疗保健和其它新兴应用场景等的应用。最后,文章讨论了VFL框架开发面临的一些主要开放挑战,并提出未来可能的路径。综上所述,纵向联邦学习是一类适用于用户重叠多、特征互补场景的联邦建模技术,其在解决企业数据孤岛上具有广泛的应用价值,近年来已经被多个国际国内隐私计算项目作为基础支撑算法实现,并被应用于金融、营销、政务等场景。然而,为了更好的突破跨机构间数据孤岛、助力数据要素安全有序流动,纵向联邦学习技术仍然有很多亟待解决的问题,需要更多的学术界和产业界的学者专家共同努力来推动该技术的发展,我们希望我们研究团队所撰写的综述文章能对目前学界尚缺乏探索的VFL问题的研究起到帮助和推动作用。参考资料:[1] Liu Y, Kang Y, Zou T, et al. Vertical Federated Learning[J]. arXiv preprint arXiv:2211.12814, 2022.本文来源:FATE开源社区
论文作者简介:论文第一作者为清华大学智能产业研究院刘洋副研究员/副教授。刘洋副教授的研究领域包括机器学习、联邦学习(FL)、隐私计算等及其产业应用。论文的主要合著作者还包括:杨强教授,香港科技大学讲席教授、加拿大皇家科学院和工程院院士,研究领域包括迁移学习、联邦学习、机器学习、数据挖掘和自动规划;张亚勤教授、清华大学智能产业研究院(AIR)院长、中国工程院外籍院士、美国艺术与科学院院士和澳洲国家工程院(ATSE)院士、IEEE Fellow;欧阳晔博士,亚信科技首席技术官、高级副总裁、IEEE Fellow,研究领域包括移动通信、数据科学与人工智能跨学科领域的研发创新与商业化;论文其他作者还包括微众银行的康焱、何元钦,清华大学智能产业研究院的邹恬圆和普艳红以及亚信科技的叶晓舟教授。
往期推荐
TDSC 2022 | 为安全联邦学习建立互信的多混洗框架
FedALA | 用于个性化联邦学习的自适应本地聚合方法
多方计算实验中不同网络环境的模拟方法