查看原文
其他

群体智能中的联邦学习算法综述

杨强等 智能科学与技术学报 2022-09-24

群体智能中的联邦学习算法综述


杨强1,2, 童咏昕3, 王晏晟3, 范力欣1, 王薇3, 陈雷2, 王魏4, 康焱1

1 深圳前海微众银行股份有限公司,广东 深圳 518063

2 香港科技大学,香港 999077

3 北京航空航天大学,北京 100191

4 南京大学,江苏 南京 210033

 

【摘 要】群体智能是在互联网高速普及下诞生的人工智能新范式。然而,数据孤岛与数据隐私保护问题导致群体间数据共享困难,群体智能应用难以构建。联邦学习是一类新兴的打破数据孤岛、联合构建群智模型的重要方法。首先,介绍了联邦学习的基础概念以及其与群体智能的关系;其次,基于群体智能视角对联邦学习算法框架进行了分类,从隐私、精度与效率3个角度讨论了联邦学习算法优化技术;而后,阐述了基于线性模型、树模型与神经网络模型的联邦学习算法模型;最后,介绍了联邦学习代表性开源平台与典型应用,并对联邦学习研究进行总结展望。
【关键词】群体智能 ; 联邦学习 ; 隐私保护
【引用格式】

杨强, 童咏昕, 王晏晟, 等. 群体智能中的联邦学习算法综述[J]. 智能科学与技术学报, 2022, 4(1): 29-44.

YANG Q, TONG Y X, WANG Y S, et al. A survey on federated learning in crowd intelligence[J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(1): 29-44.

0 引言

近年来,人工智能技术的发展进入了新时代,诞生了以AlphaGo为代表的能够模拟出强大个体智慧的成功案例。同时,随着互联网高速普及,人与人之间的信息碰撞交流更加密切,群体智慧的联结开始发挥越来越重要的作用,群体智能(crowd intelligence)也初现端倪。所谓群体智能,就是指通过特定的组织结构吸引、汇聚和管理大规模参与者完成任务时,所涌现出的超越个体智力的智能。在互联网环境下,群体智能面临着许多不同于主流人工智能范式的新挑战。例如,构建传统人工智能应用依赖于大量的训练数据,而在更贴近真实的群体智能场景中,数据往往分散在不同的企业、机构群体,甚至大规模个人移动用户群体中。这些散布于群体的数据之间存在壁垒,很难用常规手段去打通,由此诞生了数据孤岛(data isolation)问题。与此同时,对数据隐私安全的重视也成为世界趋势。欧盟在 2018 年通过并开始实施堪称史上“最严”的数据隐私保护法规《通用数据保护条例》(general data protection regulation,GDPR),专门针对大数据、移动互联网、人工智能新背景制定了一系列数据隐私安全保护措施。我国也相继出台了《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》等包含数据隐私保护的法规。总之,在当前全球数据隐私保护的大浪潮之下,数据孤岛问题变得异常严峻,联合群体数据构建智能模型,使群体智能技术得以落地的需求变得愈加难以实现。为了应对群体间存在数据孤岛、难以联合构建群智模型的挑战,联邦学习(federated learning,FL)的概念被提出,它旨在使群体原始数据在不离开本地的前提下联合构建机器学习模型。在谷歌公司较早的联邦学习构想中,学习的对象是大规模群体移动设备用户,这些用户的智能手机、移动终端中存储着可用于构建智能模型的个人隐私数据,谷歌公司设想仅通过传递模型梯度或加密后的梯度来实现联合模型的构建。后来,联邦学习场景中的个体也从个人推广到企业或机构,即大量拥有数据的公司或部门,如互联网公司、银行、政府机构等,在各自数据都不离开本地的前提下,弥补各自数据的短板,联合构建智能模型,实现互利共赢。无论哪种场景,联邦学习算法的实现都离不开群体间的智能协作。本文将从群体智能的角度对联邦学习算法展开深入讨论,从基于群体智能视角的联邦学习算法框架、联邦学习算法优化与联邦学习算法模型3个方面阐述设计联邦学习算法的几大重要步骤与相关前沿工作。

1 联邦学习概述

本节首先简要地介绍联邦学习的基础概念;然后,从相似性和独特性角度讨论联邦学习与群体智能的关系;最后,对本文的内容结构进行概览。

1.1 基础概念

联邦学习的基本范式可表述如下:当多个数据拥有方想要联合它们的数据集 Di共同训练机器学习模型M时,传统方案通常先将数据整合,得到总数据集,然后在D上训练,得到模型Msum。这种做法存在隐私泄露的隐患,甚至可能违反相关法律规定。联邦学习则是在数据拥有方Fi不需要直接提供数据 Di的情况下,只通过传输安全处理后的中间结果来训练联邦模型Mfed,联邦学习通用框架如图1所示。联邦学习能够使联邦模型Mfed的性能Vfed接近直接训练模型Msum的性能Vsum,即:


其中,δ是一个小正数,用来衡量隐私保护引起的机器学习模型精度损失。
图1   联邦学习通用框架
用于训练机器学习模型的数据包含用户U 和用户特征X 两部分(有些数据还会包含标签特征Y)。以两个数据拥有方参与的联邦学习为例,它们各自的用户U1,U2与用户特征X1,X2很可能并不相同,具体按照特征与用户的重叠情况,可以把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习3类。现有联邦学习综述通常按照上述横向、纵向、迁移的角度进行分类,本文不再赘述。本文在第2节从群体组织架构的视角对联邦学习算法架构重新分类,该分类与横向、纵向、迁移的分类属于正交关系。

1.2 联邦学习与群体智能的关系

联邦学习是目前群体智能研究的新兴方向之一。回顾群体智能的发展历史不难发现,许多相关领域都对当前联邦学习的发展产生了一定的启发作用,同时联邦学习也存在其独特性。下面将从相似性与独特性两方面阐述二者关系。(1)相似性群体智能的思想古已有之。我国自古就有“众人拾柴火焰高”的谚语,这与联邦学习“合作共赢”的思想是一致的。20世纪90年代由维克托·莱瑟(Victor Lesser)教授创立的多智体系统领域是群体智能的代表性传统领域,而联邦学习本身也可被视为一个多智体系统,有研究工作就结合多智体系统和与博弈论相关的技术来解决联邦学习中的激励建模等问题。21世纪初诞生了群体智能的另一个重要领域——众包,其主要思想是把复杂的任务分解成简单的任务交给广大互联网用户来完成。联邦学习思想与其不谋而合,在隐私保护、激励机制、质量控制等多个方面都借助或延伸了传统众包中的相关方法,Tong Y X等人就从众包的角度重新对联邦学习进行了全面的解读。近年来诞生了许多面向多方的机器学习方法,如联合学习(joint learning)、多任务学习(multitask learning)、分布式机器学习(distributed machine learning)等,这类方法由于涉及多方共同构建智能应用,也常被划入群体智能范畴,其研究的分布式大规模数据场景与联邦学习类似,其多方协作学习的方法对于联邦学习的研究也有一定启发作用。(2)独特性虽然联邦学习与群体智能中的许多其他领域具有密切的关联,并受到了许多相似领域的启发,但是其同样具有独特性。首先,联邦学习是当前群体智能领域解决隐私限制下大规模协同学习问题的重要方法,其旨在在各参与方所拥有的原始数据不离开本地的情况下,通过传输安全处理后的数据或中间结果,达到隐私保护要求下集成多方数据训练模型的效果,因此对数据或模型隐私安全的关注是许多其他群体智能领域未曾考虑的,也是其核心的技术特点之一。此外,虽然联邦学习常常被视为一种分布式机器学习方法,但是二者的最大区别在于联邦学习中参与学习的多方自治,从而导致计算设备异构、数据异质(即非独立同分布)等挑战,在这些挑战下,模型的精度与可用性大大降低,同时过大的计算与通信开销也使得算法难以落地,因此需要针对性的优化方法。

1.3 综述概览

本文重点介绍与联邦学习算法相关的研究,整体架构如图2所示。首先,在第1节介绍联邦学习基本概念的基础上,第2节讨论以群体智能组织架构为分类标准的3类联邦学习的基础算法框架,即中心化联邦学习、半中心化联邦学习和去中心化联邦学习;然后,在算法框架基础上,第3节进一步重点阐述目前主流联邦学习算法为应对隐私、精度与效率3类挑战而设计的优化算法;随后,第4节介绍联邦学习的主流模型,包括线性模型(linear model,LM)、树模型与神经网络(neural network, NN)模型,这些模型一般与算法框架以及优化算法相互正交,但不同模型在联邦学习场景下也有其特有的设计要点;最后,第5节介绍现有的联邦学习主流开源平台与相关应用,第6节进行总结。
图2   联邦学习算法整体架构

2 基于群体智能视角的联邦学习算法框架

本节介绍基于群体智能视角的3类联邦学习算法框架。根据群体组织结构可将联邦学习算法划分为存在中心的群体(中心化结构)算法、存在多中心的群体(半中心化结构)算法、不存在中心的群体(去中心化结构)算法3类,而不同的群体组织结构也会对联邦学习的模型训练过程产生影响,基于群体智能视角的联邦学习算法框架如图3所示。下面分别介绍中心化、半中心化、去中心化群体组织结构下的联邦学习框架。

2.1 中心化联邦学习

大部分现有的联邦学习模型都假设联邦学习过程中存在一个协调构建群体学习模型的中心服务器,其余联邦参与方可以在中心服务器进行模型聚合、模型分发、收敛判定等联邦模型训练的基础操作。以联邦学习中的联邦平均(federated averaging, FedAvg)算法为例,典型的中心化联邦学习模型构建过程如下:首先,由中心服务器ࣝ初始化全局联邦模型Mfed;然后,在所有参与方中随机选择一部分可交互的参与方U,被选参与方从中心服务器下载模型Mfed;随后,被选中参与方基于本地数据继续训练并更新全局模型,并将联邦参与方i的本地模型Mi上传至中心服务器ࣝ;最后,中心服务器聚合各方上传的本地模型。重复上述联邦模型构建过程,直至全局联邦模型Mfed满足收敛条件。

2.2 半中心化联邦学习

现有半中心化联邦学习可以分为两类:基于聚类划分的联邦学习(clustered federated learning)、基于层次划分的联邦学习(hierarchical federated learning)。基于聚类划分的联邦学习主要考虑参与方具有不同的任务,并通过全局模型来优化本地模型的情景,其通过推断参与方的任务类型进行聚类划分,然后使用多个聚类中心聚合各方模型;基于层次划分的联邦学习则主要考虑如何降低无线网络中的通信时延,其先在中间层节点进行局部模型聚合,避免所有参与方直接与远程中心服务器进行长距离通信,从而能够有效降低参与方的总体通信开销。下面分别具体介绍两类半中心化联邦学习框架。(1)基于聚类划分的联邦学习Ghosh A等人较早研究了在多中心群体结构场景下的联邦学习算法,其假设所有N个联邦参与方的模型适用于 K 类任务,即存在 K 个聚类中心。通过聚类划分能够避免不相关的联邦参与方之间相互干扰,提升联合构建的群体模型的精度。基于聚类划分的联邦学习框架包括两部分。一是中心化联邦学习模块,其根据各联邦参与方上传的梯度参数,在K个聚类中心上进行模型聚合,得到全局模型。二是聚类迭代划分模块,首先计算各全局模型关于目标函数的梯度,然后计算各参与方的相似度,并根据各方距离更新群体聚类划分,最后重复上述过程,直至收敛。Sattler F等人提出了类似的联邦学习框架,其不明确计算各参与方之间的距离(相似度),而是通过评估不同聚类所提升的本地模型准确度,来确定各个联邦参与方具体归属于哪一个类别。(2)基于层次划分的联邦学习在移动网络中,由于链接距离不同,所有联邦成员参与方均直接与中心服务器相互传输数据通常容易导致较高的通信成本。为了解决上述问题,Abad M S H等人提出了基于层次划分的联邦学习框架,通过划分层级并选择区域中心降低通信时延。本文以参考文献中的框架为例(如图3(b)的右半部分所示),介绍基于层次划分的联邦学习的典型框架。根据地理位置与时延大小,将联邦节点(参与方)划分为3级,自底向上依次为:①数据节点(worker),具有本地数据的联邦学习参与方;②中间节点(cluster head),负责聚合部分数据节点的训练结果;③模型节点(model owner),负责聚合中间节点的局部模型,并获得最终的联邦模型。基于层次划分的联邦学习模型训练过程与中心化联邦学习的模型训练过程相似:首先,由底层的数据节点训练得到本地模型Mi;然后,中间节点将其负责区域的本地模型进行聚合,得到新的中间层模型Mmid,并且分发给各数据节点继续训练;经过T轮迭代之后,将各中间层模型Mmid上传至模型节点进行聚合,并将新模型分发至各中间节点;如此迭代,直至得到收敛后的联邦学习模型Mfed


图3   基于群体智能视角的联邦学习算法框架

2.3 去中心化联邦学习

去中心化群体组织结构允许联邦参与方中不存在聚合各方模型的协调者。因此,需要设计模型聚合的联邦网络,现有工作也将联邦学习与区块链结合,基于区块链技术,设计去中心化的模型聚合方法。其核心在于设计支持模型聚合的对等网络(peer-to-peer network)。Warnat-Herresthal S等人提出了一种典型的去中心化联邦学习框架,如图3(c)所示。首先,基于区块链技术对联邦参与方的权限进行预定义,只有具有事务权限的参与方才能够共同训练联邦模型。其中,对于新加入对等网络的节点,只有满足预定义的权限条件,才能加入联邦学习训练过程,并通过智能合约(smart contract)获得当前的联邦模型。然后,模型参数可以通过专用的应用程序接口(application programming interface,API)进行聚合,并得到新的联邦学习模型。最后,重复上述过程,直至模型收敛。Kim H 等人同样基于区块链技术提出了去中心化的联邦学习框架,并且利用区块链可验证和可激励的特点对学习框架进行了优化。具体地,通过分布式记账机制对模型进行异步更新,这也能够避免同步更新时单点故障导致的等待问题。同时,区块链的可验证性能够支持验证本地模型训练结果,这也能够将联邦学习参与方的范围扩展到不可信的公网环境中。此外,区块链中的工作量证明机制(proof-of-work)能够提供与训练样本规模成比例的奖励,进而促进各方贡献数据。

3 联邦学习算法优化

联邦学习为解决数据孤岛问题以及应对群体智能领域的挑战带来了新的方案。现有的联邦学习算法主要在算法隐私、算法精度和算法效率3个方面进行优化。下文将主要阐述和总结联邦学习算法在上述3类优化上的前沿进展,联邦学习的算法优化见表1。

3.1 隐私优化

隐私保护一直是联邦学习的核心挑战,这也是其不同于其他传统群体智能技术的明显特点。目前,联邦学习采用的隐私保护优化方法可以主要分为3类:基于同态加密的方法、基于安全多方计算的方法与基于差分隐私的方法。下面对3类方法分别进行介绍。(1)基于同态加密的方法同态加密是一种加密形式,它能够对密文进行特定形式的代数运算,并得到加密的运算结果,将其解密所得结果与对明文进行同样运算的结果相同,这样就实现了在不泄露用户数据的情况下进行密文运算。若使用Enc表示加密函数,m表示明文,c表示密文,pk表示私钥,则同态加密的形式化定义如下:


同态加密与联邦学习框架中的模型聚合操作十分契合,能够实现中心服务器在对模型数值未知的情况下聚合各方本地模型。因此,已有大量学者对基于同态加密的联邦学习进行了研究。Phong L T等人首次在联邦学习框架中使用同态加密保护梯度进行计算,参与方使用本地数据更新模型参数,对梯度进行加密后发送给中心服务器,中心服务器对梯度密文进行聚合,参与方可以对聚合后的模型进行解密,该方法可以有效保护恶意中心服务器的推断攻击。Chen Y Q等人在联邦学习中使用了加法同态加密,参与方对模型参数进行加密后发送给中心服务器,服务器将模型聚合后,分发给参与方解密模型参数,并且使用本地数据更新模型参数。除此以外,还有使用全同态加密来优化算法隐私保护性,使用批加密来优化计算效率等扩展性工作。(2)基于安全多方计算的方法安全多方计算由A.M.图灵奖得主姚期智先生提出,是一种为了解决隐私保护下的协同计算问题而提出的算法框架。其允许N个参与方使用自己的数据共同计算一个目标函数。该方法通常基于混淆电路方法,能够在不需要可信第三方参与的情况下进行带有隐私保护的计算,但同时也有较高的计算复杂度和通信开销。混淆电路方法相比同态加密允许更丰富的运算操作,例如集合求交集、数值大小比较等。目前已有多种研究结合了联邦学习与安全多方计算。Cock M D等人提出了一种带有隐私保护的集合交集计算方法,用于联邦学习文本分类问题。Sharma S 等人提出了一种用于非线性深度学习的动态安全方法,该方法可以为大部分参与方不诚实的场景提供隐私安全保护。Zhu H F等人研究了基于安全多方计算的 FedAvg 算法,提出了一种面向联邦学习的安全聚合算法。秘密共享也是一种联邦学习中广泛采用的安全多方计算方法,其核心思想是将秘密分割存储。秘密共享将原始数据分为若干份,只有拥有大于一定份数的数据才能重构原始数据,因此可以将秘密分散在所有客户端中,避免中心服务器在聚合模型时的攻击,从而实现隐私保护。Bonawitz K 等人提出了基于秘密共享的联邦学习算法,该算法允许安全聚合参与方的模型参数。然而上述算法易受到不诚实服务器或恶意参与方的攻击,为了解决上述问题,Xu G W等人提出了一种支持验证的联邦学习框架,该方法使用秘密共享来保护模型训练过程中本地梯度的隐私。除了经典的联邦学习算法框架FedAvg,也有学者结合了秘密共享与其他机器学习算法来构建联邦学习方法,例如基于秘密共享的异构数据联邦迁移学习算法和结合了秘密共享与联邦K均值聚类(K-means)的算法等。然而上述方法会导致极高的时间复杂度和通信开销,因此优化计算效率一直是该方向的研究重点。(3)基于差分隐私的方法差分隐私同样是目前联邦学习中被广泛采用的隐私保护方法,该方法最早由Dwork C提出,其主要思想是在原始数据上添加噪声,使得两个相似数据在概率上满足不可区分性,同时保留数据集的统计学性质,便于进行数据分析或机器学习,具体定义如下:


其中,M表示隐私保护机制,D和表示两个相似的数据集(两个数据集仅有1条数据不同),o表示机器学习任务的输出结果,ϵ和δ为隐私粒度参数。若算法满足上述不等式,则称该隐私保护方法符合差分隐私。根据该方法的隐私保护对象,又可以将差分隐私算法分为两类,分别是用来保护共享模型的中心化差分隐私和用来保护每条数据的本地化差分隐私。后者的隐私保护效果更强,但同时也会损失更多数据可用性,导致联邦学习模型准确率降低。目前基于差分隐私的方法可分为中心化差分隐私与本地化差分隐私,下面分别进行介绍。① 中心化差分隐私。中心化差分隐私可以在保护用户隐私的前提下,获得较高的数据可用性,从而获得准确率较高的联邦学习模型。Geyer R C等人将联邦学习框架与差分隐私技术结合(如图4 所示),在所提方法中,参与方会将模型梯度上传给中心服务器,服务器会在聚合模型参数时添加高斯噪声,以防恶意参与方从共享模型中推断出其他参与方所用数据。然而模型仍可能受到恶意服务器的攻击,为此,Hao M等人提出了一种为本地梯度增加噪声的方法,但其仍属于中心化差分隐私范畴。目前,基于中心化差分隐私的联邦学习在多类场景中得到了应用,如语言模型、排序学习模型、主题模型等。
图4   基于差分隐私的联邦学习算法优化
② 本地化差分隐私。本地化差分隐私对隐私的保护更严苛,该方法在参与方上传数据之前增加噪声,使得任意两个参与方的数据不可区分,不需要可信的第三方进行数据收集。该方法较早由Abadi M等人提出,用来在隐私保护的前提下训练深度神经网络,通过梯度截断和增加噪声来保护样本隐私。Bhowmick A等人首次结合了本地化差分隐私和联邦学习框架来防止推断攻击,在参与方本地通过差分隐私保护每个样本的隐私安全,在服务器端使用差分隐私保护全局模型的隐私安全。Lu Y L 等人提出了一种面向移动设备的联邦学习算法,该算法使用了本地化差分隐私来保护移动设备数据的安全。Wang Y S等人提出了一个带有本地差分隐私的文本数据挖掘联邦学习算法,实验结果表明,该方法可以保护参与方隐私并保持较高的准确率。本地化差分隐私目前主要面临噪声过大导致结果可用性低的问题,因此相关工作通常致力于设计新的机制以在隐私保护性与结果可用性之间进行更好的权衡。

3.2 精度优化

现实场景中数据的异质性(非独立同分布)导致联邦学习算法精度无论在理论还是在实际上都难以达到传统分布式机器学习的效果,这也成为其重要挑战。下面从算法泛化界优化和收敛性优化两个维度介绍当前联邦学习精度优化方面的前沿进展。(1)泛化界优化联邦学习的本质是通过多客户端协作产生在具体任务上拥有较强泛化能力的机器学习模型,其能够使各客户端在保障数据安全的前提下协同训练机器学习模型,实现数据拥有方可以共享数据价值而不共享数据本身。在联邦学习的实际应用场景中,数据异质性给算法的泛化性能带来了挑战。为了减小数据异质性对模型性能的影响,谷歌研究院的Mcmahan H B等人首先提出了FedAvg算法。该算法在混合分布上训练模型,设置权重为客户端对应的数据规模比例,其中D为各方总数据规模。然而这样产生的模型将偏向持有较大数据量的客户端,从而对模型的泛化性能造成影响。Mohri M等人提出了不可知联邦学习(agnostic federated learning)框架,用于分析数据异质场景下联邦学习的泛化性能。对于多客户端分布,不可知联邦学习在所有可能的测试分布上构建模型,其中权重λ属于N维单纯形ΔN,基于权重λi与样本比例Ni/N之间的偏度以及拉德马赫尔(Rademacher)复杂度给出了不可知联邦学习的泛化误差界。不可知联邦学习通过求解对应的最小最大(minmax)优化问题,能够产生在任意目标分布上性能鲁棒的全局模型。然而对于分布与全局分布差异较大的客户端来说,单一的全局模型在该客户端上的性能通常较差。为了弥补单一模型的局限性,Mansour Y等人提出3种能够为客户端定制个性化模型的方法,分别为客户端聚类、数据插值以及模型插值,并给出了相应的泛化误差界;Deng Y等人又针对客户端的模型插值进行改进,提出了一种自适应泛化误差界的学习方法。(2)收敛性优化异质数据还会影响联邦学习的训练效率,导致模型收敛速度降低。在联邦学习的每一轮模型训练中,中央服务器都需要聚合并发送客户端的模型参数,因此客户端之间分布的偏移将影响联邦模型的收敛速率。Li T等人的研究表明,当参与者的数据分布与平均分布之间存在较大偏差时,FedAvg算法的收敛速率会大幅下降。为了解决上述问题,Karimireddy S P等人借助控制变量纠正 FedAvg 算法在处理非独立同分布数据时产生的客户端偏移现象,并从理论上证明了所提随机控制平均(stochastic controlled averaging for federated learning,SCAFFOLD)方法具有更高的收敛速率。然而,SCAFFOLD方法仅考虑降低通信代价,模型精度无法得到很好的保证。Rothchild D等人提出了基于略图的联邦梯度下降方法FetchSGD,试图解决因客户端参与的稀疏性导致收敛速率缓慢的难题,并从理论上证明在保证一定泛化性能的前提下,FetchSGD 方法能够通过压缩梯度降低通信代价,从而提高收敛速率;Hamer J等人基于集成学习的思想提出了高效的 FedBoost (federated boosting)方法,并针对密度估计这一特定任务,从理论上分析了FedBoost的泛化误差界。尽管Rothchild D等人和Hamer J等人的工作在模型性能以及训练效率方面有较好的提升,但这些方法在一定程度上增加了模型复杂度,为方法的实际部署带来了困难。

3.3 效率优化

联邦学习受到参与方设备异构、网络带宽有限等影响,导致计算与通信效率成为阻碍其落地的最大挑战。影响联邦学习算法效率的主要因素是客户端和中央服务之间传递参数的通信成本。目前的研究主要通过模型压缩和客户端选择方法来分别降低单次通信成本和总通信次数,从而降低算法的通信复杂度。(1)模型压缩方法由传递深度学习模型带来的巨额通信成本已经成为联邦学习和分布式机器学习落地应用的瓶颈。模型压缩可以在牺牲一定模型性能的情况下减少模型交互带来的通信开销,优化联邦学习的算法效率。Suresh A T等人首先在分布式场景下提出了基于随机旋转的通信编码算法,证明了在不需要对数据特征做出任何假设的前提下可以达到最小的均方误差,并将其应用到了分布式的劳埃德(Lloyd)算法中,实验结果表明,所提算法可以大大减少通信成本,同时保持模型精度不变。Caldas S等人在对模型进行压缩的基础上,提出了联邦随机失活(dropout)的方式来选择全局模型的子集,从而进行参数更新,相比已有工作,通信成本被降低到1/14。Xu J J等人针对联邦学习算法中存在大量冗余参数需要更新的问题,提出了一种联邦三元量化(federated trained ternary quantization, FTTQ)算法,通过自学习的方式来优化客户端中的学习模型,并证明了所提算法的收敛性。Haddadpour F 等人针对同质和异质的联邦学习分别提出了周期性压缩算法——带压缩的联邦平均(federated averaging with compression,FedCOM)与带压缩和局部梯度跟踪的联邦平均(federated averaging with compression and local gradient track ing,FedCOMGATE),并给出了在非凸、强凸等不同假设下的算法收敛界。Cui L Z等人在模型压缩的基础上实现了基于区块链的联邦学习算法——用于内容缓存的联邦学习压缩算法(compressed algorithm of federated learning for content caching, CREAT),进一步保护了客户端节点数据的安全性。(2)客户端选择方法在客户端数量规模较大的场景中,联邦学习算法需要与每一个客户端进行通信,导致算法效率较低。现有研究针对此问题,通过在众多客户端中选择一定数量的客户端,并将其作为代表进行训练来减少通信开销,优化算法效率。根据联邦学习过程中客户端的在线状态是否动态变化可以将客户端选择算法分为两类:静态客户端选择和动态客户端选择。在静态客户端选择中,联邦学习的客户端不存在中途宕机、突然退出的现象,仅需要在联邦学习过程中挑选一次参与训练的客户端,就可以持续进行本地迭代与模型聚合。Mcmahan H B等人提出的 FedAvg 算法采取简单的随机采样策略,在数据分布满足独立同分布假设的情况下也可以实现不错的训练效果。Wei S Y等人和SONG T S等人的研究中将夏普利值(Shapley value)的概念引入联邦学习中,通过高效计算联邦学习参与者的夏普利值来评估数据质量,从而有效选择客户端。Chai Z等人提出了基于层的联邦学习(tier-based federated learning,TiFL)系统,将联邦学习参与方基于训练性能分层,在训练中依照参与者所属的层次进行选择,提高了异质场景下联邦学习的收敛速度。在动态客户端选择中,客户端的状态是动态变化的,每一个联邦学习的参与方都有可能因为网络、硬件等出现离线的情况。Huang T S等人基于多臂老虎机在每一轮中动态选择客户端;Lai F等人在此基础上进一步实现了一个基于探索-利用策略的联邦学习客户端选择算法。Wang H等人通过额外训练一个深度强化学习模型在每一轮评估客户端的价值,选择当前价值最高的K个参与方进行联邦学习训练,但这种方法需要在联邦模型的基础上进行额外的深度模型训练,对计算资源提出了更高的要求。

4 联邦学习算法模型

现有工作在上述联邦学习框架下设计了多种机器学习的基础模型,包括线性模型、树模型与神经网络模型等,联邦学习算法模型见表2。

4.1 线性模型

线性模型是机器学习模型中的基础模型之一,其通常适用于朴素的线性数据的回归与分类问题。在线性模型的基础上,通过增加非线性映射层或高维映射,也可以对非线性的数据进行高效的处理,例如逻辑回归(logistic regression,LR)模型等。相比于其他的联邦学习模型,线性模型由于结构简单,通常具有较好的收敛性,下面对具有代表性的两类线性模型进行介绍。Yang Q 等人介绍了使用线性回归和同态加密进行纵向联邦学习模型训练的方法。该方法使用梯度下降方法训练线性回归模型,对模型的梯度进行安全计算。Hardy S等人提出了保护隐私的逻辑回归模型纵向联邦学习训练算法,通过保护隐私的实体解析进行逻辑回归模型的训练;此外,该算法对梯度函数进行泰勒逼近,以满足同态加密中的整值计算条件。现有工作也针对联邦学习场景中线性模型的收敛性进行了实验与理论分析。Konečný J等人提出了一种联邦随机方差梯度算法,并通过实验对所提线性模型的收敛性进行了验证。Ghosh A等人提出了迭代联邦聚类算法(iterative federated clustering algorithm,IFCA),该算法交替估计参与方的任务类别,并证明了模型的收敛性在线性模型中是有保障的。

4.2 树模型

机器学习中的树模型具有部署灵活、解释性强等优点,是应用非常广泛的一类机器学习模型。树模型可以分为决策树模型和随机森林模型(random forest,RF)模型两类:决策树模型通过构造一个树状的分类器完成预测任务;而随机森林模型则通过集成训练多棵决策树模型,优化模型的预测准确率。(1)决策树模型联邦决策树(decision tree,DT)模型的现有研究主要关注在隐私保护的前提下,对决策树的各数据节点和特征进行训练。Truex S 等人研究了面向横向联邦场景的迭代二叉树 3 代(iterative dichotomiser 3,ID3)决策树的构建。具体地,在决策树模型进行节点分裂时,聚合节点向每个参与方发出查询请求,参与方在本地查询结果的基础上添加差分隐私噪声,返回聚合节点完成信息增益计算,并对决策树节点进行分裂。Wu Y C等人研究了面向纵向联邦学习的决策树构建,提出了隐私保护纵向决策树(privacy preserving vertical decision tree,Pivot)方法,解决了纵向联邦学习中各客户方的标签数据不互通的问题。Pivot方法不需要依赖可信第三方,并且能够确保除了客户同意发布的信息(即最终的决策树模型和预测输出),不会泄露任何中间信息。Cheng K W等人提出了一种新的联邦学习纵向决策树模型——安全提升树模型 SecureBoost,SecureBoost 构建框架如图5所示。SecureBoost在训练过程中,由拥有标签数据的一方对损失函数的一阶导数和二阶导数进行计算后加密传输,随后其他联邦参与方基于加密对梯度计算每个分裂点的信息增益值,并发送给标签拥有方,再由拥有标签数据的一方选出最佳分裂。

图5   SecureBoost构建框架

(2)随机森林模型随机森林模型通过对决策树进行模型集成(bootstrap aggregating)来求解分类/回归问题。Wu Y C等人提出的用于纵向联邦决策树的Pivot方法可以被扩展到树集成模型中。将树集成模型中的单棵决策树视为构建块,以此在纵向联邦场景下构建随机森林模型。Liu Y等人提出了可撤销的联邦随机森林(revocable federated random forest, RevFRF)。若某个参与方退出联邦,其原始数据仍然可能被联邦模型记录。而在RevFRF中,被撤销的数据既不供其余联邦参与方使用,也不会被训练模型记录,进而增强了随机森林的结构安全性。

4.3 神经网络模型

神经网络模型是目前人工智能中应用非常广泛的机器学习模型之一。其中多层感知机(multi-layer perceptron,MLP)模型、卷积神经网络(convolutional neural network,CNN)模型、循环神经网络(recurrent neural network,RNN)模型是3个具有代表性的神经网络模型,而且已经在图像识别、自然语言处理等许多领域都实现了落地应用。因此,在联邦学习场景中实现神经网络模型具有巨大的潜力,现有工作也对此方向展开了广泛的探索。下面分别介绍联邦学习场景中对上述3类典型的神经网络模型的探索。(1)MLP模型目前主流的支持随机梯度下降算法的联邦学习框架都能够实现多层感知机模型,如经典的FedAvg 算法和联邦近端梯度法(federated proximal gradient,FedProx)算法等。还有一些现有工作专门研究了如何高效地构建联邦 MLP 模型。Yurochkin M等人提出了一种非参数贝叶斯框架概率联邦神经匹配(probabilistic federated neural matching,PFNM)算法,如图6 所示。该算法能够根据联邦参与方提供的本地 MLP 模型的参数权重进行推理,实现了在单轮通信的情况下聚合全局神经网络。一方面,中心服务器收到本地模型后,利用贝塔-伯努利过程将本地 MLP 模型参数与全局模型进行匹配,得到新的全局联邦模型;另一方面,该算法将本地训练与模型聚合解耦,聚合过程只依赖本地模型参数本身,对局部模型的训练方式以及额外信息不作要求,实现了根据参与方的数据和算力选择训练策略的功能。同时,该算法利用贝叶斯框架的特性减小了模型参数,并提高了通信效率。
图6   PFNM算法
(2)CNN模型CNN 模型是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习中的代表算法之一。为了高效地构建联邦场景中的CNN模型,Wang H Y等人[76]对上述仅支持MLP模型的PFNM算法进一步拓展,提出了联邦学习匹配平均(federated learning with matched averaging,FedMA)算法。FedMA算法基于神经元排列的不变性,通过匹配和平均具有相似的特征提取签名的隐藏元素(即CNN中的通道),逐层构建全局模型。在CNN模型上的实验表明,除了在性能上领先通用型的 FedAvg 与FedProx等流行联邦学习框架,FedMA同样能够有效降低联邦学习中的总体通信负担。为了解决大型联邦 CNN 模型在边缘设备上的计算资源不足问题,He C Y等人提出了基于组知识迁移训练的联邦组知识迁移(federated group knowledge transfer,FedGKT)算法。FedGKT算法实现了一种交替最小化方法的变体,能够用于在边缘节点上训练小型 CNN,并通过知识蒸馏周期性将知识转移到中心服务器端的大型 CNN上。(3)RNN模型RNN被广泛用于处理时序数据,也被广泛用于自然语言处理中的语音识别、机器翻译、文本分类等领域。RNN模型在每一时刻的输出同时取决于此刻的输入和上一时刻网络的状态,如长短期记忆(long short term memory,LSTM)等都属于RNN模型。在联邦 RNN 模型方面,Shukla S 等人在FedMA算法的基础上,使用基于信息增益的采样策略,根据学习期间测量的信息增益选择部分参数发送给服务器,有效减少了参与方发送的模型参数。Bacciu D等人针对RNN中的回声状态网络模型提出了增量联邦学习(incremental federated learning,IncFed)算法。IncFed算法避免了FedAvg算法中将模型参数直接平均化的朴素方案,而是通过改进聚合过程,生成最优的全局模型。但IncFed算法只适用于回声状态网络模型,尚未扩展至通用的RNN模型。

5 开源平台与典型应用

本节首先按照发布时间,介绍联邦学习5个主要的开源平台;然后,介绍目前联邦学习在智慧交通、智慧金融和智慧医疗3个领域的典型应用。

5.1 联邦学习的开源平台

目前业界已搭建了多个联邦学习的开源平台,包括 FATE、TFF(TensorFlow federated)、PySyft、FedML、Flower等,联邦学习开源平台发布时间如图7所示。开源平台的目的是为多设备部署或实验提供通信接口和隐私保护机制,这能够极大地简化联邦学习算法的编写及部署难度。大部分联邦学习平台通常不包含计算平台,而是以TensorFlow或PyTorch等机器学习框架为底层计算平台,在其上实现了联邦学习接口,即将用户编写的联邦模型转换为相应的模型进行训练与推断。在模型方面,目前大部分平台通常能够支持线性模型和神经网络模型,FATE 能够支持决策树等树形模型。在隐私保护优化方面,5 个开源平台均支持至少一种隐私保护方法,包括差分隐私、同态加密等。其中,Flower和PySyft均通过第三方库Opacus实现隐私保护技术。
图7   联邦学习开源平台发布时间


(1)FATE开源平台FATE是由深圳前海微众银行股份有限公司开发的首个联邦学习工业级开源平台。FATE 底层由三部分组成,分别是计算、联邦、存储,其中计算模块同时适配了 TensorFlow 及 PyTorch。在底层之上, FATE 使用安全多方计算和同态加密技术构建了安全协议,支持不同种类机器学习算法的安全计算。FATE还提供了联邦学习高级API,支持线性模型、决策树、深度学习和迁移学习等多种机器学习方法。除此之外,FATE 还支持图形交互界面,用于联邦学习可视化、客户端集群管理与监控以及任务调度与管理。(2)TFF开源平台TFF是谷歌公司开发的分布式机器学习与计算平台。以TensorFlow为底层计算平台,简化了开发者调用已有算法和设计新的联邦学习算法的开发难度。与FedML类似,TFF将API分为低层API与高层API,具有良好的可扩展性,低层API提供了丰富的接口,允许研究者设计不同的联邦学习算法;高层API为调用库中包含的算法进行训练提供支持。同时TFF也支持使用TensorFlow Privacy中的组件对联邦学习算法进行隐私保护。(3)PySyft开源平台PySyft是由OpenMined组织开发的联邦学习开源平台。该开源平台实现了隐私保护与模型训练解耦,重写了PyTorch中张量的运算符,分布于多台设备上的数据可以通过安全求和函数轻松计算,中心化的机器学习代码也可以轻松迁移为联邦学习,而无须考虑客户端中的通信过程。该平台支持多种隐私保护方法,包括差分隐私以及安全多方计算,以保护联邦学习客户端的数据安全。(4)FedML开源平台FedML是He C Y等人开发的联邦学习平台和基准测试库,该平台以PyTorch为底层计算平台,提供了灵活并且通用的接口,支持调用库中实现的基准算法(包括 FedAvg、FedProx 等),降低了研究者进行联邦学习算法实验的难度,具有较好的可扩展性。同时,该平台为非独立同分布场景提供了全面的联邦数据集,用于算法的公平比较。FedML平台同时支持单机模拟、移动设备部署与物联网设备部署 3 种计算范式。但是 FedML 中的大部分算法尚未提供与隐私保护相关的组件,开发者需要自己实现同态加密、差分隐私等方法以保护联邦学习中的数据隐私。(5)Flower开源平台Flower是一个可拓展性高的联邦学习平台,同时支持本地模拟与多设备部署。联邦学习系统间通常具有较大的差异,Flower允许根据不同的使用场景进行一系列自定义设置,以满足使用需求。该平台可以适配任何机器学习框架,不同机器学习框架具有不同的优点,开发者可根据需求自由选择,只需要实现机器学习模型参数到 Python 的数值计算库 NumPy 的转换即可适配。同时,该平台包含了部分基准测试算法,包括联邦批次正则化(federated batch normalization,FedBN)、联邦优化(federated optimization,FedOpt)等。在隐私保护方面,该平台支持使用Pytorch的Opacus库对模型进行差分隐私保护。

5.2 联邦学习的典型应用

目前,联邦学习的技术优势已经在多个真实应用场景中发挥了重要作用,本节以智慧交通、智慧金融与智慧医疗3类典型应用为例,介绍联邦学习的产业化应用。(1)智慧交通领域应用在过去几年中,人工智能技术的发展带动了交通领域的智慧化发展。智慧交通系统多采用中心化系统架构,其“中心-终端”模式无可避免地带来了隐私保护问题。在交通规划方面,Liu Y等人提出了一种基于联合声明协议的联邦聚合算法,避免了交换原始数据,在保护车辆隐私的前提下实现了交通流量预测。在车辆资源管理方面,Yu S等人提出了一种双时间尺度的联邦学习模型,利用联邦学习方法对该强化学习模型进行分布式数据分析,以保护车辆端的数据隐私,实现了在隐私保护基础上的交通决策和资源分配。Zhao N等人将双深度Q-learning方法与联邦学习结合,在有效保护车辆时空隐私的前提下,实现了对车辆运载能力与交通负载的计算,从而进行车辆资源管理。在共享交通方面,Shi D Y等人提出了一种基于联邦计算价值函数的交通资源调度方法,该方法显著提升了出行效率和群体公平性。(2)智慧金融领域应用金融行业是另一个对数据隐私有较高要求的领域,其中风险评估、欺诈检测等方面对隐私保护具有较高要求,联邦学习在智慧金融领域的应用为金融隐私提供了解决方案,是促进智慧金融发展的有效手段。Hardy S等人设计了一个端到端的安全联邦逻辑回归(secure federated logistics regression, SFLR)方案,联合两个参与方对同一批样本的不同特征进行建模,并应用加法同态加密来保护模型的安全和数据的隐私。该算法被深圳前海微众银行股份有限公司集成到FATE框架中并应用于小微企业信用风险评估等风控场景。Zheng W B等人提出了结合度量学习的联邦学习方法来解决信用卡欺诈中的隐私保护问题,并被有效应用到金融欺诈检测中。(3)智慧医疗领域应用在医疗物联网和通信技术的支持下,现代医疗体系的发展趋向智能化和高效化。联邦学习技术被应用于智慧医疗领域,解决了电子健康记录管理、远程健康监测、医疗影像分析以及新冠肺炎防治等方面的隐私保护问题,推动了大数据驱动的智慧医疗发展。Hao M等人介绍了一种联合多家医院通过云计算的方式共享电子健康记录数据的联邦模型。Brisimi T S等人提出了一种结合联邦学习和心脏病人过往电子健康记录,预测病人未来因心脏病就医的地点,以实现稀缺医疗资源管理优化的方法。在医疗影像分析方面,联邦学习被用于解决数据异质性问题和实现隐私保护。近两年,新冠肺炎在全球范围内快速传播,面对此类突发疾病,联邦学习在快速获得大量训练数据、快速更新模型方面具有较大优势。Zhang W S等人提出了一种动态的联邦学习方法,用于CT(computed tomography)影像分析和新冠肺炎核酸检测。

6 结束语

联邦学习作为破解数据孤岛问题的群体智能新研究方向,近年来在数据隐私保护的大背景下受到了学术界与工业界广泛的关注。本文从群体组织结构划分的角度对联邦学习算法框架进行了分类,并介绍了优化算法与基础模型。本文还介绍了目前主流的联邦学习开源平台与典型应用。作为群体智能在互联网环境下的重要研究方向,未来的联邦学习研究充满了挑战与机遇,克服这些困难将有助于建立一套新的基于互联网的群体智能理论与方法体系,从而促进人工智能红利的落实,为现代社会的繁荣发展注入新的动力。
作者简介
杨强(1961−),男,博士,深圳前海微众银行股份有限公司首席人工智能官,香港科技大学教授,主要研究方向为联邦学习、迁移学习、群体智能等 。
童咏昕(1982−),男,博士,北京航空航天大学教授,主要研究方向为联邦学习、群体智能、数据库与数据挖掘 。
王晏晟(1994−),男,北京航空航天大学博士生,主要研究方向为联邦学习 。
范力欣(1971−),男,博士,深圳前海微众银行股份有限公司人工智能首席科学家,主要研究方向为机器学习、联邦学习、计算机视觉 。
王薇(1983−),女,博士,北京航空航天大学教授,主要研究方向为群智系统协同控制与优化、攻击检测与安全控制 。
陈雷(1972−),男,博士,香港科技大学教授,主要研究方向为时空大数据、空间众包、不确定数据、数据驱动的机器学习 。
王魏(1983−),男,博士,南京大学副教授,主要研究方向为机器学习、弱监督学习、计算学习理论 。
康焱(1984−),男,博士,深圳前海微众银行股份有限公司人工智能算法研究员,主要研究方向为隐私保护机器学习、联邦迁移学习 。


(点击篇末阅读原文』阅读及下载本文)

· 关于《智能科学与技术学报》·

《智能科学与技术学报》(季刊,www.cjist.com.cn)是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国自动化学会学术指导,北京信通传媒有限责任公司出版的高端专业期刊,面向国内外公开发行。《智能科学与技术学报》以建设世界一流科技期刊为目标,聚焦智能科学与技术领域,秉承“专家办刊”的重要原则,坚持“推进跨界融合,注重协同创新,强化产学研用,搭建开放、创新并具国际化示范引领效应的智能科学与技术研究学术交流平台,进而助力构建智能科学与技术及其产业应用的健康生态场”的办刊宗旨,主要包括“综述”“学术论文”“专题”“评述”等栏目,将主要刊载面向智能科学与技术领域有突破的基础理论研究、创新性关键技术应用、热点问题探讨、重大成果进展等,刊载重点领域包括:人工智能,智能控制,混合智能,平行智能,生物智能,军事智能的前沿理论与方法、技术与趋势、应用系统。


《智能科学与技术学报》被Scopus、EBSCO数据库,乌利希国际期刊指南收录。《智能科学与技术学报》将努力发展成国内外智能科学与技术领域顶级的学术交流平台,为业界提供一批内容新、质量优、信息含量大、应用价值高的优秀文章,为实现《新一代人工智能发展规划》提出的我国人工智能发展的战略目标,促进我国智能科学与技术的快速发展贡献力量。

 点击即可下载本文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存