并行联邦学习:一种具有理论保证的联邦学习加速方案
背景介绍
作者介绍:本文第一作者为刘学正,刘学正是中山大学计算机学院在读博士生,专注于联邦学习系统架构优化与通信效率提升,已发表SCI论文3篇,EI论文4篇,相关论文发表在IEEE/ACM ToN、IEEE TDSC、IEEE INFOCOM等国际高水平会议与权威期刊上。本文介绍的方案已被ToN 2022接受。
2
并行联邦学习系统与算法设计
在传统的联邦系统中,通常部署一个集中式的参数服务器,用于协调多个客户端的训练学习。在每一轮的训练中,参数服务器通过互联网收集客户端的中间计算结果(如模型参数),并采用模型平均算法(如FedAvg算法)对参数进行聚合,同时将结果发回给客户端进行下一轮的训练。
在并行联邦学习系统中,为了缓解中心参数服务器的通信压力,可以部署M个分散的参数服务器,每个参数服务器i负责协调一组客户端 进行训练,参数服务器之间通过某种拓扑相连,并定期交换模型参数,优化目标定义如下:
其中, x代表全局模型参数,
图1:一个简单的并行联邦学习系统示例
如图1所示,并行联邦学习的运行过程如下:
(1)每个参数服务器i从本地客户端集合 中随机选择 个客户端,并将本轮的模型参数分发给它们进行训练;
(2)每个客户端收到所属参数服务器的模型参数后在本地进行E轮迭代,并将更新结果返回给参数服务器;
(3)每个参数服务器对 个客户端的模型参数进行聚合,并与邻居参数服务器混合模型参数;
(4)返回至第(1)步直到训练结果满足停止条件。
为了表示聚合参数的过程,我们定义每个客户端更新的参数向量为 ,那么中间参数向量
我们对传统的FedAvg算法进行扩展,设计了P-FedAvg算法(见Algorithm 1)。与FedAvg算法不同的是,在P-FedAvg中,每个参数服务器并行地运行FedAvg算法,同时为了使所有参数服务器的模型参数达成共识,每个参数服务器不仅需要聚合来自客户端的模型参数(算法1第8行)还需要与邻居节点交换模型参数(算法1第10行)。
为了让P-FedAvg可以尽快收敛,参数服务器之间应以全拓扑结构相连,但是考虑到互联网中较高的通信代价,更合理的方案是让所有参数服务器以有限的边相连。我们使用一个M×M 大小的邻接矩阵L来描述参数服务器间的拓扑结构,并使用
收敛性分析
在进行收敛性分析之前,我们先简单介绍以下几个相关的假设。我们认为损失函数满足L-smoothness和u-convex性质,随机梯度的二范数和方差是有界的。
此外,为了描述参数混合过程,我们假设混合矩阵W是一个对称双随机矩阵,那么存在一个固定值p∈(0,1],使得:
这里
基于以上假设,我们推导出了P-FedAvg在客户端全参与和部分参与情况下的收敛上界:
客户端全参与:
客户端部分参与(每个参数服务器随机选择 个客户端):
我们得出以下几点重要结论:
(1)在客户端全参与情况下,当T足够大时,P-FedAvg和FedAvg的渐进收敛率都是
(2)在客户端部分参与情况下,如果忽略(1)中提到的与p相关的项,P-FedAvg中的
(3)P-FedAvg除了可以保证较好的收敛性外,最重要的是可以将中心服务器的通信负载分散到多个服务器上,使得通信效率更高。我们将在第四部分对通信代价进行详细分析。
通信代价分析
为了展示P-FedAvg的通信优势,我们将从通信量和通信时间两个角度对P-FedAvg通信代价进行分析。通信量表格1:P-FedAvg和FedAvg通信量对比
如表格1所示,我们分别对比了P-FedAvg和FedAvg的总通信量和峰值通信量来。假设模型参数大小为s,参与训练的客户端总数目为K,如果有M个参数服务器,每个服务器负责其中的 个客户端,并且
通信时间
为了分析P-FedAvg一轮全局迭代的时间,我们首先定义延迟矩阵
这里,
进一步,
如果用 代表参数服务器i向邻居服务器传输数据的带宽,那么
由于P-FeAvg采用同步的方式运行,受限于最慢的参数服务器,所以我们得到一轮全局迭代的时间α如下:
这里
基于以上分析,我们可以得到如下重要结论:
(1)当参数服务器与客户端之间的通信成为瓶颈(当K较大时),P-FedAvg可以将FedAvg的
(2)一方面,参数服务器间如果增加更多的连接,将会使
为了直观地说明P-FedAvg的通信优势,我们用一个例子来说明。假设共有100个客户端参与训练,参数服务器与客户端和参数服务器之间的通信速率均为10Mbps,模型参数大小为50Mb。这里,我们只考虑通信开销,忽略计算开销。对于FedAvg,一轮全局迭代的时间为(2 × 100 × 50Mb)/10Mbps=1000s。对于P-FedAvg,假设有5个参数服务器,每个参数服务器协调20个客户端,那么一轮参数聚合的时间为(2 × 20 × 50Mb)/10Mbps=200s,一轮参数混合的时间为(2 × 50Mb)/10Mbps=10s(假设通信拓扑为环形)。那么P-FedAvg相对于FedAvg的加速比为1000s/(200s+10s)≈4.7。
我们进一步对运行时间进行了模拟。如图2所示,我们设置参数服务器的个数为5,每个服务器选择相同数目的客户端参与训练,且随机变量
5
混合权重和拓扑影响
总结:通信拓扑稠密→通信负担大同时p值增大→收敛速度快但每轮时间成本高。
在这一部分,我们将研究在给定拓扑结构下如何确定最优混合权重,以及不同拓扑结构对并行联邦学习收敛性、通信代价和鲁棒性的影响。
对于给定的一个拓扑结构,根据收敛性分析,我们可以通过最大化p值来最小化收敛上界,可以证明
实验效果
为了验证理论分析和证明算法的有效性,我们考虑不同通信拓扑和混合矩阵对P-FedAvg收敛的影响,并对比了P-FedAvg与其他算法的性能差异。
不同拓扑对收敛性的影响
图4:相同全局迭代次数下,不同拓扑的P-FedAvg准确率变化图
在五种不同拓扑下,我们分别计算出complete,2d-torus,ring,balanced tree和barbell的p值分别为1.0,0.84,0.29,0.12和0.08。如图4所示,complete和2d-torus相对于其他拓扑的收敛速度更快,barbell收敛最慢。这与我们的理论结果是一致的。不同算法收敛速度的比较图5:相同训练时间下,不同算法模型准确率变化图
如图5所示,P-FedAvg在相同的训练时间下,可以获得更高的模型准确率,主要原因在于P-FedAvg可以把通信开销分散到不同的参数服务器上,从而加速整个训练过程。混合权重对收敛速度的影响总结与未来工作
在本文中,我们介绍了一个基于多参数服务器的并行联邦学习框架和P-FedAvg算法。我们对P-FedAvg的收敛性和通信代价进行了理论分析,并研究了不同拓扑对模型收敛的影响,同时给出了确定最优混合权重的方法。实验证明P-FedAvg可以有效加速联邦学习的训练过程。未来我们将从收敛率、通信代价和鲁棒性多方面综合考虑参数服务器之间通信拓扑的设计方法,同时提供对动态拓扑的分析与支持。
本文来源:FATE开源社区往期推荐
FLASH:面向高性能的联邦学习硬件加速结构
基于互信息的深度神经网络后门攻击
Graph-Fraudster:面向图垂直联邦学习的对抗攻击