论文分享|异构联邦学习综述:最新进展与研究挑战
论文题目:Heterogeneous Federated Learning: State-of-the-art and Research Challenges
作者:叶茫(武汉大学),方修文(武汉大学),杜博(武汉大学),阮邦志(香港浸会大学),陶大程(悉尼大学)
发表期刊:ACM Computing Surveys
论文地址:arxiv.org/abs/2307.10616
项目地址:github.com/marswhu/HFL_
背景
引言
联邦学习是一种能够在不泄露隐私、保持数据分散的前提下协同训练机器学习模型。现有的联邦学习工作主要针对模型同构的情况,并取得了巨大的成功,但它严重依赖于所有参与者共享相同的网络结构和拥有相似的数据分布的假设。然而在实际的大规模场景中,数据分布、模型结构、通信网络和系统边缘设备之间可能存在较大差异,这给实现联邦协同带来了挑战。与这些情况相关的联邦学习称为异构联邦学习,其中这种异构可以根据联邦学习过程分为四类:统计异构、模型异构、通信异构和设备异构。
本综述论文深入研究了联邦通信中的统计异构和模型异构问题,关注了隐私保护和存储计算能力在异构联邦学习中的重要性。本文由三个主要部分构成:
* 首先,对研究挑战进行了系统总结,涵盖了五个方面:统计异构、模型异构、通信异构、设备异构和附加挑战。
* 其次,回顾了目前最先进的方法,并以新的分类法为背景,即将现有的异构联邦学习方法分为数据级、模型级和服务器级三个层次,深入讨论了这些方法的优势和局限。
* 最后,对未解决问题和未来发展方向进行了深入展望。
异构联邦学习研究挑战讨论
3.1 统计异构性
统计异质性是指联邦学习中客户端之间的数据分布不一致,不服从相同的采样,即非独立同分布(Non-IID)。为了探索统计异质性,我们通过四种不同的倾斜模式来区分不同类别的Non-IID数据,包括标签倾斜、特征倾斜、质量倾斜和数量倾斜:
3.2 模型异质性
在实际应用中,由于个体需求或商业考虑,客户端可能设计独特的本地模型结构,并且不愿透露模型设计细节。模型异构联邦学习旨在从其他模型中获取知识,而不共享数据或本地模型结构信息。模型异构性存在两种情况:
部分异构性:某些客户端使用相同模型结构,其他客户端使用不同结构。这可以通过将客户端分成结构相同的簇来处理,同一簇内的模型可以直接聚合,而不同簇之间的模型通信需要特殊技术,如知识蒸馏。
完全异构性:每个客户端的网络结构完全不同。在这种情况下,需要为每个客户端设计独特的模型,这可能会导致高的学习成本和低的通信效率,因为无法进行常规的参数聚合或梯度操作。
3.3 通信异构性
在实际物联网应用中,设备通常部署在不同的网络环境中,具有不同的网络连接设置(3G、4G、5G、Wi-Fi),这导致了不一致的通信带宽、延迟和可靠性,即通信异构性。在通信过程中,客户端可能会遇到不同程度的噪声、延迟或丢失,这严重降低了通信效率。通信异构性在复杂的物联网环境中非常普遍,可能导致高成本和低效率的通信,从而降低联邦学习的效果。因此,如何在异构网络环境中自适应调整联邦通信值得研究。
3.4 设备异构性
在实际应用中,联邦学习网络可能涉及大量的物联网设备。设备硬件能力(CPU、内存、电池寿命)的差异可能导致存储和计算能力不同,这不可避免地产生设备异构性。设备异构性对联邦学习构成了以下几个挑战。首先,因为不同的客户端可能具有不同的计算速度或资源,导致系统滞后或瓶颈。其次,它为系统引入了不确定性和不稳定性,因为不同的客户端可能具有不同的设备状态。因此这需要在大规模联邦学习场景中对不同设备的反馈进行自适应调整。
3.5 额外挑战
除了上述异构性,本文还讨论了异构联邦学习中的一些额外挑战,包括知识传递障碍和隐私泄露:
知识传递障碍:联邦学习的目标是在不同客户端之间传递知识,以共同学习具有优越性能的模型。然而,上述异构性特征在不同程度上导致了知识传递障碍。因此,如何在异构场景中实现高效的知识传递是当前研究需要关注的问题。
隐私泄露:保护客户端的本地数据不泄露是联邦学习的基本原则。然而,单独的联邦学习仍存在潜在的隐私风险或对数据隐私的攻击。此外,上述四种类型的异构性在不同的学习阶段不可避免地加剧了隐私泄露。例如,当客户端通过共享模型梯度更新、逻辑输出等来实现联邦学习时,攻击者可以通过将恶意数据或模型注入系统,或分析其模型梯度来推断客户端的私人信息。
异构联邦学习进展综述
本节回顾了现有的异构联邦学习方法,将它们分为三个部分,即数据层面、模型层面和服务器层面方法:
数据层面方法是指在数据层面上平滑本地数据的异构性或提高数据隐私的操作,如数据增强和匿名技术。
模型层面方法是指在模型设计的操作,如共享局部结构、模型优化等。
服务器层面方法需要服务器参与,例如参与客户端选择或客户端集群。
4.1 数据层面
4.1.1 私有数据处理
数据准备:联邦学习中的私有数据准备包括数据收集、过滤、清理、增强等。这些操作旨在确保每个客户端的数据质量和安全性,从而提高联邦学习的效率和效果。例如Safe方法,对本地数据进行聚类,然后测量每个样本与其聚类中心之间的距离,最后将远离聚类中心的样本作为有毒数据过滤并丢弃;FAug是一种使用GAN的数据增强方案,客户端将目标标签的部分数据样本上传到服务器端,服务器端对上传的数据样本进行过采样以训练条件GAN。客户端通过使用接收到的GAN生成缺失数据样本,有效地增强了本地数据的统计同质性。
数据隐私保护:为了防止商业加密和用户隐私等敏感信息泄漏,人们在本地级别研究了数据隐私保护方法,主要有三种:数据加密、扰动和匿名化。
1)数据加密:Asad等人将同态加密应用于联邦学习,使客户端能够使用私钥加密其本地模型,然后将其发送给服务器。因此,服务器只能获得加密的模型参数,无法推断出任何私有信息。
2)数据扰动:差分隐私(DP)是常用的方法,通过对本地更新进行剪辑和添加噪声,以保护客户端的私密信息。PLDP-PFL方法允许每个客户根据其隐私数据的敏感性选择适当的隐私预算来实现个性化的差异隐私。
3)数据匿名化:通过删除或替换可识别敏感信息,实现对数据主体的匿名化。Choudhury等人让客户端将本地数据集的特征转换成一些随机的数字或符号,从而使原始数据脱敏。
4.1.2 外部数据利用
知识蒸馏:这种方法利用来自外部数据源的知识来提升联邦性能。客户端为本地数据生成软标签,然后将这些软标签用作本地更新的额外监督。这种方法使得具有异构模型的客户端能够以一种模型不可知的方式共享信息,从而减轻模型异质性的影响。FAug 和FedMD 利用联邦蒸馏,从其他客户那里学习知识,每个客户端存储一个本地模型输出,并将所有客户端本地模型输出的平均值作为全局输出。FSMAFL采用类似于FedMD的联邦通信策略,并创新性地添加了一个潜在嵌入自适应模块,缓解了公开数据集和私有数据集之间较大的域差距的影响。
无监督表示学习:由于私有数据通常难以标注且涉及高昂成本,无监督表示学习被讨论用于学习通用的表示模型,同时保持私有数据的分散性和无标签性。这种方法通过利用对比损失等技术,在各个客户端之间实现数据分布的一致性和表示的一致性。它允许客户端生成本地字典,并将这些字典整合成全局字典,从而实现模型的统一性,减轻统计异质性的影响。例如MOON和FedProc 使用对比学习来解决联邦学习中的统计异质性。MOON通过引入模型对比损失来纠正更新方向。FedProc将全局原型视为全局知识,使用局部网络结构和全局原型对比损失来约束局部模型的训练。
4.2 模型层面
4.2.1 联邦优化
正则化:正则化是一种通过在损失函数中添加惩罚项来防止过拟合的技术。该策略通过动态估计参数值来降低模型复杂性,并通过添加偏差项来减少方差。因此,在统计异质性下,许多联邦学习框架实现正则化以在学习过程中提供收敛保证。例如FedProx 在FedAvg 的基础上增加了一个近端项,约束局部模型与全局模型之间的差异,从而有效地增加模型训练的稳定性,加速模型收敛;FPL方法使样本嵌入更接近同一领域和类别的聚类原型。同时,引入一致性正则化,以使样本嵌入与不包含域信息的同质无偏原型对齐。
元学习:利用以前的经验指导新任务的学习,从而使机器能够自主地为不同任务学习模型。在新任务上进行训练时,只需在初始模型上进行微调即可实现仅使用少量数据的满意学习性能。元学习的个性化能力可以解决联邦学习中的统计异质性问题。例如联邦元学习框架FedMeta,在服务器端维护算法并分发到客户端进行训练,之后将查询集上的测试结果上传到服务器进行算法更新。
多任务学习:通过使用共享表征或模型来帮助在单个任务上学习的模型实现其他任务的共同学习。如果将每个客户端的本地模型学习视为单独的任务,则可以将多任务学习的思想应用于解决联邦学习问题。所有参与的客户端协同训练其本地模型,从而有效地减轻统计异质性,并产生高性能的个性化本地模型。MOCHA 是一个面向联邦多任务学习(FMTL)的系统感知优化框架,试图解决分布式多任务学习的高通信成本、掉线和容错性问题。为了解决统计异构性和系统挑战,MOCHA采用分布式优化方法COCOA,并为每个客户训练一个独特的模型。
4.2.2 跨模型知识迁移
跨模型知识蒸馏:其目标是在客户端上精炼知识分布,然后以模型无关的方式传递所学知识,有助于在联邦学习中实现不同模型之间的合作和知识传递。例如,为了在不依赖全局共识或共享公共模型的情况下使用异构客户机执行联邦学习,RHFL 通过对齐模型对无关公共数据的反馈来学习其他客户机的知识分布。
迁移学习:其目标是将在源领域学到的知识应用于不同但相关的目标领域。在联邦学习场景中,客户端通常属于不同但相关的领域,并希望从其他领域学习知识。所以联邦迁移学习的目标是将在客户端上学到的知识传递给公共服务器进行聚合,或将全局共识传递给客户端进行个性化。KT-pFL 通过知识系数矩阵线性组合所有客户端的软预测,识别客户端的相互贡献,从而增强数据分布相似的客户之间的协作。
4.2.3 架构共享
共享主干网络:在异构场景中,客户端的私有数据集可能是非独立同分布的(Non-IID)。为了减轻统计异质性带来的负面影响,客户端可以共享主干网络,只向服务器端发送主干网络。但为了满足个性化需求,它们也可以设计独立个性化层。例如FedPer,它将基本层和个性化层相结合,用于深度前馈神经网络的联邦训练,有效地捕获客户端的个性化方面。
分类器共享:为了处理异构的数据和任务,一些方法共享分类器而不是主干网络。在这种情况下,客户端通过自己的主干网络进行特征提取,并共享一个公共分类器进行分类。例如FedPAC,通过约束每个样本特征向量使其接近其类别的全局特征质心来降低客户端间特征方差,然后服务器对客户端的个性化分类头进行最优加权聚合。
其他部分共享:一些方法采用其他部分共享策略,根据本地条件(如数据分布、计算能力等)适应性地共享局部模型参数的子集。在不同资源约束下的客户端中增强联邦学习的适用性,也可避免灾难性遗忘。例如HeteroFL 根据每个客户端的计算和通信能力分配不同大小的本地模型,局部模型参数是全局模型参数的子集,有效地减少了局部客户端的计算量,缓解通信异构和设备异构的影响。
4.3.2 客户端聚类选择
4.3.1 客户端选择
客户端选择通常由服务器执行,以便从具有均匀数据分布的客户端中对数据进行采样。此外,在制定选择策略时,还考虑了不同客户端的网络带宽、计算能力和本地资源等约束条件。
最近一些方法专注于解决非独立同分布数据带来的偏差,以及不同硬件和网络环境带来的通信成本和效率问题。这些方法包括深度强化学习、类别不平衡的估计、基于相关性的选择策略以及根据资源和网络环境约束选择客户端的方法等等。这些策略可以改善联邦学习在异质性数据和环境下的性能表现。例如Favor方法创新性地将联邦学习的设备选择定义为一个深度强化学习问题,旨在训练一个智能体代理人来学习适当的选择策略;FedSAE中,服务器根据客户端训练历史任务的完整信息估计每个设备的可靠性,从而调整每个客户端的训练负载。
4.3.2 客户端聚类
在整个联邦系统共享一个全局模型时,不能保障所有客户端模型均取得满意的性能。因此,许多方法通过考虑不同客户端的数据分布、本地模型和参数更新的相似性,对所有客户端进行个性化的聚类。这些策略可帮助客户端更好地互相受益,同时减弱不同数据的干扰。例如IFCA在估计客户端聚类标识的同时,通过梯度下降交替优化聚类模型参数,从而最小化损失函数。
最近一些方法旨在通过客户端聚类来提高联邦学习系统的攻击鲁棒性。这些方法可以减少计算成本,同时增强联邦框架的鲁棒性和灵活性。然而,一些方法可能在联邦学习情境中容易受到后门攻击(包括包括数据投毒和模型投毒)的影响。为了解决这个问题,一些方法提出了更加复杂的方法来检测和限制对抗模型更新,比如FLAME,通过限制后门噪声去除的噪声规模的聚类策略来检测对抗性模型更新。
4.3.3 去中心化通信
一般的联邦学习算法依赖于中央服务器,这要求所有客户端都信任一个中央机构。然而,这个中央机构的失败可能会破坏整个联邦学习过程。因此,一些算法采用了去中心化通信方法,实现各种设备之间的点对点通信,而不依赖于中央服务器。
比如BrainTorrent方法,在每一轮中,一个客户端被随机选为临时服务器,然后与其他已完成模型更新的客户端合作进行协作更新。通过这种方式,任何客户端都可以在任何时候动态地启动更新过程。GossipFL和Combo方法则基于Gossip协议设计了分散式联邦训练算法,以充分利用客户端之间的带宽容量。这些去中心化通信方法有助于减少通信成本、提高系统的鲁棒性,并提供更高的灵活性。此外,一些方法还采取了额外的安全措施,如基于区块链的去中心化联邦学习框架,以提高去中心化联邦学习的安全性。
异构学习未来方向
5.1 提高通信效率
异构联邦学习在通信效率方面面临以下挑战:大量边缘节点增加计算成本以及所需计算能力和存储容量;网络带宽的差异可能会导致上传延迟甚至丢失;隐私数据集大小的差异也可能导致模型更新的延迟。因此,在实际应用场景中,需要保证通信效率与模型精度之间的良好权衡。为了提高通信效率和效果,研究人员采用了多种方法,例如通过限制局部更新与全局更新的一致性来避免向服务器传输不相关的更新,从而降低通信成本。
5.2 联邦公平性
在现实世界中,异构联邦学习面临与模型公平性相关的安全问题。参与协作学习的客户端对合作的贡献可能存在差异,并且这种差异可能因异构性而加剧。同时,现有的联邦学习框架大多忽略了参与客户端在协作过程中的贡献差异。也可能会存在一些“搭便车”参与者,他们希望从联邦通信中学习而不贡献有用信息。此外,通过联合训练获得的全局模型可能偏向数据量大或频繁出现的客户端,并且整体损失函数可能会隐式地对某些客户有利或不利。因此,随着联邦学习在更多用户和企业中的实际部署,对公平性的关注将继续增加。
5.3 全面的隐私保护
隐私保护在联邦学习中扮演着关键角色。虽然客户端通过不共享本地数据来维护隐私,但由于模型和梯度更新的记忆,以及信息反馈等原因,仍可能向服务器泄漏私有信息。针对这些问题,已有研究提出了差分隐私等隐私保护技术。然而,在实际异构场景中,不同客户端或数据样本的隐私关注各异,需要建立更严格、灵活的隐私约束策略。另一个挑战是处理生物特征数据时的隐私问题,如原始数据匿名化和特征模板保护。现有框架虽然采取了数据保持本地策略,但仍无法完全防止数据访问和分析。
5.4 攻击鲁棒性
联邦学习面临两种主要攻击类型:投毒攻击和推理攻击,它们对系统构成显著威胁。
投毒攻击:旨在使模型学习方向偏离原始目标,包括数据投毒和模型投毒。数据投毒指攻击者通过标签翻转和后门插入等方法破坏训练数据的完整性,从而恶化模型性能。模型投毒通过破坏客户端更新来改变模型的学习方向。在多层分布式联邦学习场景中,攻击风险更加严重,因为攻击者可能针对更多的中间节点进行攻击,因此需要更严格的防御机制。
推理攻击:旨在推断关于私人用户数据的信息,从而损害用户隐私。例如,在参数传输过程中,恶意客户端可以根据每轮中梯度参数的差异,推断出其他客户端的敏感数据。并且多层分散联合学习场景中中间节点的攻击量更多,可能会面临更严重的恶意攻击,需要更严格的防御机制。
5.5 统一基准
由于联邦学习的发展时间相对较短,目前缺乏广泛认可的异构场景下的基准数据集和基准测试框架。异构基准框架提供了多种可能的客户端数据分布和模型结构。此外,不同客户端的统计和模型差异可以在一定程度上验证异构联邦学习算法的泛化能力。除此之外,还需要开发系统化的评估指标,公平全面地评估不同算法的安全性、收敛性、准确性和泛化能力,需要建立更加真实的、包含广泛机器学习任务的数据集,以促进联邦学习的发展。
参考:https://zhuanlan.zhihu.com/p/652910673
作者:叶茫
分享仅供学习参考,若有不当,请联系我们处理。
END
热文
2.会议信息 | 2023年11月截稿的密码学与信息安全会议整理
推荐