查看原文
其他

论文解读 | MetaFed:一种基于环形知识蒸馏的元联邦学习框架

陈益强 FATE开源社区 2024-01-02

 //     

针对近两年来隐私计算和联邦学习发展和应用中面临的安全、效率等挑战,可信联邦学习概念应势被提出。在这个方向上,相关专家学者对理论进行了持续丰富和拓展,并取得初步成果。我们将选择其中有代表性的论文进行分享。

今天给大家带来一篇名为《MetaFed:一种基于环形知识蒸馏的元联邦学习框架》论文作者投稿的解读文章。这篇论文提出了元联邦既联邦的联邦概念及MetaFed层次化动态环联邦学习框架。通过自适应的环形知识蒸馏,累积通用知识,舍弃冗余知识,以较小通信代价,达到在无中心服务端参与情形下获取精度提升及个性化学习。实验表明,在多联邦建模场景,本文方法能取得目前最好的结果。详细内容如下:



1

背景介绍


机器学习,尤其是深度学习,已被广泛应用于人们的日常生活。特别地,基于深度学习的人工智能技术已成为健康领域的重要解决方案,例如可穿戴行为识别、医学图像、疾病预警等。然而,随着人们数据隐私保护安全意识的提高,一些国家和组织相继发布了相关政策条例或法律,如欧盟的《通用数据保护条例》和中国的《中华人民共和国数据安全法》等。联邦学习(Federated Learning,FL)正是在此背景下应运而生,并持续吸引了学术界和工业界的广泛关注。


Google于2016年首次提出了一个联邦学习模型:FedAvg。FedAvg用模型参数交换代替直接数据交换的方式来保护数据隐私。尽管 FedAvg 在许多应用中都取得了可喜的性能,但其在更具一般性、更多样性的现实场景中可能并不可行。例如,FedAvg无法处理不同客户端的数据分布异质的问题;其也无法针对网络异构的场景进行建模。因此,亟待提出更普适性的联邦学习方案以解决此类问题。在本文中,我们将介绍一种新颖的联邦学习场景:元联邦(MetaFed),即联邦之联邦并提出一个相应的联邦框架。

论文信息

作者:Yiqiang Chen, Wang Lu, Xin Qin, Jindong Wang, Xing Xie

标题:MetaFed: Federated Learning among Federations with Cyclic KnowledgeDistillation for Personalized Healthcare

论文全文链接:

https://arxiv.org/pdf/2206.08516.pdf 

论文代码链接:

https://github.com/microsoft/PersonalizedFL


2

元联邦场景


在现实医疗场景中,多家医院构成一个联邦,多家疗养机构构成一个联邦,居家的不同用户又构成另外一个联邦。那么,如何在此不同的联邦体之间进行联邦学习呢?此即为联邦之联邦的场景。在此场景中,在每一个联邦体内部仍然是一个基础的联邦学习场景;而在不同的联邦之间,我们也需要构建模型以充分利用所有联邦体的异构数据进行学习建模。

图1:联邦之联邦学习场景

图1给出了此场景的抽象示意图。一定数量的客户端组成单个联邦,不同的联邦则足够独立、不存在中央服务器,并且联邦之间数据存在差异。在此场景下,如何为各个联邦获取好的个性化模型?易知,上述场景中除了不同联邦体和个体的数据隐私需要保护外,还存在两个问题:个性化以及中央服务器的缺失。而现有的横向联邦方法,如FedAVG等往往需要中央服务器的支持,且个性化效果受限,近期出现的点对点联邦方法如Swarm learning等,则尝试通过点点交互、轮流作中央服务器的方法来解决无服务器的问题。然而,此类方法通信代价巨大且个性化精度不高,因此,并不能用来解决上述问题。


理想的框架应该具有以下特点:
  1. 无需中央服务器支持;

  2. 需要极小的通信代价;

  3. 层次化联邦,即对相似的客户端进行横向联邦聚合、对差异化的联邦之间进行个性化处理;

  4. 动态灵活,即在多个联邦体的情形下,能够自发地、自由地构建交互路径;

  5. 可拓展,即能够很好地接纳新客户端或新联邦端的加入。


3

技术原理


在本文中,我们提出了一个新颖的框架MetaFed,即一种基于环形知识蒸馏的联邦的联邦学习框架。MetaFed可以解决数据孤岛和数据统计异构性问题而无需服务器。具体而言,MetaFed由两个阶段构成:共性知识积累阶段和个性化阶段。在这两个阶段中,模型依次在联邦端传递,通过知识蒸馏(Knowledge distillation, KD)进行自适应的信息交换。

图2:MetaFed框架

图 2 给出了该框架的流程。不失一般性,我们假设有四个联邦体。则共性知识积累阶段如蓝色箭头所示、个性化阶段如绿色箭头所示。在共性知识积累阶段,各联邦体按顺序进行训练,即前一个联邦端模型担任下一个联邦端模型的老师。共性知识积累阶段持续数轮,以确保每个联邦的共性知识被完全提取。个性化阶段也以相同的方式进行训练,但模型在没有经过本地训练的情况下被发送到下一个联邦,防止因本地过分训练丢失共性知识。图 2清楚地展示了MetaFed框架无需中央服务器的参与。 

图3:两个联邦之间的知识蒸馏

整个联邦阶段的信息交互完全通过特征蒸馏完成,如图3所示。因此,我们可以得出对应的目标函数为其中, 为分类损失,为特征蒸馏损失,g为特征提取网络,f为整个网络,我们的重点就是通过控制λ的值,来达到丢弃无用知识,获取有用共性知识的目的。下面,我们结合算法流程对两阶段进行具体描述。

图4:共性知识积累阶段算法框架

在共性知识积累阶段,联邦以环形的方式顺序训练,对当前联邦有用的知识将通过知识蒸馏保留,而其他无用的知识将被丢弃。通过几轮循环训练,对所有联邦有用的知识将被保留下来,我们将这种类型的知识称为共性知识。如图4所示,我们依据模型在当前联邦验证数据的准确度来决定保留多少前联邦模型的知识。如果当前模型已经足够好的时候,即时,我们就通过特征蒸馏进行知识传递,舍弃部分无用知识。反之,则表明当前联邦的知识量太少,我们需要充分利用之前的知识,即直接用之前的模型初始化当前模型。为了保持一定的个性化,我们可以保持局部联邦端模型批标准化层参数不变。由于要在这个阶段积累公共知识,因此固定以确保保留足够的共性知识。


在上述阶段,我们得到了包含足够共性知识的公共模型f,下面进入个性化阶段。由于不存在中央服务器,MetaFed仍采用环形知识传递框架。为了防止共性知识丢失,我们在本地训练之前将公共模型f传输到下一个联邦,相当于将公共模型f不变地按序传递给每个联邦端。第二阶段的具体细节可以参考图5。当通用模型在当前联邦的验证数据上表现非常糟糕时,其权重则会被设定来0表明其不具参考性,即λ = 0。当通用模型的性能在当前验证数据上可以接受时,我们则自适应地调整λ的值来决定知识的保留量:公共模型比局部模型好的越多,其权重越大,即对应的λ越大。

图5 个性化阶段算法框架


4

结果分析——特征偏移


我们首先在一个特征偏移的数据集VLCS上验证我们方法的有效性。该数据集有4个联邦端,5种类别,共计10729张图片样本。实验结果如表1所示。

表1 VLCS数据集结果

从表1中,我们可以看出,在特征偏移场景下,尽管其它的对比方法利用了中央服务器,其效果仍然无法超越MetaFed。具体而言,相比于最新方法FedBN,我们的MetaFed方法精度提高了3.89%。


5

结果分析——标签偏移


为了进一步说明我们方法的有效性,我们还针对标签偏移情形在一个时间序列数据集PAMAP和三个图片数据集OrganA,OrganC以及OrganS上进行了实验。针对这四个数据集,我们通过狄利克雷分布将数据分成20份,每份对应一个联邦端,数据分布如图6所示。

图6 数据分布

从表格2和表格3中我们可以看出,我们的方法在所有数据集上均取得了最佳平均精度。这些结果充分表明,我们的方法对于标签偏移同样有效。

表2 PAMAP结果

表3 OrganA,OrganC,OrganS结果


6

结果分析——鲁棒性


在实际应用中,通信成本是一个重要的评估指标。因此,在少量通信成本情形下具有稳定且可接受的性能至关重要。所以,我们对通信代价展开进一步评估以尝试证明在受限通信代价情形下,我们的方法依然是鲁棒的。

图7 PAMAP上不同通信代价下的效果表现

实验中,我们增加了局部迭代次数,同时减少总通信轮次来评估我们的方法和基线。如图7所示,在通信成本受限的情况下,我们的方法具有一定的稳定性,而基线方法FedAvg下降严重。


7

 总结与未来工作


在本文中,我们提出了 MetaFed,它是一种基于环形知识蒸馏的联邦的联邦学习框架。MetaFed不需要中央服务器,其包含共性知识积累和个性化两个阶段,通过自适应蒸馏进行知识传递。丰富的实验证明了MetaFed的有效性和鲁棒性。


未来,我们计划将MetaFed与FedAvg等常用方法结合起来,实现一个完整的联邦学习系统,包括联邦内部和联邦之间。我们还计划为异构架构、纵向联邦等多个场景扩展MetaFed,并将MetaFed应用到更现实的医疗保健应用中。我们期望未来我们的这种架构可以让联邦学习更加灵活、动态、可拓展,期望它向互联网一样方便快捷。最后,我们还将进一步丰富我们的个性化联邦开源库PersonalizedFL,为联邦社区发展做出更多贡献。


论文获取方式

扫描上方二维码或者点击阅读原文获取论文链接


END


点击蓝字,获取论文链接

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存