ECCV 2022 | FedX: 在无监督联邦学习中进行知识蒸馏
©PaperWeekly 原创 · 作者 | 张成蹊
单位 | Freewheel机器学习工程师
关键词:联邦学习(Federated Learning),对比学习(Contrastive Learning),知识蒸馏(Knowledge Distillation),无监督学习(Unsupervised Learning)。
相关背景
联邦学习假设数据分散在不同的客户端中,且不能与中央服务器共享;截止目前,已经有很多有监督联邦学习用在下游任务的相关研究,如目标检测、图像分割、人员重识别等,但对于无监督联邦学习的需求也在逐步增加,以应对一些本地客户端缺失数据的场景。其中比较具有挑战性的研究点为:
数据在不同客户端是离散且异构的,不满足数据独立同分布的条件,所以联邦学习算法必须考虑到独立客户端与全局数据分布不同时的有偏情况;
在数据有偏到一定程度,客户端可能只拥有较少的数据,此时需要引入无监督/半监督的联邦学习方法,使得每一个客户端都从全局模型中获益,达到较好利用本地数据的目的。
联邦学习的整体流程如下图所示:
Local Update:每个client各自学习自己的样本表示,获得各自独立的本地参数模型;
Local model update:将本地参数模型上传到中心服务器; Global aggregation:中心服务器对所有 client 上传的模型进行聚合,最简单的方式是(假设本地模型都是同构的)根据 client 各自拥有样本数量的占比进行加权平均;
Global model download:每个 client 将 global model 各自下载到本地。
提出了无监督的联邦学习算法 FedX,使用了局部与全局两个阶段的蒸馏来学习不同客户端的数据表示;两阶段的知识蒸馏能够发现有意义的本地数据向量表示,同时通过全局的知识蒸馏消除不同客户端之间的偏差;
FedX 是一个可以被用于现有联邦学习扩展的算法,提升现有联邦学习算法的性能(1.58-5.52pp),同时对不同客户端的数据严格保密,不(像部分现有的无监督联邦学习算法一样)直接在不同客户端之间进行数据的共享;
FedX 已开源。
以 SimCLR 为例,传统对比学习的损失函数如下所示:
作为一个独立的本地客户端,其学习的目标是基于自己拥有的本地数据,获得数据有意义的向量表示。
这两个分布代表了一组相似的正样本关于其它负样本的相对分布情况。容易发现,如果模型真的能辨认出增强前后的样本归属于同一个样本(或者标签),那么,除了对比学习本身设计的学习目标 —— 这两个样本间的相似度高于同批次中其他负样本的相似度——以外,这两个样本对于某个随机的负样本的相似度分布也应该相似。
那么,对于另一个随机采样的样本(比如猫的某个视角),正样本的向量和随机采样样本的向量的相似度,预期上应该是低于正样本的向量和另一张狗的随机采样样本的相似度的;而作为正样本的增强样本,它对于不同的随机样本,也应该具有这样相似的特性。
2.2 全局损失
除了局部的损失函数外,作者也引入了全局的损失函数。其出发点为:局部模型不但要从自己独立的样本中来学习分布,自然也要从全局模型中学习信息,所以在全局上提出了与局部损失类似的全局损失函数。唯一的差别在于,全局损失函数的关系损失函数中,随机采样的负样本的表示向量从全局模型中取得(从作者的代码中可以发现,此时全局模型的参数是冻结的,只用于提供特征向量)。
全局模型主要目的是解决局部数据和全局数据的分布不一致所造成的的偏差,从而避免局部模型从上述过程中往局部最优收敛。
作者也进行了一系列的有效性实验,以证明 FedX 在不同场景,不同设定下的有效性。
值得注意的是,在论文的最后,作者也提出了将 FedX 扩展到半监督学习的场景中的设定,在这个场景下,首先用未标注数据对模型进行参数的初始化,然后再在模型上层添加一个全连接层,使用标注数据再额外训练一定的轮次做微调。发现 FedX 在半监督的算法场景下也能带来一定的提升,进一步证明了 FedX 不仅能够用于无监督场景下的联邦学习,也能用于少数据场景下的半监督学习。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编