查看原文
其他

CCVR:一种生成虚拟数据的联邦学习算法

齐天宇 隐私计算研习社 2024-01-09
在真的联邦系统中训练分类模型的一个核心挑战是使用非iid数据进行学习。现有的大部分工作都涉及到在局部优化中实施正则化或在服务器端改进模型聚合方案。虽然有效,但他们缺乏对数据异构性如何影响深度分类模型的每一层的深入理解。在本文中,我们通过对不同层学习到的表示进行实验分析来弥合这一差距。

目前通过观察存在如下一些情况:

(1)分类器存在较大的偏差。

(2)联合训练后对分类器进行后校准,可以显著提高分类性能。

对此提出了一些新的算法,称为虚拟表示分类器校准算法(CCVR)。该算法使用从近似高斯混合模型中采样的虚拟表示来调整分类器。


论文标

No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data论文链接:https://arxiv.org/abs/2106.05001
1

介绍
对于noniid的探索大致可以分为4类:1、客户端漂移缓解,修改客户端的局部目标,使局部模型在一定程度上与全局模型一致。2、聚合方式,改进了服务器端的模型融合机制。3、数据共享,引入公共数据集。4、个性化联合学习。
我们对深度神经网络的每一层进行了彻底的实验研究。具体来说,我们测量来自不同客户端本地模型的同一层的表示之间的中心内核对齐(CKA)相似性。最后我们通过在训练过程中对分类器进行正则化或训练后校准分类器权重来对分类器进行去偏移。然而,由于该方法侵犯了联邦学习中的隐私规则,因此无法在实践中直接部署。
基于上述发现和考虑,我们提出了一种新的保护隐私的方法,称为虚拟表示分类器校准(CCVR),该方法在联邦训练后对深度网络的决策边界(分类器)进行校正。CCVR利用学习到的特征提取器在特征空间中基于近似高斯混合模型(GMM)生成虚拟表示。
贡献主要体现在以下三个方面:(1)首次系统地研究了非iid数据上FedAvg训练的不同层次神经网络的隐藏表示,为理解异构数据下的联邦学习提供了一个新的视角。(2)我们的研究揭示了一个有趣的事实,在非iid数据上训练的神经网络性能下降的主要原因是分类器。(3)我们提出了CCVR(基于虚拟表示的分类器校准)——一种用于联邦学习的简单而通用的分类器校准算法。CCVR建立在现成的特征提取器之上,不需要传输原始数据的表示,因此不会引起额外的隐私问题。
2

相关工作关于Noniid:1、客户端漂移缓解。当全局模型使用不同的局部目标进行优化时,局部最优值彼此之间距离较远,由此产生的客户机更新(服务器更新)的平均值将远离真正的全局最优。FedAvg不得不使用较小的学习率,或减小局部迭代次数,或采用正则项。2、聚合方案。解决方式:采用动量更新、对本地更新进行规范化等等。3、数据共享。可能会侵犯隐私。4、个性化的联合学习。
本文考虑训练一个单一的全局分类模型。且本文提出的CCVR算法不属于上述任何一个研究方向,但可以很容易地与现有的大多数联邦学习方法相结合。


3

联邦学习中的异构性

Problem Setup

设存在个客户端,每个设备带有个数据。假设整体数据中存在个类,设为一个数据,那么表示第个设备上类别为的样本集。这里将分类模型分解为深度特征提取器和线性分类器。给定特征,分类器将其映射为向量,然后分类器映射为向量中,进行概率计算得到分类,所以整体模型的参数为联邦学习便是计算如下式子: 

之后再进行聚合:

Classifier Bias

在此用10个客户端进行实验。利用最近提出的中心内核对齐(CKA)来衡量给定相同输入测试样本的两个局部模型之间输出特征的相似性。CKA输出的相似度评分介于0(完全不相似)和1(相同)之间。随机选择三个层得到的结果如图:

我们发现较深层输出的特征具有较低的CKA相似性。这表明,对于在非iid数据上训练的联邦模型,较深的层在不同的客户端之间具有更强的异构性。通过对CKA进行平均计算,可以得到如下图:
结果表明,与使用IID数据训练的模型相比,使用非IID数据训练的模型在客户端所有层的特征相似性均较低。我们观察到,在初始训练阶段,分类器的权重准则会偏向于训练样本较多的类。在训练结束时,非IID数据训练的模型比IID数据训练的模型有更重的偏分类器。由于分类器是离局部标签分布最近的一层,因此很容易偏向于异构的局部数据,表现为不同局部分类器之间特征相似性低,权重规范偏倚。此外,我们相信对分类器进行去偏处理可以直接提高分类性

Classifier Regularization and Calibration

为了有效地去偏见分类器,我们考虑以下正则化和校准方法。1、分类器权重归一化:为了消除分类器权值规范的偏差,我们在训练和推断阶段对分类器权值向量进行归一化。设分类器的权重参数为,给定特征,分类器的输出为:2、分类器的二次正规化:要添加一个近端项来限制分类器的权值接近从服务器接收到的全局分类器权值向量。 3、分类器后校准与IID样本:除了在联邦训练中对分类器进行正则化,我们还考虑使用后处理技术对学习到的分类器进行调整。在联邦训练之后,我们对特征提取器进行修复,并通过在IID样本上进行交叉熵损失的SGD优化来校准分类器。但这种校准策略需要从异构客户端收集的IID原始特性,因此只能作为一个实验研究使用,不能实际应用。在三种不同数据异质性程度的CIFAR-10上对上述三种方法进行实验比较,结果如下:为了进一步理解分类器校准技术,我们另外使用不同数量的数据样本和不同的由FedAvg和FedProx训练的现成联邦模型进行校准。结果如下图所示:在调整分类器之后,这些显著的性能改进有力地验证了我们前面提到的假设,即问题出现在分类器中。

Classifier Calibration with Virtual Representations

基于上述观察结果,我们提出了在对全局模型进行联邦训练后运行在服务器上的虚拟表示分类器校准(CCVR)。CCVR使用来自估计高斯混合模型(GMM)的虚拟特征,而不访问任何真实图像。设分别是特征提取器和分类器,那么为FedAvg的全部参数,这里将用进行特征提取,并利用虚拟表示重新训练

特征分布估计。对于分类问题来说,利用深度神经网络学习的特征可以用高斯分布的混合形式表示,也就是任何一种分布都可以由多个高斯分布混合得到。我们假设中的每个类的特征遵循高斯分布。服务器使用从客户端收集的本地统计数据,不访问真实的数据样本或它们的特征,通过计算中每个类的平均和协方差来估计这个分布。

首先,服务器首先将训练好的全局模型的特征提取器发送给客户端。令表示设备上的类别的数量。设客户端产生特性,也就是中的第个元素的特征。按照如下式子计算:

客户端将此均值和方差上传给中心。中心服务器进行整体的每个类别的均值和方差计算:

对于协方差有:

最后可以推导出:

接收到相应的之后,然后根据其生成高斯分布的标签为的数据。对于类别的虚拟特征数量可以由决定。

最后一步是重新训练分类器,首先提取全局的分类器,然后利用刚刚生成好的数据进行优化: 

因为每个客户机只上传其本地高斯统计数据,而不是原始表示。因此可以很容易地将它与一些隐私保护技术结合起来。


作者简介:齐天宇,北京理工大学自动化学院智能信息与控制研究所研究生。主要研究兴趣包括机器学习、联邦学习、隐私保护。知乎:一朵小脑花。
END

往期推荐


1.全同态加密知识体系整理(下)
2.PSI系列(2)组件 | OT Extension (IKNP)3.PSI系列(1)组件 | Cuckoo Hashing4.笔记分享 | 冯登国院士MPC讲座(1)——MPC基本概念和基础组件


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存