查看原文
其他

论文分享|联邦学习中保护隐私的梯度聚合方式

论文名称:Private Parameter Aggregation for Federated Learning

论文链接https://link.springer.com/chapter/10.1007/978-3-030-96896-0_14

本文来源 SecurityLabUJN,由济南大学信息科学与工程学院2022级硕士研究生沈平章总结


联邦学习使多个分布式参与者(可能在不同的数据中心或云上)能够通过共享参数或梯度来协作和训练机器/深度学习模型。然而,共享梯度,而不是集中数据,可能不像人们预期的那样私密。对纯文本梯度的逆向工程攻击已被证明是切实可行的。由于参与者或聚合者可以在诚实地参与协议(所谓的诚实但好奇的信任模型)的同时对模型参数进行逆向工程,这个问题变得更加隐蔽。差分私有联邦学习的现有解决方案虽然很有前景,但会导致模型不太准确,并且需要非平凡的超参数调整。在本章中,我们(1)描述了联邦学习中的各种信任模型及其挑战,(2)探索在联邦学习中使用安全多方计算技术,(3)探索如何有效地使用加法同态加密来进行联邦学习,(4)将这些技术与其他技术进行比较,例如添加差分私人噪声和使用专用硬件,以及(5)通过真实世界的示例说明这些技术。


1

本文背景

分布式机器和深度学习 (ML/DL) 在多个应用领域的一些早期成功是在大规模集中数据收集的背景下,无论是在单个数据中心还是在云服务。但是,在(第三方)云服务中集中收集数据可能会非常侵犯隐私,并且在发生数据泄露时会使组织(云服务的客户)承担巨大的法律责任。在医疗保健数据、语音记录、家用相机、金融交易等方面尤其如此。集中的数据收集通常会导致数据上传后“失去控制”。一个用户经常得不到满意答案的常见问题是“云服务是否按照承诺使用了我的数据?当它声称这样做时,它实际上是在删除我的数据吗?”。政府法规(如 HIPAA 和 GDPR)迫使那些不相信隐私侵犯和失控的组织限制与第三方服务的数据共享。

联邦学习 (FL) 旨在缓解上述问题,同时保持 ML/DL 模型的准确性。FL工作中的实体可以小到智能手机/手表,也可以大到拥有多个数据中心的组织。FL算法旨在在多个实体上训练 ML/DL 模型,例如特定的神经网络模型或 XGBoost 模型,每个实体都有自己的“本地”数据集,而不交换任何数据。这会产生多个“局部模型”,然后通过仅交换参数(例如,神经网络模型的权重)来组合(聚合)。FL算法可以使用中央协调器来收集所有本地模型的参数进行聚合,也可以是点对点算法(广播、覆盖多播等)。

最初,人们认为联邦学习 (FL) 通信中交换的模型更新将包含更少(如果有的话)有关原始训练数据的信息。因此,共享模型更新被认为是“隐私保护”。然而,即使不能立即识别,训练数据信息仍然嵌入在模型更新中。最近的研究证明了通过利用模型更新来推断私有属性和重建大部分训练数据的可行性和简易性,从而挑战了FL在诚实但好奇的聚合服务器的存在。


2

基于差分隐私的联邦学习

2.1 Differentially Private(DP)的概念

差分隐私是一个框架,它以限制私人信息披露的方式发布数据集上的计算或查询结果。简单地说,如果观察者看到数据集的输出时无法判断计算中是否使用了特定个人的信息,则数据集上的计算称为差分隐私。


2.2 ε-differentially private

如果对于所有数据集X,X’仅相差一个数据项,并且t的所有值满足

则一个随机函数f(·)是ε-differentially private。其中ε是一个量化隐私风险的参数,ε的值越低隐私性越强。


2.3 (ε,δ)differentially private

f(·)满足

这个定义被解释为f(·)是差分隐私的概率为1−δ。δ是一个很小的松弛项,可以使左边等式不变的情况下使ε变小,提高隐私保护性。

为了实现差分隐私,在f(·)的输出中添加一个噪声项,其方差依赖于参数ε和δ(additive Gaussian noise term,均值为0,方差

∆f是f(·)的敏感度,敏感度是当底层数据集的单个元素发生变化时计算量变化的度量。

2.4 DP-SGD

小批量SGD的更新规则:

在梯度交换过程中共享的量为:

因此,添加到(ε,δ)differentially private中的方差为


2.5 DP-SGD算法

其中clip gradient是对梯度进行切分,防止梯度爆炸。


2.6 实验结果分析

通过实验可知,ε越低,噪声越多,隐私更多。即使非私有版本的模型准确度水平对于不同批次大小的值几乎没有变化,但私有版本的训练对批次大小S高度敏感。我们已经能够达到类似的准确度模型的私有版本的级别与非私有版本的级别相同,即使在非常低的值下也可以通过简单地增加批量大小来实现。


3

MYSTIKO系统

3.1 MYSTIKO系统结构

A Job Manager:在其生命周期中管理FL作业——它跟踪参与者,帮助参与者商定超参数,检测故障,并更新成员资格。

Membership Manager:负责建立每个参与者和Mystiko之间的关系,并跟踪属于每个联邦学习工作的参与者。

A Key Generator

A Decryptor


3.2 MYSTIKO算法

3.2.1 Basic Ring-Based Algorithm

1.沿着环形拓扑结构排列学习者(按位置,最小化参与者之间的地理距离;遵循基于参与者名称的层次结构(升序或降序);通过对参与者的姓名/身份使用一致的哈希)

2.为每个联邦学习参与者生成一个Paillier公钥私钥对

3.通过TLS分发给学习者

4.每个学习者用Paillier公钥加密自己的梯度向量,并与接收上一个学习者的梯度向量聚合,发送给下一个学习者

5.最后一个学习者将聚合的梯度向量发给Mystiko的解密器解密

6.解密后通过TLS发送给每一个学习者


3.2.2 基于广播算法的Mystiko

基于环的算法的主要缺点之一是建立和维护环拓扑的结构。为了缓解这种情况,另一种替代方法是使用组成员身份和广播。除了建立拓扑结构外,其他设置都保持不变。学习者在Mystiko的Membership Manager那里注册,达成一个共同的PKI,并知道参与者的身份和数量。MYSTIKO为每个联邦作业生成一个公私钥对,并将公钥安全地分发给每个学习者。


每个学习者对其梯度向量进行加密,并向所有其他学习者广播加密的向量。每个学习者在收到来自P−1学习者的加密向量后,将它们相加,并将加密和发送给Mystiko进行解密。解密后,聚合的梯度向量通过TLS安全地传输给所有的学习者。


广播算法是冗余和浪费的,因为每个学习者都在计算聚合。但是,随着冗余性的增加,故障弹性也会增加。对于环,一个参与者的失败会导致聚集梯度的部分损失,而这不是广播的情况。


3.2.3 基于All-Reduce的Mystiko

在All-Reduce中,Paillier加密梯度向量被分成P个块,其中P是参与者的数量。然后所有学习者并行聚合Paillier加密块。例如,上图中有3个学习器,每个梯度向量被分成3个块。  Learner-2不会等待Learner-1的整个向量被接收。相反,当它接收Learner-1的第一个数据块时,它会将自己的第二个数据块传输给Learner3,后者将其第三个数据块并行传输给 Learner-3。在步骤2中,Learner-2将部分聚合的chunk-1传输给Learner-3,Learner-3将部分聚合的chunk-2传输给Learner-1,Learner-1将部分聚合的chunk-3传输给Learner-2。在第2步结束时,每个学习者都有Paillier加密的聚合块,这些块被传输到MYSTIKO的Decryptor 进行连接和解密。


3.3 实验结果比较

广播比基本环协议执行和扩展更好,因为每个参与者都在广播而不等待其他参与者。SPDZ的性能和规模比广播更差,因为它的通信模式接近(但不完全是)双重广播——每个参与者的梯度向量的每个项目都被分成秘密份额并广播给其他参与者;安全聚合后,结果被广播回来。MYSTIKO 通过使用 Paillier 加密和聚合梯度的集中解密消除了双重广播的需要。当考虑总同步时间时,使用All-Reduce的“巨大”加速并没有实现。四种协议的可扩展性趋势保持不变;总同步时间的加速仍然显著。但是由于通信,加速比低于加速比。这表明MYSTIKO和 SPDZ中私有梯度下降与非私有梯度下降的主要开销是通信之前的梯度变换。从图中,我们还观察到对于小型模型(5层CNN和Resnet18),通信时间起着更大的作用。但对于大型模型(Resnet-50和VGG-16),梯度变换的作用更大。


最后,我们观察到,与训练时间(使用纪元时间说明)相比,私有梯度下降的同步时间明显大于非私有梯度下降。这主要是因为训练发生在V100 GPU(具有数千个内核)上,而梯度变换发生在 CPU 上。虽然有一个完全同态加密的GPU加速版本(它在CPU上的性能比Paillier差),但我们不知道 Paillier 算法的任何 GPU 加速版本。


4

总结

在本文中,我们研究了用于联邦学习的私有参数聚合的各种选项。很明显,每种方法都有其独特的优点和缺点,寻找完美解决方案是一个活跃的研究领域。从信息泄漏的角度来看,差分隐私非常有前途,但它 (1) 降低了模型的准确性,并且 (2) 涉及非平凡的超参数调整(批量大小、学习率计划)以获得最佳结果(甚至接近最佳结果)。


由于不能保证所有参与者在较长时间段内都可用,而且运行多个实验会增加整体延迟,因此在联合设置中可能无法通过尝试不同参数进行超参数调整。同态加密和安全多方计算不会改变准确性或收敛速度,也不需要超参数调整。但是它们会产生很高的运行时开销——如果聚合协议经过精心设计,使用加法同态加密可以在很大程度上减少这种情况,如 MYSTIKO 所示。

分享仅供学习参考,若有不当,请联系我们处理。


END

1.论文分享|通过区块链系统保护隐私的拜占庭式鲁棒联邦学习

2.论文分享|基于预言机的条件支付(NDSS 2023)

3.论文分享 | 具有可信执行环境的混合信任多方计算

4. 会议信息 | 2024年1月截稿的密码学与信息安全会议整理


继续滑动看下一个
隐私计算研习社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存