基于差分隐私的联邦学习数据隐私安全技术
The following article is from 信息安全与通信保密杂志社 Author Cismag
内容目录
联邦学习概述
联邦学习面临的隐私威胁
尽管联邦学习系统中各个参与方的训练过程是独立进行的,且没有原始训练数据的传输,可以保证一定的隐私安全,但这并非绝对安全的。恶意的参与方可以从更新信息中推理出较为活跃的成员信息,甚至可以重构训练数据。
2.1 联邦学习中的隐私威胁
2.2 模型提取攻击
在模型提取攻击中,攻击者试图窃取模型的参数、超参数等,破坏了模型的机密性。
一般而言,模型提取攻击中,攻击者试图构建一个与原模型相似的替代模型。因为攻击者缺少对模型结构的了解,所以此类攻击一般为黑盒攻击。首先,攻击者利用一组数据
图 1 模型提取攻击的基本原理
在实际应用过程中,联邦学习模型的训练代价与成本都是较高的,而模型提取攻击使得攻击者能够以极低的训练代价获得一个与原始模型性能相近的替代模型,严重损害了联邦学习参与方的隐私安全和商业利益。
2.3 模型逆向攻击
在模型逆向攻击中,攻击者一般试图通过在训练完毕的模型中不断地查询,获得一些统计信息,进而推理出用户的隐私信息。根据攻击者推理的信息,可以将模型逆向攻击分为属性推理攻击(Property Inference Attack,PIA)和成员推理攻击(Member Inference Attack,MIA)。在属性推理攻击中,攻击者的目标在于判断参与方的训练数据集中是否含有某个特征。在成员推理攻击中,攻击者的目标在于判断某一条数据记录是否包含在参与方的训练数据集中。
除上述推理攻击,近几年一些基于生成对抗网络(Generate Adversarial Networ,GAN)的推理攻击也成为一种较常见的逆向攻击的手段。
防御隐私威胁的措施
联邦学习的隐私防护工作需要从参与方和服务器两大主体分别进行。从原理上来看,多数联邦学习隐私安全的方法都是基于密码学的。
基于密码学的联邦学习隐私安全方法主要包括安全多方计算 、同态加密 等,主要用于模型训练阶段的隐私保护,可以防御一些模型逆向攻击。这些方法可以用来防御恶意的或“诚实但好奇”的参与方和服务器端,且在传输信息被截获的条件下,仍然能从密码方面保障安全。这些保护措施的安全性主要体现在密码学算法的安全性,同时需考虑密码学算法的时空效率。
另外有一些不基于密码学的隐私安全方法,例如差分隐私(Differential Privacy,DP),主要用于模型训练完毕后的隐私保护,其可以通过加噪的方法防御一些模型提取攻击和推理攻击。这些保护措施的安全性的高低主要体现在能否使得明文信息能够推理出尽量少的敏感信息。
差分隐私方法概述
其中,
用差分隐私保护联邦学习系统安全
在安全保护领域的隐私保护机器学习(Privacy Preserving Machine Learning,PPML)技术中,主要有两种攻击者:一种是“诚实但好奇”的攻击者,这种攻击者会诚实地遵守协议,但会试图从接收到的信息中获取更多输出结果以外的信息内容;另一种是恶意的攻击者,这种攻击者不遵守规定的协议,会试图发起任意的攻击行为。本文采用拉普拉斯机制来实现差分隐私,提出了一种差分隐私方法,并简要分析了方法的合理性。
5.1 联邦学习服务器对隐私安全的保障
为了满足以上隐私保护的目的和要求,本文在协调方发送给各个参与方的全局模型上实施差分隐私保护。在本文的联邦学习系统中,聚合算法采用联邦平均法,其表达式为:
式中:t 为全局模型更新的轮次
因此,当“诚实但好奇”的参与方或是恶意的参与方对模型发起成员推理攻击,威胁参与方隐私安全和数据安全时,所要查询的就是协调方发送给各个参与方的全局更新模型
式中:
为了防止服务器发出的全局更新被攻击者推理出敏感信息,服务器将在聚合时对模型梯度添加噪声。这里采用的是拉普拉斯机制。服务器端的聚合方法如下:
其中,查询函数敏感度的一个边界为:
式中:
由 式(10) 可 知, 因 为
式(11) 中, 当
因为查询敏感度有一个上界
5.2 联邦学习参与方对隐私安全的保障
对于一个非恶意的服务器而言,如 4.1 节所述,其隐私保护的主要目的是防御恶意的参与方或外部攻击者实施推理攻击。同样地,作为一个联邦学习参与方,也需要防范一些非善意的参与方或服务器试图破坏隐私安全的行为。因此,参与方在上传其梯度更新时,也将对梯度进行一些诸如梯度裁剪的处理,以保护其隐私安全。
对于参与方而言,通过对裁剪梯度,可以做到本地差分隐私(Local Differential Privacy,LDP)。在这种方式之下,参与方对自己上传至协调方的梯度进行扰动,对梯度进行裁剪再上传至协调方可以在协调方不受到信任的时候能够有效地对本地数据进行保护,将已混淆的数据发布至不受信任的协调方可以有效地保护参与方用户的隐私安全和数据安全。同样地,据 3.3 节所述,下列算法能够做到
参与方所完成的任务是训练本地模型并上传更新梯度,上传更新的算法如下:
5.3 实验分析
据 5.1 节与 5.2 节所述,算法 1 和算法 2 在理论上能够做到差分隐私。下文将分析差分隐私对联邦学习性能的影响度,这里采用的实验数据集为CIFAR-10,采用的图片分类模型为卷积神经网络(Convolutional Neural Network, CNN)的 ResNet-18网络结构。
5.3.1 收敛效率与准确率分析
本节分别对比了联邦聚合算法FedAvg和FedSGD在 加 入 差 分 隐 私 前 后 的 性 能。将 联 邦 平 均 算 法FedAvg 的参数设置为:全局模型迭代轮次(epochs)E=100,参与方总数 N=10,每轮选择参与训练的参与方数量 n=3,参与训练的用户方本地训练轮次e=3。联邦梯度下降算法 FedSGD 参数设置为:全局模型迭代轮次 E=100,参与方总人数 N=10,每轮选择参与训练的参与用户数量 n=10,参与训练的用户方本地训练轮次 e=1。基于拉普拉斯噪声的差分隐私算法的参数设置为:拉普拉斯噪声的标准差
实验结果如图 3 所示。由图 3 可知,图中所示训练方法的模型准确率都随训练轮次的增加而逐渐增加,最后都稳定在 75% 左右,且两种聚合算法FedAvg 和 FedSGD 的收敛速度和准确率无明显区别。同时发现,添加了差分隐私的两种联邦平均算法与不添加差分隐私的原始算法的收敛速度与准确率也无明显差距。这说明,差分隐私一般不会显著影响模型的收敛性能。
图 3 联邦聚合算法 FedAvg 和 FedSGD在加入差分隐私前后的性能对比
5.3.2 差分隐私参数的变化影响分析
本节分析的参数是隐私预算,这里通过调整拉普拉斯噪声的标准差 σ 来控制隐私预算,所用的聚合算法是 FedAvg,其参数设置为:全局模型迭代轮次 E=100,参与方总数 N=10,每轮选择参与训练的参与用户数量 n=3,参与训练的用户方本地训练轮次 e=3,参与方上传的梯度的裁剪阈值 c=1。对添加拉普拉斯噪声的大小按一定间距设置,并进行对比。
实验结果如图 4 所示。从图中可以看出,在同样的迭代轮次中,随着添加的拉普拉斯噪声标准差逐渐增大,即随着隐私预算的减小,训练模型的准确率有明显的降低。若要使联邦学习训练模型达到同样的准确率和性能大小,需要训练更多的轮次才可达到这样的效果。结合图 3 可以发现,虽然差分隐私措施对于模型的收敛性可能无显著影响,但收敛后的最优效果可能随着隐私预算的减小而出现显著损失。
5.3.3 裁剪阈值的变化影响分析
本节对裁剪阈值的变化进行分析,所用的聚合算法是 FedAvg,其参数设置为:全局模型迭代轮次E=100,参与方总人数 N=10,每轮选择参与训练的参与用户数量 n=3,参与训练的用户方本地训练轮次 e=3,模型添加的噪声
图 4 添加的拉普拉斯噪声的大小对联邦学习模型准确率的影响
实验结果如图 5 所示。可以发现,不同参与方上传的梯度裁剪阈值下的曲线几乎重合,即参与方上传的梯度裁剪的阈值的不同对模型的性能无显著影响,即不会显著影响模型训练的准确率和模型收敛性。
图 5 裁剪参与方上传梯度的阈值对联邦学习模型准确率的影响
综上实验结果分析表明,这里提出的差分隐私算法,除了在理论上能够保证差分隐私,也不会对被保护模型的收敛性能有显著影响。然而,拉普拉斯噪声的添加会导致模型准确率的下降,且随着噪声标准差的增大,模型准确率的下降愈发剧烈。此外,梯度裁剪方法不会对模型准确率产生显著的影响,这是因为梯度裁剪算法并没有向梯度信息中添加噪声。在简单模型和数据集上,差分隐私算法的添加也不因聚合算法的不同而显著影响模型的收敛性能和准确率。因此,可以得出,上述的联邦学习差分隐私算法在不显著影响模型准确率的前提下能实现隐私保护。
结语
本文主要研究了差分隐私在联邦学习隐私保护中的一些应用,探讨了差分隐私的不同实现机制及其适用条件。最后本文讨论了差分隐私对联邦学习系统中不同角色的应用方法,简要分析了具体算法,并得出联邦学习中差分隐私方法能够在不显著影响模型准确率的前提下实现隐私保护。
此外,联邦学习本身虽然有一定的隐私保护属性,但仍存在一定的隐私风险。在联邦学习系统中,差分隐私方法中裁剪的阈值和噪声的大小决定着对参与方本地数据隐私和用户隐私的保护强度,裁剪阈值越小则对本地数据隐私保护的强度越强,噪声大小越大则对用户隐私的保护强度越强。
引用本文:黄精武.基于差分隐私的联邦学习数据隐私安全技术[J]. 通信技术 ,2022,55(12):1618-1625.
往期推荐
1.基于密码的数据安全防护体系研究
2.零知识证明与多方安全计算之间是什么关系?3.首次发现!数据异构影响联邦学习模型,关键在于表征维度坍缩 | ICLR 20234.隐私计算领域大咖推荐,这些国内外导师值得关注