走近隐私计算 | 联邦学习的安全挑战与优化之道(上)
前言
隐私计算作为保障数据价值挖掘过程中隐私安全的技术集合,能够在释放数据价值的同时,实现数据处于加密状态或非透明状态下的流通与计算,以达到各参与方隐私保护的目的。
本系列“走近隐私计算”将陆续带来隐私计算的几种技术路径(多方安全计算、同态加密、零知识证明、可信执行环境、联邦学习等),感兴趣可以点击下方【往期推荐】查看。
联邦学习本质是一种分布式机器学习技术,各参与方在“中心协调员”的协调下共同训练模型,其中参与方负责训练本地数据集得到本地模型,“中心协调员”负责加权聚合本地模型,获得全局模型,经过多轮迭代后最终得到一个接近于集中式机器学习的训练模型,有效的解决了不同机构之间存在数据壁垒不能联合训练的问题。
▲联邦学习原理图
从执行过程可以看出联邦学习拥有以下特点:
参与方参与联邦学习的训练过程但数据始终保留在本地,上传的只是模型信息。
联邦学习的参与方联合训练出的模型将被各参与发共享。
联邦学习最终的模型精度与传统机器学习方法接近。
文献[2]提出将联邦平均算法(FedAvg)用于横向联邦学习的模型训练,联邦学习的目标函数优化算法中,通常采用大批量随机梯度下降(SGD)算法,通过本地参与方模型训练的损失函数,乘以固定学习率。假设“中心协调员”和参与方已拥有初始模型Wt-1
第k轮“中心协调员”计算
其中,m表示参与总人数,n指所有参与方数据量总和,
1)通信协议:联邦学习使用随机选择的客户端实现迭代学习过程,这涉及给定网络上的大量通信。
2)客户端数据操作:中央服务器负责共享初始模型参数,聚合本地模型,并向所有客户端共享全局模型更新。应该检查用于此任务的基于云的或物理服务器,以确保服务器的公开漏洞不会被好奇的攻击者利用。
3)中央服务器:中央服务器是健壮和安全的,中央服务器负责共享初始模型参数,聚合本地模型,并向所有客户端共享全局模型更新。
4)较弱的聚合算法:聚合算法承担了本地模型的更新任务,需要智能地识别客户端更新的异常,并且提供相应的配置支持删除来自可疑客户端的更新。
5)联邦学习环境中的人员复杂度:参与联邦学习实现的架构师、开发人员和部署人员团队可能会成为安全风险的来源。由于缺乏对敏感用户数据和非敏感用户数据的理解,可能会导致安全和隐私上的风险。
6)供应链安全:联邦学习框架依赖于不同的库、第三方软件以及算法支撑,供应链层面的复杂容易引入多方风险,并对供应链安全提出了更高的挑战。
1机密性攻击攻击者窃取训练数据中嵌入的敏感信息,通过暴露目标模型信息及其预测结果来破坏机密性,威胁参与者的隐私。主要分为以下6类:
1、中毒攻击在联邦学习中,由于每个客户端都能够接触到模型参数以及训练数据,因此一些恶意的客户端很可能会将被篡改的数据或权重发送给服务器,从而影响全局模型。
1)数据中毒(data poisoning):数据投毒是指攻击者通过对训练集中的样本进行污染,如添加错误的标签或有偏差的数据,降低数据的质量,从而影响最后训练出来的模型,破坏其可用性或完整性。
2)模型投毒(model poisoning):模型投毒不同于数据投毒,攻击者不直接对训练数据进行操作,而是发送错误的参数或损坏的模型来破坏全局聚合期间的学习过程[4] ,比如控制某些参与方传给服务器的更新参数,从而影响整个学习模型参数的变化方向,减慢模型的收敛速度,甚至破坏整体模型的正确性,严重影响模型的性能。
3)数据篡改(data modification):数据篡改攻击可能涉及改变训练数据集,如特征碰撞,通过合并数据集中的两个类,试图欺骗机器学习模型,达到错误分类的目地。
▲图片为数据投毒与模型投毒
2可用性攻击
通过阻止参与者获得模型的正确输出或者是干预参与者获取模型的某些特征,使参与者获取的模型不具备可靠性。可用性攻击共分为以下5类:
1. 系统中断IT停机时间:利用停机阶段从联邦学习环境中窃取信息。
2. 数据保护法相互作用:有意或无意的配置错误导致安全漏洞。
3. 搭便车攻击:利用全局机器学习模型的好处而与环境联系,而没有对培训过程做出贡献。
4. 不可用性:在训练过程中,客户的缺失或流失可能会导致全球模型的培训效率低下。这类似于搭便车攻击,但在此场景中,由于网络问题或任何其他意想不到的障碍,客户机无意中错过了参与训练过程。这种威胁的严重性是中等的,因为概率较低,而且可以选择可以异步工作的聚合算法。
5. 通信瓶颈:通信瓶颈可以显著破坏联邦学习环境,这种威胁的严重性是很高的。
然而,根据最近的研究,联邦学习仍然存在一些隐私威胁,因为对手可以根据每个参与者上传的参数部分揭示原始训练数据集中的每个参与者的训练数据。
联邦学习中的这些关键威胁可以概括为不同类型的推理攻击:01成员推理攻击:
是一种推断训练数据细节的方法,这种攻击通过检查训练数据集上是否存在特定的数据来获取信息。
02无意的数据泄漏&通过推断重建:数据泄露的危害以及恶意的客户端通过全局模型来重构其他客户端的训练数据。
03基于GANs的推理攻击:Hitaj等 [5] 发现,联邦学习框架对于系统内部参与者发起的主动攻击是极为脆弱的。他们首次提出了一种由系统内恶意用户发起的基于GAN的重建攻击。在训练阶段,攻击者可以假扮成良性用户,训练一个GAN用于模拟其他用户训练数据产生的原型样本。通过不断注入伪造的训练样本,攻击能够逐步影响整个学习过程并且诱使受害者释放更多与攻击者目标类有关的敏感信息。
基于联邦学习中现有的隐私问题,
有哪些方法可以缓解这些威胁?
如何提高联邦学习的隐私保护能力?
参考文献
[1] 周传鑫, 孙奕, 汪德刚, 等. 联邦学习研究综述[J]. 网络与信息安全学报, 2021, 7(5): 77-92.
[2] Mcmahan H B , Moore E , D Ramage, et al. Federated Learning of Deep Networks using Model Averaging[J]. 2016.
[3] Mothukuri V , Parizi R M , Pouriyeh S , et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2020.
[4] LIM W Y B, LUONG N C, HOANG D T, et al.Federated learning in mobile edge networks: a comprehensive survey[J]. arXiv preprint, arXiv: 1909.11875, 2019.
[5] HITAJ B, ATENIESE G, PEREZ-CRUZ F. Deep models under the GAN:Information leakage from collaborative deep learning[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. Dallas, TX, USA:ACM, 2017:603-618.
[6] J. Men, G. Xu, Z. Han, Z. Sun, X. Zhou, W. Lian, X. Cheng, Finding sands in the eyes: vulnerabilities discovery in IoT with EUFuzzer on human machine interface, IEEE Access 7 (2019) 103751–103759.
—END—
排版 | 李福玲 图片 | 杨雅清