机器学习隐私保护相关文献整理
2021-PRIVACY-PRESERVING FEDERATED LEARNING BASED ON MULTI-KEY HOMOMORPHIC ENCRYPTION(arxiv)
这篇文章提出了 xMK-CKKS,通过设置聚合公钥来改进 MK-CKKS 方案,该聚合公钥是用于加密的单个公钥的总和。聚合密文的解密需要解密份额隐含地包含个人密钥信息和来自所有参与者的聚合密文,因此对个人密文没有威胁。该方案对来自参与者的攻击以及对 k < N - 1 个参与设备和服务器之间的共谋攻击具有鲁棒性。
2022-Privacy-preserving Anomaly Detection in Cloud Manufacturing via Federated Transformer(TII)
该框架允许边缘设备在不损害隐私的情况下与云服务器协作训练异常检测模型,设计了一个基于 Transformer 的弱监督异常特征提取模型,并在边缘设备上传特征之前将差分隐私噪声添加到特征中,然而Transformer的训练方式和FL的训练协议有冲突,导致我们很难直接将Transformer应用到FL。
具体来说在每个边缘设备都有一个本地编码器,即Transformer,它可以提取重要的异常数据特征表示,并将这些带有差分隐私噪声的编码特征上传到云端,云端拥有一个解码器模型,即MLP,可以区分边缘设备上传的特征是正常还是异常,在训练过程中,它不再交换模型更新,而是交换编码特征和损失。为此所设计的训练协议适用于 Transformer 训练。
Poisoning-Assisted Property Inference Attack Against Federated Learning(TDSC)
本文提出了一种针对 FL 的新型中毒辅助属性推理攻击(PAPI-attack,基本思想是利用周期性模型更新的潜在鉴别能力构造一个二进制攻击模型,该模型反映了数据分布的变化,特别是敏感属性的出现,因此恶意参与者可以构建二进制攻击模型来推断意外信息。),将推理攻击转化为构建攻击模型A来预测目标属性的发生,提出一种预先中毒机制来提高其训练数据的可辨性。全局模型的毒药可以通过强调更新之间关于 P 发生的差异来提高区分能力,在fl过程使全局模型中毒,这强调在带有与不带有目标属性的更新之间的差异值,因此良性参与者被诱导披露有关敏感属性的更多信息。
成员度推理攻击旨在判断给定的数据记录是否出现在训练数据集中,重构攻击侧重于重构用户级训练数据或类表示,其中属性推理更具挑战性,因为它推断的是无关的属性,而不是有助于学习目标的共同特征 。
影子训练的基本思想是,相同结构的模型在相似的数据上训练时产生相似的更新。
2022-Homomorphic Encryption-based Privacy-preserving Federated Learning in IoT-enabled Healthcare System(Trans.NETWORK SCIENCE AND ENGINEERING)
相同参与者拥有的数据集的质量被认为是衡量每个训练迭代中局部模型对全局模型贡献率的主要因素,而不是深度学习中常用的数据集大小。文中提出了一种允许掉线的方案,当在线客户端的数量不少于预先设定的阈值时,联邦学习过程不会终止。
2022-Edge-Assisted Public Key Homomorphic Encryption for Preserving Privacy in Mobile Crowdsensing(TSC)
在方案中每个参与者使用客户端的公钥加密其数据,使用其私钥使用 BLS 签名为其数据生成标签,并使用其密钥对加密数据进行签名。然后将签名的加密数据和标签发送到边缘,使用组的公钥验证签名,并丢弃无效数据。然后边缘聚合有效的加密数据并对同态标签执行相同的操作。接下来,将聚合后的密文及其标签发送到云服务器。云再次进行聚合,并将最终聚合的密文及其标签转发给客户端。客户端解密加密结果,使用接收到的标签来验证聚合并接受验证聚合。
2022-Detection of False Data Injection Attacks in Smart Grid: A Secure Federated Deep Learning Approach(IEEE.Trans smart grid)
作者将Transformer、联邦学习和Paillier密码体制相结合,提出了一种基于安全联邦深度学习的FDIA检测方法。用户端在本地训练transformer模型,然后在加密上传到云中心进行聚合。该方法通过使用联邦学习框架,利用来自所有节点的数据协同训练检测模型,同时在训练过程中将数据保存在本地,以保护数据的私密性。文中使用基于transformer的检测器,其核心部分在注意力机制部分。
2017-Adversarial Examples Are Not Easily DetectedBypassing Ten Detection Methods
2017-Detecting Adversarial Samples from Artifacts(2017)
对抗样本检测的原理可以用数据流形的观点来解释,即许多训练数据,图片,实际存在于高维空间中的低维流形区域。对抗扰动并没有改变原始数据的真实标签(潜在标签),只是将数据移出了数据流形。因此作者认为对抗样本在数据流形之外,即基于统计学知识,对抗样本与普通样本有不同的分布;故可以通过密度估计的方法,计算欧式距离以此估计出普通样本的密度函数,然后求得样本的置信度,选择合适的阈值t(如通过ROC-AUC等指标),便有了区分普通样本和对抗样本的方法。
2021-Efficient Privacy-Preserving Federated Learning with Unreliable Users (IoT)
2021-Privacy-Preserving Federated Learning Framework Based on Chained Secure Multiparty Computing(IoT)
2021-PFLM: Privacy-preserving federated learning with membership proof(Information Sciences)
通过成员证明,提出一种称为 PFLM 的隐私保护联邦学习方案。PFLM 在安全保证的同时释放了阈值的假设。此外设计了一种基于 ElGamal 加密变体的结果验证算法,以验证来自云服务器的聚合结果的正确性。验证算法作为一部分集成到 PFLM 中。随机预言机模型中的安全性分析表明,PFLM 可以保证针对活跃敌手时提供好的隐私保护效果。
2022-Securely Outsourcing Neural Network Inference to the Cloud with Lightweight Techniques(TDSC)
2020-Toward Verifiable and Privacy Preserving Machine Learning Prediction(TDSC)
本文所提出的安全方案MVP首次在 ML 预测服务中同时实现结果可验证性、功能隐私性和输入隐私性。MVP 首先具有多项式分解和素数阶双线性组的特性,以允许结果验证,同时保持函数参数的秘密。然后,MVP 将隐私保护与多项式评估和结果验证相结合,通过在素数阶双线性群上的适应 BGN 同态密码系统。一方面,同态属性使服务提供者能够不经意地和有效地计算两个多元多项式(即点积和平方欧几里德距离)作为通用 ML 算法的基础。另一方面,BGN类型密文也可以方便地嵌入或剥离正确计算的签名,调和结果可验证性和输入隐私之间的矛盾。为了进一步支持大规模的测试数据,MVP 通过非对称配对的双线性结合了批量验证和签名聚合,显着降低了计算和通信开销。
2021-HEMET: A Homomorphic-Encryption-Friendly Privacy-Preserving Mobile Neural Network Architecture
2020-Low Latency Privacy-preserving Outsourcing of Deep Neural Network Inference(IoT)
本文提出了一个双边缘服务器框架,为资源受限的物联网设备启用有效的隐私保护外包 DNN 推理。框架为 DNN 推理的输入和输出数据提供隐私保护,所提出的框架采用混合外包策略,其中占据大部分计算 [18] 的 DNN 层被外包,而计算效率层则直接在本地处理。利用边缘计算来提高外包计算的效率,可以有效地改善网络延迟和可用性问题 [19]。更重要的是,提出了一种新颖的加密方法以确保对加密数据进行实时 DNN 推理,具体来说,由于 DNN 对输入数据和随机噪声的线性运算是线性可分的,因此可以方便地预先解密噪声。因此,加密允许物联网设备安全地将超过 99% 的 DNN 操作外包给边缘设备。为了进一步提高我们框架在通信方面的效率,我们集成了压缩技术 [20] 以减少传输过程中密文的大小。除了隐私保护,我们还讨论了如何使物联网设备能够检查边缘服务器返回的计算结果的完整性.
2021-POSEIDON: Privacy-Preserving Federated Neural Network Learning(NDSS)
2022-Cheetah: Lean and Fast Secure Two-Party Deep Neural Network Inference(USENIX)
2021-Leia: A Lightweight Cryptographic Neural Network Inference System at the Edge(TIFS)
在本文中,我们提出并启用了 Leia,这是一种在边缘执行的密码 NN 推理系统。我们将边缘节点作为两个非共谋计算服务来同时满足上述隐私目标和操作要求。模型所有者对模型进行编码,并且只将编码后的模型发送到边缘节点一次。之后,用户移动设备可以提交编码输入并获得编码推理结果。在这个过程中,边缘节点不经意地执行推理,而不与模型所有者或用户移动设备进一步交互。然而仅仅将 NN 推理过程转换为密码操作并不一定能在移动和边缘设备的通信和计算中实现令人满意的效率。相反,我们的第二个见解是采用二值化神经网络 (BNN) [15],这是一种特殊的 NN 模型,其权重和激活都限制在 ±1。因为小型 BNN 模型可以大大减少资源需求,并且对二进制值的底层操作更兼容密码原语。我们巧妙地使用安全层功能构建 Leia,包括安全线性层(安全卷积层 SCONV 和安全全连接层 SFC)、安全批量归一化函数(SecBN)、安全二进制激活函数(SecBA) ,以及安全最大池化层(SMP)。
2022-ShieldFL: Mitigating Model Poisoning Attacks in Privacy-Preserving Federated Learning(TIFS)
2022-Lightweight Privacy-Preserving GAN Framework for Model Training and Image Synthesis(TIFS)
提出了 LP-GAN,一种轻量级的隐私保护深度学习框架,用于 GAN 的实际训练和图像合成。训练数据和模型在训练和生成阶段是保密的。提供了一系列适用于边缘计算的基于秘密共享的安全两方计算(2-PC)协议,能够确保数据安全免受恶意对手攻击,并在运行方面达到前所未有的性能。设计了一套基于秘密共享的高效协议,包括安全矩阵乘法 (SecMMul)、安全 OR (SecOr)、安全最高有效位 (SecMSB)、安全比较 (SecCmp)、安全平方根 (SSqrt)、安全范围转换 (SRC)、安全逆平方根 (SISqrt)、安全场转换 (SFC) 协议。与最先进的 ABY 框架 [12] 中的安全比较协议相比,我们的 SecCmp 协议速度提高了 3 倍,并降低了 25 倍的通信成本。与 [13] 中的最新协议相比,我们的 SecCmp 协议速度提高了 1.5 倍,并降低了 2.5 倍的通信成本。与 Yao 在 [14] 中基于乱码电路的方案相比,我们的安全平方根协议 (SSqrt) 将效率提高了 22 倍。为机器学习中使用的函数构建了一系列安全协议(例如卷积、ReLU、leaky ReLu、Sigmoid、Tanh 和批量归一化)。安全的前向和后向传播算法,并通过集成这些安全构建块提出了 LP-GAN 的安全训练和图像合成协议。
2022-Privacy-Preserving Transformer Inference with Homomorphic Encryption
2021-AriaNN: Low-Interaction Privacy-Preserving Deep Learning via Function Secret Sharing(Proceedings on Privacy Enhancing Technologies 2022)
本文提出了 AriaNN,一种用于隐私保护神经网络训练和敏感数据推理的低交互隐私保护框架。半诚实的 2 方计算协议利用功能秘密共享(Function Secret Sharing),这是一种最近提出的轻量级加密协议,为 ReLU、MaxPool 和 BatchNorm 等神经网络的构建块设计优化的原语。我们在在线阶段使用输入大小的单个消息对 ReLU 操作执行私有比较,且预处理键比以前的工作小近 4 倍。最后,提出了一个扩展以支持 n 方私有联邦学习。将框架实现为 PyTorch 之上的可扩展系统,该系统利用 CPU 和 GPU 硬件加速来进行加密和机器学习操作。
2022-PVD-FL: A Privacy-Preserving and Verifiable Decentralized Federated Learning Framework(TIFS)
首先,PVD-FL 保证了模型训练过程的安全性,局部更新和全局模型在整个训练过程中都是保密的,可以严格保护数据隐私。同时,PVD-FL的每一个训练步骤都是可验证的,从而保证了训练的完整性。具体来说,EVCM首先使用补码来兼顾签名密文的打包和计算。此外,随机数被添加到每个密文包装中,以支持可验证的计算。• 其次,PVD-FL 在去中心化架构下实现了高精度的深度学习模型训练。设计了一套包含模型初始化、模型传播和模型更新的去中心化算法。基于它们,在 PVD-FL 中,可以在多个连接的参与者上构建全局模型,而无需中心的帮助。此外,PVD-FL 中的所有计算都不会导致模型精度下降。• 第三,PVD-FL 在计算成本和通信开销方面非常有效。在 PVD-FL 中,全局模型和局部更新均采用轻量级 SHE 技术进行加密,密文计算可以并行执行,显着降低了开销。
2022-SIMC: ML Inference Secure Against Malicious Clients at Semi-Honest Cost(USENIX)
神经网络由两种类型的层或函数组成:线性层(包括矩阵乘法、卷积等函数)和非线性层(包括 ReLU、ReLU6、Maxpool 等函数)。在 MUSE 考虑的基准测试中,MUSE 近 99% 的通信开销(以及大约 80% 的整体性能开销)是由于非线性层的安全计算协议造成的。SIMC 的核心是一种用于安全计算非线性层的全新协议,与 MUSE 在计算和通信方面相比,它更加轻便。MUSE 使用计算量大的同态加密 [8,19,20] 以及通信量大的经过身份验证的 Beaver 三元组 [15, 28] 来实现它们的非线性层。相比之下,SIMC 使用廉价的不经意传输和一次性加密来完成相同的任务。
2021-A Lightweight Privacy-Preserving CNN Feature Extraction Framework for Mobile Sensing(TDSC)
2022-DetectPMFL: Privacy-Preserving Momentum Federated Learning Considering Unreliable Industrial Agents(TII)
2022-Fast Privacy-Preserving Text Classification Based on Secure Multiparty Computation(TIFS)
2018-PDLM: Privacy-Preserving Deep Learning Model on Cloud with Multiple Keys(TSC)
2022-Privacy-Preserving Image Classification Using Vision Transformer
2020-SecureAD: A Secure Video Anomaly Detection Framework on Convolutional Neural Network in Edge Computing Environment(TCC)
2020-SecureNLP: A System for Multi-Party Privacy-Preserving Natural Language Processing(TIFS)
2020-SecureTrain: An Approximation-Free and Computationally Efficient Framework for Privacy-Preserved Neural Network Training(TNSE)
提出了一个新的框架,称为安全模型训练 (SecureTrain),以解决隐私保护 DL 模型训练面临的两个基本挑战:(1) 使用函数逼近导致的模型精度损失和训练不稳定性,以及 (2) 计算效率。总体目标是消除使用函数逼近进行训练而不会造成精度损失和不稳定性,并减少使用 Perm 操作以提高计算效率。首先,为了实现无近似计算,SecureTrain 采用了一种创新设计,能够基于同态秘密共享 (HSS) [30]-[32] 实现联合线性和非线性计算。其次通过精心设计共享集消除了耗时的 Perm 操作。此外,SecureTrain 利用前向传播和反向传播中的数据流来实现有效的捎带,从而进一步加速整体计算并降低通信成本。
2022-Sphinx: Enabling Privacy-Preserving Online Learning over the Cloud(S&P)
2017-SafetyNet: Detecting and Rejecting Adversarial Examples Robustly(ICCV)
构建对对抗样本具有鲁棒性的网络的一种方法是使用增强的训练数据训练网络(添加对抗样本 [18]);这种方法难点在于,网络中图像和特征的维度意味着需要不合理数量的训练数据。或者,我们可以建立一个检测和拒绝对抗样本的网络。通过附加一个观察原始分类网络状态的检测子网络,人们可以判断它是否已经呈现了一个对抗性示例[17]。然而,由于他们的检测子网络的梯度表现非常好,因此在他们和我们的实验中,联合系统都可以很容易地受到攻击(II 型攻击)。他们和我们的实验还表明,他们的检测子网络很容易被检测器训练过程中未使用的攻击方法产生的对抗样本所欺骗。方法侧重于通过量化分类网络的特定层(“激活模式”)中的单个 ReLU 产生的码.
2020-Optimizing Privacy-Preserving Outsourced Convolutional Neural Network Predictions(TDSC)
2021-NN-EMD: Efficiently Training Neural Networks using Encrypted Multi-sourced Datasets
2020-NPMML: A Framework for Non-Interactive Privacy-Preserving Multi-Party Machine Learning(TDSC)
2022-Privacy-Preserving and Outsourced Multi-Party K-Means Clustering Based on Multi-Key Fully Homomorphic Encryption (TDSC)
普通的同态加密只能实现相同密钥下的密文计算,为实现不同密钥下密文计算,本文采用多密钥全同态加密(MK-FHE),即在MK-FHE的基础上,对患者的医疗数据进行单独加密。然后生成的密文被传输到云服务器。云服务器对密文进行聚类,输出结果.本文贡献:(1)设计了四种安全单元协议,即安全平方欧氏距离协议、安全比较协议、安全最小值协议和安全平均协议. (2)为了将K-means聚类的计算过程完全外包给云服务器,基于以上协议,提出一种多方K-means聚类方案,通过对不同密钥密文 的转换方法进行改进, 该方案的优点是患者可以离线.
作者简介:
知乎:公钥密码学渣。研究兴趣包括密码协议、联邦学习与隐私保护。往期推荐