查看原文
其他

基于生成数据的局部差分隐私联邦学习方法

SCIS 中国科学信息科学 2024-01-09


Li J, Wei K, Ma C, et al. DP-GenFL: a local differentially private federated learning system through generative data. Sci China Inf Sci, 2023, doi: 10.1007/s11432-022-3678-7

研究意义

随着物联网(Internet of Things,IoT)与无线通信技术的快速发展,智能设备的数据处理、存储与传输等能力日益增强,促使物联网相关的应用不断涌现,并使得全球智能终端的数量以及由其所产生的数据量呈指数级增长。与此同时,依赖于数据的机器学习(Machine Learning,ML)技术正在彻底改变我们生活的许多方面。然而,在基于云计算的中心化机器学习架构下,海量数据通常需要被上传至云服务器进行集中式处理,因此易引发数据在网络传输过程中潜在的安全问题。
联邦学习(Federated Learning, FL)通过用户本地模型训练与服务器模型聚合的迭代方式实现学习过程,可一定程度上保障用户隐私,逐步成为数据价值挖掘的重要手段。然而,由于联邦学习中模型传输的开放性,窃听者可通过模型分析反演出用户的数据结构与特征。为保障用户隐私,研究者提出基于差分隐私(Differential Privacy,DP)的联邦学习架构,保证发布的模型参数差分隐私保护。然而,差分隐私机制中的加性噪声会降低学习性能。因此,如何在保障用户数据差分隐私保护等级的情况下,提升联邦学习的模型性能为当前亟待解决的难点问题。

本文工作


为了缓解上述性能下降问题,本文提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的数据隐私保护方法。该方法在每个本地客户端中生成虚假训练样本,通过混合生成数据与真实数据增强联邦学习训练过程本文主要贡献如下
  • 提出了基于GAN的数据生成隐私保护方法,即DP-GenFL算法,将生成数据与真实数据混合,由于生成数据可天然满足差分隐私保护,训练过程中仅切削与扰动真实数据的梯度。
  • 基于生成数据与真实数据混合的训练方法,理论分析了生成数据满足差分隐私保护等级,并分析了此混合训练过程所满足的差分隐私保护等级。
  • 通过实验评估了所提算法性能,其可以保障系统的训练准确度并明显降低成员推理攻击的成功率。


实验结果


本文通过基于真实数据集的实验评估了所提DP-GenFL算法与现有DP-FL算法的学习性能(特定任务下的测试精度)与隐私保护能力。如表1所示,DP-GenFL可以进一步防御成员推理攻击,并取得了显著性能提升。例如,在MNIST数据集中,当生成数据占比为0.6时,成员推理攻击的成功率下降到51.03%,略高于随机猜测(50%)。



全文下载: 

http://engine.scichina.com/doi/10.1007/s11432-022-3678-7


相关阅读

 蒋昌俊院士 | 基于本地差分隐私的高维数据合成

 论信息网络发展范式的变革

 人工智能时代的网络空间安全专题简介

 量子安全密码学:编码理论与密码学的交叉路口

 国密SM9的随机谕言安全分析

 SCIS通信学科最新文章总目录 | 可免费下载全文

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存