Li J, Wei K, Ma C, et al. DP-GenFL: a local differentially private federated learning system through generative data. Sci China Inf Sci, 2023, doi: 10.1007/s11432-022-3678-7 |
随着物联网(Internet of Things,IoT)与无线通信技术的快速发展,智能设备的数据处理、存储与传输等能力日益增强,促使物联网相关的应用不断涌现,并使得全球智能终端的数量以及由其所产生的数据量呈指数级增长。与此同时,依赖于数据的机器学习(Machine Learning,ML)技术正在彻底改变我们生活的许多方面。然而,在基于云计算的中心化机器学习架构下,海量数据通常需要被上传至云服务器进行集中式处理,因此易引发数据在网络传输过程中潜在的安全问题。 联邦学习(Federated Learning, FL)通过用户本地模型训练与服务器模型聚合的迭代方式实现学习过程,可一定程度上保障用户隐私,逐步成为数据价值挖掘的重要手段。然而,由于联邦学习中模型传输的开放性,窃听者可通过模型分析反演出用户的数据结构与特征。为保障用户隐私,研究者提出基于差分隐私(Differential Privacy,DP)的联邦学习架构,保证发布的模型参数差分隐私保护。然而,差分隐私机制中的加性噪声会降低学习性能。因此,如何在保障用户数据差分隐私保护等级的情况下,提升联邦学习的模型性能为当前亟待解决的难点问题。为了缓解上述性能下降问题,本文提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的数据隐私保护方法。该方法在每个本地客户端中生成虚假训练样本,通过混合生成数据与真实数据增强联邦学习训练过程。本文主要贡献如下:
本文通过基于真实数据集的实验评估了所提DP-GenFL算法与现有DP-FL算法的学习性能(特定任务下的测试精度)与隐私保护能力。如表1所示,DP-GenFL可以进一步防御成员推理攻击,并取得了显著性能提升。例如,在MNIST数据集中,当生成数据占比为0.6时,成员推理攻击的成功率下降到51.03%,略高于随机猜测(50%)。
全文下载:
http://engine.scichina.com/doi/10.1007/s11432-022-3678-7