查看原文
其他

【源头活水】联邦学习:基于隐私数据的联邦生成模型

在算法模型构建中,开发者需要了解他们的数据,发现数据中的异常值和错误分类,识别和改进数据的问题。部分隐私数据反应用户个人行为和信息,基于法律法规不被允许直接查看,且联邦学习部署和存储在边缘,建模者只能访问度量标准或模型参数之类的汇总输出,不能直接访问数据。[1]

作者:lokinko

地址:https://www.zhihu.com/people/qu-xiang-mou


01

研究动机和贡献

使用联邦学习方法训练了一个具有差分隐私保护的生成模型,能在不直接查看数据的情况下生成具有代表性、真实性的合成数据。
研究了对于文本和图像数据问题的生成模型:Differentially Private Federated RNNs(DP-FedRNN)、Differentially Private Federated GANs(DP-FedAvg-GAN).


02

问题场景介绍

一般而言,传统机器学习可以不受限制地访问训练或推理数据。如果禁止直接访问私有和分散数据,该如何解决这样的问题?
表:6种常见的任务以及解决方案
使用生成模型代替直接查看数据的一般方法如下:开发者能够在特定条件下用某种方式"看"到数据样本(表中所示), 将这种条件编写成数据筛选程序,得到生成模型需要的训练集。
生成模型:生成模型能够学习一个联合分布  用来生成数据,因此考虑用适当的生成数据代替实际用户数据。[2]
联邦学习:为了处理 decentralized 数据,通过 FL 训练这些生成模型,确保原始用户数据永远不会离开设备。随机选择的部分设备会下载当前模型,并且每个子集都会根据自己的数据在本地计算模型更新,将更新信息上传后 aggragate 后更新全局模型。[3]
差分隐私:在数据中添加噪声,或者使用泛化方法对某些敏感属性进行模糊处理,直到第三方无法区分个体,从而使数据无法恢复,从而保护用户隐私。[4]

03

算法及实验结果

  1. 对自然语言数据的生成:
DP-FedRNN:
RNN 模型常用来作为序列数据的常用模型,在该模型中同时体现了判别(Discriminative)和生成(Generative)行为。通过给定一串序列  , RNN 能够根据训练集  学习到条件概率分布  。RNN 同时能作为生成模型: 
DP-FedRNN 算法设计过程
 : 每轮更新参与用户的比例  :总参与设备数
 :加入的高斯噪声参数  :隐私敏感度
算法过程:
  • 初始化模型  ,设定一个隐私保护的 Analytical moments accountant:  .
  • 选取固定数量的参与设备  , 得到  .
  • Server端在 t 时刻发送模型  ,设备在本地计算梯度  , 取平均  .
  • 通过 DP 加入噪声,更新模型: 
DP-FedAvgGAN:
如果鉴别器在 DP 下进行训练,并且生成器仅通过鉴别器进行训练,则生成器通过 DP 的后处理属性与鉴别器具有相同的隐私级别。Discriminator 的训练过程使用真实用户数据;Generator 的训练不需要真正的用户数据。因此可以在 Server 端通过传统的梯度更新计算。
这篇文章实验部分做的可能比较仓促,仅用实验做了效果展示,就不仔细介绍了。

04

结论

这篇论文主要提供了一个联邦学习解决问题的思路:透过生成模型“看到”隐私数据,在 DP 的隐私保护下,绕过原始数据得到一些数据的特征,例如边缘设备的数据读取等应用能够进一步推动联邦学习在工业界的使用。

05

参考

1. Generative models for effective ML on private decentralized datasets. ICML 2020 

https://arxiv.org/pdf/1911.06679.pdf

2. 生成模型介绍

https://zhuanlan.zhihu.com/p/29685634

3. 联邦学习介绍

https://zhuanlan.zhihu.com/p/115811043

4. 差分隐私介绍

https://zhuanlan.zhihu.com/p/139114240


本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。



历史文章推荐



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存