查看原文
其他

技术实践|安全高效的联邦神经网络框架

Dataphin隐私计算 隐私计算智立方
2024-10-02

在数据融合需求加强和数据流通安全政策要求的双重作用下,各行业和机构的客户已开始有纵向联邦学习的诉求。而神经网络因其具有表征能力强、泛化能力强等优点,是电商、金融、医疗、汽车等领域客户常用的建模模型。因此,客户亟需安全的纵向联邦神经网络解决方案,即在保证数据安全与合规的前提下,结合双方数据,完成神经网络模型的联合建模与预测。


基于此,Dataphin隐私计算通过差分隐私技术,实现了全链路安全的联邦神经网络,目前已支持两方二分类、多分类和回归千万量级训练任务,算法包括MLP、Wide&Deep、DeepFM。相比于同态加密或安全多方计算实现,差分隐私技术计算和通信性能与直接明文计算几乎无区别,隐私保护强度依赖于隐私参数,且支持定制化神经网络开发,配置灵活,效率较高。


01

联邦学习

联邦学习(Federated Learning ,FL)是一种分布式机器学习技术,在保证原始数据不出域基础上,通过交换多参与方机器学习模型的中间参数信息,保证各参与方本地原始数据不出库的情况下,实现模型的联合训练与联合预测,从而实现更好的模型性能和更高的数据隐私保护
联邦学习最早是由谷歌公司 H.Brendan Mcmahan 提出,用于解决安卓手机终端用户在本地更新模型的问题。随后,联邦学习成为一种解决数据孤岛、隐私保护和数据安全问题的可行性解决方案。根据多参与方数据分布的不同,联邦学习可以分为横向联邦学习、纵向联邦学习以及联邦迁移学习。这里 DataTrust 所落地的为两方纵向联邦学习。
举例:现在有参与方 slave 与 host,分别拥有一套私有集群和数据,双方期望充分利用两方的数据和计算能力共同训练个 DNN 模型(Deep Nerual Network,深度神经网络),同时不愿共享己方独有数据给对方,这是传统中心化模型训练无法解决的问题。

传统神经网络

DNN模型
  1. 前向传播:训练数据分批从输入层送入网络,逐层进行前向计算,直至输出层
  2. 比较当前网络输出标签与真实标签,并利用损失函数计算出损失(可以理解为预测标签与真实标签的差值)
  3. 反向传播:根据 loss 计算梯度,根据梯度下降算法,逐层更新网络权重参数
  4. 多次重复 1-3 过程,直至模型收敛(loss 为 0),停止训练。

联邦神经网络

两方联合训练一个模型,都需要通过交换中间计算结果来共同学习 DNN 模型,包括前向传播权重与特征的内积结果(Foward Tensor)和反向传播的梯度(Gradients)结果。因此,我们将联邦学习神经网络模型训练涉及通信交换过程简化为:
  1. 前向传播阶段,Alice(无标签方)将本侧模型的 Foward Tensor 发送给 Bob(有标签方);
  2. 反向传播阶段,Bob 首先更新本侧模型,并将模型第一层 Gradients 发送回 Alice,Alice 进行本地模型权重更新;

可以看到,传统纵向联邦神经网络的训练过程中,建模双方通过交换训练中间参数信息完成联合训练,无需共享原始数据,一定程度上保护了双方的数据隐私。但已有研究工作表明,交换的中间参数信息(Forward Tensor和Gradients)也会泄露数据隐私,易遭受梯度泄露攻击、属性推断攻击等[1,2]
为此,一些学者提出了基于同态加密或安全多方计算的纵向联邦学习解决方案,如FATE。此类方案面临严峻的计算和通信效率瓶颈,在实际应用中往往只能支撑简单易用的线性回归、逻辑回归和树模型的联合训练,难以应用到复杂的联邦神经网络。

业务应用场景 

汽车-线索评级:引导关注高价值客户线索并快速呼出。

车企线下店铺获客方式主要为预约试驾/到店参观,对车企而言很难通过一次的“到店/试驾行为” 评估客户是否为高意向客户。

大部分车企客户希望借助第三方数据标签,完善客户画像模型精准度,判断到店客户是否为高潜客户,并在到店后对未转化客户进行二次营销。

同时对车企而言,用户的“到店”信息为车企的核心数据,其不希望第三方数据源知道客户的信息。

解决方案:通过Dataphin联邦学习功能,完成客户的精准查询和建模,提升模型auc。


图:车企线索评级

02

差分隐私

差分隐私(Differential Privacy,DP)是2006年微软研究院Cynthia Dwork提出的隐私保护技术,通过增加满足适当分布的噪声,将个体信息隐匿在总体信息中,以实现对用户数据的隐私保护。差分隐私机制保证任意一个个体的数据加入或离开时,数据集的数据分析结果从概率视角看不会发生太大的变化。由于这一要求对于任意一个个体均成立,因此差分隐私可以提供个体级别的隐私保护。

假设有随机算法所有可能输出结果构成的集合。对于任意两个相邻数据集(两个数据集只有1条记录不同,比如在机器学习中,小李的数据),如果两个相邻集合的概率分布满足:,则称算法提供了差分隐私保护,其中为隐私预算,且当时,提供严格的差分隐私。
  • 隐私成本--衡量差分隐私技术所能提供的“隐私量”,越小,意味着能提供更高等级的隐私性。

差分隐私训练

差分隐私训练实现核心是加噪,其实现方法有多种,包括加入拉普拉斯噪声,高斯噪声(常用于机器学习)等。这里以加入高斯噪声为例,加噪过程如下:
其中,是噪声方差,是敏感度,是隐私成本或隐私预算,为均值为0的高斯分布。
  • 噪声方差--高斯噪声分布,噪声方差越大,噪声越大。
  • 敏感度--增加或删除一条记录,的变化量。比如:的感度是1,因为改变1,改变量为1。
回到神经网络训练,DNN模型就是随机算法,中间计算结果就是,我们训练两个模型,一个使用所有数据(包含小李的数据),另一个使用不含小李的数据的其他所有数据训练。在加入差分隐私噪声后,我们可以证明两个模型在有或者没有小李的数据特征情况下,输出的概率差异不超过
换句话说,有没有小李(或小李的某些特征),输出结果都相似,即小李的数据在输出中被“隐藏”了,也就实现了对数据的保护。根据文献[6],差分DNN实现包括以下三部分:
  • 训练算法--模型
  • 选择和配置隐私机制--加噪策略
  • 计算最终的隐私成本,以保证--衡量隐私量
想了解详细实现,可以参考Facebook的DP-SGD实现:Differential Privacy Series Part 1 | DP-SGD Algorithm Explained

为什么选择差分隐私

差分隐私是隐私计算的重要技术组件,通过向源数据或计算结果上添加特定分布的噪声实现隐私保护。《2022 联邦学习全球研究与应用趋势报告》显示,差分隐私是联邦学习安全隐私方面研究第二热门的方向。
其优势如下:
•严格的数据证明
•计算、通信性能开销小
•实现简单,易用性好

03

Dataphin隐私计算方案

联合深度学习(FL-DNN)框架 

在两方纵向联邦神经网络中,不同的参与方所持有的数据有 ID 重叠的数据集,但其特征空间不同(即数据属性不同)。根据服务器端(标签方)是否有特征,DataTrust 所实现的联邦神经网络架构可支持两种特征分布。

第一种情况x&x+y训练:

  • slave方:特征-
  • host方:特征-,标签-
  1. 本地客户端(slave)利用己方数据进行本地DNN模型前向训练,得到中间层的前向计算结果,即Forward Tesnor,并发送给server;
  2. 服务器(host)也利用本地DNN模型执行与slave方相同的过程,并接收slave方的Forward Tensor,
  3. 在融合层将slave方的Forward Tensor与己方计算的Forward Tensor聚合后,继续进行前向传播,直至输出层;
  4. host方完成整个前向传播过程后,基于己方的标签,计算梯度;
  5. host方将梯度信息发送给slave方,双方分别完成己方模型的参数更新;
  6. 多次重复1-5过程,直至模型收敛,停止训练。

第二种情况(x&y):

  • slave方:特征-
  • host方:标签-
  1. 本地客户端(slave)利用己方数据进行本地DNN模型前向训练,得到中间层的前向计算结果,即Forward Tesnor),并发送给server;
  2. 服务器(host)接收来自slave的Forward Tensor,作为己方模型的输入送入网络,继续进行前向传播,直至输出层;
  3. host比较当前网络输出标签与真实标签,并利用损失函数计算出损失以及梯度
  4. host反向传播更新模型权重参数至本侧模型第一层,并将该层梯度发送给slave方;
  5. slave方根据收到的梯度进行反向传播,逐层更新模型权重参数;
  6. 多次重复1-5过程,直至模型收敛,停止训练。

安全加固框架 

在此联邦深度学习框架基础上,DataTrust 增加以下模块来进行安全加固,主要分为 3 个阶段:


通过对前向传播和反向传播过程所传递的中间参数信息添加高斯噪声,实现对参与方数据特征以及标签的差分隐私保护。其次,DataTrust提出组合降噪方法,该降噪方法可在不牺牲隐私的情况下,缓解梯度裁剪和加噪带来的副作用,提升模型的准确度以及收敛速度。

差分训练流程如图:

前向传播

反向传播

加噪模块

分别在前向传播的通信Forward Tensor以及反向传播的通信梯度Gradients中加差分,即添加高斯噪声,实现对FL-DNN的安全加固。

  • 噪声类型--高斯噪声

  • 噪声量--由噪声方差决定,噪声方差越大,噪声量越大,提供的保护越强
  • 噪声添加位置--通信Forward Tensor以及通信梯度Gradients

降噪模块

由于我们在FL-DNN的前向传播以及反向传播的中间通信结果中添加了高斯噪声,而使用差分隐私对中间计算结果加入噪声后,会导致模型激活值爆炸,使得模型的精度以及AUC下降。因此,我们增加降噪模块,在不牺牲隐私性的同时提高FL-DNN的训练精度以及AUC,此成果已投稿2023 ICLR,并已申请专利

隐私开销模块

隐私开销是衡量差分隐私机制所满足的“隐私量”参数。隐私成本越低,添加的噪声越大,差分隐私机制提供的隐私保护力度越大。通过计算隐私成本,用户可直观感受到差分隐私机制提供了多大的保护力度。对于简单的数据处理过程(如计数查询),在分析结果中添加高斯噪声,计算其隐私成本相对容易。但对于多轮迭代训练的DNN,其隐私成本计算更为复杂和困难。近几年有不少文献在研究基于随机梯度下降算法的DNN训练的隐私成本计算,使用不同的组合方式,期望获得更严格的隐私成本(即相同隐私成本下,可添加更小的噪声)。因此,根据文献[7,8,9],我们实现了多种组合方式下的隐私成本计算。
  • 串行组合
  • 高级组合
  • RDP(Rényi Differential Privacy)
  • f-DP(2020)
其中串行组合是最宽松的计算方法,适用于任何情况;RDP是目前谷歌以及Facebook所使用的更严格的隐私成本计算,f-DP做了进一步的优化,但在多轮迭代的机器学习中效果不如RDP。

04

Dataphin隐私计算性能

实验效果 

以二分类Adult数据集为例,4层MLP测试结果如下:前向噪声0.7

噪声越大,隐私成本越低,方案所提供的隐私保护越强,同时对模型的性能损伤越大。

Dataphin隐私计算性能 

目前,Dataphin隐私计算落地的差分隐私加固的联邦神经网络,可在保证参与方数据安全合规情况下,完成联合联建和预测。同时,我们的方案计算和通信开销与明文计算几乎没有差别。此外,我们方案经过降噪优化,在合理参数配置下,auc误差可控制至千分之一

【参考文献】

1、Survey of artificial intelligence data security and privacy protection,翻译:https://www.secrss.com/articles/29040

2、Fu C, Zhang X, Ji S, et al. Label inference attacks against vertical federated learning[C]//31st USENIX Security Symposium (USENIX Security 22). 2022: 1397-1414.

3、Gupta O, Raskar R. Distributed learning of deep neural network over multiple agents[J]. Journal of Network and Computer Applications, 2018, 116: 1-8.

4、Ceballos I, Sharma V, Mugica E, et al. SplitNN-driven vertical partitioning[J]. arXiv preprint arXiv:2008.04137, 2020.

5、Wei K, Li J, Ding M, et al. Federated learning with differential privacy: Algorithms and performance analysis[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3454-3469.

6、McMahan H B, Andrew G, Erlingsson U, et al. A general approach to adding differential privacy to iterative training procedures[J]. arXiv preprint arXiv:1812.06210, 2018.

7、Wang Y X, Balle B, Kasiviswanathan S P. Subsampled rényi differential privacy and analytical moments accountant[C]//The 22nd International Conference on Artificial Intelligence and Statistics. PMLR, 2019: 1226-1235.

8、Mironov I, Talwar K, Zhang L. R'enyi differential privacy of the sampled gaussian mechanism[J]. arXiv preprint arXiv:1908.10530, 2019.

9、Bu Z, Dong J, Long Q, et al. Deep learning with gaussian differential privacy[J]. Harvard data science review, 2020, 2020(23): 10.1162/99608f92. cfc5dd25.


继续滑动看下一个
隐私计算智立方
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存