基于秘密共享的隐私保护分布式深度学习
The following article is from 大金融思想 Author IMI
分布式深度学习(DDL)提供了一种隐私保护的解决方案,使多方能够在不显式共享本地数据集的情况下共同学习深度模型。然而,现有的保护隐私的DDL方案仍然存在严重的信息泄漏或导致通信成本显著增加。在本研究中,我们设计了一个隐私保护的DDL框架,使得所有参与者都能在保持学习模型的准确性和效率的前提下保持其本地数据集的隐私性。通过采用一种有效的秘密共享策略,我们允许每个参与者将训练过程中的介入参数分割为共享,并将聚合结果上传到云服务器。我们可以从理论上证明,一个特定参与者的本地数据集可以很好地免受诚实但好奇的云服务器以及其他参与者的攻击,即使在云服务器与一些参与者勾结的具有挑战性的情况下也是如此。大量的实验结果验证了所提出的基于秘密共享的分布式深度学习(SSDDL)框架的优越性。中国人民大学金融科技研究所(微信ID:ruc_fintech)对文章核心内容进行了编译。
作者 | Jia Duan, Jiantao Zhou, Yuanman Li
来源 | Information Sciences
整理 | 张沁楠
引言
近年来,深度神经网络(DNN)体系结构在许多领域都取得了令人印象深刻的性能,如人脸识别、机器翻译、目标检测和目标分类。随着数据集规模的增加,深度学习的计算强度和内存需求也成比例地增长。尽管近年来GPU硬件、网络架构和训练方法都取得了长足的进步,但大规模的DNN训练往往需要在一台机器上花费相当长的时间。此外,在深度学习中,许多提高精度的策略,如按比例放大模型参数、利用复杂模型、在大规模数据集上训练等,也明显受到计算能力的限制。
在本文中,我们提出了一种隐私保护的SSDDL框架,该框架允许多个学习参与者和一个云服务器以较低的通信和计算成本协作训练一个准确的DNN模型。为了保护输入的隐私,采用了一种有效的秘密共享方案。具体来说,不是共享梯度,每个参与者将自己的梯度分成共享,并将它们分配给其他参与者。每个参与者收到共享后,计算聚合结果,上传至云服务器更新全局网络参数。从理论上讲,一个特定参与者的本地数据集可以很好地保护免受诚实但好奇的云服务器以及其他参与者的攻击,即使是在云服务器与一些参与者合谋的具有挑战性的情况下。大量的实验结果验证了所提出的SSDDL框架的优越性。
信贷增长速度是否是金融危机的有力预测?
深度学习的目的是从高维数据中提取复杂的特征,并利用这些特征建立一个模型,将输入映射到输出。通常,深度学习结构被构造成多层网络,这样更多的抽象特征被计算成低层特征的非线性函数。传统的多层DNN体系结构可以由一个输入层、一个输出层和一个隐藏层组成,如图1所示。
图1:传统深度神经网络
深度学习任务被认为是一个优化问题,它通过在训练数据集上最小化预定义的代价函数来确定这些权重变量(W和b)。代价函数在训练数据集中的所有数据或子集(小批量)上进行评估。在实际应用中,随机梯度下降(SGD)是一种常用的解决深度学习优化问题的技术,它在整个数据集的极小子集上计算梯度。
尽管已有工作提供了针对云服务器的梯度的机密性,但计算成本显著增加。此外,已有方案不能保护本地数据集的隐私不受其他参与者的影响。例如,参与者A对参与者B的本地数据集好奇,但并不是恶意的。假定参与者A可以窃听云服务器和参与者B之间的通信通道。图2所示,参与者A和B选择一对关键{pk, sk}用于加性同态加密。密钥sk对云服务器保密,但参与者A和B都知道。局部训练结束后,参与者A和B分别对其参数变化G(A)和G(B)进行加性同态加密。
图2:深度分布式学习中的隐私保护
我们考虑具有一个云服务器和N个参与者的隐私保护SSDDL框架。在不丧失一般性的前提下,我们假设参与者N≥3,这主要是由于所采用的秘密共享策略。同时,我们假设这个框架是在诚实但好奇的背景下运作的。这意味着云服务器和所有参与者都遵循规范,但对其他参与者的本地数据集信息感到好奇。
图3给出了系统的关键模块,以3个参与者为例。首先,云服务器随机初始化网络,并将模型副本共享给每个参与者。然后每个参与者Pi使用本地数据集执行本地训练。在进行本地训练后,每个参与者根据更新规则(2)获得参数变化G(i)。为了保护G(i)的隐私,每个参与者Pi将其分成股份并分配给其他参与者。这里,参数变化G(i)的共享是通过一个简单而有效的秘密共享方案产生的。每个参与者收集完所有参与者的共享后,进行汇总,并将汇总结果上传到云服务器。最后,云服务器在接收到来自参与者的所有聚合结果后,相应地更新全局参数。重复上述过程,直到模型收敛。
图3:3个参与者在隐私保护的分布式深度神经网络的例子
隐私的安全性要求包括数据集隐私和参数隐私,即保护本地数据集的隐私和协作学习过程中介入参数的隐私。在我们的框架中,由于局部数据从来没有被转移到它的局部域外,我们重点考虑在学习过程中介入参数潜在的信息泄漏。通常,攻击者可能是云服务器和/或参与者。因此,我们描述了三种情况下的安全实验:针对参与者的隐私;针对云服务器的隐私;以及与一些参与者合谋针对云服务器的隐私。
结论
我们设计并实现了一个隐私保护SSDDL框架,使得多个学习参与者能够以较低的通信和计算成本合作训练一个精确的模型。采用了一种简单而有效的秘密共享方案来保护参数的变化。从理论上证明,即使云服务器与某些参与方串通,每个参与方的本地数据集也能以令人满意的方式受到保护,不受诚实但好奇的云服务器和其他参与方的攻击。最后,实验结果证明了我们提出的隐私保护SSDDL框架的优越性能。
以下为部分报告截图
……
获取完整报告
请后台回复“隐私保护分布式深度学习”
获取下载链接
END
编辑/朱炳姮
责编/袁阳
【延伸阅读】