查看原文
其他

麻省理工推出PAC隐私新技术,可在确保隐私的前提下降低数据噪声

Adam Zewe 开放隐私计算 2024-01-09


近日,麻省理工的研究人员开发出了一种新的隐私度量方法,称为“Probably Approximately Correct Privacy”,简称“PAC 隐私”。PAC隐私是一种技术,也是一种隐私指标,通过这种技术可在保护敏感数据的同时,又能保持机器学习模型的性能,也就是说可以实现机器学习与隐私保护的双赢!

想象一下,一个科学家团队已经开发出一种机器学习模型,可以预测患者是否患有肺癌。他们希望将这个模型与世界各地的医院分享,以便临床医生可以在诊断中开始使用它。

但是有一个问题。为了教会他们的模型如何预测癌症,他们向其展示了数百万张真实的肺部扫描图像,这是一个名为训练的过程。这些敏感数据现在被编码到模型的内部工作机制中,有可能被恶意代理提取出来。科学家们可以通过向模型添加噪声或更一般的随机性来防止这种情况发生,这使得对手更难猜测原始数据。然而,扰动会降低模型的准确性,因此能够添加的噪声越少越好。

MIT的研究人员开发了一种技术,可以让用户在保证敏感数据受到保护的前提下,尽可能地添加最小量的噪声。

研究人员创建了一个新的隐私指标,称为“Probably Approximately Correct”(PAC)隐私,并基于这个指标构建了一个框架,可以自动确定需要添加的最小噪声量。此外,该框架不需要了解模型或其训练过程的内部工作原理,这使得它更易于用于不同类型的模型和应用。

在一些情况下,研究人员表明,与其他方法相比,使用PAC隐私保护敏感数据所需的噪声量要小得多。这可以帮助工程师创建机器学习模型,证明在真实世界环境中隐藏了训练数据,同时保持准确性。

PAC Privacy利用敏感数据的不确定性或熵,以有意义的方式进行攻击,这使得我们能够在许多情况下添加一个数量级的更少的噪声。这个框架允许我们理解任意数据处理的特征,并在不进行人工修改的情况下自动将其私有化。虽然我们处于早期阶段并且只做简单的例子,但我们对这种技术前景感到兴奋,”电气工程和计算机科学系埃德温·西布利·韦伯斯特教授Srini Devadas说道,他是这篇关于PAC隐私的新论文的合著者。

Devadas与该研究的第一作者、电气工程和计算机科学研究生学生韩晟合作撰写了这篇论文。这项研究将在国际密码学会议上(Crypto 2023)上展示。


换个角度定义隐私

数据隐私的一个基本问题,就是添加了噪声的机器学习模型中,对手可以从中恢复多少敏感数据?

差分隐私是一种流行的隐私定义,它认为如果一个观察到发布的模型的对手无法推断出任意个人的数据是否用于训练处理,那么隐私就得到了保障。但是,要证明防止对手区分数据使用通常需要大量噪声来掩盖它。这种噪声会降低模型的准确性。

PAC Privacy则换了角度看待问题。它描述了添加噪声后,对手恢复随机抽样或生成的敏感数据中的任何部分有多困难,而不仅仅是关注可区分性问题。

例如,如果敏感数据是人脸图像,差分隐私将关注对手是否能够判断某人的脸是否在数据集中。另一方面,PAC Privacy可以关注对手是否能够提取一个轮廓(近似),以便某个人可以将其识别为特定个人的脸部。

一旦研究人员确立了PAC Privacy的定义,他们创建了一个算法,该算法自动告诉用户向模型中添加多少噪声以防止对手自信地重建敏感数据的接近近似值。这个算法保证了隐私,即使对手有无限的计算能力,Xiao说道。

为了找到最优的噪声量,PAC Privacy算法从对手的角度依赖于原始数据中的不确定性或熵。

这种自动技术从数据分布或大数据池中随机取样,并在这些子样本数据上运行用户的机器学习训练算法以生成输出模型。它在不同的子采样上多次执行此操作,并比较所有输出之间的方差。这种方差决定了需要添加多少噪声-方差越小,所需的噪声就越少。


PAC Privacy算法的优势与局限
与其他隐私方法不同,PAC Privacy算法不需要了解模型或训练过程的内部工作原理。
在实施PAC Privacy时,用户可以指定他们希望达到的信心水平。例如,用户可能希望保证对手不会超过1%的信心成功地将敏感数据重构为其实际值的5%以内。PAC Privacy算法将自动告诉用户在分享公共输出模型之前需要添加的最优噪声量,以实现这些目标。
“噪声是最优的,因为如果你添加的比我们告诉你的还要少,所有的赌注都可能失败。但是向神经网络参数添加噪声的效果很复杂,我们并不保证模型在使用添加的噪声后会降低其效用程度,” Xiao说道。
这指出了PAC Privacy的一个限制——该技术无法告诉用户在添加噪声后模型会失去多少精度。PAC Privacy还涉及在许多数据子集上反复训练机器学习模型,因此计算成本可能很高。
为了改进PAC Privacy,一种方法是修改用户的机器学习训练过程,使其更稳定,即当从数据池中对输入数据进行子采样时,它产生的输出模型不会发生太大变化。这种稳定性将创建较小的子采样输出之间的方差,因此不仅需要运行更少的PAC Privacy算法来确定最佳的噪声量,而且还需要添加更少的噪声。
更稳定的模型还有一个好处,它们通常具有更少的泛化误差,这意味着它们可以在以前未见过的数据上进行更准确的预测,这是机器学习和隐私之间的双赢局面,Devadas补充道。
“在未来几年中,我们希望更深入地研究稳定性和隐私之间的关系,以及隐私和泛化误差之间的关系。我们在这里敲门,但目前尚不清楚这扇门通向哪里,”他说。
“混淆一个人的数据在模型中的使用对于保护他们的隐私至关重要。然而,这样做可能会付出数据和模型效用代价的代价,”Capital One高级机器学习工程师Jeremy Goodsitt说,他没有参与这项研究。“PAC提供了一个经验性的黑盒解决方案,可以减少与当前实践相比的添加噪声,同时保持等效的隐私保证。此外,其经验性方法将其覆盖范围扩大到更多消耗数据的应用。”
这项研究的部分资金由新加坡DSTA、思科系统公司、Capital One和MathWorks奖学金提供支持。

本文由“开放隐私计算”翻译整理,转载请注明来源,原文来自:MIT  News (https://news.mit.edu/2023/new-way-look-data-privacy-0714)

END

热门文章:




隐私计算头条周刊(07.17-07.23)


招标 | 近期隐私计算项目招标中标41(中原工学院、沧州智慧城市、恒丰银行、数字广东、云南大学、湖南大数据)


隐私计算:生命科学领域数据共享障碍的解决方案


社区招募丨OpenMPC隐私计算课程课代表征集


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存