查看原文
其他

2023年差分隐私的原理、优势和应用案例



随着机器学习、生成AI等先进数据模型的崛起,“AI”这一广义术语下的各类高级模型从加速医疗研究到推动商业增长再到改善犯罪打击为社会带来了巨大效益。然而不正确使用这些模型也可能带来巨大的风险,特别是涉及数据的训练和保护模型的过程。在此背景下,美国政府于2023年10月颁布了一项行政命令,旨在确保“AI的安全、可靠和值得信赖”。支持这一行政命令的文件明确提出,要优先使用和发展隐私增强技术(PETs),以“保护美国人的隐私”。
由于声誉受损或受到法规罚款等因素,数据隐私的侵犯对组织来说代价高昂。根据IBM的2022年数据泄露成本报告,数据泄露的平均总成本接近450万美元。但是许多重要的业务问题仍然需要访问私人信息,这就需要隐私保护,本文介绍2023年被重点关注的隐私保护技术——差分隐私。

什么是差分隐私?

差分隐私是一种在数据集中添加受控制的随机性噪声,以防止任何人获取关于数据集中个体信息的数学技术。添加的随机性噪声是受控制的,因此生成的数据集仍然足够准确,可以通过数据分析生成聚合见解,同时保持个体参与者的隐私。

差分隐私的工作原理

差分隐私引入了一个称为隐私损失或隐私预算参数的概念,通常表示为epsilon(ε),用于控制添加到原始数据集的噪声或随机性的量。ε控制添加到原始数据集的噪声或随机性的量。
为了简化,假设数据集中有一个包含个体的“是”/“否”答案的列。对于每个个体,抛一次硬币,如果是
  • 正面,保留答案不变
  • 反面,再抛一次硬币,如果是正面,将答案记录为“是”,如果是反面,将答案记录为“否”,而不管真实答案如何。
这个过程向数据添加了随机性噪声。对于足够大的数据集在聚合测量方面仍然是准确的。同时,数据集中的每个个体都可以合理地否认其真实答案。
在实际应用中,添加噪声的算法比抛硬币要复杂一些。这些算法基于参数ε,该参数控制隐私和数据效用之间的权衡:ε值越高,数据越准确,但隐私越低。差分隐私可以在本地或全局实施。在本地差分隐私中,噪声被添加到个体数据之前集中存储在数据库中。在全局差分隐私中,噪声是在从许多个体收集的原始数据之后添加的。

为什么现在很重要?

数据隐私的侵犯对企业而言代价高昂,因为:
  • 它可以帮助企业遵守数据隐私法规,如GDPR和CCPA,而不损害他们分析客户行为的能力。
  • 数据隐私侵犯,如数据泄露,还会损害企业的声誉。

应用案例

  1. 美国人口普查局使用差分隐私
  1. 美国人口普查局在2020年开始使用差分隐私处理人口普查数据,该数据包含有关美国公民的详细人口统计信息。没有隐私措施,这些信息可能会追溯到个体。传统的匿名化技术变得过时,因为重新识别方法使得可能从匿名化的数据集中获取关于特定个体的信息。
2. Google的差分隐私工具
在2014年,Google推出了名为Randomized Aggregatable Privacy-Preserving Ordinal Response(RAPPOR)的差分隐私工具,用于Chrome浏览器。它帮助Google在防止敏感信息被追踪的同时,分析和获取有关浏览器使用情况的见解。2019年,Google还将其差分隐私库开源。
3. 苹果在iOS和macOS设备中使用差分隐私
苹果在iOS和macOS设备中使用差分隐私来保护个人数据,如表情符号、搜索查询和健康信息。
4. 微软在Windows设备中使用差分隐私
微软使用差分隐私来从Windows设备收集遥测数据。
5. 差分隐私在人工智能中的应用
差分隐私还在人工智能的其他隐私保护方法中得到应用,如联邦学习或合成数据生成。

其他隐私措施的对比优势

  • 防止攻击者获取完美数据
差分隐私使组织能够定制隐私级别,并使攻击者只能访问部分正确的数据。
  • 防止链接攻击
差分隐私通过添加随机噪声确保任何数据集中的个体都可以合理地否认其特定信息,这对于链接攻击非常重要。
  • 定制隐私级别
差分隐私通过参数ε提供隐私保证的可量化度量。通过调整ε的值,数据聚合者可以根据数据集的敏感性控制隐私级别。

如何在Python中实现差分隐私?

  • Diffprivlib是IBM的一款通用开源差分隐私库。
  • TensorFlow Privacy是由Google推出的一款使用TensorFlow优化器来训练具有差分隐私的机器学习模型的Python库。
  • PyDP是Google的C++差分隐私库的Python包装器,由OpenMined开源社区开发。
  • Opacus是Facebook推出的一个库,用于使用差分隐私训练PyTorch模型。

差分隐私的挑战和限制

  • 不适用于每个问题:差分隐私不适用于个体级别的分析,这可能阻止分析师学习与特定个体相关的信息。
  • 小数据问题:对于小数据集,由差分隐私引入的不准确性可能严重影响基于其进行的任何分析。
  • ε的正确值不清楚:对于ε的最佳值,即数据变得既私密又有用的程度,尚无共识。

在没有同意的情况下使用差分隐私是否符合GDPR或CCPA?

这并没有简单的答案,它取决于数据集、应用的差分隐私算法和参数ε。为了安全起见,公司可以将应用差分隐私的数据的所有处理器列为数据处理器,如果数据处理涉及使用个人数据。
总体而言,差分隐私为管理隐私与效用之间的平衡提供了一种方式,但正如上面所讨论的,对于这种权衡的最佳水平尚无共识。加利福尼亚大学伯克利分校的Simons研究所的一篇白皮书指出,差分隐私为克服传统匿名化方法的局限性提供了强大的替代方案,决策者应该与研究人员密切合作,制定对其的建议。
原作者:Cem Dilmegani


END


热门文章:




隐私计算头条周刊(12.11-12.17)


基于隐私计算的电力数据共享技术系统解决方案及应用


种基于隐私计算的数据交易模式研究


2023年隐私保护领域的现状和未来


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个
开放隐私计算
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存