论文分享|JPC'19 实际落地中的差分隐私——差分隐私的实施和隐私实践的质量
在数字经济蓬勃发展和数据安全合规强监管的背景下,差分隐私技术作为隐私增强技术的一种,已广泛应用于数据行业的各个领域。它可以帮助企业在分析数据群体特征的同时,隐藏其中某个个体的信息,从而保护个人数据的隐私。其具有隐私可量化、配置灵活、与攻击者背景知识无关的保护强度、低成本的资源开销等优点,被苹果、谷歌、以及阿里巴巴等大厂相继在实际业务中落地。例如,在苹果手机内,差分隐私技术被用来保护用户的上传数据。“数据隐私”不仅有助于满足合规,还能成为产品卖点。
然而,与基于密码学的技术不同, 差分隐私通过对数据加入噪声来“牺牲准确性来换取隐私性” 。至于牺牲多少,换取多少,这是一个可调可配的过程。如何确定满足实际需要的最优参数,暂没有太多可参考的依据或标准,是一个“老大难”问题。此外,企业落地差分隐私会面临什么推动力或阻碍,落地时应考虑什么其他问题,缺少实际案例来指导。这种资料性的缺失,一定程度上阻碍了差分隐私技术应用的进一步发展。
Dwork(差分隐私概念的提出者)等人注意到了这一问题,于2019年在Journal of Privacy and Confidentiality(JPC)发表了论文《Differential Privacy in Practice: Expose your Epsilons!》(实际落地中的差分隐私),为行业一些参考。文章针对差分隐私落地面临诸多阻碍的问题,巧妙的使用了访谈的方式,与部署了差分隐私的企业的相关人士进行了深入系统性的沟通交流,并对访谈结果进行了归纳整理。相比以往的技术性论文,这篇文章更关注如何落地,提到了很多实际因素,如“理论团队很难和业务团队去做解释”,非常难能可贵。文章给出了一些宝贵的建议和观点,对于技术落地有着参考意义。
摘要
差分隐私正处于一个历史转折点。差分隐私已成功地应用于私营企业、公共部门和学术界的各种应用,使科学家、工程师和研究人员能够了解感兴趣的人群,而无需专门了解个人。由于差分隐私允许我们对累积的隐私损失进行量化,这使得我们可以对数据密集型活动引起的总隐私损失进行衡量和比较,而这在出现差分隐私之前是做不到的。若能合理使用,可能会给隐私领域带来巨大的变化。
为了了解当前的差分隐私实施以及组织如何在实践中做出这些关键选择,我们对差分隐私从业者进行了访谈,以学习他们的经验。我们没有就如何选择达成明确的共识,也没有就如何处理这个和其他关键实施决策达成一致。鉴于这些细节的重要性,差分隐私社区需要进行分享式学习(shared learning)。为了实现这些目的并促进竞争,我们建议创建Epsilon Registry—— 一个关于差分隐私实施的公开公共知识体系,各利益相关者可以使用它来推动对于合理差分隐私实施的识别和采用。
介绍
在过去三到五年,差分隐私全球范围内的广泛应用,它正处于一个历史转折点。工业用途的例子包括:在谷歌Chrome浏览器中应用于识别恶意软件 [Erlingsson et al., 2014];在 Microsoft Windows 中应用于对使用和错误统计数据收集中;以及在自2016年以来苹果macOS和iOS的所有版本中实施的“识别最流行的表情符号、最佳 QuickType 建议和Safari 中的能耗率等内容”。开源实现也有很多,包括用于隐私保护机器学习的Google TensorFlow Privacy。此外,微软和哈佛大学刚刚宣布合作建立一个开放数据差分隐私平台。在公共部门,美国人口普查局部署了 OnTheMap[Machanavajjhala et al,2008],这是一个保护隐私的基于网络的地图和报告,该应用程序不仅显示人们工作的地点和工人的居住地,而且还提供有关年龄、收入、行业分布和当地劳动力指标。2020年美国人口普查的用于避免数据泄露的子模块将使用差分隐私 [Abowd,2018]。
为了实现这些目的,我们建议创建Epsilon Registry——一个关于差分隐私实现的公共知识体系,各个利益相关者可以借助它来推动对于合理的差分隐私实现的识别和采用。使用差分隐私的公司将会披露 ε 的选择,以及一些关键的相关政策和实践(我们在下面详述)。这些信息将是公开的。通过Epsilon Registry共享的信息将以两种方式促进隐私:它将提供关于明智的参数 ε 和其他隐私保护设计选择以及从业者的最佳实践的信息;并且,通过使利益相关者能够对不同公司提供的隐私质量进行比较,迫使公司采取措施以减少隐私损失,同时确保数据可用且有价值。
01
差分隐私的实施和隐私实践的质量
差分隐私隐藏了任何个人或一小群人在数据集中是否存在的信息。从某种意义上说,对于每个人来说,从分析中得出的任何结论基本上都与某个人是否参与数据集没有关系。在本节中,我们简要定义差分隐私,探讨其几个重要属性,并阐明其范围。
1.1. 定义差分隐私。
差分隐私是根据统计数据分析而产生的隐私的数学定义。数学定义不同于隐私法律学术研究中讨论的概念和定义。法律学者试图区分不同的隐私概念,例如信息、物理、决策和所有权(参见 Allen [1998])。正式的法律文本,如成文法和判例法,可能会对满足或违反隐私的条件进行明确定义,并且通常体现“公平信息实践”中的原则(参见 Gellman [2017])。
数学定义是更加具体的,差分隐私提供了一种精确定义隐私保护的方法。 在数据分析师和拥有数据集的主体之间进行交互时,差分隐私使得数据集变动任意一条数据时,在交互结果中体现变化的概率是有上界的。通过这种方式,可以避免泄露有关某个具体个人数据的信息,同时允许对数据集整体进行统计学习。这种统计学习揭示了关于人群类别的信息,包括类别中的个人可能希望隐瞒的信息。差分隐私将获取整个群体的统计特征(在此定义下是不违反隐私的,就像了解“吸烟导致癌症”一样)与获取个体的信息(某个吸烟者患有癌症)分开,这些个体信息是与群体的统计特征是不同的。这是通过在计算中引入可控的随机性来实现的。这意味着差分隐私分析的输出不仅取决于数据,还取决于随机性。一旦数据集固定,对于每个可能的输出都会有一个确定的输出概率。
从任何人的角度来看,虽然可能无法知道主观上“坏”事件的风险,但选择加入或退出数据集的决定将不会明显改变这一风险。这里的是否“明显”由参数 ε 控制,其中较小的ε意味着变化较少,因此隐私性更好。变化可能是增加也可能是减少,之间相差至多 e^ε的乘法倍数。当这个界限 e^ε 接近于 1(即ε接近于 0)时,关于参与的个体的任何信息几乎同样有可能从没有参与的个体中获取到。
1.2 对机构的差分隐私实践进行有意义的评估
最后,差分隐私允许在数学层面跟踪 - 和控制 - 多次数据使用的累积隐私损失。
1.3. 差分隐私不能提供什么
差分隐私不是万能的,除了了解它能提供什么之外,了解它不能提供什么也很重要,即使是在epsilon很小的情况下。
差分隐私并不是用于研究异常值的工具,因为它隐藏了异常值的存在或不存在。它不是分析小型数据集的正确工具。根据 epsilon 的选择,差分隐私可能会隐藏小群体或感兴趣的子群体中的重要差异。虽然这可能被解释为技术限制,但它实际上是一项功能。回想一下,差分隐私确保从分析中得出的任何结论在有或没有任何个人数据的情况下基本上都可能得出。非正式地说,与小数据集的情况相比,我们希望在大数据集上进行的统计分析对某单个数据点的添加或删除不敏感。换句话说,与大数据集相比,在小数据集中添加或删除个体更有可能显着改变统计估计量的值。尽管此时准确性较低,但差分隐私确实按预期工作 - 在分析结果中隐藏了个人的存在或不存在。在需要分析小型数据集的情况下,有时对数据访问、使用和共享的法律限制可以帮助正确处理好隐私和可用性的权衡,前提是预期用途不会有机密性方面风险。
想象存在一个联邦数据库,其中包含未经同意收集的个人可识别健康信息,用于公共卫生目的,例如定位具有传染性的个人。差分隐私不能解决这种侵犯信息隐私的非自愿收集。
另一个潜在的担忧是,从隐私保护数据分析中获得的信息将会为重要医疗保健决策(例如,关于生育的选择)提供参考。差分隐私不会以任何方式限制从整体数据中获得的信息如何用于影响特定个人的治疗,无论他们的数据是否在数据库中。
1.4. 研究差分隐私系统的隐私性
1.4.1. 评估隐私质量的重要性
一般情况下或在任何给定的上下文中,差分隐私的定义都没有说明我们需要多少隐私。 并非所有数据都具有同等敏感性。而且重要的是,并非所有数据使用都具有同等价值。 如果我们正在寻求治愈癌症的方法,相比差分隐私与合同、道德规范、公共法律或其他约束一起使用的场景,我们可能更愿意提供较弱的隐私保护。差分隐私的参数化允许关于确保多少隐私的不同规范决策。 它为算法在社会层面的意义提供了可调的空间:它提供了将社会直接置于算法中的可能性[Rahwan,2018]。
1.4.2. 隐私损失的局限性
回想一下,“信息恢复基本法则”告诉我们,对很多问题的过于准确的回答可能会破坏隐私性。为了防止这种情况,实践中的差分隐私需要隐私预算来限制这种风险。这个预算是在不允许更多查询之前允许的(声明的)最大可接受的隐私损失。一旦这个预算用完,数据集就不再可用,再也不会允许被查询。
具体而言,让我们考虑一个示例,其中我们有一个隐私预算为 2 的差分隐私机制。有多种方法可以充分利用预算。一种可能的方法是执行两次计算,每次将 ε 设置为 1。另一种方法是运行三次计算:第一次计算 ε = 1,其余两个计算 ε = 1/2。在这两种情况下,总的隐私损失都以 2 为界,但预算以不同的方式“花费”。在第一个示例中,每次计算都丢失了相同数量的隐私。在第二个例子中,第二个和第三个计算的隐私损失是第一个计算的一半,但以可用性为代价。
1.4.3. 差分隐私应用于何处?
当在链路中的不同位置使用差分隐私时,以下两种情况可以会提供完全不同的隐私保护程度。对于较小的 ε 值来说,总是会产生良好的隐私保护效果(请参阅下面的第 1.5.2 节),故可以设置非常大的 ε 值来感受这一差异。假设目标是找出数据库中有多少人经常使用牙线。
考虑以下两种回复查询的方式:
(1)揭示数据库中每个人的姓名和使用牙线的习惯;
(2)仅显示所请求的统计信息。
针对以上两种回复查询方式,我们可以为牙线问题部署两个具有非常大隐私损失参数的的差分隐私算法。分别是先对原始数据应用差分隐私再对结果进行统计计算,以及先计算统计结果然后应用差分隐私。其中,前者的输出结果是非常糟糕的。这个例子也说明隐私损失本身并不能说明全部问题。
1.4.4. 差分隐私的保护粒度
对于推荐系统来说,在单部电影级别保护观众隐私意味着,对于任何给定的电影,系统将为个人电影观看事件提供 ε-差分隐私。然而,相比为用户的整个电影观看历史提供差分隐私的推荐系统,这种单部电影级别保护的强度更弱。例如,如果观众喜欢色情内容,则单部电影的隐私保证不会隐藏这种观看趋势,而每部完整历史的隐私保证则可以。这个问题就是应用差分隐私的保护粒度。
1.5. Epsilon的意义
选择ε的不确定性有两个来源:社会最优性的不确定性;以及epsilons函数增长趋势的不确定性。
1.5.1. 对于最优性的不确定性
由于在给定上下文中,隐私损失的正确程度是不明确的,因此公司去实施一个好的差分隐私机制的压力也随之降低。首先,对于给定的一般分析任务或非常特定类型的数据,在任意给定 ε 值下获得最佳数据可用性的方法是不明朗的。随着时间的推移,这可以通过技术研究来解决。其次,我们缺乏一个公式来确定,对于给定的隐私-可用性权衡,ε 的明智选择是什么。与使用牙线的示例一样,并非所有大的 ε 的效果都是相似的。
因此,虽然我们可以限制给定算法的隐私损失,但如果我们不知道 ε 可能有多小(可以提供多少隐私以及获得多大的数据可用性(最佳隐私-可用性组合)),或者如果我们不知道为我们为获得信息应该付出多少隐私代价是合理的,那么用ε去度量隐私的意义不大。
1.5.2. 对于小Epsilons值的含义进行统一
虽然所有小的 ε 的效果都是相似的,但每个大的 ε 的效果不尽相同,因此很难对它们进行推理。
想象一个由两种类型的生物居住的世界:鬼魂和人类。两种类型的人行为相同,以相同的方式与他人互动,以相同的方式写博客、学习、工作、笑、爱、哭、生育、生病、康复和衰老。唯一不同的是,鬼魂在统计数据库中没有记录,而人类有。隐私攻击者的目标是确定给定的 50 岁“目标”是鬼还是人。事实上,攻击者拥有所有50年的数据。攻击者不需要保持被动,例如,他可以组织临床试验并招募他选择的患者,他可以创造人类来填充数据库,创建上面讨论的最坏情况(隐私)数据库,他可以让目标在25岁或35岁时接触化学品,依此类推。他可以知道有关目标的所有信息,这些信息可能会被输入任何数据库。他可以知道目标将在哪些数据库中,如果目标是人类。那么唯一要关心的隐私泄露就就是判断该目标到底是人类还是鬼魂。在这种情况下,每个关于隐私损失的 ε 边界的保证都是可比较的:特定算法和数据类型无关紧要。
当 ε 很小时,无论我们是在考虑某一次计算,还是在同一数据库或多个数据库上进行多次计算的累积隐私损失,人类/鬼魂的身份隐私都是被保护的,无论攻击者拥有多少额外信息。在这种情况下,较小的 ε 可确保数据库基本上不会泄漏任何关于目标的信息(除了那些在目标不在数据集中时也能得到的信息)。
正如我们在使用牙线的例子中看到的,当ε很大时,情况不尽相同。从数学上讲,这是因为使用大的 ε 根本无法隐藏人/鬼信息,所以我们不能从这个信息被隐藏的假设中做出任何推论(就像我们刚刚在小 ε 的情况下所做的那样)。
因此,关于差分隐私语义的推理在当ε较小时是合理的,这确保我们合法地进行同类比较,在 ε 较大时变得不合理。
翻译/校对:彭立
关于我们
往期回顾
点
这里“阅读原文”,查看英文版论文