查看原文
其他

案例分享 | 差分隐私在美国人口普查数据中的应用

什么是人口普查(Census)

人口普查,英文专业名词“Census”,是是一个用于收集关于人口、住房、就业和经济等方面的信息的全国性调查。自1790年第一次人口普查以来,美国的人口普查每隔十年进行一次,已经进行了23次,每次普查都收集了海量的数据,包括人口、家庭、住房、教育、收入、就业、种族和民族等各种方面的信息,用于帮助政府和社会各界可以更好地了解国家的人口、社会和经济情况。

人口普查的隐私挑战

人口普查项目一方面大规模收集个人敏感信息,如个人身份、地址、家庭成员、收入等;同时还要公开分享数据集支持数据有效利用,可想而知隐私保护一直都是它最大的挑战。在过去的几十年中,人口普查局采用了许多不同的数据保护技术,以确保发布数据的隐私和安全。



20世纪60年代开始,使用数据抑制处理有关个人身份的信息,如姓名和地址,在数据发布时都会被删除,仅在统计数据中保留一些基本信息,用于保护个人隐私。
70年代和80年代,开始使用加密/假名化技术来保护人口普查数据的隐私。该技术涉及将数据转换为一些不可读的代码,并需使用密钥来解密原始数据。
20世纪90年代,开始使用数据扰动添加噪音的方式来保护个人隐私。例如:将某些家庭的记录与附近地区具有相似特征的家庭的记录交换(Data Swapping),从而在数据中注入“噪音”。该类技术会在人口普查数据中引入一些随机误差,以便个人无法被准确识别。

2018年,人口普查局基于2010年普查发布的公开数据做了一次模拟数据重建攻击实验。他们首先重建出3.08亿人的基本信息(居住区域、性别、年龄,种族和民族)。

然后将这些重建后的记录拿来和外部可购买到的商业数据库中的个人信息进行匹配,找到了1.38亿个匹配结果,并最终正确地重识别出5200万个自然人,占到了美国总人口的17%。这个结果是让人震惊的,它代表着即使人口普查局应用了各种技术手段来保护隐私,还是有近两成的个人信息可能被完全泄漏。

所以在2020年的人口普查中,普查局决定引入一种基于差分隐私的数据避免披露框架。

差分隐私在人口普查的应用

差分隐私的目标是掩盖个人信息在某个数据集中的存在或不存在,但同时又保证数据集在统计层面的有效性(utility)。差分隐私还有一个重要优势是它可以量化披露风险的级别。

图 1 - 差分隐私示意

  • 差分隐私允许人口普查局对发布的数据集进行跟踪和解决潜在的隐私损失。

  • 差分隐私处理后的数据可以发布、分析并链接到其他数据,而不会增加任何泄露风险;一旦数据被处理,无论数据如何使用,都不会再有隐私损失。

  • 差分隐私提供数学上可证明的隐私保证以防止潜在隐私攻击。

  • 差分隐私是透明的,不同于之前的数据保护方法,如数据交换。差分隐私的编程代码和决策对公众开放;唯一未公布的信息是添加到给定数据点的噪声的确切值。

人口普查局在2020使用的数据保护方法有两个部分:差分隐私算法和后处理,差分隐私算法给数据增加了噪声,而后处理增强一致性。两者被整合到一个称为自上而下算法 (TDA-TopDown Algorism) 的框架内。

1-数据准备

首先人口普查局为 2020 年人口普查重新分配数据文件编制了一份交叉表,该表反映了每个地理层级(从国家层面到州,再到最低层级的人口普查区)的所有变量。

在已发布的重新划分数据文件中,人口特征有 252 种可能的种族、民族和年龄组合(63 x 2 x 2 = 252)。住房特征包含了八种居住类型(住房单元加七种集体宿舍类型)和两种居住状态类别,构成每个地理单元的有262(252 + 8 + 2)个不同的已发布数据类型。

为了生成这些已发布的数据,TDA 使用了一个更详细的交叉表,将 252 个种族、族裔和年龄类别与八个居住类别(住宅和七个集体宿舍类型)相结合,得到 2,016(252 x 8) 每个地理单元的不同数据元素。

2-添加噪音

2020年人口普查中,共有约800万个人口普查区,每个区都有2016个数据元素。这意味着TDA共有超过160亿个数据单元。

为了保护受访者的数据机密性,会向数据添加噪音。噪音的水平由“隐私损失预算”控制,隐私损失预算可以设置得更高或更低,随着隐私损失预算的增加,噪声减少,数据将更加准确,但攻击者重建数据用于重新识别自然人的可能性也上升。

为了平衡准确性和保密性,隐私损失预算可在“高保护但无准确性”和“高精度但无保护”之间的任何值内设置。预算越低,保护越高,但每个数据点的准确度越低。
同时,必须考虑到人口普查局的法律义务和数据使用者对数据效用的需求。总的隐私损失预算必须分配给所有已发布的人口普查产品(表格和微数据),并涵盖人口、住房和地理层面。花费预算来提高某一维度的数据准确性可能会导致在另一维度上的准确性较低。

表单演示了如何向由5个人口普查区组成的数据表添加噪音。这是第一步,将噪音独立添加到每个单元格中。在TDA中,噪音是随机抽取的,与单元格所代表的人口规模无关。因此,两个人口调查区,一个人口规模为十万,另一个为一千,增加5的可能性相同。
这意味着相对误差更高的小群体有更高的识别风险。对于每个单元格的每个特征,我们都添加了独立的噪音,导致逻辑上的不一致。这个过程在地理层级嵌套中进行,从国家层级开始,每个层级都会重复这个过程,直到最低一个层级-人口普查区。

图 2 - 逐层嵌套的噪音添加

3-后处理

差分隐私的噪声注入提供了可量化和可证明的隐私保证,这个保证反映为全局隐私损失预算及其在每个统计数值上的分配。它也可以被看作是对自然人的一个承诺,即攻击者通过重识别带来的风险是有一个上限值的。

因为一些特殊国情,TDA部分背离了传统的差分隐私框架,它的数据中包含了某些不变量—即不会添加任何噪音的特征数据。比如:

  • 每个州的总人数(它会被用于重新分配美国众议院在各州的席位数量);

  • 每个人口普查区的住房单元总数;

  • 每个人口普查区中被占用的团体宿舍设施数量(大学,护理机构,军营,惩教设施等);

  • 不变量的使用会削弱差分隐私的保护强度,这里我们不做展开讨论。

除此之外,TDA还有一些预定义的全局约束,用于解决数据的不一致问题,它们适用于所有的地理层级:

  • 人口和住房数量必须为整数且不得为负数。

  • 表格中各单元格的值相加应该等于单项统计总数,而行或者列的总数统计应等于表格中的总人数。

  • 对于指定的统计范围,计数值应该在同一表内以及不同表之间保持一致。例如,按种族划分的人口总和必须等于总人口,已占用和空置住房单元的数量总和必须等于住房单元总数,州内每个县的人口总和必须等于该州的总人口 .

  • 如果某个地理区域中的住宅和集体宿舍 (GQ) 设施为零,则不得向该地理区域分配人员。

  • 每个 GQ 设施内的人数大于或等于 1。

  • 每个住宅或集体宿舍的人数小于或等于99,999。

  • 基于如上条件,TDA会对数据进行后处理,以满足规范。

上表是基于数据后处理的一个实际例子。首先,第四区中成年人人数的 –1 被调整为非负数。然后是一些不一致的问题,例如原来第五区总人数小于成年人人数的问题也得到了解决。最后调整噪声特征以匹配所有相关地理区域的总噪声人口。在此示例中,初始噪声块总数总和为 257,但必须调整为 254。

4-隐私预算值

为了保护隐私,隐私损失预算(PLB)可以调整,影响噪声范围分布。更高的 PLB 值表示更高的数据准确性和更少的私密性。随着 PLB(ε - epsilon)上升,添加到任何给定单元格的噪声越来越有可能为零。

较低的 PLB 值意味着较低的准确性,更多的保护,因为噪声分布从零开始扩散,并且越来越多的噪声被添加到单元格中。

在最极端的情况下,零 PLB 会体现为 100% 的噪声,而无穷大的 PLB 值将反映完全的准确性,数据不含任何噪音。隐私损失预算并不是影响分布形状的唯一因素。分布类型(如拉普拉斯分布、几何分布或高斯分布)也有影响。

为了平衡机密性问题和数据准确性,美国人口普查局选择基于不同的统计分布(离散高斯)实施零集中差分隐私(zCDP)框架。这种转变意味着,对于相同级别的隐私损失预算,zCDP 注入异常大量噪声的可能性低于纯差分隐私。

对于 2020 年人口普查的数据文件,隐私损失预算的分配如下所示,总的隐私损失预算 ε = 17.44

预算按地理层级划分,每个层级得到总额的一小部分:国家为 104/4,099;各州 1,440/4,099;县 447/4,099;687/4,099 单张;优化块组为 1,256/4,099;块为 165/4,099。

以上就是美国人口普查中对差分隐私使用的一个大致介绍,我们可以看到通过改进的处理方法设计和较高的隐私损失预算,TDA提供了可靠的隐私保护和足够的数据效用,可以供我们在类似数据集开放场景下参考。


参考资料:

1.Disclosure Avoidance for the 2020 Census:An Introduction - 美国人口普查局

2.Private Numbers in Public Policy: Census, Differential Privacy, and Redistricting - Aloni Cohen, Moon Duchin, JN Matthews, Bhushan Suwal.

3.《差分隐私在美国人口普查数据中的使用》- 知乎用户YWXX

END
热门文章:




隐私计算头条周刊(4.17-4.23)


招标 | 近期隐私计算项目招标中标35(常州市大数据管理中心、中国船级社、富滇银行等)


国内首个国家微生物科学数据隐私平台发布


好书相赠!《机密计算:AI数据安全和隐私保护》


深度盘点 | 隐私计算 x 国家自然科学基金项目

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存