盘点全球四大类14种隐私增强技术的发展、应用和难点
2023年3月,由30个市场经济国家组成的政府间国际经济合作组织——经济合作与发展组织(OECD)发布了一份名为《新兴隐私增强技术-当前监管与政策方法报告》的文件。
该报告回顾了近期隐私增强领域的技术进步,并评估了不同类型的技术成熟度以及带来的机遇与挑战。
本文将为大家梳理盘点报告中提到的四大类(数据混淆工具、加密数据处理工具、联邦分布式分析、数据责任化工具)共14种隐私增强技术,从『技术介绍』、『应用场景』、『难点和限制』三方面展开,全面感知隐私增强技术的布局和潜力。
数据混淆,顾名思义,在本地处理数据时通过添加“噪音”或删除识别细节来混淆数据。报告中介绍的数据混淆类隐私增强技术有5种:『匿名化』、『伪匿名化』、『合成数据』、『🔗差分隐私』、『零知识证明』。
01关键技术1.匿名化:匿名化是从数据中删除识别元素的过程,以防止对数据主体进行重新识别。理论上,经过匿名化处理的数据在与其他数据集结合时,不应该能够追溯到个人身份。匿名化被广泛应用是因为它可以做到在不侵犯数据主体隐私的情况下,删除数据中的识别细节,从而可以以不违反隐私和数据保护框架的方式使用数据。然而,在实际应用中,真正具有解释能力的匿名化很难实现,并且仍然难以解释。2.伪匿名化:与匿名化相比,伪匿名化是一种较弱的去标识化形式。它主要通过从数据中删除可能被识别的信息,以减少对数据主体的识别风险。伪匿名化的数据在与存储在远程的可识别信息或外部可识别数据集相结合时,仍然保留被重构的可能。伪匿名化也被广泛使用,因为它可以从数据中删除识别细节,但与匿名化相比,伪匿名化的数据在许多司法管辖区被视为个人数据。3.合成数据:合成数据是“从一个或多个人口模型生成的类似人工数据,用以实现保密性。” 主要思想是生成具有与原始数据源类似的统计特性的人工数据。使用合成数据可以减少隐私风险是达成共识的。但是仍然存在一些限制和挑战,例如加拿大隐私专员办公室(OPC)指出:“合成数据仍然对固定目的(例如医学研究)有用,因为它们保持与原始数据相同的统计特性,但不再是最初从个人那里收集到的数据。如果源数据中的记录出现在合成数据中,仍然可能暴露”。此外,与匿名化和伪匿名化类似,合成数据也容易受到重新识别攻击,并且无法防止属性泄露。4.差分隐私:差分隐私通过对原始数据进行微小的改变(添加噪音),以掩盖个体输入的详细信息,同时保持数据的解释能力。其核心思想是对个体记录进行微小改动,安全地去标识化数据,而对聚合结果影响不大。噪音可以在数据收集时(分布式)或在数据发布前的中央位置添加(集中式)。差分隐私在学术界已经得到一定发展,但只有少数机构大规模部署。当前仍需要进一步发展以定义不同应用场景中差分隐私的可接受参数和阈值。许多文献中讨论的差分隐私部署被批评其既不能提供足够的隐私保护,也不能提供足够的有效参数。5.零知识证明:零知识证明可以回答是否某事为真或为假的简单问题,而不泄露任何其他信息。比如在回答关于某人收入是否超过某个阈值等简单问题时隐藏底层真实的收入数据。零知识证明在提升隐私方面具有重要属性,但应用仍处于早期阶段。目前主要集中在改善加密货币应用的隐私性。未来有望在医疗、选举、年龄验证和交通管理等领域使用零知识证明,但迄今为止尚未进行大规模部署。ZKP被认为是欧洲数字身份钱包项目的重要技术之一,该项目是作为欧洲联盟有关电子身份和电子交易信任服务的法规(eIDAS法规)计划的一部分。
02应用场景场景一:在不泄露隐私的情况下验证信息:数据主体通常需要披露个人数据以获取服务,如年龄或收入信息。例如,基于零知识证明的数据混淆隐私增强技术可以在不披露信息的情况下确认信息,并可应用于医疗保健、政府、住房和电子商务领域。场景二:提供更多更深入的研究机会:差分隐私等数据混淆隐私增强技术可以为原本过于敏感而无法共享的大型数据集提供新的共享研究机会。主要应用领域包括医疗保健、交通运输和金融等拥有大量敏感、有价值信息的领域。
场景三:安全存储:差分隐私等数据混淆技术可以降低错误外泄的数据被明确识别和确认的风险。将带有识别细节的数据伪名化,并提供安全存储条件,可以降低数据外泄后被重新识别的风险。
场景四:数据复用和共享(只需保留总体统计特性):通过保留总体统计特性,分析合成数据可以得出与分析原始数据源相同的统计结论。应用较为广泛的领域包括:训练人工智能模型、测试软件、共享数据、生成合成数字内容。
03难点和限制1.匿名化技术并不完全可靠:匿名数据集的记录可能在发布后被重新识别。这种挑战在很大程度上是因为在匿名化时难以预料到所有的重新识别手段:例如,可能与匿名数据集结合分析获取个人信息的所有可能数据集,以及未来可能出现的其他分析技术。
2.混淆数据时也可能意外泄露信息:差分隐私等应用程序向记录中引入噪音,但某些记录可能保持原始状态,数据泄露量与引入的噪音量有关。目前,对于在不同情况下保护隐私所需的噪音量没有达成共识的规范。此外,对于许多现实世界的数据集来说,隐私-效用的良好平衡尚不清楚,因为足以保护隐私的参数值可能会破坏效用,反之亦然。
3.技能和能力不足:混淆措施包括匿名化通常涉及复杂的过程,需要受过训练的专家来实施,以确保不会意外泄露信息。然而,并非所有组织都具备实施这些复杂过程所需的能力和资源,有时甚至缺乏对数据分析的认识和所需的能力而无法意识到和应对重新识别的风险。
4.缺乏落地案例:混淆数据隐私增强技术很有前景,但目前的使用案例相对较少。
加密数据处理工具
从数字安全和隐私保护的角度来看,因为需要对数据进行明文处理,所以数据处理一直是一个主要的风险点。在数据静止和传输过程中,常见的加密技术在一定程度上减轻了数据泄露的风险。然而,在处理过程中需要解密数据时,这些风险仍然存在。
与数据混淆不同,加密数据时一般底层原始数据保持不变,但通过加密进行隐藏。然而,值得注意的是,加密数据技术并不能保证防止数字安全漏洞,因为严重的数据泄露仍可能发生。报告中介绍的加密数据技术主要有『同态加密(HE)』、『多方计算(MPC)』、『私密集合交集(PSI)』、『受信任的执行环境(TEE)』。
01关键技术1.🔗同态加密(HE):同态加密允许在不暴露数据给处理方的情况下进行计算。数据所有者使用自己的密钥对数据进行加密,然后处理器可以在加密数据上执行计算,得到只有数据所有者的密钥能解密的结果。因为数据可以在使用过程中保持加密状态,从而确保严格的机密性。它降低了数据在使用过程中的安全风险。
尽管同态加密的效率相对较低,但它在需要保护隐私且隐私效益超过计算成本的情况下是一个理想选择。同态计算方法在其他隐私增强技术中也得到广泛应用,如多方计算。尽管它的效率较低,但随着数据加密和处理效率的提升,使用同态加密的应用也可能增加。
2.🔗多方安全计算(MPC):MPC是一组工具,使参与方能够在保持其输入数据私密的情况下共同计算函数。它消除了需要信任的第三方查看和管理数据的需求。MPC可以聚合敏感数据,而无需要求任何数据贡献者披露自己的数据。因此,可以使用秘密共享技术或同态加密来聚合和计算来自多个参与方的数据。与同态加密一样,决策者可能需要考虑在法律下如何处理在MPC中使用的加密数据。与独立的同态加密应用相比,MPC应用更加成熟。
3.🔗隐私集合求交(PSI):PSI是一种安全的多方计算形式,允许组织在不揭示各自数据集内容的情况下找到共同元素。PSI只显示不同数据集之间的共享元素,而不需要数据主体披露其完整的数据集。PSI可以提升隐私和数据保护,减少数据暴露的风险。政策制定者可以要求希望匹配客户列表的公司使用PSI来限制不必要的数据暴露。PSI技术已在COVID-19接触追踪和移动消息应用等大规模应用中得到应用。
4.🔗可信执行环境(TEE):TEE是计算机处理器上的一个专用区域,与操作系统分离并得到安全保护。它存储敏感且不可变的数据,并且可以在其安全限定范围内运行安全代码。TEE假设操作系统是可破坏和不可信任的。因此,在TEE下,操作系统无法访问处理器的安全区域中的信息或读取存储的秘密。TEE提供了一个安全的位置,可在设备上存储和使用数据,而不会将其暴露给不可信任的环境的风险。TEE可以帮助增强隐私和数据保护,因为它允许在设备上的使用过程中保持数据的安全性。02应用场景场景一:使用敏感数据进行计算:同态加密和多方安全计算都允许在不披露给第三方的情况下使用敏感数据进行计算。最近的应用包括使用MPC生成有关安全防御、控制失效和损失的网络风险指标,进行保密的工资调查,将教育和税务数据库进行关联等。场景二:在同一组织内对加密数据进行计算:组织内的敏感数据在静态和传输过程中仍然保持加密状态。这四种隐私增强技术允许在数据分析和处理过程中保护数据。一些协议侧重于多方安全计算,但相同的技术也可以保护组织自身的数据集的处理过程,从而提高在数据泄露事件中的安全性。场景三:使用需要保持私密性的模型进行计算:组织通常拥有不希望公开的专有模型,而数据主体/所有者则拥有不希望披露的数据。多方安全计算、同态加密和可信执行环境都可以保护计算过程中的模型私密性。场景四:接触追踪和相互联系发现:PSI技术已大规模应用,例如由苹果和谷歌提供的COVID-19接触追踪功能。在这些情况下,软件可以通知用户是否与已感染病毒的人的手机有过密切接触。移动消息应用也使用PSI进行联系人发现,即确定用户的联系人是否也在该应用上,而不披露用户的所有联系人。场景五:在线广告转化测量:研究人员使用PSI将在线广告投放与商品支付进行匹配。03难点和限制1.数据清洗挑战:使用多方安全计算、同态加密和隐私集合求交的加密数据无法被数据控制者和处理者检查和清洗。分析人员通常需要花费大量时间从各种来源收集数据并进行清洗,然后再将其用于模型中。然而,使用这些隐私增强技术时,分析人员无法查看原始数据,因此所有的错误需要在数据提交到计算之前由数据主体或数据控制者进行识别和清洗。2.确保结果不泄露信息:加密处理工具旨在保护数据处理过程中的数据,但无法完全保证结果不会泄露信息。例如,从单个观测中产生的查询/计算结果将泄露该观测的内容。因此,在选择用于多方计算的函数时需要特别谨慎,因为结果可能会泄露有关输入数据的信息,就像由可信第三方进行计算时可能发生的情况一样。目前的研究正在探索在计算完成并发布结果之前如何测试计算是否可能泄露信息,并将这些测试设计到系统和应用程序中。3.计算成本居高不下:与标准数据库查询或模型应用相比,对加密数据进行计算的计算成本要高得多。如果存在更简单、更便宜的明文数据处理方法,组织通常会避免使用这些技术。然而,如果政府推荐或要求使用加密数据处理,这些技术的使用可能会增加。随着研究的进展,这些过程也在变得更加高效。