关于”匿名化“概念的10个常见误区

开放隐私计算 2024-01-09

数据价值流动是当今企业关注的重要话题，其过程离不开安全合规监管。“匿名化”是数据合规中的关键概念，在相关法律法规中占有重要地位。关于“如何实现匿名化”、“匿名化后是否仍存在重标识风险”等问题，各家理解不一。

为此，西班牙数据保护局（Agencia Española de Protección de Datos, AEPD）联合欧洲数据保护监察会（European Data Protection Supervisor, EDPS）发布了《匿名化十大误解（Misunderstandings Related to Anonymisation）》,对关于”匿名化“概念的常见误区进行了总结和纠正。Dataphin隐私计算团队对该报告进行了全文翻译，呈现如下。

匿名化是指将个人数据匿名化的过程。

“与已识别或可识别自然人无关的信息，或通过数据主体无法或不再可识别的方式匿名化处理的与个人数据无关的信息”

根据欧盟的数据保护法律，特别是《通用数据保护条例》（General Data Protection Regulation (GDPR)）[1]的定义，匿名化数据是“与已标识或可标识的自然人或个人数据无关，且其所属的数据主体无法或不再可以被标识”的数据。包含个人数据的数据集[2]可能包含直接和间接标识符，使个人能够被标识或变得可标识。

直接标识符是直接指向个人的特定信息，如姓名或身份证号码。间接标识符（也称为准标识符）是（如某个时刻的地理位置信息、对特定主体的某个观点等）的信息片段，了解该个体的人可以通过单独使用或与其他准标识符组合使用来重标识数据集中的个体[3,4]。
重标识可能性是指基于给定的数据集，应用数据匹配或相关技术，将匿名化数据转换回个人数据，从而重标识出某个个体的概率。数据集的可用性是衡量（匿名化后的）信息对预期目的（例如对特定疾病的研究）的可用程度。
数据集是数据的结构化集合。数据集的一个典型例子是一张数据表，其中每一列代表一个特定变量，每一行对应一条不同的记录。

近几年发生过几起因在数据上使用不完整或错误的匿名化处理导致个体被重标识的事件。2006年，一家电影流媒体服务商发布了一个包含50万名用户对1000万部电影打分的电影排名数据集。此电影流媒体服务商声称该数据集是匿名化的。但后来发现，攻击者只需要对用户有一点点的了解，就能从数据集的记录中标识出哪些记录是该用户提交的[5]。

还有另一个匿名化不完善的典型事件。2013年，纽约市出租车和豪华轿车委员会（New York City Taxi and Limousine Commission）发布了一份数据表。此数据表记录了超过1.73亿次的出租车行驶记录，行驶记录包括上车地点、下车地点、行驶时间、以及声称已经过匿名化处理的出租车牌照号。此数据集没有被正确经过匿名化处理，有可能重标识出这些出租车牌照号[6]，甚至标识出这些出租车是哪位司机驾驶的。

匿名化数据在医学、人口统计学、市场营销、经济、统计和许多其他领域的研究中都发挥着重要的作用。然而，人们对匿名化概念感兴趣的同时，匿名化的一些误解也被广为流传。本文的目的是提高公众对匿名化相关误解的认识，鼓励读者仔细检查这一技术的相关论点，避免未经验证就直接接受这些观点。

本文列举了关于匿名化的10个误解，解释了相应的事实，并给出了进一步的参考阅读资料。

先来几个行业问题，毕竟它背后有所有行业新闻、论文、产业消息。

误解1 假名化与匿名化是一样的

事实：
假名化与匿名化不同。GDPR定义“假名化”为“对个人数据进行处理，使得不使用附加信息便无法将个人数据归属于特定的数据主体的过程。这些附加信息是单独保存的，并受到技术和组织措施的约束，以确保个人数据不归属于已标识或可标识的自然人”。这意味着使用“附加信息”可能会导致个体标识，这就是为什么经过假名化处理的个人数据仍然是个人数据的原因。另一方面，匿名化数据无法与特定的个人相关联。一旦数据被真正匿名化且无法标识个体，数据将不属于GDPR的保护范围。

误解2 加密是匿名化
事实：
加密并不是一种匿名化技术，但却是一种强力的假名化工具。
加密过程使用密钥转换信息，以降低信息滥用的风险，同时能够在给定时间内保持信息的机密性。因为原始信息需要能被访问，故加密过程转换被设计为可逆过程，相应的逆过程被称为解密过程。解密过程所需的密钥是前文所提及的“附加信息”（详见误解1），可以使个人信息变得可读，从而使标识变为可能。理论上可以认为删除加密数据的加密密钥可以将数据变为匿名化数据，但实际上并非如此。我们不能因为解密密钥被认为是“已被删除的”或“未知的”而假定加密数据不能被解密。特别是从长远来看，有非常多的因素影响着加密数据的机密性。这些因素包含了加密算法和密钥的强度、信息泄漏、实现细节问题、加密数据的数量和技术进步（例如量子计算[7]）等。

误解3 总能将数据匿名化

事实：
在保留用于特定处理的有价值数据集的同时，将重标识风险降低到事前定义的阈值下并不总是可行的。匿名化是试图在降低重标识风险和保持数据可用性之间寻找正确平衡的过程。然而，基于数据的背景及其性质，重标识风险仍可能无法得到充分的缓解。例如：数据集中可能存在的个体（“全域对象”）数量太小（例如，一个仅包含705位欧盟议会议员的匿名化数据集）；数据所属类别的差异足够大，以至于能够单独将这些个体标识出来（例如能够访问某一特定网站系统的设备指纹）；或者数据集包含了大量人口统计属性[8]或地理信息 [9]。

误解4 匿名化是永久的
事实：
有些匿名化处理方法在未来可能有被逆向处理的风险。具体情况可能随着时间的推移而改变，新技术的诞生和可以获取到额外信息都可能会影响之前的匿名化处理结果。随着时间的推移，攻击者可以使用更多的计算资源和新技术（或已有技术的新用法）对匿名化数据集进行重标识。现阶段，云计算在相同价格下能够提供的计算能力放在几年前是难以想象的。未来，量子计算机也可能会让现在认为的“有效合理手段”变得不那么有效[10]。此外，多年来持续的数据披露（如个人隐私数据泄露）可能会导致之前的匿名化数据与可标识个体关联起来。数十年来发布的包含大量敏感信息的旧数据项（如犯罪记录）仍会对个体及其亲属造成严重的不利影响。

误解5 匿名化总能将数据集的重标识风险降低到0

事实：
匿名化处理方法以及其应用方式会直接影响到重标识风险的可能性。
对于一个健壮的匿名化处理方法，其目标是将重标识风险降低到目标阈值。需要考虑多个因素来确定这一阈值，如现有的缓解控制措施（如果数据是公开披露的，则无法应用缓解控制措施）、重标识对个人隐私的影响、攻击者重标识数据的动机和能力[12]。

误解6 匿名化是一个“0或1”概念是无法量化评估的
事实：
分析和量化匿名程度是可行的。
不能将“匿名化数据”理解为数据集可以简单地被标记为匿名化或非匿名化。任何数据集中的记录都有可能被重标识，具体取决于将它们标定（single out）出来的可能性。任何健壮的匿名化处理方法都应评估数据集被重标识的风险，并在一段时间内可以管理和控制这些风险[13]。除数据已被高度泛化等特殊情况以外（例如，某个统计网站一年内来自各个国家的访问量的数据集），重标识风险不可能为零。

误解7 匿名化可以做到完全自动化处理

事实：
自动化工具可以被用在匿名化处理中，然而，鉴于背景知识在匿名化处理中的重要性，专家的人工干预是必须的。与误解观点恰恰相反的是，匿名化处理需要对原始数据集、预期目的、应用数据集的技术和数据重标识风险进行分析[14]。直接标识符的标识与删除（也被称为“屏蔽”）虽然是匿名化处理的重要组成部分，但也必须对其他来源的（间接）标识符（一般为准标识符）进行严谨的分析[15]。找到直接标识符一般来说都比较容易，但间接标识符一般没那么明显，而未能检测到间接标识符可能会导致匿名化处理变得可逆（即重标识），从而威胁到个人隐私。自动化处理对于某些匿名化处理方法来说非常关键，如删除直接标识符或针对某一变量进行通用的一致性处理[16]。反之，如果要根据不同的背景知识标识准标识符，或为提高数据可用性而决定在某些变量上使用何种特定技术，这似乎难以实现完全自动化的处理。

误解8 匿名化会使数据变得不可用
事实：
在给定数据使用目的的前提下，适当的匿名化处理能够保证数据的可用性。
匿名化的目的是保证数据集中的个体不会被标识。匿名化技术总会限制结果数据集的使用方式。例如，将生日数据以年为单位进行分组可以降低重标识风险，但同时也会在某些情况下降低数据集的可用性。这并不意味着匿名化数据将变得不可用，可用性取决于使用目的和对重标识风险的可接受程度。另一方面，用户数据除了为实现最初目的外，不能为了等待它被用于其它用途的机会而对数据永久保存。对于一些数据控制者而言，匿名化是一种解决方案，即在数据集中删除个人数据，而剩下的数据集仍然能够包含一定的可用性。一个例子是，对网站访问数据集进行匿名化处理，只保留访问日期和访问页面，但删除访问者本身的信息。“数据最小化”原则要求控制者确定是否有必要处理个人数据以实现特定目的，或者是否也可以通过匿名化数据来实现该目的。特定情况下可能会得出这样一个结论：匿名化数据将无法满足预期的需求。在此类场景下，数据控制者需要进行选择：或者选择处理用户个人数据（同时使用假名化等机制）并应用GDPR规则，或者直接选择不处理数据。

误解9 遵循他人实施匿名化过程的成功经验将使我们获得相同的结果

事实：
匿名化处理需要根据性质、范围、背景、使用目的以及不同可能性和严重程度等风险等进行调整，以保护自然人的权利与自由。不能像使用食谱那样应用匿名化处理方法，因为数据处理的具体情况（如性质、范围、背景、目的等）一般随具体场景和具体组织的变化而变化。有可能出现的情况是，当数据仅对有限数量的接收方公开时，某个匿名化处理带来的重标识风险是低于阈值的。但当此数据集对公众开放时，重标识风险就无法满足阈值了。不同数据集在不同上下文条件下可能是可用的。因此，不同匿名化数据集的交叉使用可能会影响到重标识风险。例如，在瑞典，纳税人个人数据的详细信息是对公众开放的，但是在西班牙这些数据则不向公众开放。因此，即使对包含西班牙公民和瑞典公民信息的数据集采用了相同的匿名化处理方法，相应的重标识风险也可能是不同的。

误解10 没有人有兴趣找出数据和谁有关也不存在什么风险
事实：
个人数据对于个体本人和第三方而言都有价值。重标识风险对于个体的权利和自由而言有着严重的影响。
针对匿名化的攻击可以是蓄意的重标识攻击、无意的重标识攻击、数据泄露或向公众公布数据 [17]。有人试图从数据集中重标识出个体的可能性只属于第一类攻击。无论是出于好奇、偶然还是出于实际兴趣（如科学研究、新闻或犯罪活动），都不能忽视有人会在数据集中重标识出一个人的可能性[18]。很难准确评估重标识对个人隐私生活的影响，因为具体往往依赖于背景情况和相关信息。举例而言，针对看似无害的用户电影偏好数据集的重标识攻击可能会泄露用户的政治倾向和性取向 [19]。而这些特别敏感的数据会受到GDPR的特别保护。

[参考文献]：

[1] http://data.europa.eu/eli/reg/2016/679/2016-05-04.[2] A dataset is a structured collection of data. A table where each column represents a particular variable and each row corresponds to a different record is an example of a dataset.数据集是数据的结构化集合。数据集的一个典型例子是一张数据表，其中每一列代表一个特定变量，每一行对应一条不同的记录。[3] Barth-Jones, D. (2012). The ‘re-identification’ of Governor William Weld’s medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (July 2012). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2076397.[4] Khaled El Emam and Bradley Malin, “Appendix B: Concepts and Methods for De-identifying Clinical Trial Data,” Sharing Clinical Trial Data: Maximizing Benefits, Minimizing Risk (Washington D.C.: National Academies Press, 2015), http://www.ncbi.nlm.nih.gov/books/NBK285994.[5] Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix prize dataset. arXiv preprint cs/0610105. https://arxiv.org/abs/cs/0610105.[6] Pandurangan, V. (2014). On taxis and rainbows: Lessons from NYC’s improperly anonymized taxi logs. Medium. Accessed November, 30, 2015. https://tech.vijayp.ca/of-taxis-and-rainbows-f6bc289679a1[7] TechDispatch #2/2020: Quantum Computing and Cryptography, 7 August 2020, European Data Protection Supervisor https://edps.europa.eu/data-protection/our-work/publications/techdispatch/techdispatch-22020-quantum-computing-and_en[8] Rocher, L., Hendrickx, J. M., & De Montjoye, Y. A. (2019). Estimating the success of re-identifications in incomplete datasets using generative models. Nature communications, 10(1), 1-9, https://doi.org/10.1038/s41467-019-10933-3[9] Xu, F., Tu, Z., Li, Y., Zhang, P., Fu, X., & Jin, D. (2017, April). Trajectory recovery from ash: User privacy is not preserved in aggregated mobility data. In Proceedings of the 26th international conference on world wide web (pp. 1241-1250), https://dl.acm.org/doi/abs/10.1145/3038912.3052620[10] EDPS TechDispatch - Quantum computing and cryptography. Issue 2, 2020, https://edps.europa.eu/sites/edp/files/publication/07-08-2020_techdispatch_quantum_computing_en_0.pdf.[11] Graham, C. (2012). Anonymisation: managing data protection risk code of practice. Information Commissioner’s Office. https://ico.org.uk/media/1061/anonymisation-code.pdf.[12] External guidance on the implementation of the European Medicines Agency policy on the publication of clinical data for medicinal products for human use (2016) External guidance on the implementation of European Medicines Agency policy publication clinical data for medicinal products human use -.[13] Step 4: Measure the data risk. De-identification Guidelines for Structured Data, Information and Privacy Commissioner of Ontario June 2016. https://www.ipc.on.ca/wp-content/uploads/2016/08/Deidentification-Guidelines-for-Structured-Data.pdf[14] Recommendation section (5.2) of Article 29 Data Protection Working Party. (2014). Opinion 05/2014 on Anonymisation Techniques. https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf[15] Guess Who? 5 examples why removing names fails as anonymization, https://www.syntho.ai/5-examples-why-removing-names-is-not-an-option/.[16] See for examples e.g. F. Diaz, N. Mamede, J. Baptista (2016), Automated Anonymization of Text Documents, https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7743936.[17] Khaled El Emam and Luk Arbuckle, Anonymizing Health Data (p. 29-33).[18] Khaled El Emam, Elizabeth Jonker, Luk Arbuckle, Bradley Malin, “A Systematic Review of Re-Identification Attacks on Health Data”, 11 December 2011.[19] Narayanan, Arvind; Shmatikov, Vitaly. “Robust De-anonymization of Large Sparse Datasets” (PDF). Retrieved 2 March 2021. https://www.cs.utexas.edu/~shmat/sh

来源：隐私计算智立方

END

热门文章: