隐私计算的概念迷宫 | 解读不同法域下的脱敏、去标识化、匿名化和假名化
◆ ◆ ◆ ◆
隐私计算的概念迷宫
解读不同法域下的脱敏、去标识化、匿名化和假名化
◆ ◆ ◆ ◆
文 | 李汶龙
李汶龙,英国爱丁堡大学科技法博士,英国伯明翰大学法学院与计算科学学院博士后研究员、爱丁堡法学院客座教授、爱丁堡数据、文化、社会中心 (Edinburgh Centre for Data, Culture and Society, CDCS) 研究员。曾任英国SCRIPTed学术期刊编辑、牛津普莱斯传媒法模拟法庭教练、微思客WeThinker编辑及联合创始人。国内曾就职于腾讯研究院、中国政法大学传媒法研究中心。
全文6481字,推荐阅读15分钟
前言
隐私计算或许是最为跨学科的研究方向之一,无论是计算科学家、法学家、数字社会学家都在从不同角度探索边界和共识。这又是一个分歧丛生、概念繁复、充满迷思的领域。关于相关技术在隐私和数据保护问题上能够扮演什么样角色已经存在数十年的争执。十几年前就有著名法学家(譬如Paul Ohm)指出隐私计算的根本性缺陷;也有很多人为其正名,认为其在数据保护领域仍有一席之地。国内对于这一领域(文献)的理解多是基于翻译,但译作中经常出现的诸如第29条工作组的意见已经是7年前(且是GDPR生效之前)的产物,此后数年间又有许多发展和变动。此外,翻译的过程中还存在解读不准确、理念过时,甚至误读的情况。
对隐私计算这里领域的理解首先要理清纷繁复杂的概念,但这又是这个领域最为棘手的问题之一,尤其是对于初学者而言,面对来自不同学科的概念往往“望文生畏”。
本文旨在正本清源,讨论若干隐私计算相关概念的缘起、范畴以及关系,以期对国内的讨论增加一些概念确信。本文主要在概念层面上展开讨论,具体的技术机理和法律解读则留给后一期。
先说一说本身存在缺陷但却很流行的概念,包括隐私计算本身。这个概念在国内大行其道,相关的白皮书、商业报告甚至学术讨论目不暇接。但究其概念出处,却几乎没有什么人梳理。可以确定的是,隐私计算在英文当中没有完美的对应概念。唯一使用这一概念在学术期刊讨论的是中国科学院大学李凤华团队在Engineering期刊上发表的一篇文章。(Li et al. 2019) 文章中也并非延续某一研究传统,因为隐私计算 (privacy computing) 概念的提出属于作者首创,可以理解为是中国语境向西方文献的“倒灌”。
在英文文献中理解“隐私计算”可能有两条方向。第一是由老牌科技公司IBM提出的机密计算 (confidential computing)概念。根据ZdNet媒体的报导 (Osborne 2021),IBM在这一方向上已经深耕了近十年之久。
机密计算背后的机理是通过创设所谓“安全飞地”(secure enclaves) 来实现隐私的保障以及用户对数据的控制,确保飞地中的内容远离云或基础设施提供商以及其他外来威胁。
机密计算,即一种云计算技术,将敏感数据隔离在一片CPU飞地 (‘enclave’ ) 当中以得到保护,而飞地中的内容只能通过已授权的编程代码访问。
————IBM高级工程师兼CTO,
Nataraj Nagaratnam
作为老牌霸主,IBM的长期研究势必会影响到业界并引起国内关注。因此隐私计算的概念或许出自于此,但机密性 (confidentiality) 的中文概念相对拗口且可能产生歧义,改为更为公众熟悉的隐私概念符合常理。
理解隐私计算概念出现的第二个方向是西方学界更常用的另一个概念—— 隐私增强技术 (Privacy-Enhancing Technologies, PETs)——的简化翻译。例如,国内有很多报告将“隐私计算”翻译为Privacy-Enhancing (-preserving) Computation。
与隐私计算一样,PETs这一概念也相对宽泛且包括万象。Ada Lovelace Institute官网上发布的一篇关于PETs的批判性长博文呈现出这一概念的复杂性。(Renieris 2021) 作者圣母大学-IBM技术伦理实验室的Elizabeth M. Renieris指出PETs没有统一的概念,但一般指代能够降低隐私安全风险的科技或者方案。学界关注其保护隐私的效果,而业界的关注点在该概念所涵盖的若干技术方案——包括但不限于同态加密 (homomorphic encryption)、安全多方计算 (secure multi-party computation)、差分隐私 (differential privacy)、混淆技术 (obfuscation),以及最为基础的匿名和假名化(下文详述)。当PETs在以某种形式写入法律当中后,还有政策、法律制定者使用这一概念指代能够帮助隐私合规的科技方案。
考虑到这一概念辐射极广,涵盖不同类型的技术、方案和理念,若干学者尝试对PETs进行分类总结。较有影响力的是一个横跨大西洋的欧美团队2013年发表的一篇论文 (Diaz et al 2013)。
该文将隐私增强技术大致分为三类:
第一类诸如私人信息检索或零知识协议 (zero-knowledge protocols) 等用户提供信息作为系统输入而控制者无需对信息内容知情的技术。但隐私保护实现的前提是控制者能够且愿意出资整合这些协议。
第二类是包括加密工具和匿名访问代理服务等客户端软件 (client-side software)。实现隐私增强保护无需数据控制者做些什么,但这类服务确是控制者希望限制或阻止用户使用的。
第三类是支持匿名通信的去中心化协作应用程序(例如Tor)。这类服务完全无需数据控制者存在,由用户来扮演服务提供者。但是,互联网服务提供商 (ISPs) 却有能力破坏其匿名性甚至阻止用户访问或者参与这类服务。
此外,纽约大学教授 Ira S. Rubinstein (2017) 提供了另一种更富包容性的分类方式。
在国内隐私数据保护的相关法规出台后,对于个人信息数据的隐私保护被聚焦,而在繁多的技术术语中,脱敏、去标识化、匿名化和假名化的概念极易引发混淆。
在部分的法规解读中,可能受美国概念体系的影响,假名化被纳入到去标识化大类之下,作为其中的一种技术路径。但在欧盟的GDPR中,都将匿名化与假名化单独提出。可以看出,不同法域下同一概念的内涵外延并不统一,使用不同概念含义范围不一致。
除上文所述外,“脱敏”也是另一个存在很多分歧、误解和误用的概念。之所以存在争议,与概念本身的模糊性有关,因此较少出现在学术研究甚至法律文本当中。这一概念主要被业界使用,信息科学的语境中偶尔可以看到,但鲜有对概念的定义或者解读。(e.g. Bakken et al. 2004) 心理学中,脱敏 (desentisation)是指一种通过反复唤起负面、厌恶的刺激之后,患者最终会减弱对这些刺激情绪反应的治疗过程。沿用至数据实践,数据脱敏是指对数据中“敏感字段”进行处理,方式有很多种,包括但不限于替换、过滤、加密、遮蔽、删除等。
理解这一概念核心在于如何理解数据的敏感性。“脱敏”容易引起的最大误解即数据对相关个人不再具有敏感性,因而实现隐私保护的目的。实际上,对数据的不当使用或者滥用可能造成诸如隐私、歧视、名誉损毁等危害,而对于控制数据的企业而言也会带来负面的影响。然而,敏感性的定义并不是围绕用户个人而是控制者评估展开的,“脱离”的程度现实中也由控制者自行决定。因此,脱敏数据并不意味着其处理不会带来隐私风险或者直接满足合规要求,而是数据控制者自我评估认为“相对安全”。
数据脱敏也存在一个翻译的问题,中文文献中经常借用诸如masking(”数据屏蔽“), sanitisation(“数据清理”),redaction(“数据编辑”)等概念与“脱敏”匹配。实际上,这些概念都是具体技术的指称,“脱敏”本质上是对技术实施后效果或状态的一种描述。在理解这一领域的基本概念时,应当对技术本身的名称,以及技术希冀实现效果的指代概念作出明确区分。
脱敏所涵盖的技术手段有其他类似的概括性概念,例如去识别技术、匿名化及假名化等。这些概念被使用的语境有所不同,涉及到的文献和法域也有细微差异,下文进行详述。
身份识别或者“可识别性”(identifiability) 是隐私风险的主要来源,也是数据保护法(本文采用欧盟的概念)主要治理的对象。简单来说,可识别是指某项数据可以稳定地指向某一个人或者构成关联,数据或者数据集合所展现出的私人事实就可能关乎其根本利益,构成某种程度的威胁或者伤害。
隐私计算的语境当中,这个概念更多被译为标识(符)。去标识化的(中文)概念听起来很晦涩,但英文语境当中很好理解——就是识别的相反过程 (DE-identification)。去标识化本质上也是一个描述性概念,相对学术且具有包容性且范畴不是非常明晰。
理解去标识化的核心在于直接标识符和间接标识符这对概念 (direct/indirect identifiers)。
按照Polonetsky等人 (2016) 的定义,直接标识符是指,在没有额外信息或者与公开数据交联 (cross-linking)的前提下,可以被直接用于识别某个人的数据。
这些数据相对比较直观,也即日常语境中的个人信息,包括但不限于姓名、身份证或社保账号、联系方式等。去标识就意味着改变或者删除其中某些字段。
间接标识符也称之为“类识别符”(quasi-identifiers),指能够帮助建立信息之间的关联,将要识别的个人从人群中摘选出来的数据。
常见的间接标识符包括生日、年龄、性别、邮政编码等。这些数据无法单独识别某人,但稍作组合就可以实现强大的识别能力。
案例
最著名的莫过于时任MIT博士生(现为哈佛肯尼迪学院教授)的Latanya Sweeney只通过出生日期、性别、邮政编码就可以准确识别马萨诸塞州87%的选民。
(Sweeney 2000) 处理直接标识符的方法比较容易(直接改动或者删除),但是间接标识符一旦删除就可能导致数据集本身的效用受损。但间接标识符的泄露或不当使用也可构成隐私风险。尤其是当数据分析技术的日益提升使数据间关联性更加凸显(Rocher et al. 2019),间接标识符对隐私保护的意义也就不言而喻。
最后,去标识化不仅仅指代对标识符的处理,这一概念还涉及对数据使用和分享的进一步管控和权限限制 (control & safeguards)。
Polonetsky et al. (2013) 总结了几种模式,包括:
"发布即忘记模式” (Release and Forget),即将数据完全公之于众不采取任何获取限制措施;
数据使用协议模式,即通过合同的方式明确数据使用的具体细节;
数据使用协议模式,即通过合同的方式明确数据使用的具体细节;
具体而言,非技术性的管控和权限限制可以分为内部和外部两种。
内部控制主要包括安全政策、访问限制、员工培训、数据隔离和删除等行政和物理控制,确保数据不被泄露或滥用。
外部控制主要涉及上文提供的合同条款,一方面限制数据的使用和共享,另一方面明确救济和审计等合规要求。
去标识化的概念在美国文献中使用较为频繁,代表着某类特定文献或研究方向。而欧洲语境中使用更多的是假名化和匿名化,下一节展开论述。
上文的去识别化概念相对学术,存在相对更为技术性的同质概念——匿名化 (anonymisation)和假名化 (pseudonymisation)。后两者在欧洲语境当中使用更广,一个很重要的原因是欧盟将其写入了数据保护立法。观察ISO等关于隐私增强技术和去识别化的国际标准也深受欧盟立法的影响。(e.g. ISO/IEC 20889:2018) 这些概念彼此之间高度重合,涵盖的具体技术手段也类似。
例如,去除直接标识符的主要手段之一即使用假名进行系统性的替换。但也有学者尝试将这些概念整合在一个概念体系当中。根据Plonetsky等人 (2016) 做出的谱系,去标识化处于假名数据和匿名数据之间的一种状态。与假名化不同的是,去标识化不仅会删除直接标识符,还会删除间接标识符。而假名化只涉及对直接标识符的处理。与匿名数据不同的是,去识别数据尚且需要额外的控制和保障,但匿名数据因其自身性质已经无需类似保障。
在这一概念体系中,匿名化是相对理想的状态,可以实现所有间接标识符的消除或转化(但去识别化仅处理已知标识符)。对去识别化 (de-identification) 的理解相对符合现实:既然存在去识别化的过程,也就存在再识别化(re-identification) 的理论可能。需要注意的是,并非所有人都是这样理解这些概念的关系,去识别化与匿名/假名只是不同的研究共同体选择的不同称谓,内容实际上高度一致。
假名概念范畴比较清晰,也存在法定的定义。
GDPR第4(5)条从去识别化的可逆性角度出发,将假名化定义为一种达到如下效果的个人数据的处理:
在没有其他附加信息辅佐的情况下,无法与某个特定个人(数据主体)进行关联。
作为一个法律概念,它还包含若干规范元素,例如用于再识别化的附加信息需要分离存储并且采取技术和组织上的措施加以保护。
反观IEC/ISO 20089:2018的定义相对更加简单和技术化:
假名是一项去识别化的技术,将某一个或多个识别符以假名 (pseudonym)替代,以实现对数据主体身份的隐匿。
有趣的是,无论是法律还是标准都没有对匿名化的直接定义。但确定匿名属性本身有具有重大的规范意义——会导致整部GDPR所有法规不再适用。(但是究竟匿名化作为一种数据处理过程是否受到数据保护规则的调整在学术讨论中是存在争议的——见Walden 2002)
西班牙数据保护监管机关 (Agencia Española de Protección de Datos, APED) 和欧盟数据保护监督员 (European Data Protection Supervisor, EDPS) 2021年共同发布的一份就匿名化存在的十大误读的报告中,首当其冲的就是“假名化就是匿名化”(“Pseudonymisation is the same as anonymisation”) 。
那么匿名化究竟是什么呢?
GDPR序言第(26)条对匿名信息的一段描述中包含了相关的定义:
匿名信息是指:
本身就无法与某个自然人建立关联或者
经过处理使其无法在用户识别该自然人的信息。
但是,序言本身不具备法律效力,立法者没有将其与假名概念并列也是有意为之。此外,序言中的“概念”本质上就在循环论证,意义不大。
不过英国信息专员办公室(Information Commissioner’s Office, ICO)在2021年5月更新了匿名化相关技术的指南,主要就是基于上述两个维度来理解匿名化。
借助假名化的概念实际上大致可以推断概念的大致轮廓:如果假名化意指可以逆转的去识别化过程,那么匿名化就是完全不可逆转的单向去识别化。爱尔兰的数据保护委员会发布的关于匿名化技术指南中对这类理解有清晰的界定:
数据匿名化是指以不可逆转地防止识别与其相关的个人的数据处理 (Irish DPC 2019) 。
因此,能够被称得上是匿名化的技术保护程度是最高的,理论上完全阻断的可再识别的可能性。在Polonetsky等人(2016) 的谱系当中,匿名化也是最高层级的去识别化技术。
虽然匿名的概念要求去识别过程不可逆,但现实与理念之间存在逐渐拉大的差距。究竟匿名数据是否还可以被用于识别个人是一个有争议性的科学和法律问题,随着再识别化技术的不断发展答案也变得扑朔迷离。
2010
早在2010年,乔治城大学教授Paul Ohm在2010年间就指出既有匿名技术很多都是明显无效的,因此得出结论匿名化是关于隐私不可能履行的承诺 ("Broken Promises of Privacy")。
2019
更近期一些的研究,譬如帝国理工团队2019年发表在自然杂志上的研究显示,使用统计模型进行反推,可以针对匿名化数据实现高可信度的再次识别。该项研究使用姓名、年龄、婚姻状况等15项特征数据能够在任何已知的匿名数据库中准确再识别出99.8%的美国人(Rocher et al. 2019)。
数据保护机关出台的指南——诸如第29条工作组2014年出台的意见 (Article 29 Working Party 2014)——也认可了剩余风险 (residual risks) 存在的可能性。更新过后的ICO 2021版指南也强调,尽管100%或绝对的匿名是最佳效果,但现在很难实现这些目标。一定程度上的再识别风险势必会存在,但这些剩余风险不意味着某项技术本身就是无效的,也不意味着数据没有被有效的匿名化 (ICO 2021) 。
因此,是否实现法律意义下的匿名本身是一个动态、相对的过程,需要考察控制者对于风险的管控。在这一语境下匿名还需要与另外一个概念——“数据净化”(data sanitisation)做出区分。与匿名不同,数据净化是指删除和销毁存储在某设备上的数据使其不可恢复的过程,主要用于清楚报废电子设备,包括物理破坏、密码擦除和数据擦除三种方法。这一过程是有意为之、永久性而且不可逆的,因此被“净化”了的设备不存在任何可用的“剩余数据”,即便使用高级的取证工具也无法复原。所以,如果说匿名化的目标是数据去识别化的不可逆,数据净化则是对敏感数据的永久性删除。
除了以上几点,值得注意的是加密技术 (encryption) 有时会与匿名和假名同时提及,产生混淆。APED/EDPS报告中列出的第二项误读就是“加密即匿名” (“Encryption is anonymisation”)。加密技术的机理是通过密钥对信息进行转化,降低其被滥用的风险。因为被加密的信息还需要被后续解密使用。因此加密技术本质上必须是可逆的。虽然加密本身并不是严谨意义上的去识别化或者匿名技术,但可以用作假名化处理。
结 束 语
上文主要讨论了涉及隐私计算相关概念的缘起,并在个人信息隐私保护的相关术语上给出解读。但相关术语在不同法域中的实践中有何区别?在国内相关法案的合规要求下,隐私计算可以达到怎样的保护程度?笔者将在下期进行解读与讨论。
参考文献
[1]Agencia Española de Protección de Datos and European Data Protection Supervisor, ‘10 Misunderstandings Related to Anonymisation’ (EDPS, 27 April 2021) <https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf> accessed 6 December 2021
[2] Article 29 Working Party, ‘Opinion 05/2014 on Anonymisation Techniques’ (2014) <http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf>
[3]Bakken DE and others, ‘Data Obfuscation: Anonymity and Desensitization of Usable Data Sets’ (2004) 2 IEEE Security and Privacy 34
[4]Diaz C, Tene O and Guerses S, ‘Hero or Villain: The Data Controller in Privacy Law and Technologies’ (2013) 74 Ohio State Law Journal 923, 924-5.
[5]Elizabeth Renieris, ‘Why PETs (Privacy-Enhancing Technologies) May Not Always Be Our Friends’ (Ada Lovelace Institute, 29 April 2021) <https://www.adalovelaceinstitute.org/blog/privacy-enhancing-technologies-not-always-our-friends/> accessed 7 December 2021
[6] Information Commissioner’s Office, ‘Introduction to Anonymisation: Draft Anonymisation, Pseudonymisation and Privacy Enhancing Technologies Guidance’ (2021)
[7] Irish Data Protection Commission, ‘Guidance on Anonymisation and Pseudonymisation’ (2019) <https://oig.hhs.gov/compliance/101/files/HCCA-OIG-Resource-Guide.pdf>
[8]Li F and others, ‘Privacy Computing: Concept, Computing Framework, and Future Development Trends’ (2019) 5 Engineering 1179
[9]Nagaratnam N , ‘What Is Confidential Computing? ’ (IBM, 16 October 2020) <https://www.ibm.com/cloud/learn/confidential-computing> accessed 6 December 2021
[10]Osborne C, ‘The Future of Data Privacy: Confidential Computing, Quantum Safe Cryptography Take Center Stage’ (Zdnet, 12 March 2021) <https://www.zdnet.com/article/the-future-of-tech-confidential-computing-quantum-safe-cryptography-take-center-stage/> accessed 6 December 2021
[11]Ohm P, ‘Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization’ (2010) 57 UCLA Law Review 1701
[12]Polonetsky J, Tene O and Finch K, ‘Shades of Gray: Seeing the Full Spectrum of Practical Data De-Identification’ (2016) 56 Santa Clara Law Review 593.
[13]Rocher L, Hendrickx JM and de Montjoye YA, ‘Estimating the Success of Re-Identifications in Incomplete Datasets Using Generative Models’ (2019) 10 Nature Communications 9
[14]Rubinstein IS, ‘Regulating Privacy by Design’ (2017) 26 Berkeley Technology Law Journal 1409
[15]Sweeney L, ‘Simple Demographics Often Identify People Uniquely’ (2000) Carnegie Mellon University Data Privacy Working Paper 3
[16]Walden I, ‘Anonymising Personal Data’ (2002) 10 International Journal of Law and Information Technology 224
—END—
排版 | 刘晨 图片 | 杨雅清
推荐阅读