深度详谈 | 数据隐私与可用性双赢,聚合数据与个人数据该如何界定?
什么是聚合数据?
所谓聚合数据 (aggregate data),是指将独立、分离、来自不同个体的个人数据聚合起来,以总结性、统计性的形式呈现或者表达 [M20]。
欧美法律观点不同
有观点认为,匿名数据相对于其他匿名化手段保护程度最高,因此匿名数据的隐私风险也最小。持这种观点的例如未来隐私论坛的数据去标识化谱系 [FPF 16]。
▲ 图 | FPF 2017
美国加州的《消费者隐私保护法案》(CCPA)是明确提及聚合数据法律状态的少数文本。在Cal Civ. Code § 1798.140(o)(3)中,聚合消费者信息 (aggregate consumer information)有明确的定义[1]:
所谓聚合消费者信息,是指与一类或者一群消费者相关;这些消费者的身份属性或特征已经被移除,因此无法关联或者可能关联到任何个人或者家庭,包括通过某项设备。
相较之下,欧洲人并不是这样在概念层面定义聚合数据。在GDPR的语境中,个人数据的定义并没有提及聚合,甚至聚合数据的概念在整部法案中也鲜有提及。在欧洲,数据聚合主要是在匿名化的语境中得到讨论。换言之,聚合是匿名化的一种手段。
在序言中,GDPR一方面将个人数据与聚合数据对立,一方面又强调统计结果未必只用于统计目的(可能存在情境跃迁的情况)。的确,聚合数据所展现的大多是某一群体共同具备的特征,但这并不意味着以统计为目的的数据处理不受GDPR的调整。
统计的逻辑是通过整合具有相同或者相似特征的数据,以展现整体的特征和格局。在聚合的过程中,个人的特征和属性因为颗粒度的变化而被模糊,因此隐私被泄露或者滥用的风险就相应降低。
但是,这并不意味着聚合数据会消除所有的数据隐私风险。统计与隐私的关系(或者说统计结果的隐私风险)在于:
k-anonymity匿名
Samarati与Sweeney两人的研究初衷[2]是在数据隐私与数据可用性之间能够形成平衡或者双赢。这里的k即指能够保障隐私(个人不会被再识别)的前提下数据的可用性仍然得以保持的临界值。这一方法的机理在于,如果数据集中具有某一相同属性的主体数量达到(k-1)值就无法被识别,那么这一数据集就具有了k-anonymity的属性 [SS98]。
《信息安全规范 个人信息去标识化指南》(GB/T 37964-2019)中,也将k-anonymity(K-匿名化模型)列为常用的去标识化技术路径,可以对重标识风险进行量化。
其他有关k-anonymity的方法与优势,可以参见我们以往的推文:
▲ 具体参见《深度详谈 | 数字化转型需要考虑哪些泄露风险与技术需求》
然而,聚合所能实现的统计保密性 (statistical confidentiality )与个人数据保护所要求的标准之间仍然存在一些差距(至少在GDPR的语境中)。
聚合数据何时能够达到无隐私风险、不受GDPR调整的程度?
例如El Emam & Alvarez (2015)指出很多情境下数据控制者都有留存源数据的需求,或者因为法律的要求,或者是出于公益目的(例如进一步再利用数据),或者是满足消费者的需求等等(包括基于数据保护法行使数据流通相关的权利)。
这意味着,在概念上判断数据是否为聚合数据的规范意义很有限。欧盟法并不像美国法通过定义来划定规范及其效力的范围。换言之,认定了聚合数据不意味着个人数据就不受到GDPR的调整,关键还是要看匿名化的标准。
本系列的下一篇,将聚焦去标识化技术与数据聚合技术中的:同态加密,探讨在不同法域下对同态加密的看法。[1] “Personal information” does not include consumer information that is deidentified or aggregate consumer information.
[2] What is k-Anonymity? The concept of k-anonymity was introduced into information security and privacy back in 1998. It's built on the idea that by combining sets of data with similar attributes, identifying information about any one of the individuals contributing to that data can be obscured.
参考文献
[M20] Craig S. Mullins. data aggregation, 2020. https://www.techtarget.com/searchdatamanagement/definition/data-aggregation.
[FPF16] Future of Privacy Forum. A visual guide to practical data de-identification, 2016. https://fpf.org/wpcontent/uploads/2016/04/FPF_Visual-Guide-to-Practical-Data-DeID.pdf.
[SS98] Samarati, P., & Sweeney, L. Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression, 1998.
—END—
点分享
点收藏
点点赞
点在看