查看原文
其他

深度详谈 | 数据隐私与可用性双赢,聚合数据与个人数据该如何界定?

同态科技 同态科技 2022-11-05

文 / 四九
关于聚合数据在法律语境中的定位、影响以及规制一直是一个没有得到充分考虑的话题。有一种流行观点认为聚合状态的数据无论使用、公开还是移转都是安全的,不会造成隐私的风险。但这样一种观点富有争议,尤其是在不同法域呈现不同的立场和观点。
虽然在现实中数据的聚合在数据再利用与隐私保护层面都扮演重要角色,但究竟法律是否允许或者禁止数据的聚合却没有得到充分论证。


什么是聚合数据?




  • 所谓聚合数据 (aggregate data),是指将独立分离、来自不同个体的个人数据聚合起来,以总结性、统计性的形式呈现或者表达 [M20]。





数据的聚合可以被理解为是加强隐私保护的手段之一,在理念上甚至可以取代法律的规制。

但是,对聚合数据的隐私风险认知存在着争议。
虽然在现实中数据的聚合在数据利用与隐私保护层面都扮演重要角色,但究竟法律是否允许或者禁止数据的聚合却没有得到充分论证。


欧美法律观点不同

有观点认为,匿名数据相对于其他匿名化手段保护程度最高,因此匿名数据的隐私风险也最小。持这种观点的例如未来隐私论坛的数据去标识化谱系 [FPF 16]。

▲ 图 | FPF 2017

这样一种观点最后也影响到了美国的隐私立法,下文将详述。
另外一种观点来自欧洲,认为数据聚合过程如果是充分且妥当的,能够避免个人在一个群体或者数据集中被锁定,但这并没有消除所有的隐私风险。因此,聚合数据或者统计结果并不能免于法律的规制
本文尝试呈现这两种对立的理解,作为讨论聚合数据法律状态的初步探索。

美国加州的《消费者隐私保护法案》(CCPA)是明确提及聚合数据法律状态的少数文本。在Cal Civ. Code § 1798.140(o)(3)中,聚合消费者信息 (aggregate consumer information)有明确的定义[1]:

所谓聚合消费者信息,是指与一类或者一群消费者相关;这些消费者的身份属性或特征已经被移除,因此无法关联或者可能关联到任何个人或者家庭,包括通过某项设备。

上文提到FPF论坛对聚合数据的理解也渗透到了这部法案。因为聚合数据几乎没有隐私风险,因此也就不需要法律展开保护。因此在这部州法中,聚合信息是以消费者个人信息的对立面存在的。换言之聚合信息在个人信息定义的范围之外

相较之下,欧洲人并不是这样在概念层面定义聚合数据。在GDPR的语境中,个人数据的定义并没有提及聚合,甚至聚合数据的概念在整部法案中也鲜有提及。在欧洲,数据聚合主要是在匿名化的语境中得到讨论。换言之,聚合是匿名化的一种手段

GDPR中唯一出现聚合数据的讨论在序言第(162)条,其中数据的聚合是放在统计学的语境中加以理解。诚然,数据的聚合就在于将群体中的共性展现出来,因此属于统计学讨论的范畴。GDPR主张,以统计为目的的数据处理得出的结果为“聚合数据”,而非个人数据。在聚合数据是否是个人数据的问题上,欧盟法并没有像美国法那样明确,具有不确定性

在序言中,GDPR一方面将个人数据与聚合数据对立,一方面又强调统计结果未必只用于统计目的(可能存在情境跃迁的情况)。的确,聚合数据所展现的大多某一群体共同具备的特征,但这并不意味着以统计为目的的数据处理不受GDPR的调整。

统计的逻辑是通过整合具有相同或者相似特征的数据,以展现整体的特征和格局。在聚合的过程中,个人的特征和属性因为颗粒度的变化而被模糊,因此隐私被泄露或者滥用的风险就相应降低。

但是,这并不意味着聚合数据会消除所有的数据隐私风险。统计与隐私的关系(或者说统计结果的隐私风险)在于:


统计的结果不展现个人的属性或者特征,但是通过过滤限缩范围,还是存在可能最终识别或者锁定个特定主体

因此,在这一领域发展出若干方法避免这样一种可能性,例如著名的匿名化专家、哈佛教授Latanya Sweeney(与Pierangela Samarati与合作)提出的k-anonymity,即一种典型的数据聚合的方法。


k-anonymity匿名

Samarati与Sweeney两人的研究初衷[2]是在数据隐私与数据可用性之间能够形成平衡或者双赢。这里的k即指能够保障隐私(个人不会被再识别)的前提下数据的可用性仍然得以保持的临界值。这一方法的机理在于,如果数据集中具有某一相同属性的主体数量达到(k-1)值就无法被识别,那么这一数据集就具有了k-anonymity的属性 [SS98]。

《信息安全规范 个人信息去标识化指南》(GB/T 37964-2019)中,也将k-anonymity(K-匿名化模型)列为常用的去标识化技术路径,可以对重标识风险进行量化。

其他有关k-anonymity的方法与优势,可以参见我们以往的推文:

▲ 具体参见《深度详谈 | 数字化转型需要考虑哪些泄露风险与技术需求》

然而,聚合所能实现的统计保密性 (statistical confidentiality )与个人数据保护所要求的标准之间仍然存在一些差距(至少在GDPR的语境中)。

在第29条工作组看来,数据聚合(尤其是使用k-anonymity这样的方法)的确消除了某个人在整个数据集中被锁定选中的隐私风险 (single out),但其他类型的风险仍然存在。例如,这个人还是有可能被关联,而且通过推衍还是可能导致其个人信息或者事实被泄露甚至滥用。

聚合数据何时能够达到无隐私风险、不受GDPR调整的程度?


第29条工作组举一个例子:只有数据控制者选择删除源数据的情况下,并且仅提供聚合的粗略的统计结果时(例如在X线路上周一的人流比周二多出160%),该聚合数据不受GDPR调整。但很快就有学者指出这一思路并不现实。

例如El Emam & Alvarez (2015)指出很多情境下数据控制者都有留存源数据的需求,或者因为法律的要求,或者是出于公益目的(例如进一步再利用数据),或者是满足消费者的需求等等(包括基于数据保护法行使数据流通相关的权利)。


这意味着,在概念上判断数据是否为聚合数据的规范意义很有限。欧盟法并不像美国法通过定义来划定规范及其效力的范围。换言之,认定了聚合数据不意味着个人数据就不受到GDPR的调整,关键还是要看匿名化的标准。

本系列的下一篇,将聚焦去标识化技术与数据聚合技术中的:同态加密,探讨在不同法域下对同态加密的看法。





[1] “Personal information” does not include consumer information that is deidentified or aggregate consumer information.

[2] What is k-Anonymity? The concept of k-anonymity was introduced into information security and privacy back in 1998. It's built on the idea that by combining sets of data with similar attributes, identifying information about any one of the individuals contributing to that data can be obscured. 


参考文献


[M20] Craig S. Mullins. data aggregation, 2020. https://www.techtarget.com/searchdatamanagement/definition/data-aggregation.

[FPF16] Future of Privacy Forum. A visual guide to practical data de-identification2016. https://fpf.org/wpcontent/uploads/2016/04/FPF_Visual-Guide-to-Practical-Data-DeID.pdf.

[SS98] Samarati, P., & Sweeney, L. Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression, 1998.


—END—


数据迷思 | 数据权属讨论中的六大误区(上)深度详谈 | 构建电力数据的多源融合安全应用体系同态加密技术(HE)中的六个数据合规疑问


点分享

点收藏

点点赞

点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存