查看原文
其他

合规分享|匿名化导论

前言

2021年5月,英国信息专员办公室(information commissioner's office)发布了《匿名化、假名化和隐私增强技术指南(Anonymisation, pseudonymisation and privacy enhancing technologies guidance)》,旨在为匿名化等隐私概念和技术做全方面的介绍。其中,《匿名化导论(Introduction of anonymisation )》为该指南的第一章,从什么是个人数据开始讲起,阐述匿名化的意义与重要性,并与假名化进行对比。关于“匿名化”概念的系统性介绍,国内可参考的资料较少。基于此,Dataphin隐私计算团队对该文档进行了翻译,希望在“匿名化”合规方面为行业提供一定参考。
本文内容为基于原文的翻译稿,不代表任何自身观点。
原文链接:
https://ico.org.uk/media/about-the-ico/consultations/2619862/anonymisation-intro-and-first-chapter.pdf
以下为《匿名化导论(Introduction of anonymisation )》正文部分。

为了理解匿名化,您必须首先理解什么是个人数据。匿名化数据是无法链接到已识别或可识别个体的数据(即非个人数据)。匿名化是将个人数据转为匿名化数据的处理流程,使个体无法(或不再)可识别。数据保护法不适用于真正的匿名化信息。

有效的匿名化是可能的。然而,您使用的技术必须将识别个体的风险降低到足够低的水平,以便他们有效地匿名化信息。假名化是一种降低数据保护风险的处理方案,但并不能消除风险。您应该把它看作是一种安全和风险的缓解措施,而不是作为一种匿名化技术。

一、个人数据与匿名化
1、什么是个人数据?
数据保护法规中对个人数据的处理进行了规范。因此,有效的匿名化措施取决于对数据构成的理解。
在《数据保护法(Data Protection Act 2018)》的第3(2)节中对个人数据进行了如下的定义:“任何能够关联到一个已识别或可识别的存活个体的信息”。
在第3(3)节中对于存活个体的定义如下。一个存活个体可以通过以下特征而被直接或间接地识别:

(a)一个标识符,例如姓名、身份证、位置信息或在线标识符;

(b)一个或多个特定于个体的身体、生理、遗传、心理、经济、文化或社会身份等因素。

显然,如果信息(或信息的组合)与可识别的个人无关,则此信息就不是个人数据。真正匿名化的信息不受数据保护法规的约束。

第3节中对个人数据的定义整体上适用于英国数据保护框架。《英国GDPR(通用数据保护条例)》第4(1)条也针对“通用处理”过程为个人数据做出了定义,并且这一定义与《数据保护法(Data Protection Act 2018)》中的没有实质性的差异。

由于个人数据指的是存活个体相关的数据,故数据保护法规不适用于与死者相关的数据。但您应该注意,这些数据可能仍然需要保密,或受其他法律规则的保护。

相关立法规定:
《数据保护法(Data Protection Act 2018)》第 3(2)和(3)节。
《英国GDPR(通用数据保护条例)》第4(1)节和Keeling Schedule。

2、什么是匿名化信息?

数据保护法规没有明确定义“匿名化信息”。

然而,在数据保护领域中,您应当认识到匿名化信息是将个人数据转换至数据保护法规不再适用的数据过程的最终结果。从本质上说,这些数据超出了《数据保护法(Data Protection Act 2018)》的保护范围。

数据保护框架的通用处理规则为“匿名化数据”一词的含义提供了进一步的指导。《英国GDPR(通用数据保护条例)》第26条中规定:

“与已识别或可识别的个体无关的,或已将与个人数据有关的部分进行匿名化处理后的数据,将不可识别或不再可识别数据主体。”

因为匿名化数据不再是个人数据了,在您处理它时,数据保护法规规则也不再适用。

在 ICO(Information Commissioner's Office)观点中,相同的数据对于一个机构而言是个人数据,但对于另一个机构来说可能是匿名化数据。无论是从您自身的角度还是数据披露的角度,数据的状态很大程度上取决于它的场景。

您需要考虑到您自己或第三方可能使用的全部手段,用于从相关信息中识别出个体。这将决定这些数据是否是匿名化数据。我们将此称为“合理的可能性”测试。

我们将在指南的后续章节中详细讨论“可识别性”和“合理的可能性”测试的概念。当我们发布后续章节时,我们将更新这一进阶阅读部分。

3、什么是匿名化

数据保护法规也没有对“匿名化”进行具体定义。

然而,从《英国GDPR(通用数据保护条例)》第26条释义的措辞来看,“匿名化”在英国数据保护框架内的意义是清晰的。这是指将个人数据转为匿名化数据的方式,从而使其不在数据保护法规的范围内。

当数据满足下述条件之一时,您可以认为数据已经经过了有效的匿名化处理:

  • 数据不再与已识别或可识别个体相关;
  • 数据呈现匿名化状态,即个体不能(或不再)具有可识别性。
我们使用了“匿名化”这一广义术语来涵盖了您在追求这些目标时可以使用的技术与方案。即在考虑了所有因素的情况下,防止识别数据相关的个体。
值得注意的是,您必须根据具体情况仔细评估每个案例。这能够帮助您决定匿名技术的有效性,从而确定数据是否有效的实现了匿名化。显然,100%或“绝对”匿名化是最理想的情况。同时,您并不总是能够通过一种特定的技术或一套控制方案实现这些目标,尤其是考虑到技术会随着时间发生变化。
这意味着,即使您使用了匿名化技术,也仍可能存在一定程度的固有的可识别风险。然而,这种剩余风险并不意味着特定的匿名技术是无效的。这也不意味当考虑到特定上下文情景时,在数据保护法规的目的下,数据没有被有效地匿名化。
而且,数据保护法规也不要求匿名化完全消除风险。您必须降低重标识的风险,直到它的可能性足够低,数据才是“有效的匿名化”。
对于一些数据可能需要谨慎处理(例如包含特殊类别数据的数据集)。当您拥有包含大量个人信息的大型数据集,匿名化问题会变得更加复杂。因此您可能需要本指南之外的专业知识和投入。
您也需要知道即使经过了有效的匿名化处理,其它法律也可能适用。举例而言,《2003年隐私和电子通信条例(the Privacy and Electronic Communications Regulations 2003)》(PECR)的一些内容适用于“数据”,而不仅仅是个人数据(例如关于终端设备的规定,也称为“cookie law”)。
二、匿名化的重要性与优势

1、匿名化总是必要的吗?

不是的。将个人数据用于某些特定的目的是合法的。实际上,您寻求的答案是:是否有必要使用个人数据。例如,如果您是向个体提供服务,或使用个体数据来对做出决定并告知他们,使用个人数据就是必要的。

举例来说,许多医学研究涉及到获取患者的个人数据,并且是在患者参与和同意的基础上使用的。

数据保护法规提供的是一个框架,目的是让个人信息的处理过程满足公平性、合法性和透明性。然而,如果您不需要使用个人数据就能达到您的目标,那么一般来说您应该使用匿名化信息。

这是因为匿名化信息不再是“个人数据”,并且不受数据保护要求的约束。因此,您可以将它视作您所持有的数据实现了有效的匿名化处理。

2、匿名化总是能够实现的吗?

实际上,想要确认您拥有的是个人数据还是匿名化数据可能是很困难的。这需要根据实际情况作出慎重的判断。

在某些情况下,由于数据的性质、上下文或收集、使用、保留数据的目的不同,有效的匿名化方案可能不存在。举例来说,我们发现一些收集到的个人数据并不适合进行匿名化。尽管数据的敏感性通常会随着时间的推移而降低,但情况并非总是如此。数十年前数据(例如犯罪记录)的不当发布,可能会对个人造成严重的不利影响。这就是为什么非匿名化数据的安全性至关重要。

3、匿名化带来的好处是什么?

匿名化将减少您数据保护的风险,并让您能够向其它组织和公众提供信息。

它同样支持数据最小化原则。在您使用个人数据时,您必须遵守数据保护原则,并能够证明您是如何践行这一原则的。这一原则规范了数据披露的方式,并建立了一个公平、合法和透明地进行数据披露的框架。

正常情况下,由于适用的法律限制较少,披露匿名化信息比披露个人数据更容易。由于针对数据使用目的的数据保护规则不适用该情况,故以新的和不同的方法使用匿名化数据要更容易一些。

应用有效的匿名化方案可以帮助您:

  • 更好地了解关于分享或披露数据的法律要求;

  • 改进您的决策、降低风险和管理流程;

  • 采用基于隐私设计的数据保护的方案;

  • 保护个体的身份;

  • 减少因不恰当的个人数据披露或发布而导致的信誉风险;

  • 减少因披露个人数据信息导致的问题、投诉或争论;

  • 在发布丰富、可重复使用的匿名化数据时拥有强大信心;

  • 探索解决潜在的挑战的问题,例如涉及个人数据信息自由(Freedom of Information,FOI)的请求。

匿名化带来的更广泛的好处包括:

  • 极大的提升公众对数据用于公共利益的信任和信心,由于隐私受到了保护(例如:通过确保法律要求的保障措施实施到位并得到遵守);

  • 由于组织能够更广泛地提供匿名化信息,因此透明度更高;

  • 鼓励研究人员和其他人尽可能使用匿名化信息而不是个人数据;

  • 丰富的数据来源带来的经济和社会效益;

  • 通过更好地提供公共服务结果和改进的数据,来提高公共机构的权威。

4、匿名化个人数据的过程属于处理个人数据吗?

是的。出于遵守数据保护法规的目的,使用匿名化技术将个人数据转化为匿名化数据属于处理个人数据。

在《数据保护法(Data Protection Act 2018)》的第3(4)节中将数据处理定义为:

‘…对于数据或数据集执行一个操作或操作集,例如-’

(a) 收集、记录、结构化或存储;

(b) 适应或改变;

(c) 检索、咨询或使用;

(d) 通过传输、传播或其它方式进行披露;

(e) 对齐或组合;

(f) 限制、删除或销毁’。

这与所有三种规则相关。例如,在《英国GDPR(通用数据保护条例)》第4(2)节中定义与以上基本相同,但针对的对象是“个人数据”而非“数据”(《数据保护法(Data Protection Act 2018)》将“个人数据”定义为与已识别或可识别的存活个体有关的“数据”)。

旨在将个人数据转化为匿名化信息的技术和方法被视为对数据执行的处理操作。例如,当您从个人数据中提取统计信息时,在第3(4)(b)条意义范围内是对数据的“调整”或“更改”(例如,在《英国GDPR(通用数据保护条例)》第4(2)条的意义范围内,您的操作则属于通用处理规则)。

这意味着您必须在处理过程中满足数据保护要求。这包括了您需要确保拥有合法的依据,并能够清晰定义您的目的。

一般来说,将匿名化技术应用在您持有的个人数据上,可能是公平合法的。然而,您仍然有必要明确您的目标,并详细说明您打算实施的技术和组织层面的措施。

三、假名化与匿名化

1、什么是假名化?

理解数据保护法规中的“假名化”一词的含义、以及理解该含义在特定的背景、行业或部门中有何不同是十分重要的。
《数据保护法(Data Protection Act 2018)》中并没有针对整个英国数据保护规则来对假名化进行定义。然而,在《英国GDPR(通用数据保护条例)》第4(5)条中,通用处理规则将其定义为:“假名化是即在不使用额外数据的情况下,个人数据不能再归因于特定的数据主体,前提是这些额外数据被单独保存,并受到技术和组织措施的约束,以确保个人数据不会与已识别或可识别的自然人链接起来的处理数据的过程”。
因此,假名化技术是一种替换或删除识别个人数据的技术。举例来说,它可能涉及将姓名或其它标识符(可以用来轻易链接至个体的)替换为相应的数字。这类似于术语“去标识”在其它背景下的使用方式,例如删除或屏蔽数据集中的直接标识符。
您还必须确保您单独地保存了附加的信息,并采取了适当的技术和组织层面的控制措施。这样,您就可以确保无法通过使用单独保存的额外信息或任何其他信息来重新识别个人。
本指南使用了“假名化数据”一词来描述根据上述定义进行了假名化处理的个人数据。

相关立法规定:

《英国GDPR(通用数据保护条例)》第 4(5)节、释义26和Keeling Schedule。

2、“去标识化”个人数据又是什么?

虽然“去标识化”一词被广泛使用,但其含义可能会随场景不同而发生变化。出于数据保护法规的目的,重要的是要注意《数据保护法(Data Protection Act 2018)》第171节在去标识化犯罪的背景下提及的“去标识化的个人数据”。
在第171(1)条中规定:
“未经负责对个人数据进行去标识化的控制者同意,任何人故意或鲁莽地对已去标识化的个人数据的信息进行重标识属于犯罪行为”。
在第171(2)(a)条中规定:
“如果个人数据经过处理并且在没有额外数据的情况下无法再归属于特定的数据主体,则这份个人数据则被认为是“去标识化的”。”
在《数据保护法(Data Protection Act 2018)》的注释中阐明了该条款:
“表明了《英国GDPR(通用数据保护条例)》第 4(5) 条中假名化的定义。”
因此,针对重标识犯罪,《数据保护法(Data Protection Act 2018)》中将“去标识化”的数据视作是个人数据,而这在《英国GDPR(通用数据保护条例)》中是定义为假名化数据,而不是(例如)匿名化数据。
相关立法规定:
《数据保护法(Data Protection Act 2018)》第171(1)条。
《数据保护法(Data Protection Act 2018)》注释-虽然注释并不是法律的一部分,它们旨在帮助读者理解《数据保护法(Data Protection Act 2018)》。
《英国GDPR(通用数据保护条例)》第4(5)条和Keeling Schedule (external link)。

3、匿名化和假名化的区别是什么?

匿名化是指个体无法被识别,也无法通过可能使用的任何方式重新识别个人身份(即,被重标识的风险足够低)。匿名化数据不再是个人数据同时数据保护法规也不再适用。
假名化则是指无法从数据集本身识别个体,但可以通过参考其它独立的数据集来识别个体的身份。因此假名化数据仍然是个人数据,且适用于数据保护法规。
举例来说,《英国GDPR(通用数据保护条例)》第26条释义明确表示经过假名化处理的个人数据仍然在法律范围内:
‘…经过假名化处理后的个人数据,可以通过额外信息归属于自然人,应被视为有关可识别自然人的信息…’
因此,您必须谨慎行事。举例而言,我们常常将仍然包含个人数据的数据集称为‘匿名化的’,然而它只是以假名化的形式存在。这带来了一个明显的风险,即可能会因误认为处理中不涉及个人数据而忽视了英国数据保护法规中的要求。如果存在合理可用的方法可用于重标识个体身份,则相关数据并没有经过有效的匿名化处理。
然而,考虑处理的上下文背景同样很重要。举例来说,需要考虑从您的视角和您与之共享的另一个组织的视角来看假名化的数据集是否具有相同的状态。
例如,一个组织采用了假名化技术将个人数据分为了两个部分——一个无法识别出个体的数据集,和一个包含了用于重标识的关键数据的“额外信息”。
该组织可能会将第一个数据集称为‘匿名化数据’。如果第三方没有合适的用于该数据集的重标识方案,那可能确实可以这样描述。
然而,如果该组织一直长期同时持有“处理过的”数据和“额外信息”,则总体上他们手中的数据仍然是个人数据。从这一角度看,数据已经经过了假名化处理(即它是假名化的个人数据)。
这两个参与方都需要谨慎地评估其拥有的数据集在另一方手中的状态(即从他们的角度来看是否可以将其视为匿名化数据)。
关键问题是,如果您应用了假名化技术,从您的角度看,这并不一定会改变处理后的数据的状态。您持有的数据可能仍然是个人数据。另外,根据具体的背景,这份数据当您披露给其它组织时,也仍然可能是个人数据。
最后,您应该考虑使用假化名技术来降低处理过程中可能给个人带来的风险(即它们可能起到安全措施的作用)。

4、假名化带来的好处是什么?

假名化的一个主要好处是,在许多情况下它能够让您的数据保护合规变得更简单。
在《英国GDPR(通用数据保护条例)》的通用处理规则提供了一些例子,例如:
通用分析 - 《英国GDPR(通用数据保护条例)》第29条释义鼓励您采用假名化机制,而不仅仅将它作为一种安全措施。这是因为在您提前采取了适当的技术和组织层面的措施后,它使您能够对您持有的假名化数据集进行“通用分析”;
目的限制- 当考虑新的处理目的与原始处理目的是否兼容时,假名化机制是您应该考虑的手段之一。当出于科学、历史和统计目的处理个人数据时,假名化是重要保障措施之一;
基于隐私设计的数据保护 - 假名化是在设计阶段和整个项目周期中能够应该用在个人数据处理流程中实施保护的关键方法之一;
安全性 - 在安全原则和关于处理流程安全的具体规定中,假名化被称为“适当的技术和组织层面措施”之一;
个人数据泄露通知 – 假名化技术可以降低个人数据泄露对个人可能造成伤害的风险。这将有助于您评估何时需要通知个人(匿名化和假名化技术都适用于此);
个体权利 - 使用假名化技术可能会减少您在回应个人请求时必须考虑的数据量。例如,如果您的处理目的不需要或不再需要识别个人身份时,则无需处理额外信息(或遵守数据保护法规的其他要求)。因此,如果您可以证明自己无法识别个人身份,则访问、更正、擦除和数据可移植性的权利也不再适用。然而,如果个人向您提供了能够识别其身份的额外信息,您需要能够对这些请求作出回应。

点击左下角阅读原文,可阅览原版文件。

继续滑动看下一个
隐私计算智立方
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存