查看原文
其他

刘炯 胡岚岚|论个人信息的边界

刘炯 胡岚岚 上海市法学会 东方法学 2022-11-11

刘炯

锦天城律师事务所律师,高级合伙人

胡岚岚

锦天城律师事务所资深律师

要目

一、个人信息与匿名信息二、GDPR视角下的“匿名化”三、美国法视角下的“去标识化”四、匿名化技术的困境五、关于个人信息边界的考量


个人信息是网络信息安全、隐权保护的权利基础之一。各国立法对于个人信息均加以严格保护,如欧盟出台了统一数据规则通用数据保护条例(GDPR),强调个人数据处理的绝对匿名化,美国出台的健康保险携带和责任法案(HIPPA)、加利福尼亚州消费者隐私保护法案(CCPA)等对个人信息要求实现去标识化,并对重识别进行限制。两种模式均对中国未来的个人信息保护、数据安全立法有借鉴意义。同时,对中国而言,未来的立法宗旨应当是为了实现数据自由流动和个人权利保护之间的平衡。

个人信息是相关网络信息安全、隐权保护的权利基础之一。各国立法对于个人信息均加以严格保护,并以知情-同意原则为核心,构建起数据主体层层授权控制者、使用者等处理其信息的机制;而非个人信息则因排除在个人信息之外,因此其使用、处理均无须取得数据主体同意,进而可以自由流动,非个人信息的控制者也无须为个人信息主体的权利(如访问、更正、删除、撤回同意、注销账户等)履行相应义务,这为控制者、使用者加以数据挖掘,创造更大价值。

然而,在大数据时代,个人信息与“非个人信息”边界已变得模糊。如何确立个人信息的合理边界仍然是一个难题。边界过窄,无法对数字时代的个人提供有效的保护,但边界过宽,乃至在实务中无法区分,也会对法律体系自身能否有效运转带来疑问。

一、个人信息与匿名信息

根据网络安全法第76条的规定,个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

因此,对于个人信息定义的理解,不在于信息类型本身,而在于能够“特定化”自然人的身份,个人信息受“识别性”的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。举例而言,单独的“出生日期”信息,并不直接构成个人信息,而是一项可能成为个人信息的信息类型。“出生日期”信息和“联系地址”信息结合则可能构成一项个人信息,因为可以识别出个人身份,但是仅出生日期信息不直接构成个人信息。

从这个意义而言,立法保护的法益实则是“个人”而非“信息”本身,是作为数据主体的个人对数据所享有的隐私权和财产权,而不能关联到个人的信息则不应在个人信息安全保护的范围之内。

这在网络安全法第42条第1款中有所体现:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”

不过,其中的“经过处理无法识别特定个人且不能复原”的表述却十分宽泛,如无法识别的程度,是否结合其他信息识别,以及不能复原的主体是数据的使用者还是包括数据控制者等问题均不明确。

参考正在立法中的个人信息保护法将个人信息定义为:“个人信息是以电子或其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”立法的思路也是参考GDPR,采用可识别性+关联性的立法模式,仅将匿名化信息排除在个人信息之外,而匿名信息在目前中国法语境下并无完整的定义。

二、GDPR视角下的“匿名化”

欧盟的GDPR是数据保护中的一部最为重要的立法,其第4条对个人数据定义如下:个人数据是指与已识别的或可识别的自然人(“数据主体”)有关的所有信息。可识别的自然人是指其能够被直接或间接通过识别要素得以识别的自然人,尤其是通过姓名、身份证号码、定位数据、在线身份等识别数据,或者通过该自然人的物理、生理、遗传、心理、经济、文化或社会身份的一项或多项要素予以识别。

对比GDPR的定义,笔者注意到,GDPR的个人数据的含义中不仅强调了可识别性(identified or identifiable),还强调了关联性(relating to)。同时,GDPR中还存在“假名化”(pseudonymization)数据和“匿名化”(Anonymization)数据两个概念:

Definition.(5) ‘pseudonymization’means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organizational measures to ensure that the personal data are not attributed to an identified or identifiable natural person.

定义第五条“假名化”是指在不使用附加信息的情况下,个人数据不能再归属于特定数据主体的方式处理个人数据,前提是此类附加信息单独保存,并受到技术和组织措施的约束,以确保个人数据不属于已识别或可识别的自然人。

而“匿名化”(Anonymisation)信息则不适用GDPR数据保护原则:

The principles of data protection should therefore not apply to anonymous information, namely information which does not relate to an identified or identifiable natural person or to personal data rendered anonymous in such a manner that the data subject is not or no longer identifiable. This Regulation does not therefore concern the processing of such anonymous information, including for statistical or research purposes.

数据保护原则不应适用于匿名信息,即与已识别或可识别的自然人无关的信息,或与以数据主体无法识别或不再可识别的方式匿名提供的个人数据无关的信息。因此,本法规与处理此类匿名信息无关,包括出于统计或研究目的。

“假名化”的数据如结合其他信息仍能关联到自然人的,则仍属GDPR下的个人信息:The principles of data protection should apply to any information concerning an identified or identifiable natural person. Personal data which have undergone pseudonymization, which could be attributed to a natural person by the use of additional information should be considered to be information on an identifiable natural person.

综上,笔者认为,在GDPR的定义下,个人数据包含了可识别性和关联性两层特征,“假名化”数据仅实现了不可识别性,因此仍属于“个人数据”,而只有“匿名化”数据才实现了不可识别性及不可关联性,可以排除于“个人数据”之外。

同时,GDPR对“重识别”明确了考量因素:

To determine whether a natural person is identifiable, account should be taken of all the means rea- sonably likely to be used, such as singling out, either by the controller or by another person to identify the natural person directly or indirectly. To ascertain whether means are reasonably likely to be used to identify the natural person, account should be taken of all objective factors, such as the costs of and the amount of time required for identification, taking into consideration the available technology at the time of the processing and technological developments.

为了确定自然人是否可识别,应考虑合理地可能使用的所有手段,例如由控制者或另一人单独挑选,以直接或间接地识别自然人。为了确定是否合理地有可能使用手段来识别自然人,应考虑所有客观因素,例如识别的成本和所需的时间,同时考虑到当时的可用技术、加工和技术发展。

如何理解GDPR中所称的合理地可能使用的所有手段?在WP29的《关于匿名化技术的意见》中提出了匿名处理结果的3个判断标准:(i)是否仍有可能挑出一个人?(ii)是否仍有可能将一个人记录关联起来?(iii)是否可以推断有关个人的其他信息?WP29在该文件上提道:当一项提案不符合其中任意一项标准时,应对剩余的重识别风险进行彻底的评估。如果国家法律要求管理局对匿名处理程序进行评估或授权,则应向当局提供这一评估。

因此,笔者可以看出,欧盟对于匿名数据的认定采取了一种最为严格的定义。

三、美国法视角下的“去标识化”

去标识化(De-identification)的概念主要出现在美国、加拿大等地的隐私法律中。其中美国的数据立法并没有一部统一的数据法典,相关规定散见于各行业或各州法案中,较具典型意义的如加州消费者隐私保护法案(CCPA),健康保险流通和责任法(Health Insurance Portability and Accountability Act,HIPAA)。

首先,笔者来审视一下CCPA下个人信息的定义:information that identifies, relates to, describes, is reasonably capable of being associated with, or could reasonably be linked, directly or indirectly, with a particular consumer or household. “直接或间接地识别、关系到、描述、能够相关联或可合理地联结到特定消费者或家庭的信息”。CCPA列举了个人信息包括但不限于诸如真实姓名、别名、邮政地址、唯一的个人标识符、在线标识符、互联网协议地址、电子邮件地址、商业信息、生物信息、地理位置数据、因特网或其他电子网络活动信息以及从个人信息中获取推论以创建能够反映消费者偏好和态度画像的信息等。

从定义上看,CCPA下的个人信息与GDPR下的个人数据含义相似,都强调了个人信息的可识别和可关联性。但是CCPA下并无匿名化数据的定义,其采用了“去标识”信息来实现GDPR下“匿名”信息的法律效果。

其次,笔者再来看一下美国法下“去标识化”的含义。

HIPPA 164.514(a)(b)

(a) Standard: De-identification of protected health information. Health information that does not identify individual and with respect to which there is no reasonable basis to believe that the information can be used to identify an individual is not identifiable health information.

(b) Implementation specifications: requirements for de-identification of protected health information. A covered entity may determine that health information is no individually identifiable health information only if: (1) the risk is very small that the information could be used, alone or in combination with other reasonable available information, by an anticipated recipient to identify an individual who is a subject of the Information. (2) the information could be used alone or in combination with other information to identify an individual who is a subject of the information.

《健康保险流通和责任法》164.514(a)(b)

(a)标准:去标识化的受保护健康信息。无法识别个人的健康信息,且没有合理依据认为该信息可用于识别个人的健康信息不是可识别的健康信息。

(b)实施规范:去标识化的受保护健康信息的要求。受保护实体仅在以下情况下才可以确定健康信息不是可单独识别的健康信息:(1)预期接收者可以单独或与其他合理的可用信息结合使用该信息以识别作为信息主体的个人的风险很小;(2)信息可以单独使用,也可以与其他信息结合使用,以识别作为信息主体的个人。

“Deidentified”means information that cannot reasonably identify, relate to, describe, be capable of being associated with, or be linked, directly or indirectly, to a particular consumer, provided that a business that uses deidentified information:

(1)Has implemented technical safeguards that prohibit reidentification of the consumer to whom the information may pertain.

(2)Has implemented business processes that specifically prohibit reidentification of the information.

(3)Has implemented business processes to prevent inadvertent release of deidentified information.

(4)Makes no attempt to re-identify the information.

“已识别”是指不能合理地识别,关联,描述,能够与特定消费者直接或间接关联或链接到特定消费者的信息,但前提是使用已识别信息的企业:

(1)实施了技术保护措施,禁止重新标识可能与该信息有关的消费者。

(2)实施了专门禁止重新识别信息的业务流程。

(3)实施了业务流程,以防止不明身份的信息泄露。

(4)不尝试重新识别信息

从定义中,笔者看出,美国立法下,如CCPA,强调的“去标识化”的识别评估手段应该是“合理的”,但没有强调是“可能的”,弱化了某些低概率的识别手段(即低概率发生的识别手段或技术)。因此,可知CCPA语境下的“去标识信息”比GDPR的“匿名信息”门槛更低,但这意味着前者存在的“重识别剩余风险”更高。

对于“去标识”信息(deidentified information),CCPA立法给予了授权同意豁免,企业得以直接对数据进行商业利用。当然,CCPA对这一类信息的使用方法和范围也进行严格限定,一是通过法规限制重识别,另一个是通过技术的措施防止重识别。如在HIPPA中确立了data determined by expert to be de-identified制度,即由专家委员会对单一案例内的数据的可识别性进行判断,以判例法的逻辑确定deidentified information的形成过程,与程度判断细节等。目前,CCPA也拟采用专家判定的方式以确定数据可否授权同意豁免:CCPA would now have a notion of expert determination. AB 713 1798.130 (a)(5)(D)(i).explicitly refers to The deidentification methodology described in Section 164.514 (b)(1) of Title 45 of the Code of Federal Regulations, commonly known as the HIPAA expert determination method。

GDPR和CCPA给出两种完全不同的解决思路:前者处理数据门槛更高,后面的使用范围更宽;后者门槛低,后面的使用范围相对窄一些。这两者具有各自的优势所在。美国依然以促进数据流通为根本价值倾向,立法例体现出了较强的“尽可能促进数据创造其价值”的立法意图。

四、匿名化技术的困境

目前,我国的数据和隐私立法尚在进行时,大量关于数据安全的规定散见于各类规范性文件中。如在《信息安全规范个人信息安全规范》(GB/T 35273-2020)(以下简称《个人信息安全规范》)中,就对匿名化与去标识化两个概念加以定义:

如果对比欧盟和美国的规定,不难看出,我国规范性文件中的“去标识化”更接近于GDPR中的“假名化”,并且与美国的“去标识化”也有所不同,我国的“去标识化”定义更强调是“不借助额外信息”下无法重识别,也即排除了间接标识,而美国的“去标识化”则明确排除了直接和间接重识别两种情况,如HIPPA中强调的“be used alone or in combination with other information”以及CCPA中强调的“directly or indirectly”。

而我国规范中的“匿名化”强调数据的不可复原性,接近于GDPR的标准。但与GDPR不同的是,该国家标准中并未进一步明确何为“无法被识别”或“不能被复原”,以及由谁来判定匿名化处理后数据的“无法被识别”或“不能被复原”的问题。而且《个人信息规范》作为推荐性国标,目前来看也并无强制效力。因此上述语焉不详之处,存在模糊,也给实务中的操作带来了困惑。

从技术层面而言,无论是匿名化或是去标识化,都是对个人信息的处理方式之一。目前,在没有匿名化标准出台的情况下,在国家标准《个人信息去标识化指南》中列举了常用的去标识化技术,包括统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术。实践中常用的有同态加密技术等,加密是去标识化和匿名化技术的一种。

欧盟29条工作组(Article 29 data protection working party,简称WP29)在《关于匿名化技术的意见》中提出了匿名处理结果的3个判断标准:(i)是否仍有可能挑出一个人?(ii)是否仍有可能将一个人记录关联起来?(iii)是否可以推断有关个人的其他信息?

该意见对假名化(Pseudonymisation)、加噪(Noise addition)、K-匿名化(K-anonymity)等多种技术进行分析,结论是这些方法处理后的数据均不符合这三个标准,多少都存在一定程度的剩余风险。例如,在K-匿名化中,每一个等价组中有K(K>2)个实体,它不能被唯一挑选出来;但它仍然存在链接的可能性,链接成功的概率为1/K;由于K-匿名化并没有考虑到敏感属性的分布,因此对于敏感属性相同的组,不能抵抗推断攻击。总之,它仅满足(i),不满足(ii)和(iii)。

在Patrick Breyer诉德意志联邦共和国案中,Breyer请求禁止联邦德国在他访问联邦机构运营地提供在线媒体服务(联邦德国官媒)的网站结束后,仍然存储或者安排第三方存储他的动态IP地址。一审败诉后,联邦德国上诉法院认为“如果Patrick Breyer访问网站时提供了自己身份信息的情况下”,也即一个动态IP地址,结合访问日期,在访问者提供了个人身份信息(identity)的情况下,构成个人数据,因为网站的运营者可以通过将他的名字和他的动态IP地址联系起来而识别访问者,而其他情况下动态IP地址不构成个人数据。如果Patrick Breyer访问网站时没有提供自己身份信息(identity),只有互联网络服务提供商(internet service provider)可以将动态IP地址与一个可以识别的用户联系起来。但是,德国联邦是在线媒体服务的提供者(provider of online media services),动态IP地址对德国联邦而言不是个人数据,哪怕是与访问日期组合,也不构成个人数据,因为对于德国联邦而言,访问者不是可识别的。

但是欧盟法院(CJEU)认可动态IP地址不构成已识别的自然人的相关信息,因为动态IP地址不能直接揭示使用电脑的人的身份。但是,如果联邦德国官媒通过结合其存储的动态IP地址和互联网服务提供者(ISP)掌握的其他数据,可以识别一个自然人,并且联邦德国官媒有途径可以访问互联网服务提供者掌握的前述其他数据,那么对于联邦德国官媒来说,这些动态IP地址就属于个人数据。在这个案件中,CJEU认为评价数据是否可以识别到个人,并不能只看单个采集数据的主体是否具有识别个人的能力。

从Breyer案的逻辑可以推论出,即便数据控制者本人所有的手段无法识别,但只要存在通过可能的、合理的努力或手段,获得额外的信息方式进行识别,那么这个数据就仍属个人数据。

笔者认为,欧盟这一定义外延十分宽泛。而且随着科技的发展,大数据的不断积累,只要能收集到足够多的附加信息,甚至,不必考虑技术的因素,通过对任何信息的不计成本的、不放过蛛丝马迹的追踪,往往都能识别到个人,从而使得“匿名化”数据成为一个不可能的概念。

尽管如此,WP29仍然没有否定匿名化技术,在《关于匿名化技术的意见》评估了各种技术的优势和缺陷后,指出匿名化技术在不同的场景中仍然是降低识别风险重要的措施,并提道:当一项提案不符合前文所述三大标准中其中任意一项时,应对剩余的重识别风险进行彻底的评估。如果国家法律要求管理局对匿名处理程序进行评估或授权,则应向当局提供这一评估。

相较而言,美国立法中更关注去标识化后的数据的重识别(re-identification)的风险防范。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)于2015年10月发布了一份关于《个人信息去标识化》(De-Identification of Personal Information)的报告。报告认为:有效的去标识化处理可以将再识别风险控制在较低的范围内,这也是去标识化处理对信息控制者的基本要求。但是,个人或组织的再识别能力与多种因素相关,如原始数据集、所采用的去标识化技术、试图再识别者的技术能力、可用资源以及可以与去标识化数据相联结的其他数据的可用性等,因此再识别风险是难以量化的。为了防范再识别风险,数据控制者需要采取一系列的应对措施:

一是技术控制措施,如在不同阶段采用多重技术防范举措,在个人信息去标识化处理后,信息控制者还可以通过技术措施(如采用加密技术等)进一步限制数据接收者可能进行的活动,以防止信息接收者对去标识化信息进行再识别。

二是在获取和使用数据的方式上进行控制。这些控制措施根据不同的数据发布模型可分为三类,即(1)“公布-遗忘模型(The Release and Forget model)”,指去标识化的数据可以公开发布,一旦通过这种方式发布数据,数据控制者就很难甚至不可能撤回这些数据,故该种数据使用方式应对再识别风险的能力最弱。(2)“数据使用协议模型(The Data Use Agreement model)”,指数据控制者可以通过具有法律约束力的数据使用协议对外提供去标识化数据,该协议明确约定了数据接收者对数据进行处理的边界,通常数据使用协议禁止数据接收者尝试重新识别、联结到其他数据或者重新发布数据,数据使用协议的内容一般由数据持有者和合格的研究人员磋商。(3)“飞地模型(The Enclave model)”,指去标识化的数据可以被保存在某些隔离的区域中,该区域限制原始数据的导出,但是接受合格研究人员的查询及以适当方式反馈查询结果。一般而言,发布后遗忘模型对去标识化信息再识别风险的防控能力较弱,数据控制者应当谨慎采用;而数据使用协议模型和区域模型则能够预防去标识化信息的再识别风险,数据控制者可以结合具体情形选择适用。

三是对去标识化再识别风险的持续防范。NIST承认在许多情况下,随着技术的改进和更多的可用信息的获取,再识别的风险将随着时间的推移而增加。为了有效避免去标识化信息的再识别风险,数据控制者应采取措施持续防范再识别风险。在去标识化信息发布后,数据控制者应当持续调查可以连接到去标识化信息的其他信息,定期审查与去标识化有关的政策,当去标识化信息面临的再识别风险有所增加时,信息控制者应采取进一步的补救措施或者对去标识化的相关政策进行修改。

可以看出以“数据基本权利”为基础实行最严格数据权利保护的欧盟GDPR统一立法模式,和相对更注重数据流动和行业利益平衡的“自由市场+强监管”的美国模式之间,存在明显的差别。欧盟模式偏向“数据权利保护”一方,意在打造公民的数据基本权利;而美国模式偏向“数据自由流通”一方,意在数字经济的发展。

2020年7月16日欧盟法院(CJEU)判决欧盟与美国达成的用于跨大西洋传输个人数据的“隐私盾”(Privacy Shield)协定无效,因为美国可能在缺乏严格、必要的条件下获取个人数据。此外,法院认为,这项协议无法保证非美国公民不成为美国情报部门的潜在侦伺目标,也没有赋予这些个人对抗美国政府、寻求司法救助的权利。这一判决也正是源自两种模式在个人信息保护范围上不同,也导致美欧之间在个人信息跨境传输问题上摩擦重重。

五、关于个人信息边界的考量

2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术等要素一道列为市场化配置的重点,提出要引导培育大数据交易市场,依法合规开展数据交易。在大数据交易、数据市场化流动的未来,而“非个人信息”也将会更多地在数据流动中实现数据价值的最大化。

然而数据蕴藏的巨大价值与隐私保护之间的矛盾日益突出,如何更好地实现两者的平衡是当今一个亟需解决的行业关键性问题,对于正在进行中的中国数据立法来说,这个问题值得立法者思考。

首先,应当明确个人信息的界定。当前,无论是民法典网络安全法中均采取和概括+列举的模式,定义了个人信息,但在现行立法层面尚未明确提出匿名化和去标识化的概念。个人信息保护法也将匿名化信息排除在个人信息之外,而匿名信息在目前中国法语境下并无完整的定义。在《数据安全管理办法(征求意见稿)》中也引入“匿名化处理”概念,但是目前尚无配套的匿名化处理的技术规范进一步释明。

未来的个人信息保护法正式法案是采用严格如欧盟的绝对匿名化,还是允许相对匿名化的模式,值得立法者进一步探讨。如前文所述,绝对匿名化在技术上存在极大的不可操作性,而较为具有实操性的立法模式,或许应该是结合具体的应用场景给出相关的定义。例如,在完全对外发布的场景中,则适用更为严格的匿名标准;而针对数据控制者内部的数据共享,则可采用控制访问权限、假名化和去标识化处理等;对数据控制者之间的传输,则可以采用数据传输协议、加强限制重识别等手段来控制。

其次,结合我国大数据以及数据安全的发展现状,借鉴和吸收欧盟和美国对匿名去标识数据的两种管理方式,在数据利用和数据安全进行平衡,完善匿名化相关制度的设计。如果伴随着技术的发展,大而全的绝对匿名化实质不可能,则可以在配套的规范设计中引入隐私安全评估、重识别风险的评估等,去实现立法中的“匿名化”或“去标识化”。

不可否认的是,数据中所蕴藏的巨大的经济价值与个人信息、隐私保护之间的矛盾相信也会日渐突显。无论未来中国的数据、个人信息立法走向如何,相信都应该是为了实现数据自由流动和个人权利保护之间的平衡的立法宗旨。

往期精彩回顾

孙文康 王讷敏|对影视解说类视频的分类定性与侵权分析刍议——以转换性使用为视角

王红燕 徐天冉|浅析中美两国人工智能对知识产权保护的挑战与应对制度

俞北瑜 包文超|监测新型传染病的法制化路径之刍议——以新冠疫情事件为例展开

王琳 王颖|不动产登记机构依职权进行更正登记的合法性审查——析陶某甲等诉上海市自然资源和确权登记局房屋登记案

孙晋坤|立法与改革关系理论背景下的地方立法——以浙江省保障“最多跑一次”改革立法过程为视角

鲍田莉|行政复议法修改的热点与趋势——基于CiteSpace知识图谱可视化分析



上海市法学会官网

http://www.sls.org.cn


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存