全球法律政策研究院 | 个人数据概念疏证
* 文章系本公众号独家首发,未经授权不得转载、摘编。
关于个人数据的定义,从各国的立法实践上来看,虽然称谓不同,但相关概念所指向的内容有很大的相似性[1]。《中华人民共和国网络安全法》第76条(5)款规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”美国法更多地采用“隐私”的概念,但在一些特别立法中也会使用个人信息的概念。总体而言,美国法的个人信息保护深深根植在隐私保护的土壤中,并非独立存在。欧盟地区相关立法主要是从之前的《欧洲数据保护指令》(以下简称“95指令”)第2(a)条到现在的《通用数据保护条例》(以下简称“GDPR”)第4(1)条,其中对个人数据的定义也是一脉相承的,即与已识别或者可识别的自然人(数据主体)相关的任何数据。除此之外,日本和韩国在立法中也使用“个人信息”一词,其中日本的《个人信息保护法》第2(1)条中规定,个人信息指“与生存着的个人有关的信息中因包含有姓名、出生年月以及其他内容而可以识别出特定个人的部分”,韩国的《个人信息保护法》第2(1)条基本沿用这一定义。
虽然在定义上存在上述国别性差异,但综合这些国家法律规定中的关键信息后可以得出,个人数据的定义主要包含以下四个要素。下文将对这些要素进行逐一分析。
“各种信息或任何数据”具体包括什么?
如何判断与自然人“有关的”信息或数据,即关联性?
如何理解“已识别或可识别”的识别性特征?
“自然人”的范围是什么?
根据GDPR第四条对个人数据的定义,“任何信息 (Any Information)”是判断是否为“个人数据”的第一个要素。根据文义解释,立法者倾向于将个人数据的范围做广义的界定。
在对“任何信息”作出解释之前,有必要对“信息”和“数据”这两个概念进行说明。信息 (Information) 多出现于美国的法律体系中,如《隐私法案》(Privacy Act of 1974)、《儿童在线隐私保护法案》(COPPA) 等。数据 (Data) 常见于欧洲立法中,如95指令、GDPR。“信息”一词出现的时间早于“数据”,因为“数据”的出现与信息科技的发展密切相关,因此“信息”被认为是一个偏向法律的概念,而“数据”是一个偏向技术的概念。但是根据前述提及的GDPR第四条关于个人数据的定义,运用最基本的语法理解就可以发现实际上立法者并没有对“信息”和“数据”严格区分。因此为了避免歧义,本文中“信息”和“数据”同义。
从信息的性质来看,个人数据的概念中所体现的信息,是关于个人的任何陈述性说明。它涵盖了“客观”信息,例如某人血液中存在某种物质;也包括“主观”信息,例如意见或评估。后一种信息是银行等行业常见的个人数据处理类型之一,多用于评估借款人的可靠性(“王某是一个不可靠的借款人”)。另外,对于属于“个人数据”的信息,并非必须是真实的或经过证实的。实际上,数据保护相关规则已经预设了信息不正确的可能性,并规定了数据主体访问该信息的权利,并通过适当的补救措施对其提出质疑。
从信息内容的角度来看,个人数据的概念中所体现的信息,可以包括任何种类的信息。这当然涵盖了敏感程度较高的特殊类型的个人信息,这类数据一般属于会触及个人隐私和家庭生活的信息,属于严格意义上的隐私类个人数据。但同时也包括个人进行其他一般类型的活动产生的信息,如工作关系或个人的经济或社会行为的一些信息。
从信息的形式来看,个人数据概念中所体现的信息,是包括以任何形式和载体提供的信息,例如字母、数字、图形、照相或声音。它包括纸质保存的信息,以及通过二进制代码等存储在计算机存储器中的信息。
隐私是指个人生活中不愿公开或为他人知悉的秘密。因此隐私并非是以某种形式或载体形式呈现,也许是内心的想法,或者是朋友之间的私密对话,无法通过某种方式捕捉。因此个人数据一定具有某种形式。
个人数据与隐私的关系可以理解为下图1所示:
图1个人数据与隐私关系示例
第二个要素:相关性 (Relating To)
一般而言,判断某项信息是否和个人有关是识别个人数据的重要一环。在很多场景下是较容易辨别的,比如某份医疗报告中关于病人的医疗信息,雇佣关系场景下员工的人事档案等。然而,在其他一些场景下,这一环节往往并不像看起来那么简单,可能某种信息所直接关联的并不是自然人,而是物或事件,且往往该物或事件会和自然人产生一定的关联。比如物归属于某自然人,或者物或事件的相关信息会对自然人产生某种影响,又或者与自然人所处的物理或地理空间位置等有关。
举例来说,与房屋价格信息直接关联的实际上是房屋本身,而不是某个自然人。然而,这一房产却可能和某个自然人之间有一种归属关系,因此我们在认定房屋价格是否和自然人有关时需要考虑具体情境。如果说这项信息只是代表了某一地段的房产价格信息,很显然这并不能被认为是个人数据。但如果房屋的价格指的是某一自然人所拥有的房产价值,可能会昭示这一自然人的部分财产信息等,那么这一信息就会被认定为与自然人有关。
这类情境下,对相关性的判断就需要借助一套分析方法,指导我们在这种间接联系的情景下如何把握与自然人“有关”这一概念。
欧盟第29条数据保护工作组(以下简称“第29条工作组”)曾对“相关性”有过这样的解释,“如果数据指向的是个人的身份、特征、行为,或者相关信息会被用来决定或影响某个人被如何对待或评价,那么该数据通常会被认为与自然人有关。”一般而言,判断数据是否与自然人有关,可以从三个维度考虑:(1)内容维度;(2)目的维度;(3)结果维度。此外还需要注意,这三个维度是或然的关系,如果从任何一个维度可以判定为与某个或多个自然人有关,那么就认为该数据本身与自然人有关。
首先,内容上的判断是最浅显的一层判断,即判断数据内容是否是关于自然人的信息。比如上文中提到的医疗报告中关于病人的医疗信息,雇佣关系场景下员工的人事档案,这些场景下的信息直接指向的是自然人,这就是从数据内容层面进行的判断。但上文关于房屋价格的例子,单从数据的内容本身并不能判断出这是否涉及到个人,还需要结合我们下面要谈到的目的维度。
关于目的的判断,是比较重要的一层判断,需要对使用或可能使用该数据的目的进行判断。判断的核心在于结合具体场景,充分考量该数据是否会被用来评价某个人的身份、地位或行为等,或在某种程度上决定其被对待的方式。
最后是关于结果的判断,即便从内容和目的上排除了相关性,但在充分考虑具体情境下,某数据的使用可能会对自然人的权利和利益造成影响的时候,该数据也会被认定为与自然人有关。比如网上叫车的场景,需要监控出租车司机的位置,在有叫车服务需求时可以准确定位并锁定订单。问题在于,出租车的位置信息是否属于司机的个人数据?严格意义上,从内容层面分析,系统中收集的出租车位置信息是关于“车”的信息,而不是“人”的信息;从目的层面分析,系统处理数据的目的是为了节省油费并提供更好的服务;然而从结果层面分析,这种系统监控可能会涉及对出租车司机的驾车行为(例如,是否选择了合适的路线,是否绕路,是否超速,是在运行当中还是在休整状态等)都会有记录,这对出租车司机个人会产生很大的影响,也会因此被判定为和自然人有关。
第三个要素:已识别或可识别
(Identified or Identifiable)
美国著名数据保护法专家Paul M. Schwartz与 Daniel J. Solove于2011年提出的个人信息2.0(Personally Identifiable Information,以下简称PII2.0)及合规体系被各国数据保护立法不同程度地吸收。在PII2.0模式下,个人数据可分为三类:(1)已识别个人数据;(2)可识别个人数据;(3)非个人数据。PII2.0概念及合规体系具有较强的实操性,能够为企业合规提供参考。
(一)已识别个人数据
已识别个人数据能够将该特定主体与他人区分开来。当特定个人的身份确定时,该自然人可称为已识别数据主体。国际上对这一概念已形成普遍共识。例如,美国审计总署、美国管理和预算办公室、美国国家标准和技术研究所将已识别个人数据定义为区分和查明特定主体身份的数据;在欧洲,第29条工作组认为,当一个自然人能够与一个群体中所有其他成员区别开来时,就可以认为他或她是“已被识别的”;德国数据保护法规定,已识别个人数据仅仅与特定自然人而非他人相关联,如姓名、家庭住址、手机号码等能够确定识别、关联到特定个体的数据。
由于与特定个体存在必然关联性,此类数据需要完全适用个人数据保护法,对该类数据的处理需要完全符合数据保护法的合规要求,包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、存储限制、安全保障、公开透明等。
(二)可识别个人数据(包括去标识化数据)
可识别个人数据由于没有明确的界定标准,在实践中成为一个相当模糊的地带。PII 2.0模式下,可识别个人数据,也就是对特定个体的识别具有可能性,但又并非严格意义上的或然事件,换句话说,特定个体有将来被识别的可能性,该类数据具有中等程度的风险。该类将来有可能被识别的个人数据应当与实质意义上的可识别数据区别对待,即尚未关联到但有可能关联到特定自然人的数据。Paul M. Schwartz与 Daniel J. Solove认为,该类数据,尤其是有实质性识别风险的可识别数据应当与已识别数据同等对待。换句话说,当可识别数据被数据处理相关方通过一个或多个必要的联系来识别出特定个体的可能性很大时,可识别数据可视为已识别数据。要判断某项数据是否属于这一类型,需要评估相关方已有或可能采用的数据访问途径以及可利用的额外数据。该种评估测试还应当考虑到数据储存生命周期、相关技术的未来发展趋势及相关方识别特定个人的动机等。
对于可识别个人数据,需结合业务场景灵活适用个人数据保护法。如风险较高(有实质性风险),则按照已识别个人数据来处理,需满足个人数据保护法全部合规要求;如识别风险低,可部分适用。以去标识化数据为例,通过对个人数据做技术性处理(例如,将个人信息或字段脱敏、加密、转换,使用假名、哈希函数等,使其在不借助额外信息的情况下,无法识别到数据主体,则对该类数据的处理不涉及数据主体权利方面的合规要求,如允许访问和更正等。
在实践中,我们可以利用实操性工具来评估数据主体被识别的风险。计算机科学家已经研发出评估数据识别风险程度的标准程序。比如,Khaled E1 Emam[2]开发的标准检查程序可用来评估去标识化数据被关联到特定个体的可能性。其开发的程序关键轴心是关于“减损控制”对于数据控制者的可用性,以及可能会寻求将数据关联到特定个体的外部人员的目的和能力。此外,计算机科学家对安全保障软件的持续研发也提供了可借鉴的经验,即需要重点关注:(1)数据资产面临的内外部威胁的性质,以及;(2)对于这些威胁的应对措施的有效性。
有鉴于此,在评估可识别个人数据的识别风险及提出合规举措时,可以引入上述评估工具或其同类产品来辅助评估,评估结果可作为风险等级划定及采取合规举措的参考因素。
(三)直接与间接已识别和可识别个人数据的区分
第29条工作组对已识别和可识别个人数据还做了直接与间接的区分,即是否需要与其他数据相结合来识别特定个体。例如,工作组认为身份证号码、护照号码、指纹、庇护国为庇护寻求者提供的识别码[3]等个人数据为直接已识别数据;姓名、生日、父母姓名、住址或面部照片等为间接已识别数据,原因是在识别特定个体时,姓名等数据有时候需要与其他数据结合。
第29条工作组的该种区分方法对数据保护合规具有一定的实际指导意义,可引用来细化个人数据的风险等级划分及对应的合规举措。例如,直接已识别数据风险等级大于间接已识别数据,间接已识别数据风险等级又大于直接可识别数据,直接可识别数据风险等级又大于间接可识别数据。
GDPR以风险等级区分的方式向企业传递的价值导向是,当数据处理活动不需要识别到具体个体,那就不要识别出特定个体,以规避合规风险。这是典型的风险管理思路——通过在法律上对不同识别度的个人数据进行区别对待,引导数据控制者采取低风险的处理方式。
(四)关于个人敏感信息和特殊类型个人数据
根据中国《个人信息安全规范》(GB/T 35273-2020) 第3.2条及附录B的规定,财产信息、健康生理信息、网络身份标识信息、儿童信息及其他有关信息属于个人敏感信息。GDPR规定,种族或民族背景、政治观念、宗教、哲学信仰、工会成员资格、基因数据、生物特征数据、性生活或性取向数据、刑事定罪、违法犯罪及保安处分相关的数据属于特殊类型个人数据。上述个人数据一旦被泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇。因此,法律法规对该类型的数据处理提出了更高的要求,例如中华人民共和国国家互联网信息办公室颁布了《儿童个人信息网络保护规定》对个人敏感信息中的儿童信息进行了专门规定。根据GDPR第9条第4款对基因数据、生物特征数据或健康数据的处理规定,成员国可以维持或引入更进一步的限制条件。
因此,个人敏感信息和特殊类型个人数据属于高风险等级数据,在法律规定的基础上应提出相较于一般个人数据更为严格的合规要求。
最后,对于特定数据的判断及评价不是非黑即白的简单判断标准,而是基于一套规则、依据特定业务场景来进行动态界定,而不能仅凭数据本身做出预判。需要考虑的业务情境因素包括数据本身的类型、数据处理涉及的实体、服务提供商的认证水平、收集方法、设备环境、各方之间的价值交换等。
第四个要素:自然人(Natural Person)
“个人数据”的第四个要素是数据指向的对象是自然人,原则上不包括关于死者、法人或组织本身的数据,除非各国另有规定。但是死者、法人或组织的数据可以指向其他自然人,这类数据将作为相关自然人的个人数据受到数据保护法的保护。例如,死去的母亲患有血友病,该信息表明她的儿子也患有同样的疾病。法人或组织的关于雇员、客户或其他自然人的数据也属于个人数据的范围,受到数据保护法的保护。
法国对死者个人数据有特别规定。数据主体有权就其死亡后的个人数据的存储、删除和流动给出指示。如果数据主体在其一生中没有任何指示,那么他/她的继承人有权对关闭死者账户和停止处理其个人数据提出异议,同时也可以行使某些权利,例如访问权(处理继承问题)。
数据的去标识化和匿名化
(De-identification/Pseudonymisation and Anonymisation)
在对数据进行特定处理的情景下,去标识数据和匿名数据是一组相对应的概念,根据重新识别的可能性将特定处理过的个人数据分成去标识数据和匿名数据。
(一)去标识数据
去标识化是指通过对个人信息的技术性处理,使其在不结合额外信息的情况下,无法识别个人信息主体的过程。目的在于在不知道自然人的身份信息的情况下收集他或她的其他个人信息。去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。去标识数据具有可追溯性,可以结合参考特定信息恢复身份属性,追溯到特定个人,属于可识别个人信息,适用个人数据保护法。
密钥编码数据是典型的去标识数据,用代码替代与个人有关的身份信息,并将代码与个人标识符之间的对应关系加密单独保存。以药物临床试验为例,研究员处理数据的目的在于研究生物统计数据,并在需要时识别个体患者进行适当的治疗。测试药物的医学研究人员会收集每位患者的临床结果数据,并使用代码对数据进行处理,以此编码的形式向制药公司或其他主体提供数据。对于研究人员而言,患者的识别已经嵌入在处理目的和手段中,因此这类去标识数据属于可识别个人数据。对于制药公司或其他主体而言,正常情况下只获取去标识后的统计数据,但如果它们同时也有可能获取密钥信息、患者的其他相关个人信息,或数据未经过防重新识别处理,则这类数据可以作为可识别数据进行保护。
去标识数据由于经过技术性处理,其风险性较一般个人信息而言更低,对于个人数据保护规则的应用比直接可识别个人信息更加灵活。其风险点在于获取特定信息就会识别到个人。对去标识数据进行风险评估时,需要考虑相关方是否有可能获取密钥等关键信息或其他个人信息。
(二)匿名数据
匿名化是指通过个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。不同于去标识数据,个人信息经匿名化处理后所得的信息不属于个人信息,不适用个人数据保护法。
匿名数据具有非常高的认定标准,经过处理的数据必须达到充分匿名化的程度。要判断是否达到这一标准,应结合具体场景,考虑所有可能合理使用的方式,同时结合目的、可获取的其他数据资源、技术能力等维度,综合判断是否能用于重新识别数据主体。例如,一名店主通过店内安装的摄像头监控系统抓获小偷照片,并在店内公开。在警察的干预下,他把小偷的脸蒙上阴影。然而,即使在这一操作之后,照片上的人仍有可能被朋友、亲戚或邻居辨认出(通过他的身材、发型和衣服),此时并不能构成匿名化数据。
从各国数据保护立法和监管实践看,普遍强调匿名数据认定的高标准,但对于匿名数据的法律规制有不同的观点。英国[4]认为匿名数据属于个人数据,受个人数据保护法调整。多数国家和地区认为匿名数据不属于个人数据,不受个人数据保护法调整,但应当符合信息安全等其他方面的法定要求,例如中国[5]、欧盟[6]、新加坡[7]、日本[8]等。
根据各国个人数据保护法律法规,采取不恰当的数据处理可能被认定为违法行为,给公司带来合规风险、经济损失及商业声誉的毁损。企业应根据个人数据的类型及其风险偏好,进行相应的合规管理。为有效预防数据保护合规风险,企业各业务单位可以在数据处理活动中根据个人数据识别的“四要素”有效识别个人数据,并根据其种类和风险偏好采取更加准确和有效的应对措施。
个人数据经匿名化处理后不再适用个人数据保护法的要求,因此不必纳入企业个人数据风险级别体系中。企业对于数据匿名化时应当满足两方面的合规要求:一是保证达到并保持充分匿名化的高标准;二是符合信息安全等其他法律要求。
根据种类和风险偏好,可以将个人数据的风险等级和保护等级分为三类:高、中、低,分别对应个人敏感数据和特殊类型个人数据、一般个人数据、去标识数据三类。
(一)高风险等级数据的合规要求
个人敏感数据和特殊类型个人数据属于高风险等级数据,应当给予最高水平的保护力度。根据各国及地区的立法情况,在一般个人数据保护力度基础上提供法律所要求的更高层次的保护,通常会涉及到授权同意要求、数据存储限制、数据使用限制、数据跨境处理等方面。
(二)中风险等级数据的合规要求
一般个人数据是指除了个人敏感数据和特殊类型个人数据、去标识数据以外的个人数据,属于中风险等级数据,应当给予中等水平的保护力度。处理一般个人数据时,需要满足个人数据保护法规定的合规要求,遵守以下原则:
遵守合法、公开和透明原则。合法、公平并且以透明的方式对数据主体的个人信息进行处理;
遵守目的限制原则。基于具体、明确、合法的目的收集个人信息,且随后不得以与该目的相违背的方式进行处理;
遵守最小范围原则。限于最小必要范围内处理个人数据;
遵守准确性原则。处理的个人数据是准确的并对数据保持适时更新;
遵守存储限制原则。在实现个人数据处理目的所需的时间内存储数据;
处理个人数据时保障数据主体的合法权利;
遵守安全保障原则。数据处理应当以确保个人数据的适当安全性的方式进行,包括采取适当的技术或组织措施以保护数据免遭未经授权或非法处理以及意外丢失、毁损或破坏;
遵守责任原则。对上述原则的落实情况承担责任并予以证明。
(三)低风险等级数据的合规要求
去标识数据由于经过技术性处理,其风险性较一般个人信息而言,相对较低,属于低风险等级数据。对于个人数据保护规则的应用比直接可识别个人信息更加灵活。当采取适当的安全保障措施时,可以有效阻碍与特定个人的联系,这种情况下数据控制者也无需为个人数据权利(如知情权、访问权、拒绝权、删除权)的实现提供支撑。去识别化的本意在于降低个人识别的风险,因为如果为个人数据权利的实现提供支撑,不可避免地会导致要求企业重新识别回个人,这无论对企业还是个人来说都将成为不必要的负担。
如果去标识数据会追溯至特定个人,则需要履行一般个人数据的保护要求。
从个人数据的概念要素分析,“任何信息”、“有关的”、“已识别和可识别”和“自然人”是判断和识别个人数据的四大要素。“任何信息”体现了对个人数据从实质、内容到形式的广义界定;“有关的”体现了在内容、目的、结果方面与个人的相关性;“已识别和可识别”是目前个人数据理论概念的核心要素,体现为数据与唯一个人之间的映射关系,个人数据的去标识化和匿名化也是与此相关的概念;“自然人”要素体现了个人数据的自然人属性,即原则上不包括关于死者、法人或组织本身的数据,但各国另有规定的除外。
个人数据的识别与分析是企业开展个人数据保护合规工作的出发点和前提。通过对以上要素的分析,从理论上厘清个人数据概念,奠定了数据保护理论研究基石,同时为企业的个人数据识别、梳理工作提供有力支撑。
注释:
[1] 何波:《试论个人信息概念之界定》,载于《信息通信技术与政策》,2018年第6期。
[2] 隐私分析 ( Privacy Analytics) 的创始人兼首席执行官。
[3] 出于行政目的,寻求庇护者在庇护机构中隐藏自己的真名,被给予了一个代码号。该号码将作为一个标识符,以便将关于寻求庇护者在该机构留存的不同信息附着在该号码上。
[4] 英国信息专员办公室ICO 指出,匿名化并非是完全无风险的,而是将风险降到最低。如果数据可被识别的风险是合理存在的,应当被视为个人数据。
[5] 《中华人民共和国网络安全法》第42条第1款规定,网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息,但经过处理无法识别特定个人且不能复原的除外。
[6] 欧盟GDPR规定匿名化数据不属于个人数据,因此无须适用条例的相关要求,机构可以自由处理匿名化数据。
[7] 新加坡个人数据保护委员会2013年颁布的《个人数据保护法指定主题咨询指南》对个人数据的界定以及匿名化也作出了进一步规定。匿名化是指将个人数据转化成一种数据,这种数据无论是其本身,还是通过机构已经获得的或者可能获得的其他数据一起分析后都不能识别到个人。数据匿名化之后就不适用于个人数据保护法中的相关规定。
[8] 日本2015年通过《个人信息保护法》修正案,对大数据交易相关规定作出修订。新法案允许企业向第三方出售充分匿名化数据,但同时提出了相关义务要求,即经过匿名处理的数据不能与其他信息进行比对、参照以识别身个人份,且不能复原。
本文作者:W.YM,Sh.MH,X.M,W.YY
全球法律政策研究院 | 美国律师与客户保密特权制度研究(下篇)
全球法律政策研究院 | 美国律师与客户保密特权制度研究(上篇)
全球法律政策研究院 | 美国《出口管理条例》项下出口许可证申请机制研究
全球法律政策研究院 | 日本出口管制制度简析
全球法律政策研究院 |《美国出口管理条例》对企业知识产权业务的影响
让我知道你在看