【数据法学】谢琳:大数据时代个人信息边界的界定
B D A I L C
欢 迎 关 注
个人信息受“识别性”和“相关性”两方面的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。在大数据时代,“识别性”和“相关性”边界逐步扩大。在识别性方面,直接识别标准已向间接识别标准过渡,且大数据识别技术的进步和数据的海量化极大提高了信息的识别可能性,导致匿名化的崩溃。在相关性方面,随着大数据画像等分析技术的发展,许多原本不能反映个体特征的信息也可能成为个人信息。对此,个人信息应采用最宽泛的定义,只要存在识别和相关的可能性,均应纳入个人信息的范畴,并对个人信息进行风险层级的划分,以相应风险层级确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。
Ine Louise
大数据时代个人信息边界的界定
文 / 中山大学法学院副教授 谢琳
三、匿名化的相对性
采用绝对路径虽然考虑了所有识别的可能性,但也导致匿名化豁免可能没有适用的空间。与可识别相对应的概念就是匿名化。个人信息的定义以“识别”为核心,匿名信息去除了原信息中的部分识别符,使之不再能够被识别,不再属于个人信息,例如去除了姓名和身份证号码后,“1957年生,男,工程师,收入7万”则非个人信息。个人信息保护制度将匿名化信息排除在其规制范围之外,其意义在于为信息流转提供一个可行的渠道。数据控制者可通过对已经收集的数据进行匿名化处理,从而达到自由利用或转让数据的目的。
对于可以随意利用的匿名信息,一般要求匿名化处理具有不可逆转性(Irreversible),不能再被重新识别。然而大数据技术使法律上的绝对匿名化概念变成令人误信的神话。许多研究表明,不存在绝对匿名化的信息。首先,已经匿名化的数据集跟其他数据集相结合,有可能重新识别该人;其次,识别技术的进步也有可能使已经匿名化的信息再次被识别。如果要求识别风险接近为零,则在实践中难以实现,个人信息与匿名信息的区分也似乎已无意义。
对于这个问题的讨论,最后比较一致的结论为,仍应保留匿名化概念。因为匿名化是促进数据流转必不可少的工具,无法割舍。且舍弃匿名化豁免将使数据控制者缺乏必要的动力对信息进行匿名化处理,不利于个人信息保护水平的提高。同时,对匿名信息进行再识别的过程仍然并非是简单且容易的,若再识别过程需要花费与回报不成比例的过多的时间和精力,相关机构也没有足够的动机对其进行识别。
由于匿名化无法完全消除可识别的风险,为了保留匿名化概念的适用空间,某些国家立法开始承认匿名化的相对性,认为是否为匿名化的信息取决于信息的接收方。承认匿名化的相对性也意味着匿名信息并非不再受任何规制,匿名信息的自由流转性受到一定的限制。例如将进行了匿名化处理的信息转让给某个特定的研究机构,由于该研究机构掌握的额外识别信息有限,无法重新识别,该信息仍为匿名信息;但一旦被公开,则有可能重新变成个人信息。因此该匿名化信息仅限于该研究机构使用,不能将其公开或转让给具有可识别条件的第三方。此外,数据控制者还应承诺不再试图识别匿名信息,并应通过合同禁止信息接收者进行再识别。
同时,识别风险的动态变化也增加了新的合规义务。随着数据集的增多和识别技术的发展,当下不可识别的信息,将来未必不可识别,匿名化不再是一个静态的二元化概念,而是一个动态且变化的概念。匿名化的动态变化要求数据控制者定期评估剩余风险;评估对识别风险的控制手段是否足够且匹配;监控并控制识别风险,及时发现新的识别风险;若有新的识别风险,则需要重新进行匿名化处理。
因此,匿名信息多在可控的有限范围内流转,公开披露匿名信息的方式已很难再适用。首先,对于公开披露的信息的可识别性的判定,采用的是绝对标准。由于公开披露的信息可由任何人获得,因此应考虑世界上任何一方识别该信息的可能性。绝对性标准要求很高,欧盟2014年《关于匿名技术的意见》就特别指出,匿名化处理中常见的错误就是将假名信息误认为匿名信息。例如,2006年美国在线(AOL)公司公布其65万用户近三个月的搜索记录,虽然已以数字编号代替AOL的用户名,但仍有网民结合其他数据识别出其中的某些用户。其次,对于公开披露的信息,还应要求未来也不可识别。数据一旦公开则处于完全不可控的状态,无法再对其进行定期审查。欧盟《关于匿名技术的意见》指出,匿名化信息若再被识别则需重新纳入个人信息保护范围。而对已流通至公开领域的信息再进行重新保护,显然是不具有可操作性的。除非是统计类等整合数据,例如“礼拜一轨道X上的乘客数量比礼拜二多160%”,否则很难达到可以一次性公开的匿名化标准。英国2011年“R诉信息专员案”中,英国卫生署拒绝披露晚期堕胎的详细数据,转而披露统计数据,英国高等法院也肯定了卫生署这一做法。
四、相关性的界定
个人信息的“相关性”边界也呈现动态扩大的趋势。传统观点认为,信息应能够反映个体特征,指向特定人的身份、特点或行为,或用于决定、影响该人如何被对待或评价,才属于个人相关。
欧盟29条工作组《关于个人数据概念的意见》将相关性进一步解释为内容相关、目的相关或结果相关,满足任一相关性即属于个人信息。内容相关是指,当信息直接关于(About)该人时,自然为个人相关,譬如对于某个病人的疾病诊断结果自然直接反映了该病人的个人情况。但某些信息表面上是关于某件物件(Objects)的,但在实际使用情形下有可能与个人有关,此类物件往往属于某个人,或对该人产生特别的影响,或在物理上或地理位置上接近该人,此时则需运用“目的相关”或“结果相关”加以判断。
目的或结果相关衡量的是该信息是否被用于“评价、或以特定方式对待或影响该人的现状(Status)或行为”。如果使用者基于这样的目的使用信息,或者没有这样的目的,但实际上对某人的权利或利益产生影响时,则与该人相关。例如,房屋的价格虽然关于房屋,但用于衡量该人需要交纳多少房产税时,则属于个人信息。再如,的士公司的卫星定位系统通过确定每辆的士的位置,将的士分配给距离最近的顾客。严格意义上讲,该系统所使用的位置数据与的士相关,而并非与司机相关。但该系统同时具有追踪的士司机表现的功能,检查他们是否超速、绕道或休息等,因此对个人产生影响,属于个人信息。
目的或结果相关由数据控制者或第三方的使用目的和所产生的影响决定,其边界随着技术的发展呈现出不断扩大的趋势。典型的例子是,早期用户搜索记录并不属于个人信息,但基于搜索记录的海量化整合,数据控制者能够通过用户画像技术描绘出该人的个体特征,并通过个性化推荐服务影响用户行为。有专家指出,互联网搜索记录即便不是内容相关,也应是目的相关或结果相关。2015年英国谷歌定向行为广告案中,法院指出,浏览记录也可视为基于评价用户而使用,属于个人信息。随着大数据分析技术的发展,越来越多的信息通过大数据分析技术加以整合,能够反映出个人的个体特征,个人信息的范围不断扩大。
对相关性宜采用宽泛定义,只要存在用于分析个人特征的可能性,即可属于个人信息。如前文所述,将可随意利用的信息重新纳入保护范围,不具有可操作性。特别是在信息公开环节,信息公开者不再能够有效控制信息的后续使用,而随着信息的海量化整合,这些原本不能反映出个体特征的信息有可能能够反映出个人的特征。对此,不应要求当下的信息须反映出个体特征才受保护,除非是完全不相关的信息,否则任何与个人相关的信息都应属于个人信息。该界限在实践中是能够清晰划分的,譬如专业考试中,试卷答案反映了答题者的专业水平,属于个人信息,但单纯的试卷题目则不属于个人信息;移民档案中关于个人情况的资料属于个人信息,但移民局关于该人是否具有移民资格的纯粹的说理性分析则非个人信息。
五、个人信息的风险层级建构
如上文所述,对于个人信息的概念应采用最宽泛的界定标准,以涵盖所有需要保护的信息。有学者担心,若个人信息的定义过于宽泛,个人信息保护制度将难以落实。采用风险路径(Risk-based Approach),将个人信息的识别性和相关性进行程度上的区分,依据相应的风险程度承担相应的保障义务,可有效解决该问题。
在识别性方面,信息可大体分为已识别信息、可识别信息、匿名信息。由于匿名化风险的存在,匿名化信息与可识别信息已难清晰区分,其中一个重要举措就是引入假名信息(Pseudonymisation)的概念。假名信息就是经过去识别化处理,并将恢复身份的额外信息分开存放的信息。举例而言,“00108,65岁,糖尿病患者”为已去识别化的假名信息,而“00108与张晓明”的对应关系信息则属于恢复身份的额外信息,应分开存放。假名信息由于保留了恢复身份的额外信息,存在识别的可能性,仍属于个人信息,但可享有法律上的一些优待性规定。近期生效的欧盟《通用数据保护条例》为促进假名化处理制定了一系列鼓励性规定。首先,假名信息享有更大的灵活处理空间。个人信息保护制度要求信息的使用必须与信息收集时所明示的使用目的相称(Compatible)。为促进大数据信息二次利用的商业模式,欧盟在《关于目的限定原则的意见》中指出,信息后续使用无需完全符合收集目的,用于不同目的也有可能被视为与收集目的相称,须进行个案分析。而衡量是否相称的其中一个考量因素就是是否已经假名化处理。其次,企业进行假名化处理后更容易达到合规要求,譬如进行假名化处理可视为达到“进行隐私设计及默认保护隐私”的合规要求;对于用于“公共利益、科学、历史或统计目的”的信息,进行假名化处理可视为达到“合理保障措施”的要求。最后,进行假名化处理可免于承担某些合规义务,例如进行假名化处理可视为数据控制者已采用风险管理手段保护数据安全而免于承担信息泄露通知等义务,承诺永久不再识别还可无需回应数据主体访问、修改、删除或携带自身数据的请求。美国学者也肯定了欧盟的路径,认为引入假名化概念并按风险比例承担相应程度的义务能够有效激励数据控制者采取措施降低风险。
在相关性方面,信息也可分为个人敏感信息、个人一般信息、完全无关的信息。个人敏感信息是指“一旦泄露、非法提供或滥用,可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息”,例如银行账号、病史、基因、身份证号、网络账号及密码、性取向等。对于敏感信息,有一系列更高的合规要求,比如收集时需征得用户的明示同意,传输和存储时应采用加密等安全措施,不得随意访问等。
个人信息的风险层级即依据识别性和相关性的程度来确定个人信息的风险程度,已识别的敏感信息风险程度最高,反之匿名化的一般信息则风险程度最低。风险路径就是依据风险程度的高低确立相应的合规义务,考虑数据控制者所采用的保障措施与其可能引发的风险是否相匹配。当风险过高时,数据控制者还应进行专业的隐私风险影响评估(PrivacyImpact Assessment,PIA),采取额外的保障措施。其中,可参考英国“场景中合理使用(Fair Processing)”作为判定是否合规的标准,而欧盟立法中所贯穿的比例原则也体现了这一点。
综上所述,“宽进严控”已成为大数据时代个人信息保护的新兴理念,应对个人信息的“识别性”和“相关性”边界进行最宽泛的界定,以涵盖所有需要保护的信息。同时引入动态的风险路径,根据信息的风险层级高低确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。
转载自学术研究
仅作学习交流之用
Ine Louise
往期荐读
编辑:韩雨硕
欢迎点击“阅读原文”