上政学报 网络首发 | 沈伟伟:个人信息匿名化的迷思 ——以《个人信息保护法(草案)》匿名化除外条款为例
点击蓝字
关注我们
聚焦即将出台的“个人信息保护法”
本篇系《上海政法学院学报》2021年7月份的网络首发文章
个人信息匿名化的迷思
——以《个人信息保护法(草案)》匿名化除外条款为例
作者:沈伟伟,中国政法大学法学院副教授。
内容摘要
《个人信息保护法(草案)》的出台,代表着我国在立法层面平衡个人信息保护和个人信息利用两者关系的一次新尝试。该《草案》对“个人信息”作出了有别于其他法律法规的定义,设置了“匿名化除外条款”,并对匿名化作出了一个绝对化的理解。个人信息匿名化,与其说是一个“有与无”的问题,不如说是一个“多与少”的问题。从条文逻辑、技术实践和立法价值三个层面分析,匿名化除外条款都值得进一步探讨。
关键词
个人信息保护;个人信息利用;个人信息匿名化;匿名化;技术实践
随着数字时代的到来和相关技术的推广,个人信息的收集和使用越来越普遍,由此也引发了个人信息的非法收集、滥用、泄露等现实问题。如何回应这些现实问题,强化个人信息的法律保护,成为了学术界和实务界的共识。但这只是问题的一方面。另一方面,个人信息在数字经济发展过程中的重要性不断提升,怎么样利用好个人信息资源,直接关系到我国的数字经济转型、社会治理能力和国际竞争优势。正是在这样双重需求叠加的现实背景之下,《个人信息保护法(草案)》(以下简称“《草案》”)于2020年10月正式亮相。其中,非常突出的一点在于,《草案》突破性地提出了有别于以往法律法规界定个人信息的方式,亦即将“匿名化”作为除外条款纳入个人信息的定义之中。对于这一定义上的突破,学界尚未展开充分阐释。本文的目的并非再度唤起学界对个人信息定义的兴趣,或提出全新观点,而是仅就个人信息“匿名化”这一变通性界定,从法理和技术维度做进一步考证。
写作本文的出发点是我国个人信息保护理论与技术实践的现状,即学术界和实务界对个人信息匿名化问题的分析思路存在局限,一些技术实践和价值平衡的问题尚未得到充分揭示。针对这一现状,本文旨在揭示:在界定个人信息立法层面,各国法律所采取的进路之所以存在困境,深层原因在于个人信息保护与个人信息利用之间存在着难以调和的矛盾。从上述矛盾出发,我国的个人信息保护立法应当立足技术实践和制度传统,找到个人信息保护和个人信息利用之间的平衡,既回应对于个人信息保护的现实需要,又能为个人信息的合理利用创造条件。而《草案》中个人信息匿名化这一除外条款,并不能很好地达到这个平衡的目的,反而可能造成规制失灵等诸多问题,值得进一步商榷。
一、全球规制背景下的个人信息保护
互联网产业的发展,给世界各国个人信息保护立法出了一道难题。一方面,在数字时代,假如采取过于严格的个人信息保护制度,则必将限制甚至摧毁互联网产业的发展,不利于一国产业体系的数字化转型。另一方面,如果采取纯粹自由放任的监管路径,小到单个公民的个人信息,大到整个国家的网络安全,都可能遭到威胁。后者的典型案例,便是2016年美国总统大选期间的“剑桥分析事件”(Cambridge Analytica)。在这一事件中,剑桥分析公司利用“脸书”涉及的8700万用户的个人数据展开技术分析,进而干预美国大选。这个事件颠覆了人们对个人信息保护重要性和紧迫性的传统认识,也直接引发了美国立法史上最快立法之一——《云法案》(Clarifying LawfulOverseas Use of Data Act of 2018, “CLOUD Act”)的出台。并且,其带来的连锁反应也促成了2018年《加利福尼亚州消费者隐私保护法案》(California Consumer Privacy Act of 2018, “CCPA”)、2019 年《国家安全与个人数据保护法(草案)》(National Security and Personal Data Protection Actof 2019)等一系列个人信息保护立法的出台,强化了美国的部门条块化(Sector-specific)个人信息立法模式。
与此同时,欧盟也在原本不发达的数据产业基础上,采取了与美国截然不同的一体化立法模式,将其原有的《1995年数据保护指令》(Data Protection Directive, Dir.95/46/EC)升级为保护力度和广度更强的《通用数据保护条例》(General Data Protection Regulation,以下简称“GDPR”),试图打造一个“内紧外松”的数字单一市场。与欧盟和美国类似,为应对此种状况,世界各国纷纷推出符合本国国情的数据立法。根据联合国贸易和发展会议(UNCTAD)的统计数据,截至2021年3月,全球已有128个国家制定了个人信息保护法。
上述是我国《草案》制定的大背景。当然,正如许多研究者所指出的,从内容来看,《草案》在法律适用范围、个人信息处理规则、个人权利和义务、处罚细则等方面,大量借鉴了GDPR,以致其中多处都可以看到GDPR的影子。第一,《草案》对于个人信息借鉴GDPR的做法采取了特殊化处理的方式,亦即对“敏感个人信息”采取了特别规定,这与GDPR中的“特殊类型个人数据”异曲同工。第二,《草案》的处罚细则也借鉴了GDPR。GDPR的处罚标准是“两千万欧元或上一年全球总营业额4%的金额的罚款上限(两者取较高者)”,而《草案》则将罚款上限规定为“五千万元以下或者上一年度营业额5%”。第三,《草案》与GDPR类似,带有浓厚的公法色彩——规定了专门的监管机构,以及一系列类似行政处罚式的执法措施,同时,也对国家机关处理个人信息、个人信息跨境规制等问题作出一系列规定,这是调整平等主体关系的私法所不具备的特色。
上述三点之外的其他借鉴亦有不少,不再赘述。这样的大量借鉴到底是现实之需,还是仓促而为,还需我们仔细分辨。但有一点可以肯定,我国应对个人信息保护这一国际性立法趋势,所要确立的目的导向、遵循的立法路径,与欧盟不尽相同,也与美国不尽相同。究其原因,主要在于我国现行公法和私法保护体系、特定时期的技术和产业发展节点,以及我国对个人信息理解的特殊法制传统。在这一点上,不少研究个人信息保护的中国学者,已有相当程度的理论自觉。
下文将详细阐述的《草案》关于个人信息定义的表述,实际上借鉴了其他国家(尤其是欧盟和美国)在先立法经验,将“可识别性”作为《草案》所保护的个人信息的判定标准,并将“匿名化”,直接纳入到《草案》个人信息定义之中。笔者将对这些借鉴和转化展开梳理与反思。
二、《草案》个人信息定义述评:匿名化的引入
本节通过比对现有的其他处理个人信息的法律,对《草案》中的个人信息定义条款进行分析,并论证“匿名化”是理解《草案》个人信息定义的关节点,也是其有别于我国其他法律法规定义的特别之处。
首先,《个人信息保护法(草案)》第1条开宗明义,为该法定下基调:“为了保护个人信息权益,规范个人信息处理活动,保障个人信息依法有序自由流动,促进个人信息合理利用,制定本法”。很显然,就其立法目的而言,《草案》详细列举了4项,其中前两项偏向个人信息保护,后两项偏向个人信息利用。由此可以得出三个结论。第一,在立法者眼中,无论是个人信息保护,还是个人信息利用,都属于《草案》立法目的。第二,尽管个人信息保护和个人信息利用在实践中多多少少存在冲突,但这不意味着两者直接对立,在一些情况下,至少在第1条并列式表达所体现出来的期望中,需做到两者兼得。第三,无论是《草案》标题,还是从第1条立法目的条款中列举的次序,都可以推断出结论:在个人信息保护和个人信息利用之间存在着优先等级,即个人信息保护要高于个人信息利用。
立法者在《草案》第1条对两种立法目的的区分确有其合理性,而这种区分也提示了二者存在交叉竞合的可能性。事实上,是不是个人信息流通得越频繁,对于个人信息的利用就越充分?是不是个人信息的流通越简约,对于个人信息保护就越得力?都不尽然。
在如今信息爆炸的时代,对于个人而言,信息有优劣之别,并不是越多越好。每天沉浸在信息之中,其中就有不少如同美国作家索尔·贝娄所言,“只不过是毒害我们而已”,假新闻这类信息就是典型。同样,对于利用个人信息的主体而言——无论是政府,还是企业,个人信息也并非越多越好。在大数据的利用过程中,也存在信息太多反倒起负作用的情形,比如信息干扰和信息混淆。因此,为了实现《草案》第1条所确立的立法目的,我们就必须对《草案》所保护的个人信息作出明确界定,既要“被保护”,也要“可利用”,唯有如此,才能进一步探讨其他类型化和场景化的个人信息保护问题。
其次,如果说《草案》第1条为整部法律定下基调,那么《草案》第4条第1款对于“个人信息”的定义,就是《草案》的“题眼”。这是由于“个人信息”不但出现在《草案》名称中,更是贯穿整部《草案》的每一个条文,总计200余次。毫不夸张地说,“个人信息”的定义哪怕只是作出细微调整,都将会直接影响整部法律的调整对象和实施效果。那么,《草案》是怎样界定“个人信息”的呢?《草案》第4条第1款规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”
孤立地审视《草案》第4条第1款,并不能全面把握其特点及其与立法目的之间的关联。而恰恰由于个人信息保护问题的普遍性,目前为止,我国已有一系列法律法规对其作出规定,但至今亦未能形成对“个人信息”的统一概念。如果我们将现有的对个人信息定义的立法作一番比较,就可以更好地厘清《草案》第4条第1款的特色之处及其所关联的理论意涵。
首先,我们考察民法典中的个人信息。《民法典》先是在第四编“人格权”中,专设“隐私权和个人信息保护”一章,进而确立了我国特有的“隐私”与“个人信息”二分的法律规制架构。根据《民法典》第1034条的规定:“个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等”。换言之,根据《民法典》规定,个人信息的核心特征和主要认定标准都落在学界所关注的“可识别性”——既包括“单独”识别,也包括“与其他信息结合”识别。这与《网络安全法》所给定的个人信息的定义基本吻合。《网络安全法》第76条规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”
除了两部涉及个人信息的现行法之外,为了应对近几年个人信息保护实践中遇到的问题,相关部门也出台了一系列司法解释、部门规章等,尝试对个人信息这一概念作出界定,满足现实司法和执法方面的需求。例如,《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第1条规定,“刑法第二百五十三条之一规定的‘公民个人信息’,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。”再如,根据工信部《电信和互联网用户个人信息保护规定》第4条规定:“本规定所称用户个人信息,是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息以及用户使用服务的时间、地点等信息。”
通过上述分析比照可以看出,《草案》对于个人信息的定义,基本上承袭了我国立法层面对于个人信息的可识别性标准的导向——尽管《草案》的自然人识别标准与《民法典》《网络安全法》的身份识别标准有一定区别——这一点有别于有些国家或地区(比如美国加利福尼亚州)法律中尝试的、保护范围更大的关联性标准。但仔细考察,可以发现《草案》中有关“个人信息”的定义并没有止步于此,第4条第1款创造性地加入了一段但书——“不包括匿名化处理后的信息”。换言之,尽管“匿名化”的个人信息仍可能受到上述其他法律法规保护,但它被彻底排除在《草案》这一个人信息保护专门立法的保护范围之外。
为什么要把“匿名化”个人信息明文排除在外?“匿名化”个人信息被排除在外后,会带来什么样的立法后果?这些立法后果和第1条所规定的《草案》立法目的有什么关联?这是下文要着重探讨的几个问题。
三、个人信息匿名化的迷思
为什么要把“匿名化”个人信息明文排除在外?要理解这一立法的意图,就必须理解匿名化与可识別性之间的关联。既然《草案》采取了可识別性为个人信息界定的标准,那么按字面意思,如果一种信息不能“单独或者与其他信息结合识别自然人个人身份”,那么这种信息自然就被排除在个人信息保护之外。这一除外条款看起来有些“画蛇添足”,但实际上该除外条款还有着隐含的意义——“匿名化处理后的信息”,如果可以完全实现,那它应当是“经过处理无法识别特定自然人且不能复原”,不能“单独或者与其他信息结合识别自然人个人身份”。这一理想场景,既能给个人信息的处理者以合理流转和利用个人信息的机会,又能防范不法分子利用可识别身份的个人信息侵犯公民的隐私和其他个人信息权益。
但在实践中,这个前提并不成立。有些“匿名化处理后的信息”,在技术实践中有可能变成“银样蜡枪头”,仍然可以被“去匿名化”,仍然可以被“再识别”。为了理解这一症结,我们有必要在技术实践层面,对个人信息匿名化作出一番剖析,考察“什么是匿名化?”这一前置性问题。
个人信息“匿名化”这一概念出现在国内外诸多个人信息保护法律法规中。我国的《网络安全法》第42条虽然没有直接使用“匿名化”这个词,但也出现了与之含义相近的“个人信息经过处理无法识别特定自然人且不能复原的过程”表述。而《信息安全技术个人信息安全规范》则将匿名化定义为“通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程”。而有备而来的《草案》,在第69条将匿名化定义为“个人信息经过处理无法识别特定自然人且不能复原的过程”。
从这一系列定义可以看出,匿名化,并不是字面上将姓名隐匿这么简单,需要被隐匿的信息也可能包括上述法条中所列举的出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等,并且这类信息隐匿处理的最终目的,是要做到无法识别个人身份。由定义不难看出,“匿名化”并非理论上的概念推演所创设,而是一个不折不扣的实践产物,涉及很多诸如数据抽样(Sampling)、数据聚合(Aggregation)、确定性加密(Deterministic Encryption)、同态加密(Homomorphic Encryption)、信息压制(Suppression)、抽象化(Generalization)、随机化(Randomization)、数据合成(Synthetic Data)等技术,并最终为理论所吸收。
尽管匿名化属于成熟的通行技术实践,可就连对匿名化持相对乐观态度的隐私法学者保罗·斯沃兹(Paul Schwartz)和丹尼尔·索洛夫(Daniel Solove)都承认:匿名化是暂时的,再识别是可能的。在传统社会,人们可以较容易地隐匿自己身份;但是,要在网络社会做到不可追踪、不可识别,难度则要大得多。换言之,一旦某位公民的个人信息被采集,那么就存在一种潜在的可识别性,哪怕他暂时处于匿名化状态。事实上,如果稍微迂回到个人信息保护和个人信息利用这一对立法目的上,我们就很容易发现,匿名化这一技术处理,也是与上述矛盾完全呼应的——其目的是为了实现个人信息保护的同时,也能对个人信息进行利用。如果个人信息只需保护而无需利用,那么根本就无需匿名化,直接禁用即可。如果个人信息可以随意利用且无需保护,也不必采取任何匿名化措施。
但在技术实践层面,笔者在此着重强调,匿名化并不仅仅是《草案》中简单处理的“有或无”的问题,而是一个层次丰富的“多或少”的问题。换言之,匿名化信息既可以涵盖完全无法识别身份的用户信息,也可以涵盖当下完全匿名化但无法保证未来不被去匿名化的信息,还可以涵盖当下就可以结合其他数据进行识别的信息(尽管需要或高或低的成本)。而匿名化的程度,与数据利用的程度直接相关。举例而言,在疫情期间,流调信息公布不可避免地要涉及个人信息,而各地政府在公布之时,也都会采取或多或少的匿名化措施。但是匿名化的程度,每个地方政府尺度不一。不乏有些地方政府匿名化做得不够,让社会公众很快就能识别出公布的病例个人信息,加之社交媒体的推波助澜,使当事人的隐私和个人信息权益遭到严重的侵犯。但与此同时,我们也要考虑到另一种极端情况,假设地方政府匿名化做得太过,隐匿确诊病例的居住地、发病与就诊情况、密接人员、行经暴露的场所及相应具体时间等一些关键流调信息,如此一来,个人信息虽然因此得到更大的保护,但相应的个人信息利用(亦即流调防控效果)也就受到限制。
这也印证了美国隐私法学者保罗·欧姆(Paul Ohm)的一个著名论断:个人信息保护与个人信息利用是匿名化这一情境下的一对难以调和的张力——匿名化不足,就无法很好保护隐私和个人信息权益;匿名化太过分,又影响其利用价值。在高度依赖用户画像实现精准服务的时代,这一现象越发显著。比如,健康码抗疫个人信息利用领域中的认证环节,一旦采取高度匿名化,那么认证环节的成本就会陡增。早期尚未形成全国联网、各地标准尺度不统一的健康码,就常常由于信息不足,而导致跨区域认证困难。反之,由于进出商场需要出示健康码实行人脸比对,自带人脸正面照片、地理位置、行程时间等容易“被识别”的信息,一旦健康码流出,就容易造成对公民隐私和个人信息权益的侵害,不少明星就在本次疫情期间“吃了这方面的亏”。
在匿名化个人信息的成本和风险分析中,去匿名化技术扮演着极其重要的角色。过去一些年,有不少隐私法学者主张用可识别个人信息(Personal Identifiable Information)和非可识别个人信息这一分类,来类型化个人信息保护措施。这种分类所遭遇的困难和匿名化自身所面临的技术挑战是类似的,都是去匿名化技术。简言之,如果去匿名化技术足够高超、成本足够低廉,即便是非可识别个人信息或匿名化信息,也可以被准确定位到公民个人。而且,去匿名化技术的发展,存在累加效应——去匿名化技术越发达,可利用的外部关联数据库就越多,去匿名化的效果越强。每一次个人信息去匿名化的胜利,都可能成为下一次个人信息去匿名化的垫脚石,而整个社会的个人信息风险也就因此越升越高。
美国两个广为人知的去匿名化案例,很好地呈现了去匿名化技术所引发的个人信息风险。第一个案例是“AOL事件”。2006年,AOL公开匿名化搜索记录,供社会研究。在公开的搜索记录中,用户姓名被替换成了一串串匿名化的数字ID。但是《纽约时报》却通过这些搜索记录,识别到ID为4417749的用户,并对其生活造成极大困扰。AOL紧急撤下共享数据,但为时已晚,AOL遭到起诉,最终付出了总额高达500万美元的赔偿。第二个案例是“Netflix事件”。Netflix公司于2006年对其50万名用户在过去6年的影评信息进行匿名化处理之后,公之于众,并悬赏能够提升其电影推荐功能的算法。研究者赫然发现,只要获取特定用户6部影评发布时间与评分信息,就足以识别出该网站数据库中99%的用户身份。Netflix公司也因此遭受舆论风暴。
在上述案例中,匿名化个人信息被去匿名化这一过程,很难完全归咎于工作人员的疏忽。对AOL和Netflix而言,这些公开信息的决策都是由当时业内顶尖的计算机工程师背书和管理人员拍板,他们并不业余。但这些业内顶尖人员,却确实在匿名化的判断上犯下错误,本质上还是由于个人信息利用和匿名化之间的冲突:为了保证个人信息可被利用(无论是AOL的研究需求,还是Netflix为提升自己算法精度),就必然要在匿名化程度上留有余地。然而,开弓没有回头箭,这些被去匿名化的个人信息,有可能被用来识别个人身份,再识别所引发的后果很可能是无法挽回的。但即便这些专业人员吸取教训,在下一次做出匿名化决策时,仍有可能为了保证数据能被利用而继续犯错。这是因为去匿名化技术可能在升级、且匿名化数据所运行的环境,可能被更多的可供对撞数据库所包围,这将使得匿名化数据面临着更不可测的去匿名化风险。事实上,在实验室环境中,不少学者已经模拟出各类去匿名化的风险。早年比较经典的研究来自哈佛大学教授拉塔娅·史文妮(Latanya Sweeney),他通过美国国家统计数据发现,87%的美国人,其邮编、生日和性别这三样信息都不会同时和其他人共有。许多研究者发现,在社交网络中,通过用户在社交网络中分享的内容、链接、浏览痕迹等信息,可以将大部分的用户身份识别出来。还有研究人员通过公开数据,推算出美国公民的社会保险号。
更糟糕的是,真正实现身份再识别的主体,既可以是系统性的去匿名化专业人员,也可以是随机性的某位好事的、碰巧与受害者相识的网民。在我国层出不穷的人肉搜索案件中,不论是公众人物还是普通公民,在人肉搜索面前都可能被网络上的蛛丝马迹识别出身份。这让去匿名化的风险,变得更加随机、更加难以把控。
从以上例证我们可以看出,匿名化可以实现完全匿名这一前提假设,多数情况下只不过是天真的愿想。在去匿名化技术和相关数据库越来越发达的时代,在立法中预设匿名化个人信息存在被再识别的可能,才是更为审慎的做法。回到《草案》语境中,这便意味着第69条对于“匿名化”的绝对化处理,在技术实践中将面临极大的现实困境和未来不确定性。这也将直接导致规范形式上理想化的“匿名化处理后的信息”,很可能在技术实践中出现问题。
四、将匿名化引入个人信息定义的反思
下面将从条文逻辑、技术实践和立法价值三个层面,反思《草案》将匿名化引入个人信息定义的合理性问题。
第一,在条文逻辑上,匿名化处理的个人信息这一除外条款,《草案》第5条定义的前半部分存在交叉重合。如上文第三部分开篇所述,既然第69条已经规定,匿名化是指“个人信息经过处理无法识别特定自然人且不能复原的过程”,那么它自然也就不符合第5条前半部分的“单独或者与其他信息结合识别自然人个人身份”这一个人信息定义。换言之,在立法逻辑上,第5条前半部分已经包含了第5条后半部分(除外条款)。因此,这一除外条款本身就存在着逻辑上的同义反复,而造成这一问题的根源还是在于对“匿名化”本身认识上的重大误解。假如实现了第69条所规定的绝对匿名化,那么除外条款的设置就是形同虚设,而且其带来的立法效果是强化个人信息保护,但极大弱化、甚至可能完全摧毁个人信息利用。假如立法者本意并不是真要实现第69条所规定的绝对匿名化,而是意图通过除外条款,强化个人信息利用——《草案》后续若干法条似乎更倾向于这一观点——那么其立法效果将会在强化个人信息利用的同时,极大削弱个人信息保护。这是因为以个人信息利用为导向的“匿名化”,已偏离了第69条所作的严苛界定,它将必然导致匿名化程度的滑坡,带来前文提到的形式主义匿名化的问题。
当然,也有论者会将GDPR序言第26条搬出,指出《草案》参照的GDPR难道也不是把匿名化信息排除在个人信息之外吗?这是没错。然而,我们必须注意到,GDPR把“匿名化信息”(AnonymousInformation)框定在“合理可能的无法识别”这一标准。且不论GDPR这一合理性判断,在变动的技术发展进程中现在已经和未来可能遭遇的各种困境,纵观《草案》,全文并未提及任何匿名化的合理性字眼,也没有具体的合理性审查标准,而是以第69条严格定义处理,这显然和GDPR的排除匿名化信息处理有很大差别。
第二,从技术实践层面,直接将匿名化整体引入个人信息定义有待商榷。正如美国学者劳伦斯·莱斯格(Lawrence Lessig)指出的那样,技术是数字时代极其重要、甚至在某些情况下比法律更重要的规制要素。而就个人信息保护而言,“将隐私融入设计”(Privacy by Design)早已在理论建构和技术实践中发挥作用。例如,在GDPR第32条,假名化和加密技术就被作为个人信息处理中的两类关键技术列入条文中,但与《草案》不同的是,GDPR只是在具体场景中列举包括假名化和加密技术等技术,而不是在个人信息定义这类核心前置性条款中引入匿名化概念。GDPR这样的处理,无疑更为审慎。立法者本身对于技术发展的把握就存在很强的不确定性,而技术未来的演进迭代,也难以被立法者准确预测,因此,将匿名化这类技术标准纳入定义条款来处理有欠妥当,更妥当的做法是将其交给后续具体条款,甚至下位阶的法律法规或者行业标准。
更重要的是,防止个人信息被识别的技术方案存在多种选择,比如数据脱敏、加密技术、差分隐私技术、假名化技术等。这些技术有些可以被匿名化技术所涵盖,有些则不可以。如果回到个人信息保护和个人信息利用的平衡上,我们可以看到每一种技术都会给两者带来不同的影响。通常而言,在个人信息保护维度,强加密技术要高于差分隐私技术,差分隐私技术要高于数据脱敏技术,数据脱敏技术要高于未经处理个人信息。在个人信息利用维度,未经处理个人信息要高于差分隐私技术,差分隐私技术要高于数据脱敏技术,数据脱敏技术要高于强加密技术。
《草案》似乎想利用“匿名化”这个概念将诸多技术一网打尽。且不论其他技术概念表述上是否严谨,这在技术实践中很容易造成豁免范围过宽或者过窄的问题,也极容易造成前文所述的形式主义匿名化问题。这种立法上的笼统处理,一方面,对于“做做样子”的形式主义匿名化没有行之有效的防范措施,极容易导致个人信息保护法的规制失灵;另一方面,对于那些认真履行匿名化义务的数据处理者,却依然要面临技术实践中的责任不确定性——在《个人信息保护法》层面是合规的,但却依然可能承担《民法典》或《网络安全法》上的责任。
比较务实的解决方案,并不是将“匿名化处理后的信息”——亦或是“差分隐私处理后的信息”“脱敏处理后的信息”“加密处理后的信息”——直接引入到个人信息的定义中,而是应当在具体操作场景,对相应的匿名化技术方案做出进一步规制。假如《草案》非得保留“匿名化处理后的信息”这一除外条款,那么至少也应当向GDPR一样,提出一个合理性的技术审查标准,甚至将去匿名化的难度和成本纳入考量范围,而不是将匿名化绝对化导致语义重复,更不是将“可识别”标准降格为简单粗放的“已识别”标准。
第三,从个人信息保护法立法的价值诉求的角度看,我国前期在数据、信息、隐私领域的相关立法,并没有完全复制欧盟侧重个人尊严保护进路或者美国侧重财产自由保护进路,而往往是突出网络安全作为我国网络规制相关建制的重要关切。
自党的十八大以来,我国开始系统部署和全面推进网络安全和信息化工作,网络安全逐渐演变成我国信息法治的重要价值理念,《网络安全法》也早早明确相关立法方向,并在后续的《网络安全审查办法》等法律法规中得到细化。而在《草案》中,紧接着第一章“总则”之后,就在第二章“个人信息处理规则”第三节和第三章“个人信息跨境提供的规则”处理网络安全问题,这在比较法视野中独具特色。网络安全包含的层次很复杂,既包括了物理环境、服务器等硬件系统,也包括了操作系统、应用软件、底层数据等软件系统。而个人信息作为数字时代极其重要的底层数据,自然也在国家网络安全战略中占有极其重要的地位。如果带入网络安全视角,个人信息保护和利用之间的平衡会更加复杂,而这种复杂性也要求天平需要向个人信息保护方向倾斜,进而也为匿名化除外条款的设置本身带来了更大挑战。换言之,如果匿名化被纳入个人信息的定义,这将不可避免地引起《个人信息保护法》与《网络安全法》之间的冲突。因为一旦匿名化信息不被作为个人信息对待,《网络安全法》规定的个人数据跨境、个人数据本地化等要求,将很容易带来实践中的冲突,甚至被规避。而这可能有违我国个人信息相关立法的特殊价值诉求。
五、结语
与西方国家一样,我国个人信息相关立法也面临着多重困境。一方面,随着信息技术的发展和应用,当前传统的民法和刑法的隐私保护制度难以应对数字时代的新挑战,这是保护不足、利用过度的问题。另一方面,过度依赖权利范式来保护个人信息,会给政府、企业甚至个人利用信息带来更高的成本,这是保护过度、利用不足的问题。而这两个问题并不会完全对冲,完全可能并行存在。而与域外国家不一样的是,我国在个人信息保护方面,所寻求的背后立法目的有其自身的侧重和不同,具体体现在两方面。其一,我国作为全球数一数二的互联网大国,对于个人信息的利用及其所涉及的产业发展和国际博弈,有着不同于西方国家(尤其欧盟)的诉求。其二,我国的个人信息保护传统本身与强调个人尊严和信息自决权的欧盟以及强调信息的财产属性的美国不同,有着自身的特色,这一点尤其体现在网络安全层面。
当前,《草案》中将匿名化作为除外条款引入到“个人信息”定义中,其本意是激励信息处理者采取匿名化措施,减轻其在数据利用过程中的合规和法律风险。这本身与《草案》第69条对于“匿名化”的严苛定义存在很大的矛盾甚至同义反复。而且如此定义就意味着匿名化处理后的信息,就不再属于《草案》的保护范围。在核心概念定义这个前置性环节就作出如此激进的、技术化的处理,其带来的立法效果——尤其针对形式主义匿名化问题——极有可能挑战个人信息保护的立法初衷,使个人信息保护和个人信息利用的天平向后者过度倾斜,这也有悖于我国有别于其他国家重视个人信息安全方面的制度传统。因此,无论是从《草案》对于“个人信息”的定义,还是从《草案》其它具体规制条文角度分析,都应当在充分考虑技术实践的前提下,努力做到个人信息保护和个人信息利用之间的平衡,并且在技术还存在大量发展空间及其附随的不确定性基础上,谨慎将类似“匿名化”这样的技术细节带入到上位法定义条款中,把技术细节问题留给后续具体条款、甚至下位阶的法律法规或者行业标准。
往期推荐
●上政学报 | 段占朝 潘牧天:论党内法规制定中的专家参与——以提升党内法规制度执行力为视角
●上政学报 | 郭天武 朱紫芊:澳门特别行政区维护国家安全立法探析
●上政学报 | 魏枭枭:美国单边人权制裁的国内运行机制与中国对等法律反制研究
●上政学报 | 马更新:《公司法》修订语境下的监事会制度架构变革探析
●上政学报 | 傅穹 虞雅曌:我国控制股东信义义务的司法续造
关于本刊
《上海政法学院学报》创刊于1986 年,原名《法治论丛》(2003年改名为《上海政法学院学报》),至今已走过35年的发展历程。《上海政法学院学报》是我国最早以“法治”命名的法学专业学术期刊之一,立足于弘扬法治精神与当代中国法治实践,坚持理论与实践相结合的特色办刊方向。本刊践行“以法为基,寻社会治理之策;以文为器,求兴国安邦之道”的办刊理念,体现学术性、专业性、知识性的办刊宗旨。坚持正确的政治方向,坚持以高水平、高层次、高质量的学术研究成果,推动社会法治进步。欢迎确立学术命题,实现学术创新,达到学术标准,有理论深度,有历史重感,有广阔视野的作品。
《上海政法学院学报》积极倡导学术民主,坚持特色化、专业化发展道路,在法学研究领域大胆探索,不断总结办刊经验,逐步成长壮大,在学界享有较高的知名度和影响力。2006年底,《上海政法学院学报》被南开大学科研评价系统认定为政治、法律类核心期刊;在2008年3月15日《光明日报》公布的中国人民大学书报资料中心“复印报刊资料”全文转载量的统计排名中,《上海政法学院学报》在所属的政治法律类1269种报刊中排名第25名;根据2011年北京大学“中文核心期刊目录”的分析统计,《上海政法学院学报》在全部法学期刊中位居第31位。本刊已连续六届成为上海市优秀学报、连续四届成为全国高校优秀社科期刊,2018年11月入选中国人文社会科学期刊AMI综合评价报告核心期刊(扩展版)。本刊为国家哲学社会科学学术期刊数据库,CNKI中国期刊全文数据库、北大法律信息网、万方数据-数字化期刊群、超星数据库、龙源期刊网和中国学术期刊(光盘版)全文收录期刊,上网即可查阅到本刊创刊以来的全部稿件。
近些年,以创建一流法学学术期刊为目标,在学校领导及学界、学术期刊界等各方的大力支持下,经过编辑部全体人员的共同努力,《上海政法学院学报》的学术质量及学术影响力都有了明显的提高。影响因子从2016年的0.237上升到2020年的1.97;刊文被《新华文摘》《中国社会科学文摘》《人大复印报刊资料》《高等学校文科学术文摘》等权威二次文献转载和摘编的篇次也明显提高;法学期刊学科排名从2016年的57名上升到第36名。
本刊以“问题意识”为导向,聚焦社会、学术前沿和热点问题,并以此为支撑进行选题策划和栏目、专题设置。2021年第1期在中国人民大学王利明教授、杨立新教授、郭锋副主任等学界大咖及实务界专家和中青年才俊的大力支持下,成功地出版了《民法典》专刊。现已(拟)开设主要特色栏目及专题有“学术关注”“上合组织法治”“新兴权利法律问题研究”“党内法规研究”“域外借鉴”及“<民法典>的解释和适用"“<民法典>背景下的公司法修改”“生物安全法治”“刑事合规研究”“刑法修正案十一专论”“网络法治”“大数据法治”“人工智能法治化”“区块链法治化”“电子商务法治”,等等。
35年来 , 我刊虽然取得了一些进步,但同全国许多优质兄弟期刊相比还存在着很大差距和不足。我们诚挚地欢迎广大海内外科研工作者关注和支持上政学报并惠赐大作,也欢迎各界朋友积极建言献策、批评指正,以期共同办好《上海政法学院学报(法治论丛)》。来稿请通过《上海政法学院学报》编辑部网站(http://www.shupl.edu.cn/xbbjb/)投审稿系统进行投稿。本刊对来稿严格遵守三审(二审外审)定稿制度,以确保稿件选用公开公平公正。
本刊刊稿版权包括纸质版与网络版版权,属于《上海政法学院学报》编辑部, 任何形式 、媒介的转载、摘登译或结集出版均须标明来源于本刊。刊稿仅反映作者个人的观点并不必然代表编辑部或主办单位的立场, 本刊不以任何形式收取版面费。
以法为基,寻社会治理之策
○
以文为器,求兴国安邦之道
投稿邮箱:xuebao@shupl.edu.cn
微信公众号:law-review1986
网址:http://www.shupl.edu.cn/html/xbbjb
电话:021-39227617 39227619