【前沿6】Paul Ohm——打破匿名化的迷思:数字时代的匿名化挑战
Paul Ohm, Broken Promises of Privacy, 57 UCLAL. REV. 1701 (2010).
🌹🌹免费分享:需要英文全文的朋友,请在本公众号回复“6”!
本文转载自“网络法阅读”微信公众平台。作者赵精武。仅供方便学习之用!
赵精武:各位老师好,我读的文章是Paul Ohm教授的Broken Promises of Privacy,我报告的题目是,“打破匿名化的迷思:数字时代的匿名化挑战”。我的报告分为如下几部分:
零、学界讨论的命题与思考
一、匿名化与再识别
二、文章综述
三、第一部分:匿名化与再识别的关系
四、第二部分:匿名化失败如何破坏了隐私法
五、第三部分:不完全的解决方案
六、第四部分:匿名化失败后背景下的隐私立法走向
七、结论
八、我的看法
零、当前学术对于匿名化的核心议题
当前学界对于匿名化问题讨论经过分类包含如下命题:1 、匿名化在跨境数据流动中的应用问题,今天的评议嘉宾中腾讯研究院的王融老师的《数据保护与流动规则》是一部关于数据跨境流动的佳作;2、匿名化与隐私保护的关系问题;3、我们在多大程度上需要匿名化;4匿名化在数据泄露时的责任分担问题。
总体来看,中国学者大多与Paul Ohm教授的观点相反。匿名化与再识别的关系就像电影模仿游戏中所提到的,我以为我用英格玛加密后的数据绝对安全,但是图灵机确可以轻松将我的数据还原回去。
一、匿名化与再识别
在本文语境下,匿名、去身份、去标识的含义相同,匿名化(Anonymization)主要应用于欧盟法的语境,诸如去身份、去标识主要适用于美国法,常常采用Deidentification这一概念,二者并没有本质不同,只是不同表述方式,因此接下来我的介绍将统一用匿名化指称。
二、文章综述
作者认为,伴随大数据、云计算等新技术的兴起,传统的删除姓名和社保号码的的匿名化技术已经失败了,技术专家可以再识别(Re-identify) 或者去匿名化(De-anonymize)来实现个人身份的再识别。对匿名化的错误认知几 32 47406 32 15265 0 0 3571 0 0:00:13 0:00:04 0:00:09 3570渗透到了我们的每一部法规、规章以及关于隐私保护的讨论中。本文提供了一种技术和法律的双重视角来重新认识匿名化技术,以及如何解决后匿名化时代带来的法律规制方案。
Paul Ohm教授指出匿名化的法律概念发端于1995年欧盟的《数据保护指令》其第26条的规定“数据主体无法确定的匿名信息不适用数据保护原则”。[ See Recital 26 of Directive 95/46/EC.]要注意,数据匿名不同于删除一部分信息的数据假名。
作者首先介绍了当前匿名化的操作流程。首先,数据主体会删除个人标识符,如姓名和社会安全号码。其次,数据主体删除可以确定个人信息其他标识,包括在特定的上下文中组合的标识符。例如:医院删除某人近亲的名字,防止识别出病人;学校删除学生ID信息;银行将账号进行假名处理。
从表面来看,匿名化是一个两全其美解决方案,一方面,隐私破坏者和推销人员无法直接识别出数据所有者,另一方面,我们在保护的隐私(privacy)的同时,也保证了数据的效用(unility)。分析人员可以做出有价值的数据分析,其他人无法识别出数据所来源主体。匿名化让监管者和对隐私保护的批判者冷静下来,大家更多的批判不当利用数据造成的隐私保护,并不会讨论这一技术本身的合理性,因为大家预设的前提是“匿名化完美的保护了隐私”。
Paul Ohm教授认为,这一乐观且虚幻的观点夸大了匿名化的力量。聪明的黑客会通过“会再识别”技识别出隐藏在匿名数据库中背后人或者隐私。作者认为:再识别技术揭露这些承诺是虚假的。本文是第一个全面整合计算机科学的技术趋势,并将“再识别技术”在法律学术研究领域中的应用加以说明的作品。作者发现他的研究动摇了人们对数据隐私的根本信念—匿名化可以解决一切数据保护的问题。数据不可能保护隐私和数据利用之间达成动态平衡。再识别技术破坏了我们对于数字时代隐私保护的最基本的认知;破坏了技术人员所证明的有了匿名化技术我们就可以任意地共享数据和永久地存储数据,而不会侵害隐私的错误观念。
这篇文章分四个部分。第一部分摆出事实,作者描述了匿名化在当代数据隐私学术探讨中扮演的角色。它调查了“再识别技术”所取得的惊人成就,讲述了美国在线、马塞诸塞州和netflix数据被识别三个案例,描述了匿名化所遭遇的令人尴尬的失败。然后,它仔细研究了再识别技术的模型,并借用了大量迄今没被法律学者关注到的计算机文献。第二部分“破题”,作者必须先破而后立。这部分揭示了匿名化的技术进步如何阻击所有隐私法保护目的的实现。Paul Ohm指出应当回到技术本身的探讨。第三部分“指出不完全的解决方案”,作者模拟了三个简单而有吸引力的应对方案,并指出了上述方案的不合理性。第四部分提供了作者认为的完美方案“行为规制替代权利保护”,是一种类似“动态系统论”的要素考察方法,以健康信息保护和互联网隐私为例,说明何时需要对信息流施加一定隐私限制。
三、第一部分:匿名化与再识别的关系
这一部分,作者讨论了匿名化技术本身的发展过程,并说明了匿名化技术如何被在识别技术击破。
技术专家认为他们可以对数据进行绝对安全的隐私保护,在接受强大匿名化的假设基础上,监管机构与技术专家向用户承诺保护隐私权。技术专家发现,一种被称为“简单-再识别技术(Easy reidentification)”证明了强大的匿名化假设存在严重的缺陷,信息可以被非常简单的再次还原成原始数据,识别出数据来源主体。与此同时,简单-再识别(Easy reidentification)也对我们的法律系统造成严重的破坏,原因在于当前我们法律系统完全是在匿名化基础上构造的,匿名化的观念已经渗入了我们隐私法规的每一个细胞中。
作者首先解释了三个概念。第一,什么是数据拥有者。第二,数据匿名化的核心技术是什么。作者认为,应用匿名化技术需要考虑一种非常常见的技术为数据压缩(suppression)。数据管理员通过删除或省略数据来去识别化。例如,医院的数据管理人员跟踪处方会在共享数据之前先删除病人的姓名。第三,什么是去识别化(reidentification/deanonymization.),作者认为,去识别化指的是隐私破坏者通过将匿名的记录与外部信息(outside information)相联系起来,通过发现隐私数据,挖掘数据主体的真实身份。
接下来,Paul Ohm教授解释了我们为什么需要匿名化,因为数据需要向其他主体公开,只有数据进行匿名化后,数据管理员在披露或者存储数据时才不会侵犯数据主体的隐私。Paul Ohm教授认为我们匿名化的数据主要向三种主体公开。第一,将匿名数据向第三方披露:例如,健康研究人员与其他健康研究人员共享患者数据,购物网站向广告商出售交易数据,电话公司被迫向执法官员披露通话记录。第二,数据管理员向公众披露匿名数据。第三,管理员向组织内的其他机构披露匿名数据。特别是在大型组织中,数据所有人往往希望保护其隐私。例如,大型银行会与他们分支机构、营销部门分享用户数据,匿名化可以很好地平衡这种风险。
Paul Ohm教授认为,互联网天然需要匿名化,他认同自由主义者Lawrence Lessig教授的对于匿名化所持有的观点。他认为,匿名化通常会通过道德规范、行业自律来实现,例如:生物医学的指导方针(guide book)通常建议将储存的基因与非识别号码的基因数据相分离,以保护隐私。此外,其他指南建议在诸如电子商务、互联网服务供应、数据挖掘和国家安全数据共享等环境中匿名化。在Lawrence lessig教授的框架下,市场(market)和架构(Architecture)表现的最为明显。
市场压力迫使企业将数据匿名化。例如,mint.com和wesabe.com这样的公司提供基于网络的个人财务跟踪和计划,他们通过聚合、重新发布数据来帮助客户将其消费水平与他人进行比较。为了让用户感受到完美体验的同时也对数据共享感到满意,mint.com和wesabe.com都承诺在分享数据之前先将数据匿名化。其实支付宝的消费排名名单也是此类做法。
此外,在Lessig的技术约束下,架构(Architecture)通常都是匿名的,或者应当让匿名化成为默认的选择。例如,当你访问一个网站时,你所使用的远程计算机——也就是你的网络服务器——记录了你访问的一些信息,这些信息被称为日志文件。绝大多数的web服务器收集的信息远远少于您访问的最大信息量,这是因为该软件在默认情况下只保存了有限数量的信息。
当前,法律学者都认同将匿名化作为一种信仰。Ira Rubinstein, Ronald Lee, and Paul Schwartz表示,为了达到在“模式搜索”过程中尽可能少地披露个人信息,数据(如姓名、地址和社保号码)的匿名化是及其重要的。著名的医学隐私学者芭芭拉•埃文斯(Barbara Evans)谈到“匿名”数据同样指出,“这些数据在披露前已被“彻底且不可挽回”地匿名化,未来不可能被再现”。事实上,当前技术专家也对匿名化对手的“反匿名化”取得成功感到惊讶。接下来,Paul Ohm教授选择了公开且遗忘(The Release-and-Forget Model) 这一模型对数据匿名化的过程加以说明。
这一模型含义的是,数据所有者首先会对数据进行脱敏和清洗,然后会把数据对外公开,原则上公开的数据就不再受到数据主体的控制。
作者以Forest为患者例描述去识别化的过程。
第一步:管理员会挑选出她认为可以用来识别个人的任何字段。(Singling out Identifying Information)
第二步:压缩(Suppression)
在这里会有一定的压力,表面来看,有了这个版本的数据,我们就不必担心隐私问题;即使我们知道Forest的出生日期、性别、邮政编码和种族,人们仍然无法了解Forest的病症。
但另一方面,数据的大量压缩,使数据对研究几乎毫无用处。虽然研究人员可以使用剩余的数据来跟踪依据种族类型的疾病发生率,但由于年龄、性别和居住地点已被删除,研究人员将无法得出其他许多有趣和有用的结论。人们很难在隐私保护和数据可用性之前找到平衡点。
第三步:泛化(Generalization )
泛化:为了更好地平衡实用性和隐私之间的平衡,匿名者可能会泛化,隐去一部分标识而不是删除标识符。这意味着她将更改而不是删除标识符值以增加隐私,同时保证数据的实用性。例如,匿名者可能会选择简化姓名字段,将出生日期归纳为出生年份,并通过只保留前三个数字来概括邮政编码。
现在,即使是知道Forest的出生日期、邮政编码、性别和种族的人,也很难找出Forest的具体病症。这种泛化数据(表3)中的记录比原始数据(表1)更难重新确定,但研究人员会发现这种数据比被压缩数据(表2)有用得多。
第四步,整合(Integration)。
人们之所以相信这个技术是因为如下理由:首先,数据管理员在与第三方共享数据时可以保护隐私;其次,立法者可以通过解除对匿名记录交易的管制来平衡隐私和其他利益;再次,监管者可以很容易地将数据处理主体分成两类:负责者(匿名者)和不负责任者(未保密者)。但是,这一技术正在遭遇巨大的挑战——再识别技术对公开且遗忘技术所带来的冲击。
第一个案例是美国在线(AOL)个人隐私再识别案。
2006年8月3日,美国在线(AOL)宣布了一项名为“美国在线研究”的新计划。为了“实现研究目的”,AOL 公开地在一个网站上发布了三个月用户的活动信息,其中包含近65万用户的2000万的搜索请求。
互联网行为的研究者们很高兴地收到了这一珍贵的信息,向公众公布这些数据之前,美国在线曾试图将其匿名化以保护隐私。它禁止任何明显的标识信息(AOL用户名和IP地址)。然而,为了保存数据的有用性,它用唯一的识别号取代了这些标识符,使研究人员能够将不同的搜索结果关联到单个用户。
在发布之后的几天里,博客作者们反复地使用这些数据来“识别具体用户”,或者“寻找特别有趣或令人震惊的搜索历史”(窥探隐私)。最终导致某些用户识别号码已经成为可悲的耻辱的标志,与令人心寒的故事联系在一起。使用者3505202号询问有关“抑郁症和病假”的问题,7268042号查询“担心配偶有外遇” ,用户17556639搜索“如何杀死你的妻子”、“死人的照片”和“撞车照片”等一系列内容。
尽管大多数博客圈迅速而严厉地谴责了美国在线(AOL),但也有一些博客作者认为,公布的数据并没有侵犯隐私,因为没有人将实际个人与匿名查询联系在一起。《纽约时报》(New York Times)记者迈克尔•巴巴罗(Michael Barbaro)和汤姆•泽勒(Tom Zeller)很快进行了辟谣。他们在诸如“佐治亚州利尔本的风景园林家”( “佐治亚州利尔本的风景园林家”等问题上,认出了User 4417749的身份。找到了塞尔玛•阿诺德(Thelma Arnold)。这位62岁的寡妇来自佐治亚州利尔本,她承认自己是这些搜索的发起人,包括“麻木的手指”、“60个单身男人”和“任何事情上尿尿的狗”等一些稍微尴尬的问题。当然后果是毁灭性的。因此,美国在线解雇了公布数据的研究人员和他的主管。
第二个案例是马塞诸塞州GIC案。
Latanya Sweeney研究了1990年的人口普查数据,发现美国87.1%的人都可以通过五位数邮政编码、出生日期(包括年份)和性别组合来进行唯一性识别。
Latanya Sweeney提供了一个有趣例子来阐明再识别技术的力量。在马萨诸塞州,一个叫做团体保险委员会(GIC)的政府机构为国家雇员购买了健康保险。GIC决定公布每个州雇员的住院治疗记录,并允许研究人员免费使用。GIC删除了包含姓名、地址、社会安全号和其他“明确标识”的字段,并假定它保护了病人的隐私,但这些信息包含了包括邮政编码、出生日期和性别这三个关键要素。在GIC公布数据时,当时的马萨诸塞州州长William Weld向公众保证,GIC通过删除标识来保护患者的隐私。斯威尼开始在GIC数据中寻找州长的医院记录。Latanya Sweeney通过将邮政编码、出生日期和性别这三个数据与GIC记录结合起来,Latanya Sweeney戏剧性地把州长的健康记录(包括诊断和处方)送到他的办公室。
第三个案例是 Netflix 奖励撞库再识别的案例。
全球最大的在线电影租赁服务”Netflix公开发布了一亿份记录,揭示了从1999年12月到2005年12月,将近50万的用户对一些电影的评价。每一项记录中,Netflix都公布了电影级别、评分、评分日期。与美国在线和GIC一样,Netflix首先将这些记录匿名化,删除了用户名等标识信息,但指定了一个唯一的用户标识符来保持评级的连续性。
与Netflix不同的是,IMDb在其网站上公布了这些评分与真实用户名。Narayanan和Narayanan在获得了50名IMDb用户的评级,与Netflix数据进行撞库识别后,精准的发现了上述用户的完整信息。甚至了解了一些用户可能不想透露的东西。例如,作者列出了一位用户所浏览的电影,这些电影暗示了他或她的政治(华氏9/11)、宗教意见 ("耶稣") 和同性恋人 ("同志亦凡人")。随后Netflix将要搁置第二轮比赛。
Paul Ohm教授指出一旦对手发现了一个独特的数据指纹(data fingerprint),他就可以将数据与外部信息(outside)联系起来,往往真正对人们造成损害的不是统计数据,而是外部信息的集合体。
当然,在大多数人看来,如果隐私破坏者对世界上的人一无所知的话,那么匿名技术将是完美的。遗憾的是,在现实中、互联网上充斥着大量个人数据,每天都会创建个人关于个人的数据库,你的衣食住行都在不断地创建新的数据库。一旦对手将匿名数据与外部信息结合起来,从而发现对手的身份。如果认为隐私破坏者将无法找到解密匿名数据所需的特定数据,那就太天真了。考虑到目前互联网上大量的信息,尤其是博客和社交网络的兴起,作者这种对外部信息的量变引发质变的悲观假设是明智的。
当前,多数法律学者很难接受Paul Ohm教授的主张,他们认为上述三个故事故意强调坏匿名的危险。马萨诸塞州、 AOL 和 Netflix 应当预见到其匿名性的脆弱,从而增强其匿名性,避免类似情况的发生。
Paul Ohm教授回应到,首先,技术具有局限性,有些隐私无法被保护,比如ip地址一致存在争议。其次,这些复杂的数据处理程序(数据操作者)掩盖了其未经过专业培训的真相。事实上,Netflix曾夸口说,它在发布这一数据之前,曾对Netflix的获奖数据进行了数据干扰(加入噪声),以保护隐私,但并没有实现。复次,技术对共享过的数据已经无法保护。最后,有些人可能会认为,没有动机和高水平的技术,就不会匿名化的数据产生威胁,这被称为“超级用户的神话”。作者回应到。第一,再识别技术很容易实现,不是技术专家的特权。Netflix的研究显示,在匿名数据中重新确认人的身份非常容易。尽管普通计算机用户不能执行内部联接,但大多数参加过数据库管理或IT工作的人可能会使用快速计算机和广泛可用的软件(如Microsoft Excel或Access)来复制这项研究。第二,AOL大量隐私侵权行为的成因仅仅是一波无所事事的博客主。第三,推动人们再识别的经济利益驱动是巨大的。
Paul Ohm教授认为,我们应当从上述三个故事中吸取了许多教训,并利用这些教训呼吁对匿名化的失败做出积极的政策监管回应。当前坚持使用匿名化技术的学者秉承这样一种理念:尽管匿名化可能比我们想象的要弱,但它并没有失败。我们可以通过改变隐私政策,或者加强对技术研发和专业知识的投入,让匿名化涅槃重生。坚持匿名化的主体呼唤改进,但拒绝改革。作者自信地做出预测,再识别技术的力量伴随两股力量而不断升级:计算机硬件的迭代升级和不断丰富的丰富的外部信息,会在与匿名化技术的争夺战中不断取胜。
对于不能接受匿名化消失的直觉鸿沟 (The Intuition Gap)这一现实可能数年都不会发生转变,但作者坚信,隐私专家错误的观念会逐渐减弱,最终放弃了对匿名化的信仰。可能需要几年,也许更久——大多数隐私专家才会接受他们应该放弃对匿名的信仰。当直觉鸿沟差距不断缩小,当我们一旦我们意识到匿名化已经失败了,匿名化的失败对隐私法意味着什么?
四、第二部分:匿名化失败如何破坏了隐私法
作者指出,当前欧盟法与美国法对于匿名化的立法都是失败的,美国法过分强调在PII中对标识符号的列举,导致其体系过于僵化,很难应对日益多变的个人信息的内涵。欧盟法过于强调个人信息保护的抽象性规定,尤其“与个人信息相关”这个概念语义异常模糊,导致个人信息保护的边界过大。
政策制定者不能简单地忽略简单的再识别,因为几十年来,他们在严格的匿名化假设下,制定了法律和法规。他们现在必须重新审查每一个隐私法和规定,看看是否容易的再识别结果阻碍了他们最初的设计。
现代隐私法倾向于采取预防性救济手段,通过限制特定种类信息的流动,以减少可预见的伤害风险。为了压缩而不是切断有价值的信息传递,立法者长期以来依靠可靠的匿名化来传递两个世界的好处:信息流动的好处和对隐私的有力保证。
匿名化的失败暴露了这种依赖是存在问题的,将谨慎平衡的法规抛到了平衡之外。至少,立法者必须放弃这样的想法:我们只需删除识别和删除PII信息的时候,我们就是在保护隐私。那种认为我们能够选择出比其他信息领域更容易与身份认同联系的想法已经失去了科学基础,必须放弃。
从历史维度来看,美国隐私权保护的范围正在不断扩大,Prosser将Warren和Brandeis激发的判例法综合成了当今美国司法领域公认的四种隐私侵权:侵犯原告的隐居、独处或干涉他(她)的私人事务;当众揭露能够置原告于尴尬境地的私事;所进行的宣传将置原告于公众的误解之中;为了被告自身的利益而盗用原告的姓名或肖像。
美国从一种强调事后救济的方案,转而强调事前规制,直到今天采用了一种完全以数据为中心的方法——PII方法,以保护隐私。这种方法假设立法者能够评估数据类别的内在风险,用数学的精确性来评估一个特定的数据场是否对这个问题有足够的影响。在这样做的过程中,它往往忽略了一些更复杂的因素,这些因素也应该考虑到风险评估(比如某人有足够的动机去关心某个特定的数据集)。
此时,立法者们已经部署了一种完美的终极解决方案——匿名化——从而免除了他们行为过程中进行价值平衡的必要性。匿名化让议员们得以掩饰安全、创新和信息自由流通等对抗性价值观( countervailing value)的张力。强有力的匿名化的消亡将使立法机关失去平衡,立法者将需要找到重新获得平衡的新方法。考虑一下两个司法管辖区的立法机关是如何依靠匿名来平衡隐私法的:美国的医疗保险可携带性和问责法案(HIPAA)和欧盟的数据保护指令(Data Protection Directive),其中美国规定的过于具体导致体系僵化,而欧盟过于泛化,导致很难判断什么是个人信息,导致可以链接的个人的外部信息是否为个人信息界定不明。
美国HIPAA第164.514条规定了健康信息匿名的判断标准。对需要匿名化处理的标识符进行了正面列举。其中,第b款第1项规定,经专家判断信息不能具识别性则不属于法案规制的“可识别健康信息”,因此被称之为专家标准。该款第2项规定,删除18种识别符的健康信息不是“可识别健康信息”,被称为“安全港标准“”。
根据HIPAA第164.514条第b款第1项,判断主体信息是否可识别的主体是具有一定知识和经验的专业人员,这些人需掌握统计科学的相关知识和方法。当这些专家应用相关原则和方法,确定这些信息单独或与其他合理可用的信息相结合后,被预期接收者识别信息主体的风险非常小时,即可判定相关信息构成匿名信息。同时,专家需记录相关分析的方法和结果,以证明该判断的合理性。[ See 45 C.F.R. §164.514(b)(1).]
与美国立法者一样,欧盟立法者们认为他们可以通过科技的力量来达到平衡。如果匿名化工作,数据管理员可以自由地共享信息,只要数据对象不再是“直接或间接”可识别的。有了这一条款,欧盟的立法者们试图在社会中保留匿名数据的存储和传输空间,从而为不受阻碍的创新和自由表达提供空间。
但是,该指令是否以及在何种程度上保留个人信息的范围,在互联网隐私的背景下一直存在争议。几年来,欧盟与谷歌、雅虎和微软等公司就如何保护追踪用户在线行为的数据库发生了冲突。这场争论的焦点是公司必须如何处理存储的IP地址。IP地址是分配给因特网上每台计算机的数字标识符。正如社会保障号码识别人一样,IP地址识别计算机,因此IP地址可以将在线行为与位置和身份联系起来。每台电脑都会将它的IP地址显示给它联系的每台电脑,所以每次我访问谷歌时,我的电脑都会将它的IP地址显示给谷歌电脑。
遵循长期的行业惯例,谷歌记录我的IP地址,以及使用谷歌服务时我在做什么的细节。谷歌曾向欧盟争辩说,它使用匿名方式保护用户的隐私,只是部分披露ip地址。具体来说,一个IP地址由四个相等的部分(octets)组成,称为八个位,而Google存储前三个八位字节,并删除最后三个八位字节,声称这种做法充分保护了用户的隐私。谷歌的竞争对手微软和雅虎则更加彻底,隐藏整个IP地址。事实上,其核心也是一场关于平衡的辩论——在谷歌承诺通过研究我们的行为来实现的出色创新与IP地址已知或暴露的用户可能遭受的隐私之间的战争。Google承诺,其也可以在赚钱和保护隐私中间找到平衡——把我们的信任寄托在数据匿名化上。
作者认为,HIPAA对待隐私的方式就像狂欢节上的鼹鼠游戏:一旦你打一个鼹鼠,另一个就会弹出来。无论监管者如何有效地跟踪最新的再识别技术研究,将新发现的数据域整合到新的法律法规中,研究人员总会发现更多尚未涵盖的数据域类型。潜在的PII列表将永远不会停止增长,除非它包含了所有内容。
当然,尽管PII的识别很麻烦,但是我们要保留这个术语,为了防止打地鼠,不应该把匿名化看做重要的前提和条件。取而代之的是,立法者和监管机构应该重新评估哪些数据可以链接到个人身份上。
作者建议我们要改掉术语,使用“数据擦除”的概念,从修辞的角度,使用擦除的概念替代匿名化和去识别化,明确了数据脱敏是一个过程性行为,而不应该过分强调匿名化的结果。
五、第三部分:不完全的解决方案
作者举了一个例子,在人与毁灭的事实(database of ruin)之间的走廊上,想象一长串关闭锁着的门,每扇门都需要一个不同的锁,每一把锁都需要特定的要是开门,每把key钥匙代表数据库,数据库必须需要被重新链接,如果全都链接了,人就和毁灭事实之间相连接。 如Facebook和 Twitter 进行撞库识别,中间的们就都打开了,人的隐私就会被侵犯。所以,在隐私监管方面,现在已经不能完全依赖PII方法,我们倾向于规制数据库所有者——在走廊中间负责保护隐私大公司们。
当然,如果他们持有打开第一扇门的钥匙,那是离数据主体最近的门,我们就会对他们进行监管。这是PII的linkability form,我认为此部分主要指的是可以直接定位到个人数据。再者,如果他们抓住了打开最后一扇门的钥匙,那是最接近于毁灭的事实(database of ruin)的,我们也会对他们进行监管。这是PII的sensitivity form,我认为此部分主要指的个人不愿公开的隐私数据,比如你是否有艾滋病。
Paul Ohm教授指出直接惩罚侵犯隐私权的侵权者并不妥当,会使得我们完全退回到一个基于扭曲的隐私制度,这将使隐私法的预防性救济退回到四十年前。等待技术解救我们也并不现实,因为隐私保护和数据的实用性(uiility)紧密相连,只要是可以利用的,就可能被再识别,只要有人发现数据有用就会有人千方百计再识别出来。对于技术的依赖,不如依赖于法律规则的改变,对于技术的要求是不能替代,直接改变规则来保护隐私来着的更彻底。而且新技术的成本高昂,新技术的漏洞也很很难预测。禁止再识别也并不现实,即便值得信任的人不会再识别,但还有诸多黑客会去从事类似的行为。
六、第四部分:匿名化失败后背景下的隐私立法走向
一旦监管机构得出结论,上述三个部分解决方案不足以在匿名化失败后恢复隐私法的平衡。监管者应当考虑权衡不受约束的信息流的数据效用与隐私损害成本,并结合风险评估策略来处理再识别技术不断发展的现实,要知道PII永远做不动风险评估。如果损害要大于利益的话,他们应该规制,反之亦然。应该将关注点集中于特定的行业和特殊的行业(宏观调控与微观管制相结合),而不是适用于各个行业的保护规则。为了说明这种方法是如何运作,本部分以两个案例研究结束,提出了管理健康和互联网使用信息隐私的新策略。
从主体上来说,需要规制的主体类别包括大型信贷机构,如Experian,TransUnion和Equifax; 商业数据经纪人(data broker),如ChoicePoint,Acxiom和LexisNexis; 和Google,微软和雅虎等互联网搜索服务提供商。
是否进行规制的成本收益分析需要考虑如下因素(有点类似民法的动态系统论):1、数据处理技术。对各种数据处理技术进行风险评级,定性定量的方式。2、数据公开的范围。对公众公开的信息还是对特定的第三方公开的信息,是否属于私密性的信息,总之向公众信息的公开更需要进行规制,因为存在太多的外部信息连接点。3、数据量不仅要看到质,也要看到数据公开的量,公开得数量越大,风险就越大。立法者要对一次性发布的信息的数量进行限制,一般掌握的信息的量越大,越有可能找到信息的连接点。4、动机。考虑到再识别的东西,区分为了研究再识别;为了商业目的的再识别和某些具有恶意主观目的的再识别。5、信任。不要总是关注技术维度,对于人的信任也尤其重要。
在最后一部分,作者提出了一个问题,EU的数据保护指令是否需要把搜索请求(search queries)作为个人信息进行保护?这里作者就提到了要进行利益的衡量,命题转换:允许搜索引擎储存和披露信息(包括能够链接至具体搜索请求的IP地址)所带来的好处是否超过了其对隐私保护的损害。而其所带来的好处在于:其能够有效帮助研究人员和服务提供商提升其服务质量,提高对信息的获取程度,并可以提升用户体验,更重要的是,就医疗健康领域而言,这些信息还能够帮助提升健康水平所带来的损害:敏感信息的泄露会造成不可逆的伤害。
在上述情况下,立法者就需要考虑,我们除了要对医疗信息的使用、流转进行规制之外,还要对搜索引擎存储、流转信息进行特别的规制。同时,鉴于搜索引擎储存、流转信息所带来的好处要小于医疗健康领域,所以对于搜索请求这类信息的储存和流转,其规制更能要比对健康领域信息储存、流转的规制要更加严格。
因此,欧盟、美国要对搜索请求的存储、流转均要进行规制,包括设置信息数量的上线、强制搜索引擎只能在一段时间内储存这些信息,同时还要对第三人获取这些信息进行严格的限制。
七、结论
总结来看,再识别技术破坏了我们几十年来对于匿名化的基本假设,重塑了关于商业实践、个人信息保护、政府法律法规对于数据保护的基础思维。
其次,监管机构需要对这种破坏性的技术进行快速的反应,实现法律规制的平衡,保护所有人免受到技术可能造成的巨大伤害。尤其要试着放弃个人身份信息的PII的保护范式。
再次,本文提供了艰难但有必要的方案:监管机构必须使用“风险要素“ ,细行为的规制的方案来观察再识别技术,并仔细衡量与个人信息相对的“抵消性价值” countervailing values)——unitity数据效用。
最后,再识别技术迫使立法者回应其长期拒绝回答的问题——对不受控制的信息流的成本收益分析问题。
作者建议:这样一场讨论揭开了长期以来对于隐私保护错误争论的面纱,应当把握住机遇,重新认识互联网时代的隐私权。
八、我的看法
较为遗憾是Paul Ohm教授少了企业数据的探讨,企业数据是否可以财产化,以及在什么样的程度上财产化?此外,这里面技术治理和法律治理之间那个优先呢?Paul Ohm教授认为法律治理优先,我认为这里仍然有探讨的余地。另外,像精于再识别的黑客群体是规训还是强管制,作者没有进行回答?这篇文章在2010年写完,真的没有可以拯救我们的技术了么?我个人认为区块链技术可以考虑。
当然,Paul Ohm教授指出了,传统的权利路径对这个时代的个人信息保护是不妥当的,尤其是随着再识别技术的不断发展,转变思路采用行为规制的方案实有必要。个人信息的保护不等于简单的侵权保护,在我国个人信息保护立法呼之欲出的大背景下,我们是否的立法模式是否可以考虑采用耶林式的权利束模式对个人信息进行保护,同时辅之以不能忽视行为规制。在机制上应当考虑建立数据保护委员会、数据保护局、数据保护官,法律与技术共同借力,树立新的个人保护治理观。
Paul Ohm, Broken Promises of Privacy, 57 UCLAL. REV. 1701 (2010).
🌹🌹免费分享:需要英文全文的朋友,请在本公众号回复“6”!
- END -
请扫描下面二维码,赶紧关注我们吧!