查看原文
其他

翟凯 | 论人工智能领域被遗忘权的保护:困局与破壁

数字法治 2022-12-01

The following article is from 法学论坛 Author 翟凯

点击上方“蓝字”关注我们吧

摘要:基于“数据删除”概念的被遗忘权随着《欧洲数据保护指令》的颁布和相关判例的影响已成为个人信息法领域的热点,对信息主体、数据控制人和监管机构都提出了思考、争议与挑战,其中就包括被遗忘权如何适用于人工智能(AI)领域的问题。现行法律并未充分考虑人类和机器在记忆与遗忘中的异同,故在现有的人工智能背景下,被遗忘权的实施面临技术瓶颈和规制障碍,无法实现其法律目的。可能的解决路径需在跨学科、跨技术层面更新权利理念和行权措施,融合AI发展与被遗忘权完善的兼容与互补。具体实施方案包括:基于“有意遗忘”、权利平衡的法律和政策完善方案,以及以新型芯片、程序和代码为载体的“法技术性”创新工具所引导下的综合性“技术、法律/政策集成式”解决方案。关键词:被遗忘权;人工智能;数据保护;隐私;技术
《法学论坛》2021年第5期(第36卷,总第197期)

目次引言一、被遗忘权的法律分析二、人工智能领域数据遗忘的实施与困境三、融合AI技术发展与被遗忘权完善的可能性解决方案


引言


  人工智能(AI)的快速进步使得立法者和监管机构也亟需跟上技术的步伐。但目前法律在某些方面的规定并不适合处理人工智能所带来的复杂性和挑战性,隐私监管领域即是一例。随着个人信息使用功能的不断提高,对被遗忘权的关注也随之凸显,更是被写入诸如《欧洲数据保护条例》(又称“一般数据保护条例”或“GDPR”)等法律中。人们经常将隐私视为一种“隐喻”——将私密信息“隐藏”起来。被遗忘权基本原则中这一点体现也尤为明显,根据该“隐藏”原则个人可以要求删除所公布的信息(从而使其成为私人信息)。当个人将以前的公共信息私密化时,会援引“隐喻”的内涵要求他人忘记这些信息。然而这种隐喻的理解是人类思维所独有的,并不一定能转化到人工智能/机器学习中。虽然在许多监管机构来看“数据删除”似乎是一个简单的话题。但这个看似简单的问题在实际的机器学习环境中已经提出了许多新的问题,使得“数据删除”的要求目前实际上已经游离在一种不可能的边缘。所以要在人工智能的背景下理解被遗忘权,有必要首先深入研究人类与人工智能中记忆和遗忘的概念。现行的法律似乎将人类和机器两者记忆的概念等同了,但这存在理论和实践上的困扰,本文将探讨人工智能的记忆和被遗忘权在其中如何适用的问题,以期促进法律更能如实反映人工智能技术的现实发展。



一、被遗忘权的法律分析


  (一)被遗忘权的关注缘起


  被遗忘权(Right to be Forgotten RtbF)在2010年因“冈萨雷斯诉谷歌案”开始为人们所关注。2014年欧洲法院(ECJ)对该案进行了裁决,法院指出如果满足以下三个条件中的一个或多个,则欧洲数据保护指令适用于搜索引擎运营商:(1)如果他们在欧盟成员国中有一个分支/子公司利用搜索引擎向该成员国的居民出售广告空间;(2)如果母公司在一个欧盟成员国指定一家子公司,并且它负责最少两个关于该成员国内主体数据系统的维护;(3)如果分支机构/子公司向欧盟以外的非欧盟籍母公司转发数据主体或负责监督数据权利保护的机构的任何请求和要求,即使转发是自愿参与的。只要满足这些条件中的至少一个法院就认为这足以使搜索引擎公司成为数据控制者。法院最终认为谷歌已经满足的第一个条件并成为了数据控制者,而作为数据控制者,凡遵循欧盟指令95/46 EC目标的该欧盟国家都将以GDPR的要求规范其行为。谷歌西班牙案意味着法院确认数据主体有权要求搜索引擎公司删除包含有关数据主体的个人信息的链接。该案总结了一些有关数据权利运用的判解:(1)数据主体在某些条件下有权要求删除数据,例如当数据处理时信息不准确、不充分、不相关或过多时;(2)数据权利不是绝对的,需要与其他令人信服的权利(如言论自由)保持平衡。


  (二)被遗忘权的法律界定


  该案中ECJ除了提到将指令95/46 EC进行法律转换的适用外,其裁决也构成了对欧洲数据保护规则地域范围的新理解,同时提出存在一种被遗忘的权利。谷歌诉西班牙案的判决并没有首创被遗忘权,实际上被遗忘权不是一个完全全新的概念,数据保护指令95/46 EC在其第12条中规定了“访问权”,该条款以某种方式已经考虑了从数据控制器中删除不完整、不准确或非法数据的可能性。目前,新的GDPR主要将原95/46 EC第17条的“删除权”也囊括在内,该条款对涉及数据主体的多项权利可以要求从控制人那里获得有关他或她的个人数据的删除且不得无故拖延。该案的判决对数据中介、数据服务者(尤其是数据控制人)提出了严峻的信息检索挑战。虽然原告的初衷是从最初发布的在线档案中删除有争议的信息,但ECJ的裁决却针对技术中介而不是原始的信息发布者,对于数据服务者来说,为履行公共数据的擦除义务,数据控制者有义务结合技术状态和实施成本,采取合理步骤和技术措施向数据处理者通知数据主体的请求并删除包含此类个人数据的任何链接或复制。


  近年来,被遗忘权在国内学界也引起了热切的关注。就其研究来看,已经逐步从侧重于研究欧美国家对该权利不同的保护理念、司法境遇之中集中厘清了被遗忘权的概念,并转向对其法律属性、适用边界以及本土化构造的探讨。基本赞成被遗忘权是指“信息主体对已被发布在网络上的,有关自身的不恰当的、过时的、继续保留会导致其社会评价降低的信息,要求信息控制者予以删除的权利”。其权利内涵主要包含:“一是个人信息的事前控制,即适时删除个人信息的权利;二是在特定领域对信息主体过往负面信息进行披露与使用的限制”。目前,学界对被遗忘权的性质主要有隐私权权能说、个人信息权能说、独立人格权说等,随着《民法总则》中关于个人信息权的明确,目前个人信息权能说占主流。当前学界基本对该权利持肯定态度并呼吁我国立法引入被遗忘权并对其加以本土化改造为我所用。


  (三)目前被遗忘权发展中的法律争议


  引入被遗忘权被视为是近年来欧盟立法领域的一项突破。不过目前被遗忘权自身发展也引发出一些值得注意的问题。


  一方面是关于被遗忘权权利本身的争议。第一,单纯从逻辑层面看,被遗忘权之名一直存在争论。诸如遗忘之类的心理过程其实是不能被强加的,因此在逻辑上原本没有人可以因遗忘而被起诉,所以如何用一个恰当的法律术语来概括被遗忘权行为本就较难,而现有的被遗忘权似乎更适合被称为“不被发现的权利”。第二,在权利属性上存在模糊。GDPR条文中权利人以“遗忘”处分其个人信息以及对数据控制者因“未遗忘”而科以处罚甚至强制执行的规定,使人感觉其是否意图在个人信息中建立一种新的财产制度,在这种制度下遗忘将产生财产属性甚至还可能涉及转让等处分疑问。但“信息无论如何传播,均无损于其自身完整,由此决定了信息不能归某一主体所有,即便是关于某人的信息某人并没有传统意义上的支配权”。这种与传统意义上财产支配的不同使得个人信息失控变得正常,同理个人信息也不会轻易产生“排除权”属性,即允许一个数据主体将其他数据请求排除在保持对自身信息的并行控制之外。因而被遗忘权的财产属性有待勘明。第三,该权利尚不能追溯性地实现遗忘的结果。诚然,如果行使被遗忘权可以完全填平既成的损害则可以使遗忘的结果具有追溯力,权利的实现度将更完满。但因其损失而获得补偿的结果只是“好像”被遗忘,实际上完全恢复损失是不可能的。即使可以弥补部分损失但至少仍会遭受一些声誉损失,同时权利人对于能够不面对这些信息的心理可能也无法得到充分满足,因此该权利的追溯性目前存在缺憾。第四,诉讼权利保障上存在困境。从权利的价值上看被遗忘权对双方都是平等的,那么被告对于原告胜诉判决所载信息是否也可以行使被遗忘权,从而要求删除该信息。而如果这样,则原告的被遗忘权又如何去落实。因此,如果只考虑被遗忘权本身而缺少各种诉讼限制,其价值目标当前也存在着逻辑上的困境。第五,权利主体对如何恰当地行使该权利目前存在困惑。GDPR中对该权利定义的模糊使其应用出现困难:GDPR中的“遗忘”似乎通过简单删除个人数据或删除包含来自数据控制器系统的个人数据的文件集就可以实现,其将计算机上的数据想象成一个可以简单销毁的有体物,这本身就严重轻视了数据运作的复杂性,后文将详细阐明。此外,“删除”一词其实并未明确出现在GDPR中,“移除”一词在GDPR只出现两次但都与被遗忘权无关。用于GD-PR中与被遗忘权使用中的删除有关的词是“擦除”,但在整个文本中都没有对该词含义与使用的具体解释。因此,这样的矛盾与含混使得学者和技术人员都对该权利的具体适用感到困惑。作为一项法定权利本不应该用抽象的短语阐释“遗忘”,更不用说遗忘本就是复杂的心理学术语,法定权利应当被法律所将授权的普通权利人轻易理解。“一般而言权利的主要目标之一是将权力交到个人手中……”,实际上涉及个体的私权利许多需将保护的“负担”置于权利人的肩上,现有被遗忘权的内涵也包含了数据主体是其自身数据保护者的思想。因此就必须以朴素、清晰且无需猜想的措辞标明,这样权利人才能够频繁地在适当的情况下(即不是为了消灭历史事实)援用(被正确标记的)该权利。但反观GDPR的措辞,“擦除”可以实现多种目的,如防止进行系统性分析、针对性定位和目的性推送等。但适当的权利措辞不应在消除某一目的的同时强调另一个目的,而应是能够容纳权利人可能希望行使相关权利的所有可能原因,现有的被遗忘权表达中仅描述其权利运动的即时结果(擦除),对要实现的最终目的(遗忘)则指向不明,所以可能还会带来误导。


  另一方面,一个更为宏观的问题在于是否存在保护被遗忘权的政治、社会或道德需要。比如对于被遗忘权适用的例外情形尤其是基于公共利益原因而做出的例外,一些学者认为现在确定哪些信息在未来可能具有价值十分困难,在行使被遗忘权过程中信息的直接价值和远期价值的确定也十分困难,尤其在相关信息涉及政治、经济等敏感信息时这类分类和界定的困难将更加明显。其次,随着AI技术变得越来越真正地“复杂”“智慧”,传统的数据被遗忘过程中的风险、责任和决策之间的联系正在发生变化,AI中被遗忘权的行使已涉及一些新的人权风险与挑战。比如,在AI不易控、不可测、不透明的一些遗忘活动中甚至会导致“算法歧视”“算法偏袒”等新问题,但AI运营方与AI自身的权力监控、责任分担等在现有法律规制中都尚未廓清,此时需要进一步发展直接针对AI “有害遗忘”而提出的人权保护,其中不仅包括“保护”人类“数字人格”稳固的各种“数字人权”,还包括“增强”人们抵御AI在其智能遗忘等主动性活动中所带来的“算法侵害”的相关数字人权。



二、人工智能领域数据遗忘的实施与困境


  (一)人类和AI记忆与遗忘的不同


  在人工智能的背景下理解被遗忘权,有必要首先深入研究人类和AI各自关于记忆和遗忘的概念。现行的法律似乎将人类和机器的记忆概念等同了,即“支持对记忆的虚构理解和忘记不符合现实的记忆”。认知心理学家认为人类心灵中存在两种主要的记忆系统:短期记忆和长期记忆,但目前尚未就两者之间的主要差异达成共识。存储在长期记忆中的内容可能取决于多种因素,包括记忆的“意义”等,但目前尚不清楚这些因素具体是什么。事实上,人类的思考与意识可以存储多少原始数据至今还没有一致的可靠估计。因此,“我们目前对人类思想和记忆的理解还依然处在懵懂探索之中,甚至可能某些认识和理解根本就是不正确的”。


  相比之下,当前在弱人工智能阶段,由于人类是创造人工智能背后逻辑过程的人,可以较便捷地了解人工智能世界中的“思想”是如何运作的。正因为对AI如何处理数据输入、存储和删除已有很强的科学认识,计算机科学家对人工智能决策基础的了解比神经科学家理解人类决策的基础要更好。简言之,虽然学者们可能无法完全理解特定AI的决策过程,但通常至少在基本的数据输入、存储和删除的背景下是可以理解AI的“思维”是如何工作的。了解人类与AI “记忆”之间的差异,可以更好地理解当前数据法律存在的不足,尤其有助于理解被遗忘权问题及其法律应对。


  (二)当前人工智能中数据遗忘(“删除”)的实施困境


  如前述,被遗忘权要求删除曾经的公开数据。从本质上讲被遗忘权可比拟为一种人类记忆中对“忘记”信息的隐喻。当个人要求删除他们的信息时这相当于请求其他人“忘记”该信息。然而这种比喻只是人类思维所独有的,要转化到AI/机器的学习中会存在困难。被遗忘权中的数据删除要求不容易在AI中得到解读,因为AI不像人类那样“忘记”数据。机器学习中涉及删除的第一个问题即是需要明确在各类现代数据驱动环境中删除是否实际可行。数据删除实际上在当前智能系统中非常复杂,我们将以现代基本的智能数据库管理系统(DBMS)为例(以下简称“数据库”)说明在AI中被遗忘权当前技术实现的基本问题。


  数据库是一种为“有效”提供数据而设计的智能化操作程序,是当前人工智能领域内最基础的一种机器学习。“有效”的典型体现即在正确和快速搜索数据。虽然在少量数据时有效搜索的效果并不明显,但它依然是计算机科学中基本的算法类别之一。数据库通常通过数据索引来工作,数据记录虽然存储在文件磁盘上,但是文件的物理位置布局会以名为B(数据)—Tree(树)的一种树状结构体现,通过使用SQL查询语言这类程序来显示并检索数据记录。添加到数据库中的每个数据记录可能不仅位于文件系统中的某个特定点,而且可能存储在数据库内部运转机制内的不同位置,有的还被复制到其他数据库的日志文件和备份中。按照RtbF的要求永久删除数据时必须考虑这些情况,尤其当需要满足严格意义上的删除时必须识别所有的这些空间并需要及时用新的信息覆盖删除空缺。但这样的操作可能会导致严重危害数据库的一致性、稳定性,甚者将会破坏系统安全性以致损毁数据库。


  详言之,我们用常见的MySQL数据库首先演示为何在数据库中不彻底删除数据所考虑的经济性问题。图1展示了删除数据记录时MySQL数据库内部的运行情况。为了降低复杂性,该图只显示其中的某个运算“页面”。运算数据时即开始在搜索“树”中查找所需信息。该页面为显示系统活动的记录,在页面内将从节点I开始查找并遵循箭头的路径直到找到所需的数据,如果搜索在节点S处结束而没有任何结果则为找不到数据。图1(a)中有C1到C5五个数据记录,当执行删除C3处记录命令时;第一,C3会被自动链接到数据库中预置的一项名为“垃圾偏移”的空间中(该空间是兼有存储已删除数据且包含现在可用空间的一种集合)。第二,C3经“垃圾偏移”命令的抽取,已被“标记为删除”,但图中命令指示箭头只是将C3拉走,它并未消失,只是换了个被标记的位置。第三,运算活动在跳过C3之后继续前进。

  图1(b)中的任务是继续删除存储在C5中的数据。因系统已出现运算中断因素(C3已被删除),首先数据库在“树”中导航并搜索C5直到找到C5,通过将原C3中的箭头弯曲到C5将C5添加到垃圾偏移中,此时C5经“垃圾偏移”也被“标记为删除”,该运算活动在跳过C3、C5之后继续前进。但经“垃圾偏移”抽取所得到的“标记为删除”只是把C5从页面的活动记录列表中移动到垃圾偏移指示的已删除记录列表,即与前图删除C3一样。经删除后数据仍然存储在数据库中,但当数据库需要新空间来存储新记录时,出于经济考量会首先搜索“垃圾偏移”中已存在的既有数据空间,对该数据空间进行覆盖,而不是在磁盘上直接分配新空间,所以未被覆盖的数据依然还留存在原空间上,即数据常常不会被真正删除而仅是从某一种运算活动中删除,在另一运算活动中可能又会被启用。只有当已删除的空间(如C3、C5)因系统运算的新需要而被覆盖上新数据时,此时才会有效地破坏其中的旧数据。


  GDPR等法律对RtbF的“删除”规定了需满足随时检验删除方是否遵守删除要求,确保删除信息的安全并防止恢复。要符合该要求不仅需从搜索查找中删除,还需要覆盖文件系统,甚至是从所有内部机制中删除,即实现纯粹的物理删除。但由上图所示,实践中在经济性原则下数据库运行的现实环境使得这种删除可能并不会完全实现。


  其次,就安全性和稳定性来说,RtbF所要求的全面而彻底的删除也不可行。目前主流大型数据库中,通常需在辅助索引的帮助下检索数据以帮助运算。对索引的依赖性将使得删除数据仅表现为对索引搜索不可见,但无法实际从记录中删除数据。图2再次以MySQL数据库为例,显示了这种操纵辅助索引来删除数据的过程。MySQL数据库目前主要使用两种索引类型:(1)主索引,即图中从I、C1... C6到S; (2)用于提高搜索性能的辅助索引,如图中的V1到V6,虚线箭头代表每一个辅助索引在该系统运算中与主索引中某项以及其他辅助索引项所建立的相互链接关系。在该类系统的运算中,主索引一般保持不变,各种修改操作仅通过辅助索引进行,因为主索引通常用于宏观上维系系统运转,轻易不用于具体的实际数据检索。当想要删除某一记录时,如删除C4,主索引中C4及与其相关联的辅助索引V5之上的各项链接(即诸项间的虚线箭头)将被移除。此时,图2中可见V5已与整体系统运算结构脱离,为了为维持主索引原全过程的安全、稳定,保持系统运转流畅、不发生宕机,系统分配的新设置为链接其邻居V4和V6,即V5原先与V4和V6的链接被替换为两个邻居之间的直接链接。最终系统依然正常运转,因V5的脱离C4也将不再存在于辅助索引中,其“不被可见”“不被检索”“不被链接”已经形式上达到了被遗忘的效果,但它其实尚未从主索引中删除,仅仅是一种数据隐藏。


  该方式在保持系统安全、稳定的原则下虽然已无法通过正常搜索的方式来访问主索引中的被删除条目,但依然可以使用主索引后门或利用未被操作的辅助索引顺藤摸瓜来访问隐藏数据。所以要满足RtbF所要求的删除时,从辅助索引中删除隐藏的数据链接的同时还必须深入系统底层进行对主索引的删除操作,但这样对系统的安全稳定威胁巨大。

  除了上述关涉系统内部的经济性、安全性和稳定性问题,就系统外部的信息传播性来说,现有的Rt-bF的规则要求:如果系统控制者已确知第三方处理其已收集的一些数据时,需要负担通知第三方有关擦除请求的额外义务。即应采取合理的步骤和技术措施通知处理个人数据的控制人,并要求各类控制人员删除这些个人数据的任何链接和复制。因此,系统控制者需要拥有一整套技术解决方案以便跟踪个人信息,并在依据RtbF要求删除时证明其能有效删除。“全面通知”看似简单,但由于许多节点外控制器保留了其已复制信息的链接,因此证明从所有可用来源成功实施擦除在技术上仍然很难。目前RtbF规则没有明确在二次使用时(即个人数据已经传播给第三方或者已被匿名化或伪匿名化使用时),此类删除如何实施的实际定义。同时,当出现为证明不可能泄露或删除需要付出不成比例的代价时,RtbF履行中是否可以要求免除向所有接受者通报任何纠正或删除的义务?但即使提出此类豁免,反而会引起对被遗忘权有效性的减损。


  (三) AI背景下被遗忘权行权的反思


  综上,现有的RtbF的实施更多复制于人类遗忘的机制,但即使是人类的遗忘也是需要区分不同级别的遗忘而不是简单的完全擦除,所以RtbF在AI应用中的实施需依赖于信息的编码、检索的水平而不是简单的信息擦除。况且仅仅擦除链接并不能抹掉信息本身,因此现有的很多措施尚不能被视为实际遗忘。


  当前,在AI学习背景下,RtbF应用的具体反思之一在于其权利属性问题。被遗忘权本质上是信息主体实现其信息自决权这一基本权利的主要权能之一,可以说只是依附个人信息自决权而存在的请求权之一。基于模式化编程的AI的记忆特征反证了AI运用背景下RtbF所保护的人格利益不具有相对的独立性,不能成为一个具体的、具有类型化的人格利益,而只是某一种具有独立性的人格利益的组成部分。该状态下RtbF名为一种对可识别的某些信息予以删除的请求权,虽服务于人格利益的保护,但却没有实体内容。因此,其将只是个人信息权实现的方式和手段——即名为请求权但常常仅具有“除名”权能,有时甚至其无法完满实现隐私保护等“自决”权能。故RtbF在AI运用背景下的的这种权能实质也意味着其此时将不是具体的权利,这种状态其实也会对AI环境中的RtbF侵权关系认定等问题带来一些争议,对此今后还需理论探索的进一步深入。


  反思关注之二在于其与数字系统内其他数字权利的位阶与竞争关系问题。“被遗忘权不是一种可以凌驾于其他数字权利的超然权利”。前述数据库基础运用中搜索与索引的操作体现出AI系统中最基本的两项运转功能——“数据可携”与“多重链接”,即两个或多个数据主体可以通过同一组数据的流动轻松链接另一个数据主体,目前云技术的推广还将大大提升这一功能。这一功能也是数据可携权(right to data portability RtDP,下文简称RtDP)的一种基本体现,即“数据主体通过向数据控制者请求以结构化、通用、机器可读取的格式获取相关数据,并在技术可行条件下有权要求数据控制者向另一个数据控制者实现数据的直接传输”。作为一种数据保护权,将RtDP引入AI环境可以有效促进AI系统自治、维持系统对外交流、保障系统内部竞争。不过基于“多重链接”的AI运作环境使得目前单方面行使RtBF可能会剥夺其他主体行使RtDP的机会。同样当执行RtDP时后续的RtBF(由另一数据主体执行)因“多重链接”也将无法通过仅删除数据的副本来使数据“被遗忘”。可见RtBF与RtDP之间在AI系统背景下存在现实意义上的冲突。


  保护个人信息的RtBF其实可以被设计为对威胁个人信息安全的RtDP进行覆盖,但是这样的设计并不能达到权利竞争之间的平衡。反观GDPR,其中关于RtBF的第17条规定并无平衡RtBF与其他主体权利的表达,在RtBF的例外中也没有诸如RtDP之类的主体权利。但GDPR第20条关于RtDP表述的第(3)款涉及一个数据主体共同行使RtBF和RtDP,第(4)款适用于不同数据主体以冲突方式行使两项权利的问题,但都仅是提及。条款设置的先后可能表明GDPR认为不同数据主体权利之间存在等级关系:即RtBF的位阶似乎高于RtDP。但据此得出RtBF在权利冲突中应绝对优先于其他主体权利并不恰当。RtDP本质上是当前要求对相关数据进行通信的权利的规制,即对“现有访问权、传输权”的支持,这一“现有访问权、传输权”是AI系统乃至其他数据应用得以正常运转的“先决条件,是进一步改善信息流动的基础条件”,在AI背景下不应被减损抑或被其他权利覆盖。RtBF与RtDP在AI背景下的竞争问题其本质上依然反映了存取权与隐私权之间的长期紧张关系,在AI应用中如何寻求一个能够共享RtDP与RtBF平衡的规则将是权利保障与技术发展的共同诉求。


  反思关注之三在于如何划定权利规制的边界:AI应用中的数字信息源作为巨大的外部交互存储器还具有外部交互的特征,除了数据控制器和数据主体外还有一个规制因素不可忽略——即公众等他人利益。RtbF是公共利益和个人法益的混合体,且个人法益是因该制度的建立而产生的。RtbF中平衡这些利益很困难,不过虽不同于人类记忆的运用,但我们可以从人类记忆过程中获得指导和灵感。当前弱人工智能阶段可暂撇开AI自身“价值判断”的考虑,人类记忆过程中关于记忆的“意义”、“使用”和“时间”的测算将可用于划定AI中RtbF运用的规制界限。其中最客观、运用最有效的划定工具将是“时间”。“时间”增加时通常支持“遗忘”的测定,而“意义”和“使用”通常在有效信息和使用频度增大时就都不容易测算遗忘度,因此“时间”成为与RtbF规制相关的最重要因素。“时间不仅能使公共利益下降,而且也使个人利益下降,不过在这两者利益均下降的情况中,个人利益在大多数情况中均能在某一个时间点超越公共利益”。此时,“时间”可以在RtbF法律上扮演两个角色。一方面可以在利益平衡中发挥作用,作为增加或消除“忘记”个人信息或其相悖利益要求的重要因素,从而维持不偏袒任何一方的平衡性。另一方面可以作为除权的明确标记,一旦保留的理由不再成立就应该遵循“忘记”机制。但数据处理的时间周期高度依赖于数据的使用、获取数据的条件和收集数据的目的以及是否有必要。这导致时间作为利益平衡因素的作用复杂不定。因此,“在一些情况中时间并没能改变利益的平衡,随着时间的变化个人信息的公共利益虽然下降,但仍高于以同样甚至更快速度持续下降的个人利益”,因为平衡的度量在于需要同时测算信息生命周期的盛衰与其价值随时间而变化的高低。不过,与信息生命周期相关的“时间”标准还需进一步研究细化,比如具体的时间跨度可能因数据主体(终身使用)、数据控制器(阶段处理和使用)以及第三方(为公共利益记忆而使用)的不同而需要完全适用不同的测算标准。



三、融合AI技术发展与被遗忘权完善的可能性解决方案


  被遗忘权的法律价值正在愈发凸显,在机器学习环境中被遗忘权的应用目前虽然遇到困难,但结合前述的反思与探讨,当前是否可以从技术、法律和政策等诸多解决方案中进行一些谋划,以便在现有AI学习的技术实践中保护RtbF?笔者认为通过以下这些解决方案,可为在当前AI机器学习条件下的被遗忘权实施提供一些思考。


  (一)法律和政策完善方案——有意遗忘与权利平衡


  鉴于当前对被遗忘权的主流法律理解与目前AI中数据删除技术现状间的龃龉,弥合法律与技术之间差距的另一途径是尽可能完善现有RtbF的法律和判例中的疏漏。直接改变法律以反映AI等新技术的发展虽然最为简单,不过改革或更新像欧盟GDPR这样的大型综合数据法繁冗且耗时。其实以GD-PR为例,从立法者故意避免建议采用特定的技术框架或特定的信息保护方法来实施其所引入的这些法律要求就可以看出,在立法之初已经遵循着技术中立的立法原则,即在基本框架中从高度抽象的层面上来指定法律实施的功能需求,并设置各种空白条款、兜底条款来预留未来新的法律插入。只是因为目前监管更新的速度落后于技术变革的速度,所以类似GDPR这样的法律在已有基础上可以插入对RtbF的各类完善。


  首先,关于“遗忘”概念需进行重新梳理。现有关于遗忘的法律概念的界定都是基于对传统的有限知识获取中“灾难性遗忘”的理解。人工智能时代由于知识和知识获取无处不在,故在AI系统中需要一种更为复杂的遗忘界定,在此有必要引入“有意遗忘”的概念。通过算法获取新知识是机器学习的重点,“各种机器学习方法基本都是通过聚合信息或抽象输入数据以获得更好的概括”。在被遗忘权的语境下机器学习可以看作一种将不相关的属性或特征淡化的隐式遗忘函数。此时遗忘的目的在于提高机器学习能力。所以,人工智能时代RtbF中的遗忘应当重新被定义为包括被动(淡出旧信息)和主动(决定不考虑障碍性信息)两种,尤其是主动地“有意遗忘”。前者以前仅指从特定控制器中删除数据,但后者意味着为“有益”等需要将可能“有意”地“从所有可能的源”中删除信息。经此改造该项数据权利的范围可能将比任何现有其他数据权利都要广泛,而其司法适用可秉持一般侵权损害与信息特殊限制性因素相结合的裁判思路,参照一般理性人,区别AI行为对信息的主动利用与被动防御,并在此基础上考察是否具有排除RtbF适用的免责事由。


  其次,平衡AI背景下RtBF与RtDP两项权利的使用规则。“被遗忘权只能建立在共同体信息合理流通的基础之上”,所以AI系统内存在的数据流动需要保障,而稳固AI系统数据运转中的数据可携性使权利人能够基于数据被传输、被处理而真正获益,激励数据控制者对数据的高效、充分地利用,故一般不应减损。但为了平衡RtBF的要求可以重新组合数据可携权中信息存取和访问个人数据的内容,就像RtBF以“大遗忘权”的组合扩充并完善了原删除权、数据使用限制等方面的内容。RtDP中出于个人目的(在此可指代为系统自身需要)使用数据或将数据许可供第三方进一步使用,以交换其他服务或获取现金价值的财产属性,可应用于判断RtBF和RtDP之间的冲突,即依数据的性质将人格身份数据与可移植的经济数据区分开来。一般使用下,无论对数据主体自身还是其他相关的利益方,处于对隐私、名誉等利益保护的RtBF都应优先于定位在经济利益考量的RtDP之前。但当不同数据使用者被授权共同确定数据处理的目的时,则应确保同时保障。不过当AI与AI之间出现系统效益和人权保障的冲突时,即一方系统内部的RtBF和RtDP平衡后,但与另一方的RtBF需要相悖时,此时该选择哪一种平衡将是另一个复杂的问题。


  再次,AI中遗忘权的设置要更多地考虑如何发挥遗忘的优势和效益。目前在分布式人工智能中,知识通过分布在多个代理上以保持其在现实环境的自然适应并降低复杂性。这类系统在未来通过展现通信和协调的并重将使多代理系统中的社会审议成为可能,这类人工智能系统中的推理和规划将被转化为具有有限的个体知识的代理人间的任务协调。因此,通过合理的记忆与遗忘协调该系统中的知识分布并在运行时对其动态调整将成为体现AI中被遗忘权运用的优势之处。同时,处理海量信息的AI系统也会面临潜在的信息过载,其需要具有平衡学习和遗忘的自主能力以及足够的意识度。由于人类也将遗忘作为一种意识的发展过程,因此正如社会心理学中所考虑的那样,伴随着AI的演化遗忘权法律规制的核心问题也需要从另一个侧面考虑AI是否可以通过从激活遗忘机制中受益。正如有学者所指出:被遗忘权通过删除将“使得留存下来的资讯更符合主体的现行状态,减少了误导性信息,提高了信息的准确度,还有利于公众知情权的维护”。


  (二)综合性“技术、法律/政策集成”式解决方案


  在对法律、技术和隐私的未来关系的反思中,美国学者加瑟认为:“法律和技术可以通过相互补强的关系推进其共同的实践发展”。“一种旨在整合法律和技术方法的隐私工具的开发可以帮助以一种更具战略性和系统性的方式,通过模块性协同来为信息隐私领域的法律和技术间的相互作用铺平道路……这种综合方法意味着法律可以与技术一起发挥更加丰富的作用,如果芯片、程序或者代码能够融合不同的技术工具和法律方法,无论是在法律概念层面还是技术实施层面都可以产生更加强大和有效的隐私保护”。


  这种以带有“跨技术”“融方案”特性的,以新型芯片、程序或代码为载体的集成性隐私工具可能也是未来处理AI领域信息保护问题的理想方案样板。但这类集成型隐私工具的技术仍处于初始阶段,尚不能完全匹配当前AI领域的技术发展。其实数据保护领域的立法发展中目前很少关注这类隐私增强技术(PET),但越来越多来自技术领域的倡议正在呼吁为此制定法律以验证隐私保护技术方面的进步。在此背景下,面对RtbF在智能数据库和其他更为复杂的AI系统的应用,由于现有的某些技术设定对于系统的正常运转必不可少,因此亟需一种能够在保留现有技术标准的情况下支持各类物理删除和非物理删除的集成性被遗忘权解决方案。对此,目前由技术专家和法律学者通过直接合作已经创新出一些融合化方案,可资借鉴。


  为匹配GDPR等法律规范对执行遗忘的较高要求,微软研究人员提出了一种基于“元数据”可互操性的“法律—数据”交互感知技术架构,其允许将责任设定和行为策略绑定到具体数据上,从而实现以任何更符合用户意愿的方式处理数据,尤其包括撤销前期用途的操作。该架构中,使用“可信处理容器”机制挑选并保存可能会被关联使用的“元数据”以及被选为指定策略绑定的处理数据,并维持其稳定。各种数据处理和解释活动将首先在元数据上进行,而数据本身只有在数据请求实体被正确验证为有权使用数据时才能使用。对于基于知识库分布的数据系统或处理需语义技术加工的文本,由于逻辑知识在其中占主导地位,该架构提供了用于增减知识(如增减法律推理规则)的独立运算符。同时该技术架构还能直接将遗忘运算符加入系统的主索引以及逻辑总目录,这样将来可在维持正常运算的同时,无需暂停系统,实现数据的柔性消除,维持系统稳定。总之,该架构足够灵活并可以随时通过改变各类已有的程序设计满足监管机构增加透明度和加强问责等愿望。虽然这种基于元数据的体系结构可较好地随技术发展满足和支持增减各种被遗忘权需求,但仅规制系统内部的元数据不能保证AI操纵实体在实践中一定遵守指定的策略。不过可以通过设置强制性访问规程来促进其执行。


  还有学者提议使用区块链概念用于搭建一个平台,使用户能够拥有和控制他们的数据,但不会影响安全性或限制为企业和政府提供个性化服务的能力。这是一种分散性个人数据管理协议,该协议将区块链变成自动访问的控制管理器,无需添加被授信的第三方。通过将区块链(其用作访问控制的主持人)与目前已投入运用的专注隐私保护的“off blockchain”在线存储解决方案相结合,可实现控制遗忘的目标。其间,特定时间内用户可以改变权限并撤销对先前收集的数据的访问。由于无需依靠其他被信任的第三方提供核实与支持,用户始终可了解收集的数据及其使用方式。除非对手能控制大部分网络资源,否则区块链的分散性质与数字签名交易相结合可确保对手无法解析用户或破坏局域网络。


  当然,最终还需要通过大量的实践案例来检验,才可以证明这些“法技术性”创新工具的功效。


END


作者:翟凯(1987-),男,安徽芜湖人,法学博士,安徽建筑大学公共管理学院法学系讲师,研究方向:法学理论、人工智能法学。

相关

阅读

1.王凌皞:“被遗忘”的权利及其要旨

2.李梅敬:理论层次视域下人工智能发展风险的伦理应对

3.栗峥:人工智能与事实认定

4.新书|韩旭至:《人工智能的法律回应:从权利法理到致害责任》

商品

书目

微信号 : DigitalLaw_ECUPL

探寻数字法治逻辑

展望数字正义图景

数字法治战略合作伙伴:理财魔方

北京市竞天公诚律师事务所上海分所

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存