查看原文
其他

王若冰:论生成式人工智能侵权中服务提供者过错的认定——以“现有技术水平”为标准

王若冰 比较法研究
2024-09-04

作者:王若冰(中国人民大学法学院博士后,法学博士)

出处:《比较法研究》2023年第5期



目次

一、应以“现有技术水平”为认定服务提供者过错的标准

二、以“现有技术水平”标准认定服务提供者过错的情形

三、“现有技术水平”标准与“通知规则”的适用

四、结语


摘要:从促进和规范人工智能产业发展、鼓励科技创新出发,应当对生成式人工智能致害的侵权责任采过错责任原则。在认定生成式人工智能服务提供者的过错时,应当以现有技术水平作为判断标准,现有技术水平需要考虑时间维度、行业维度和地域维度。在按照现有技术标准认定服务提供者的过错时,应当考虑生成式人工智能服务提供者在输入信息的真实性、输出信息的真实性以及服务提供者违反个人信息安全保证义务等方面,在现有技术条件下是否尽到了采取了必要措施的义务,是否尽到了预防和防范的义务,从而认定其是否具有过错。同时,考虑到现有技术条件下生成式人工智能侵权的特殊性,应当对服务提供者变通适用通知规则。关键词:生成式人工智能;服务提供者;过错责任原则;现有技术水平

  生成式人工智能的出现,标志着我们已经进入了一个人工智能时代,生成式人工智能以亿万的庞大数据为参数,具有更出色的生成能力,其用途极为广泛,且具有难以估量的应用价值。但生成式人工智能也可能产生大量的虚假信息,还可能构成对他人知识产权的侵害,并由此引发侵权的法律风险。ChatGPT制造者OpenAI公司的首席执行官山姆·阿尔特曼指出,其特别担心这些人工智能被用于大规模制造虚假信息。从致害原因上看,生成式人工智能虚假信息侵权既可能来自其自身模型的选择问题,也可能来自操作者的操作不当,还可能是因当前技术水平无法证明或者说无法解释的原因而引发。无论是哪一种原因造成的损害,都涉及生成式人工智能服务提供者的侵权责任认定问题。
  从促进和规范人工智能产业发展、鼓励科技创新出发,对生成式人工智能致损的民事责任原则仍应当采取过错责任归责原则,但在生成式人工智能致害的情形下,究竟应当如何认定其服务提供者的过错,这是现代侵权法面临的一大难题。有鉴于此,笔者拟对生成式人工智能致害情形下其服务提供者的过错认定问题进行探讨。


01

应以“现有技术水平”为认定服务提供者过错的标准
  (一)以“现有技术水平”作为认定服务提供者过错标准的必要性
  就生成式人工智能所造成的侵权的归责原则而言,德国洪堡大学的格哈特·瓦格纳(Gerhard Wagner)教授认为应当采取严格责任,他认为,对于具有高风险的人工智能产品发生侵权行为,软件设计者或产品制造者应承担相应的产品责任,因为他们更了解人工智能产品,更能有效避免侵权事故发生。在美国,也有学者进一步将人工智能(AI)技术作出的决策类比于代理人决策,并据此认为人工智能决策产生的责任类似于雇主责任(respondeat superior)。这些学者强调,对人工智能技术导致的损害采取严格责任符合风险与责任一致的原则,且有利于保障算法环境的安全性。笔者认为,这一观点虽然不无道理,但是值得商榷,一方面,对待生成式人工智能因固有缺陷产生虚假信息所产生的侵权,不应当完全机械地将生成式人工智能诸如ChatGPT当成产品,并直接适用产品责任的归责原则。法律之所以对产品责任采严格责任的归责原则,主要是为了保护相关主体的生命、健康等权利,而生成式人工智能虽然也可能存在设计缺陷,但其与产品责任意义上的产品不同,其通常不会导致他人生命健康方面的损害,而主要是造成对他人人格权、著作权等权益的侵害。因此,不宜对其适用严格责任。另一方面,对人工智能技术导致的损害一概采取雇主责任,可能会导致中小企业动辄得咎,面临巨大的法律风险,因而会压抑人工智能技术的发展。毕竟生成式人工智能目前仍然处于一个初创阶段,技术仍然在不断改进,需要为其发展留下更为宽松的法律环境,对其进行规制是必要的,但不宜对其进行过于严苛的规制,从侵权责任而言,严格责任显然对人工智能企业而言过于苛刻,不利于鼓励和促进人工智能产业的发展。此外,生成式人工智能侵权产生的原因是多元的,需要根据不同情形具体分析各方主体的过错,进而分别确定其应当承担的相应责任,而不宜由各方主体承担连带责任。例如,在各方主体都有过错的情况下,如果能够证明损害是因生成式人工智能模型的选择问题造成的,则应当由其研发者承担过错责任;如果损害是因生成式人工智能操作者的操作不当引起的,则应当由其操作者承担过错责任。因此,对生成式人工智能侵权也应当适用过错责任原则。
  既然生成式人工智能侵权应当适用过错责任原则,则在构成要件上就应当适用侵权责任的一般构成要件。《中华人民共和国民法典》(以下简称“《民法典》”)第1165条第1款规定:“行为人因过错侵害他人民事权益造成损害的,应当承担侵权责任。”也就是说,在生成式人工智能侵权致害的情形下,生成式人工智能服务提供者承担侵权责任的前提是其具有过错。但问题在于,如何认定生成式人工智能服务提供者的过错?对此,有观点认为,应当区分不同的“场景”,具体认定生成式人工智能服务提供者的过错,具体而言:一是,如果人工智能技术决策本身达到了同样场景下一般理性人的注意义务,则其服务提供者就不应当承担侵权责任;二是,如果人工智能技术决策未达到一般理性人的注意义务,则其制造者和销售者应当承担产品责任;三是,如果人工智能产品的生产者、销售者和人工智能的使用者都有过错(如使用者在互动中也具有过错),则区分情况认定其成立连带责任或按份责任。笔者认为,上述观点具有一定的合理性,但也存在一定的问题。这是因为:一方面,此种观点主要将生成式人工智能认定为产品,并据此认定其生产者和销售者的责任。而如前所述,生成式人工智能产品不同于产品责任意义上的产品,不宜对其适用产品责任的规则。另一方面,理性人针对的是一般的情形,因为一般理性人的标准是针对一般过错侵权所采取的过错认定标准,其很难被完全运用于技术性很强、领域极为特殊的生成式人工智能产生的虚假信息侵权。在人工智能侵权的情形下,还应当考虑人工智能的技术标准,不能简单地用一般的理性标准进行衡量,而应当考虑现有技术标准等因素,这样才能对过错作出准确的判断。
  对生成式人工智能服务提供者的过错的认定,应当坚持从特定的领域、行业和技术层面,考虑服务提供者是否尽到了最大的注意义务和损害防范义务,以进一步确定其是否具有过错。笔者认为,在确定生成式人工智能服务提供者是否具有过错时,应当以现有技术水平作为过错的标准,即便服务提供者采取了相关的技术措施,但如果按照现有的技术标准仍然可能无法消除相关的侵权内容,此时,应当允许服务提供者主张类似于产品责任制度中的“发展风险抗辩”(the development risks defense)或者“现有技术抗辩”(the state-of-the art defense)。在比较法上,一些学者已经提出,在人工智能侵权领域,“承担责任的关键,是在投放市场时,制造商是否应该知道这些错误”。也有学者从免责的角度提出:“关于《德国民法典》第823条第1款所要求的过错,德国联邦最高法院将证明责任倒置,以利于产品受害者。然而,如果自动系统出现无法预料和无法避免的错误行为,制造商得以免责。”即便是一些主张严格责任的学者也认为,应当设立一些例外免责条款,如“无设计或操作瑕疵”抗辩免责。
  笔者认为,在生成式人工智能致害的情形下,按照“现有技术水平”认定其服务提供者的过错具有重要意义,主要理由在于:
  第一,有利于鼓励和促进技术创新。尽管生成式人工智能可能输出虚假信息,但其产生虚假信息的原因是多方面的,尤其是在生成式人工智能的训练过程中,需要以海量信息为参数,而现有技术又无法完全剔除其输入时包含的虚假信息,这就难免使生成式人工智能输出虚假信息。如果生成式人工智能服务提供者在现有技术条件下已经尽到了最大的努力,仍然不能防范虚假信息的产生,此时让其承担全部责任,这就会使其承担过重的责任。客观上说,生成式人工智能因技术缺陷而产生侵权,在现有技术条件下也可能难以避免。毕竟第一次提出人工智能这个概念至今也不过六十几年,特别是以生成式对抗网络为代表的深度学习算法的提出和迭代更新,是自2014年才开始的,其仍然是一个新型的、需要不断完善的技术。也就是说,即便人工智能公司尽到了最大的努力,也不可能完全避免小概率的错误发生。如果使人工智能产品生产者承担过重的责任,必然会严重影响技术的创新。因此,生成式人工智能服务提供者只应当在现有技术条件水平下尽到防范损害的义务。反过来说,即便生成式人工智能造成了侵权损害,如果按照现有的技术水平,其服务提供者已经采取了预防损害发生的合理措施,则不宜让其承担侵权责任,这样有利于鼓励人工智能领域的技术创新。当然,按照现有的技术标准认定生成式人工智能服务提供者的过错,并不意味着其不负有预防损害的义务,这一过错判断标准也要求人工智能服务提供者所采取的技术措施要达到行业内的现有技术标准,并应当根据技术发展的需要进行不断改进。
  第二,有利于鼓励企业敢于进行人工智能领域的投资创业。在生成式人工智能造成损害的情形下,不能仅仅根据损害结果来认定其服务提供者的责任,换言之,不能简单地采取结果归责的方法,认定由生成式人工智能服务提供者负担所有的法律风险,而应当根据其在现有技术条件下是否尽到了相关的损害预防义务,而进一步认定其是否应当承担责任。采取这一过错认定标准也为生成式人工智能领域的创新留下了空间,从某种意义上说,按照现有技术标准认定生成式人工智能服务提供者的过错,也是为其提供一种法律责任的避风港,避免其动辄得咎,从而鼓励企业积极投身于这一领域的经营活动和技术创新。
  第三,符合生成式人工智能致害责任的特点。从广义上说,生成式人工智能致害责任也属于产品责任的一种类型。在产品责任制度中,存在“现有技术抗辩”的免责事由。“现有技术抗辩”是指在将产品投入流通时,如果按照现有的科学技术水平尚不能发现缺陷的存在,在此情形下,要求生产者承担责任,将不利于新产品的研发和科技水平的提升,不利于技术的创新与进步,因此,法律允许生产者可以被免除责任。“现有技术”标准的核心是在侵权发生时,按照当时的科学技术水平,相关主体是否尽到了最大的注意义务。美国产品责任法重述(Products Liability Restatement)在第二章(Section 2)“评论a”(comment a)中指出,为了使责任制度公平高效,在评判产品设计和销售时,必须考虑到销售时合理可知的风险和风险规避技术的知识。该原理也同样适用于生成式人工智能所造成的侵权责任,且与一般产品致人损害的责任相比,在生成式人工智能致害的情形下,更需要采用技术发展抗辩规则,即应当以现有技术为标准,认定其服务提供者是否具有过错。在产品责任领域,相关的技术风险是可控的,其尚且需要通过技术发展抗辩规则对产品的生产者和经营者提供保护,而在生成式人工智能领域,按照现有的技术水平,相关的风险是难以控制的,此时就更需要通过技术发展抗辩规则对其服务提供者予以保护。
  我们所说的现有技术标准,主要是针对人工智能产品的研发者和服务提供方而言的,一般来说不能作为评价受害用户的过失相抵的标准。的确,用户在使用过程中因为自身过错引发损害或者导致损害扩大的,应当适用过失相抵规则,在适用该规则时也涉及用户的过错判断标准问题。但是,用户本身一般并不具备相应的专业知识和能力,更谈不上对人工智能产品的算法及其可解释性的认知和风险预防问题,也就难以根据一定的技术标准来判断其过错。相反,用户是否有过错以及因此被主张责任减免,主要还是要根据服务提供方对操作使用说明的明确情况、对不确定风险的披露情况和用户自己是否按照指示接受相应的服务,或者是否对明确披露的不确定风险作了自我承受的承诺或者自甘风险等因素来评价。当然,用户在这些方面的过错及其责任减免的判断,仍然是以服务提供方充分提示使用要求和披露风险为前提的。
  (二)以“现有技术水平”认定服务提供者过错的内涵
  所谓以“现有技术水平”认定服务提供者过错的标准,一方面,应当以其作为认定生成式人工智能服务提供者对损害的发生是否具有过错。也就是说,在因生成式人工智能产生虚假信息等致害的情形下,即便造成了相关的损害后果,认定其服务提供者对此承担责任的前提是其必须具有过错。过错的判断就是要求生成生人工智能服务提供者能够证明,按照损害发生时的技术发展水平,可以采取必要的措施来预知和预防相应损害的发生,但服务提供者没有采取必要的技术措施避免损害的发生时,则应当认定其存在过错。另一方面,在损害扩大的情形,认定服务提供者是否具有过错,如果按照当时的技术发展水平无法避免相关损害事故的扩大,则其可以主张因不具有过错而不构成侵权责任,自然也就无需承担侵权责任。生成式人工智能服务提供者在开展相应的运营活动之前,应当做好关于可控风险的测试、预估和预防,如果在技术条件尚不成熟、无法控制相关风险的情形下,就贸然将人工智能技术投入运营,其主观上应当能够预知潜在的损害风险,在这个意义上,将不可控的技术用于运营活动本身就存在一定的过错。如果能够证明生成式人工智能的设计方案与运用管理措施符合当时技术和管理水平的一般标准,则即便造成了一定的损害后果,也不宜认定其服务提供者具有过错。换句话说,在服务提供者已经尽到当时技术水平的损害预防义务,则即便发生了损害后果,也应当将其理解为意外风险,不能基于过错责任请求开发者或者服务提供者承担侵权责任。因此,国家网信办等颁布的《生成式人工智能服务管理暂行办法》(以下简称“《管理暂行办法》”)第4条规定,提供和使用生成式人工智能服务,“基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性”。实际上也要求服务提供者应当尽到上述义务。
  生成式人工智能服务提供者如何证明其按照现有技术的发展水平已经对预防损害的发生或者扩大尽到了注意义务?在实践中,生成式人工智能服务提供者的过错的认定也涉及模型设计是否合理、操作是否适当等特殊的技术问题,这也需要结合当前的运算科学能力和操作技术水平来进行判断。具体来说,需要从如下三个层面判断生成式人工智能服务提供者的过错:
  第一,时间维度。此处的时间维度是指需要考虑技术水平的时间性,即相关技术领域在当下所积累的专业知识水平,如算法的更新迭代情况等。所有的技术都是从理论转化而来,需要一定的转化时间。人工智能产品特别是生成式人工智能的研发和应用主要还是新近的社会技术进步的结果,尚处于不断探索和试错的发展初期,随着时间的推移,相应技术水平还需要在代际更新中不断完善。例如,与以往的生成式人工智能相比,ChatGPT的互动交流准确性和有效性均有明显的提升,随着技术的发展,其造成用户损害的风险也会不断降低。有学者认为,一个会犯错误的聊天机器人,随着时间的推移,也存在不断减少“臆想”(hallucination)的现象,最终会在回应查询时逐步减少虚假陈述。因此,在生成式人工智能造成损害的情形下,原则上只能以损害发生时的技术发展水平作为认定其服务提供者对损害的发生或者扩大是否具有过错的判断标准。
  在现有技术水平下,如果有一些技术措施是能够做到的,而生成式人工智能服务提供者没有及时采取相应的措施,并因此造成他人损害的,则应当认定其具有过错。例如,生成式人工智能服务提供者没有依法公开其算法,导致算法不可解释,或者在收集个人信息时没有采取必要的技术措施,将一些敏感个人信息予以剔除,从而导致他人的敏感个人信息被不当处理。如果人工智能决策难以被人工所控制、算法不透明且缺乏可解释性,则可以认定服务提供者具有过错。
  生成式人工智能服务提供者对用户应当尽到第一时间的指导和告知义务。一般来说,能够熟练使用生成式人工智能的用户,通常对相应的技术和发展水平有一定的体验和了解,包括对其互动和回答的准确性的了解。但即便如此,服务提供者也应当对用户尽到一定的告知和指导义务,即服务提供者应当告知用户根据生成式人工智能生成的结果来决策可能造成的风险,并告知用户要么选择更谨慎的传统决策方式,要么要承担相应的风险。服务提供者的这种告知和指导义务也有利于提高用户对生成式人工智能的技术认知,并有利于相应的技术改进和性能提升。在这个意义上,服务提供方和用户应当共同承担技术研发和应用过程中的不确定风险。只不过,对于研发者和服务提供者而言,因为占据技术和信息优势,在风险的预知和控制义务上要比普通用户更高。当然,在发生损害后果后,在认定生成式人工智能服务提供者是否尽到了相应的告知与指导义务时,也应当以损害发生时的技术发展水平加以判断。
  第二,行业维度。此处的行业维度是指对损害发生时的技术发展水平的判断,应当以“现有技术”为标准,即所涉及的知识和技术必须是“以该领域专家的知识作为标准进行评估的”。概括来说,技术研发者和服务提供者应当尽到本行业先进的注意义务标准。一方面,对现有技术的判断,应当考虑本行业的特点,即应当考虑生成式人工智能本身的特殊性。例如,对合成数据的采用,现在已经是行业的普遍做法,其中包含一些数据不真实的问题,可能是本行业的普遍情况。另一方面,对于“现有技术”标准,也同样不能只符合行业标准和惯例,还需证明其符合当时可获得的先进的技术和科学知识水平。有观点认为,现有技术标准“并不考虑生产者实际或主观了解的知识状态,而是考虑生产者被认为已知的客观科学技术知识状态”。此外,还应当看到,此处的技术应当是在当时的技术条件下可获取的。因为现有技术可能存在管制和技术转让方面的障碍,甚至某些技术还具有一定的垄断性,技术权利人有可能基于各种考虑拒绝进行技术交易和分享,导致一些研发主体难以获得相应的技术。这都会影响生成式人工智能服务提供者的技术水平。因此,现有技术的判断标准还应当考虑技术的获取可能性。
  问题在于,行业标准是否需要达到本行业最先进的技术标准?对此存在一定的争议。在美国法中,有一种观点认为,应当对“现有技术”的标准作出严格要求,其要求远远高于行业习惯或行业的平均标准,它是指在制造产品时,与产品相关的风险的科学可知性,以及生产更安全产品的技术可行性。另一种观点认为,只需要达到行业的一般技术水平即可。例如,美国阿拉斯加州最高法院在一判决中认为:“我们认为应考虑产品有害性的‘科学可知性’,否则,就算强加了严格责任,制造商也没有替代方法发现风险并加以补救……制造商不是其产品的绝对当然的保险商。”应当看到,与时间维度的可获取性判断标准类似,一个行业同一技术链条中不同位置的技术企业存在水平差异。笔者认为,服务提供者能否达到本行业最高的技术水平,还需要考虑相关的技术是否已经在本行业进行推广应用,如果相关的技术尚未被推广应用,此时仍然要求服务提供者达到该技术标准,显然并不合理。
  第三,地域维度。对现有技术标准的判断还要考虑其地域性,这就要考虑技术水平的区域性,即相关国家和地区在特定历史时期所积累的生成式人工智能技术水平。讨论地域维度,需要考虑生成式人工智能领域知识的可获得性。在考虑现有技术水平的地域性时,首先要考虑技术水平的国际性,即在不存在知识国别差异和获取障碍的领域,要根据生成式人工智能的研发者与操作者可以根据合理工作付出在全球范围内获取的知识来判断是否尽到了应尽的对设计风险和操作风险的预防义务。一方面,在技术领域,除了受国家技术管制、技术封锁造成的障碍之外,知识的通用性和信息的可获取性是存在的。例如,有学者认为,在欧盟内部,荷兰的一家中小企业获取一个葡萄牙的小型科学期刊上发表的知识,相对更为容易,一般来说不构成障碍。此种观点也说明了,知识的可获取性是地域维度应当考量的因素。所以,不能简单地以可供利用的技术不由国内企业掌握而主张缺乏技术获取和应用的可能性。另一方面,在具有可获取性的前提下,尽可能地采取技术标准的国际判断视角,也有助于鼓励相应的研发者和服务提供方提升技术锚定水准,加快相应的技术升级和应用。换言之,在此种情形下考虑国际性技术水平标准,也有助于“鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定”。当然,对于这些技术问题本身的判断,常常超出了一般法官的判断能力,在存在重大争议时需要借助第三方专家同行的知识和经验来判断。
  还需要指出的是,在现有技术水平下,如果损害的发生原因无法得到有效的解释,无论是研发者还是操作者,抑或第三方专家,都无法根据相应的运算逻辑或者操作方式说明致损发生的原因,那么,应当如何配置责任?此时,如果研发者或者服务提供者能够借助专家的认知来说明,不可解释的意外的发生超出了其在当时技术水平下的预知能力,则不应当认定构成过错,其也无须对此承担侵权责任。


02

以“现有技术水平”标准认定服务提供者过错的情形  (一)关于生成式人工智能输入信息真实性的问题
  生成式人工智能之所以产生虚假信息,很大原因是其具有“大模型+大数据”的特点,难以保证所有输入信息的真实性,生成式人工智能以海量的信息为参数,而这些输入的海量信息中可能包含不少虚假信息。从法律上来说,应当要求生成式人工智能服务提供者对所使用的数据开展预训练、优化训练等训练数据处理活动,“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”,从倡导性而言,该规定具有积极意义,其有利于保障生成式人工智能训练数据的真实性,从而减少虚假信息的产生。要求所输入的信息保持真实性、准确性,是防范人工智能产品产生虚假信息的第一道防线,因为根据人工智能机器学习的原理,机器本身是无法进行事实的怀疑或者判断的,它的所有结果的输出都是基于程序员训练过程中所提供的数据。当使用者输入一个指令(prompt)后,人工智能从中提取关键要素并根据其训练数据和概率模型生成结果,用于训练的数据信息的真实度越高,人工智能可以给出的真实答案的概率也就越大。
  但问题在于,如果因为输入的信息不真实,导致生成式人工智能产生了虚假信息,那么,生成式人工智能服务提供者是否都需要对此承担责任?笔者认为,按照现有的技术条件,无法要求生成式人工智能保证所有输入的信息都是真实的信息,在认定生成式人工智能服务提供者是否需要对输入的虚假信息承担民事责任时,应当按照现有的技术条件进行判断,主要理由在于:
  第一,生成式人工智能的运行依赖庞大的数据输入,现有技术条件难以避免虚假信息的输入。从现有的技术发展水平来看,由于生成式人工智能训练过程中需要的数据量巨大,现有的技术水平很难确保所有的信息都是准确的、真实的,要求确保人工智能训练数据完全准确是几乎不可能做到的。法律法规不宜对人工智能企业科以过重的确保数据真实性的义务,只要该企业已经尽到合理的真实性审查义务,其就应当有权主张不承担责任或者减轻责任。毫无疑问,从数据收集和输入层面,应要求生成式人工智能服务提供者采取必要的措施,剔除侵害他人隐私、敏感个人信息等人格权益的虚假信息。换言之,现有技术虽然无法保障对海量信息进行一一审核,但对于明显侵害他人隐私、敏感个人信息的数据,仍应当尽可能予以剔除。
  第二,从数据输入层面看,生成式人工智能除使用来自真实世界的数据外,也越来越多地使用本就由生成式人工智能算法模型创建而生成的合成数据(synthetic data),用来模拟人类对现实世界的观察与观测,这也在很大程度上影响了输入数据的真实性。合成数据是基于算法生成的符合真实世界的数据集,它不是从现实世界中采集或测量的数据,而是从数据和统计学上充分反映了真实数据的信息。这种人工智能合成数据既可以训练出最精准的模型,也可以在训练期间即时生成数据,解决人工智能发展中所面临的诸如数据、准确性、速度、安全性、可扩展性等问题,减少了储存大数据的需要,且可以大大降低成本。《MIT科技评论》曾经将人工智能合成数据列为2022年十大突破性技术之一。因此,有些数据企业索性直接运用合成数据以避免这种数据上的风险。此外,如果企业收集的数据较少,无法满足训练人工智能所需要的数据覆盖度和新鲜度,从而影响训练结果的准确度,则企业也可能选择使用合成数据,从而保证人工智能达到良好的训练效果。也正是基于此,这种合成数据的发展前景被业界大为看好,合成数据被认为对于人工智能的未来是“必选项”,对人工智能具有“再次点火”的作用。在企业大量使用合成数据的情形下,期望保证输入的数据绝对真实,在技术层面是难以实现的。
  第三,生成式人工智能在技术层面无法有效甄别虚假信息,难以完全识别虚假信息输入行为。如前所述,生成式人工智能在生产数据时需要大量的基础数据,而生成式人工智能的运营者往往欠缺审核海量数据的技术能力,这也影响了数据来源的可靠性。正如ChatGPT团队所指出的,必须通过数据团队管理其训练数据并检测其输出内容:“模型旨在生成与训练数据相似的新内容,但训练数据中可能包含攻击性或不适当的内容……此外,大型生成式人工智能模型可以生成难以与真实内容区分开来的合成内容,这使得区分真实信息和虚假信息变得具有挑战性。” ChatGPT团队试图通过使用一系列“检测和删除不当内容的技术组合”来解决这个问题,此过程包括预审核(在该过程中,人工审核人员会在内容公开之前对其进行审查和批准)、过滤(使用自然语言处理和机器学习算法来检测和删除攻击性或不适当的内容)等技术。但是,由于生成式人工智能的运作原理是基于概率的模型,并非简单删除直接的源头信息就可以完全保证不会再出现相关错误信息,并且当删除一个错误信息源后也不能保证其他相关信息不出现结果错误,所以目前采取的这些措施仍然无法阻止生成式人工智能生产出大量的虚假信息。
  在输入的信息不真实的情形下,判断生成式人工智能服务提供者是否尽到了其应尽的注意义务,也应当按照现有技术标准认定其能否采取必要的技术措施,剔除相应的虚假信息。但是已经有技术证明,服务提供者可以采取一些技术手段将明显违法、违背公序良俗或者侵犯他人隐私、敏感个人信息的数据予以剔除,如果其没有采取相关的技术措施,则应当认定其具有过错。
  (二)关于生成式人工智能输出信息的真实性问题
  生成式人工智能最大的风险来源于其输出虚假信息而造成侵权,因此,《管理暂行办法》要求生成式人工智能的提供者应当采取有效措施,保证生成内容的准确性和可靠性。但是,不能据此认为,只要生成式人工智能输出了虚假信息,其提供者就需要承担民事责任,而应当按照现有技术标准认定其是否尽到了最大的注意义务,采取了必要的措施,以保证输出信息的真实性,主要理由在于:
  第一,生成式人工智能输出信息的真实性在很大程度上取决于输入数据的真实性,在难以保障输入信息真实性的情形下,很难保证其输出信息的真实性。如前所述,生成式人工智能生产信息依赖于一定的数据输入,即大型生成式人工智能通过机器学习模型来从数据中学习,进而生成全新的内容,如果说以深度学习为代表的智能算法是人工智能技术应用和发展的“引擎”,那么数据就是驱动该“引擎”的“燃料”。以ChatGPT为代表的生成式人工智能,其数据来源可分成三类:一是使用网络公开的免费数据;二是使用自有的数据;三是从第三方处购买的或者委托第三人收集的数据。就网络公开的免费数据来说,其种类相对单一,很难刚好符合目标学习的需要,同时其数据量也非常小,其实际功能非常有限。数据的大小往往是相对于选用的模型和想要执行的任务而言的,由于现在的人工智能模型往往对数据的要求量极大,因此,网络公开的免费数据几乎很难为公司,特别是大型科技公司训练人工智能所用。自有数据往往是企业在自身业务中积累形成的数据,如各大电商平台通过多年的积累,形成关于消费者消费倾向的数据库,金融相关行业形成的金融数据库等。从实践来看,这些数据的真实性往往较高,但依据我国民法典、个人信息保护法的规定,这些数据的利用往往受到个人信息保护等规则的限制,而且此类数据往往是企业的核心商业秘密,被其他企业获得的机会很小。因此,其他企业利用这些数据来训练自己的人工智能产品的可能性并不大。人工智能企业就被迫通过购买数据的方式来对生成式人工智能进行训练,根据Appen的调查,有88%的人工智能相关企业的受访者选择外部数据的提供商,其数据的真实性往往难以得到保障。因此,人工智能企业利用购买的数据对生成式人工智能进行训练,也很难保证数据的质量特别是真实性。
  第二,生成式人工智能在训练和强化学习的各个环节难以避免使用虚假信息。大型生成式人工智能需要的数据大多是互联网上公开可用的训练数据,而这些数据的质量可能存在一定的问题,其既包括具有真实信息来源的数据,也包括网络中的虚假信息,这导致生成式人工智能在通过网络数据进行训练和强化学习的各环节,不可避免地掺杂虚假信息,因此,生成式人工智能生产出的内容可能是带有偏见、歧视性或有害的内容。正如计算机科学领域的一句俗语“垃圾进垃圾出”(Garbage in, garbage out),要实现生成式人工智能产生的信息真实,就必须保证输入数据的内容真实。然而,现有的技术难以实现这一目标,因为一方面,人工智能产品往往有数以万亿计的数据,如果要求其对每一条数据都进行把关、审核是不可能的;现有的技术也达不到对每条数据的真实性进行辨别。另一方面,虽然对于人工智能模型,算法的进步会在一定时间内对结果的准确性有着明显的推动作用,但如果不通过加入更多更好的训练数据,算法等的改进很难再提升结果的真实准确性。因此,实现生成式人工智能产生的信息完全真实,从现有技术层面而言也是不可行的。
  第三,在生成式人工智能输出环节,现有的技术条件难以实现对虚假信息的甄别。相比于对人工智能输入信息的检查,人工智能输出信息的真实性确保可能更为困难。现在诸如ChatGPT之类的生成式人工智能的模型非常庞大复杂,比如OpenAI研究人员就曾公布GPT 3的模型参数已经达到1750亿个,而目前的技术对于数据点如何影响模型的知识十分有限,特别是对于像ChatGPT这种大型神经网络模型尤为困难,一个数据点可能会影响许多参数,并且机器学习中也存在非常大的随机性,很难将数据点与从中学到的假设相关联。也就是说,如果我们看到人工智能输出的信息出现了错误,就算修改模型的某个部分,可能改变了某个错误信息的生产,但是也可能会间接造成其他错误信息的出现,而如何让机器正确地“遗忘”错误信息的机器反学习技术(machine unlearning)仍然是一个还在探索中的技术。
  第四,生成式人工智能输出的虚假信息也可能是机器“臆想”的结果,或者是人机互动过程中产生的,现有技术条件难以有效避免此类虚假信息的产生。生成式人工智能所输出的虚假信息除了基于输入信息而产生的外,还可能是基于生成式人工智能“臆想”的结果,即人工智能可能会基于被输入的信息而“主动”分析产生一定的信息,这些信息可能是没有事实根据的虚假信息。同时,在人机互动过程中,用户也可能故意输入相关的诱导性指令(prompt),从而诱导生成式人工智能基于“臆想”产生一定的虚假信息。在现有技术条件下,很难对用户输入的信息进行甄别,也难以杜绝生成式人工智能基于其算法而产生“臆想”的信息,因此,在现有的技术条件下,很难避免此类虚假信息的产生。
  因此,要求生成式人工智能服务提供者采取措施尽可能防止生成虚假信息是必要的,但不可能保证生成式人工智能输出的信息都是真实的、准确的;即便生成式人工智能输出了虚假信息,也不宜一概认定应当由其服务提供者承担责任。还应当看到,就目前的技术来看,减少错误信息输出最简单的方法是从训练数据中删除数据点,并重新训练模型,但这种方式的成本较为高昂。因此,笔者认为,在没有出现更好、更便宜的虚假信息识别和剔除技术之前,对输出结果的正确性、真实性的要求,在目前的技术条件下更多的是一种倡导性要求。但服务提供者应当在现有技术条件下采取必要措施,尽最大努力来保证输出结果的真实性,且应当采取相应的措施,尽量减少错误信息的输出。随着技术的发展,可以要求服务提供者提供产品所输出的信息符合一定的准确性标准。比如,通过训练参数,可以大幅提高信息输出结果的准确性;又如,根据最新的技术成果,及时地改进模型等。
  此外,对于输出信息的真实性问题,除了要求人工智能企业对生成式人工智能输出的信息作出必要标识,如将此类信息打上水印,从而使人工智能产生的信息与一般的信息相区别,避免使用者因为过于信任人工智能产品而导致的损害。在欧洲,有不少学者认为,欧盟《数字服务法》的规则应当扩展到生成式人工智能开发者和接入者。生成式人工智能开发者和接入者负有监管生成式人工智能所产生的内容的义务,并且生成式人工智能产生的内容由于特别具有风险性,应当被强制标注为“人工智能生成”。在我国,《管理暂行办法》第12条也要求,“提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识”。笔者认为,针对一些涉及真实人物,或者非常会引发争议的图片或者视频,应当规定产品必须自动明显标注“深度合成”等提醒字样,或者明显地提醒观看者了解其真实程度;而在对话聊天型的生成式人工智能涉及一些查询类的问题时,需要强制提醒其回答可能并不准确等,人工智能企业至少应当在警示方面负有义务。
  (三)不宜一概规定生成式人工智能提供者对“臆想”的虚假信息承担侵权责任
  “臆想”(hallucination)是自然语言生成领域常用的一个概念,用来描述人工智能“生成内容是无意义的或不忠实于所提供的源内容”、一本正经地胡说八道的现象,“臆想”文本本身可能是十分流畅和自然的,但其内容实际上是虚假的,也很容易被提示的查询误导。生成式人工智能具有生成、发布虚假信息的能力,在收集相关的信息后,生成式人工智能也可能产生“臆想”,并据此生成大量的虚假信息。例如,前不久,法学教授乔纳森·特利(Jonathan Turley)收到了一封电子邮件,告知他被列入性骚扰名单,但其并没有性骚扰过他人。事实证明,这是ChatGPT“臆想”的结果。此类虚假信息一旦被传播,尤其是如果在发布相关信息时配上一些图片甚至声音,就会大大增加相关虚假信息的可信度。
  对于生成式人工智能“臆想”产生的虚假信息,从现有的技术层面看,不宜一概规定生成式人工智能服务提供者对此类虚假信息承担侵权责任,主要理由在于:一方面,生成式人工智能基于“臆想”产生虚假信息,是其固有的缺陷和漏洞所导致的,在现有的技术条件下难以有效克服。作为近几年诞生的生成式人工智能,其设计难免存在一些固有缺陷和漏洞。人工智能产品,如ChatGPT,其模仿人但并不具备人类真正的智能,也无法接近人类的推理能力,只能被称为“拟主体性”。从技术上说,人工智能,无论是由人工编程制定逻辑和算法的弱人工智能,还是基于程序员提供数据由机器自我训练以寻找模型或作出预测的机器学习,都是基于概率法则设计算法的。特别是越来越广泛发展的机器学习,更是大量地运用到概率论。而既然是概率,就不可能有百分之百的准确,无论是技术进步还是增加数据,也只能是尽可能提高结果的准确度。基于以上两点技术上的原因,生成式人工智能,比如ChatGPT常常存在着“臆想”现象,会无中生有地编造事实、结论和引用来源。有时“臆想”可能与正确内容交织在一起,并且以极其自然且充满说服力的方式呈现。
  另一方面,生成式人工智能基于“臆想”而产生的虚假信息也可能是在人机互动过程中产生的,用户在互动过程中也可能故意诱导生成式人工智能基于“臆想”产生虚假信息。当用户提出没有正确的现成答案的问题时,ChatGPT也可能会捏造事实来回答问题。由于“臆想”现象的存在,ChatGPT提供给人们的答案可能并不可靠。如果有人根据ChatGPT臆想的答案来行事,就会存在风险,甚至可能会产生一定的损害。用户也可能会利用其进行侵权。例如,人们在利用ChatGPT时,可以有意增加某一单词出现的频率,或者调整该单词在句子中的位置,或者给出与该单词具有关联性的单词,从而引导ChatGPT生成出用户想要的答案,这也使得ChatGPT可以绕过研发者为其作出的预先设定,得出完全不同的结论。
  当然,在现有技术条件下,虽然“臆想”具有不可控性,但服务提供者应当尽量采取相应的技术措施,减少“臆想”的发生。如果因为“臆想”发生虚假信息侵权,要确定服务提供者是否采取了技术措施予以避免,从而认定服务提供者是否应当承担责任。可以说,在人工智能时代,如何克服人工智能自身的缺陷,不断完善其算法和程序设计,对于遏制侵权的发生十分必要。
  (四)关于生成式人工智能服务提供者违反个人信息安全保障义务的责任
  如果人工智能产品的服务提供者未尽到保障个人信息安全的义务,导致相关的个人信息泄露,或者被他人不当使用或者篡改,则可能因此产生一定的虚假信息。因此,对生成式人工智能服务提供者科以保障个人信息安全的义务,对于防止产生虚假信息尤其是涉及个人的虚假信息,具有重要意义。在生成式人工智能大量处理用户个人信息时,该人工智能产品的服务提供者在性质上应当属于个人信息处理者,我国民法典、个人信息保护法关于个人信息处理者保护个人信息安全义务的规定也应当适用于该人工智能产品的服务提供者。对此,《管理暂行办法》第9条规定:“提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。涉及个人信息的,依法承担个人信息处理者责任,履行个人信息保护义务。”这些义务主要包括:一是生成式人工智能服务提供者应当依法处理个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。二是生成式人工智能服务提供者对所使用的数据应当依法开展预训练、优化训练等训练数据处理活动,涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。三是生成式人工智能服务提供者应当保障个人依据我国民法典和个人信息保护法所享有的查阅、复制、更正、补充等权利。《管理暂行办法》第11条第2款规定:“提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。”四是生成式人工智能服务提供者应采取必要的安全保护措施,防范个人信息的泄露。有研究发现,不法行为人有可能通过攻击大规模语言模型,来提取出训练数据中的隐私、敏感个人信息。如果像ChatGPT这样的大规模语言模型的训练数据中包含隐私、敏感个人信息,那么不法行为人特别是有组织的犯罪行为人就有可能通过攻击模型,来获得这些信息,从而引发隐私、敏感个人信息的泄露。而且,该研究还发现,语言模型规模越大,越容易受到攻击。还有研究指出,即使训练数据中没有某个人的个人信息,像ChatGPT这样的语言模型也有可能被用来推测他人的特征,如个人的性别、种族、性取向、年龄等,从而有可能发生对隐私和个人信息的侵害。因此,生成式人工智能服务提供者对其收集到的个人信息应当尽到相应的安全防范义务。
  上述规则均涉及生成式人工智能提供者的个人信息安全保障义务,但问题在于,如果生成式人工智能的服务提供者未尽到此种义务,侵害他人个人信息的,其是否一概应当承担民事责任?从比较法上来看,在欧盟和美国,监管机构警告称,对敏感数据进行培训的模型可能会被迫删除。英国政府在一份关注人工智能框架的报告中解释说,机器学习模型可能会受到欧盟《通用数据保护条例》(GDPR)下的数据删除的限制。例如,Paravision不当地收集了数百万张面部照片,被美国联邦贸易委员会迫使删除了数据和已训练模型。因此,关于人工智能服务提供者侵害个人信息安全,其法定责任可能并不仅限于删除数据,针对严重的情况还可能要求删除已训练的模型。这种做法实际上强调了消除产生虚假信息或者泄露个人信息的源头,从而更有利于强化对个人信息以及其他人格权益的保护。此种做法值得借鉴,即在认定生成式人工智能服务提供者的个人信息安全保障义务时,应当区分敏感个人信息与一般个人信息,对于敏感个人信息,生成式人工智能提供者应当通过设置相关参数的方式,尽可能减少对他人敏感个人信息的侵害;但对于一般个人信息,由于其范围十分宽泛,生成式人工智能提供者避免相关损害的技术能力可能有限,相关的成本也更大,此时,认定其承担民事责任的条件也应当更为宽松。


03

“现有技术水平”标准与“通知规则”的适用  “通知规则”也称为“通知—删除”规则,或“避风港规则”,它是指在网络用户利用网络服务者提供的网络实施侵权行为时,权利人有权通知网络服务提供者采取删除、屏蔽、断开链接等措施,网络服务提供者接到通知时应当及时将该通知转送相关网络用户,或者采取必要措施。只有在受害人通知网络服务提供者,要求其采取必要措施以后,网络服务提供者才有义务采取必要措施以避免损害的扩大。美国法上将其称为“避风港规则”,而我国法律将其称为“通知规则”。关于在因人工智能产品散布虚假信息对他人造成损害的情形下,是否应当适用“避风港规则”,在比较法上存在激烈争议。一是赞成说。此种观点主张,对生成式人工智能虚假信息侵权应当适用“避风港规则”。美国的“避风港规则”(即CDA230条款)可以适用在线服务的创建者、销售者和服务商,因此也可能保护ChatGPT等生成式人工智能。同时,由于生成式人工智能的新颖性,其可能存在更大的法律风险,如果不对其适用避风港规则,则可能对软件的开发人员和服务商产生负面影响,并可能使其承担过重的责任。因此,应当对生成式人工智能适用“避风港规则”。二是反对说。此种观点认为,美国的“避风港规则”旨在保护平台所发布的第三方内容,不保护直接产生信息的主体,而对ChatGPT等生成式人工智能所产生的内容而言,其并不是第三方所发布的,而是自行生成的,无论其输出的是基于训练数据而产生的数据,还是基于用户输入而产生的数据,本质上都是其自行输出的数据,因此,此种观点主张,在美国现行法上,ChatGPT等生成式人工智能很难适用避风港规则,也不应对其适用“避风港规则”。
  笔者认为,关于是否应当对生成式人工智能侵权适用“通知规则”,首先要明确生成式人工智能服务提供者与网络服务提供者之间的关系,二者具有一定的相似性,但又不完全相同:一方面,二者都要借助网络实施相关侵权行为,如提供虚假信息。随着技术的发展,在特殊情形下,虽然生成式人工智能也可以实现离线生产信息,但其利用主要是通过网络。另一方面,生成式人工智能的规制目的在于,“通知规则”可以适用于网络服务提供者,因为对于网络上的海量信息,网络服务提供者无法一一核实,否则要迫使网络服务提供者花费大量的成本审核信息的内容,这会影响信息的流通,影响互联网技术的发展。同样,生成式人工智能需要以数以万亿计的数据为参数,对于这些巨量的数据,其服务提供者也难以一一审查、把关,确定数据的真实性,在这一点上,其与普通的网络服务提供者具有相似性。所以,用户或者受害人在知道了生成式人工智能提供了虚假信息时,应及时通知服务提供者予以更正、删除或者完善算法等;只有在服务提供者收到通知后未采取必要措施时,受害人才能依法请求其承担侵权责任。
  笔者认为,应当对生成式人工智能虚假信息侵权适用“通知规则”,因为反对适用避风港规则实际上是将其作为一种直接侵权,一旦虚假信息构成诽谤等,人工智能产品的服务提供者就要承担侵权责任,这显然对其过于严苛。尤其应当看到,在现有技术条件下,人工智能产品只能进行一定程度的剔除或者修改,而无法筛查所有的虚假信息。人工智能产品如ChatGPT,其编码设计缺陷是短时期内难以克服的技术障碍,因为人工智能产品力图模仿人,其最底层的逻辑是通过概率和统计模型构成。因此,有学者将ChatGPT称为一个“助推完成工具”。它使用训练数据中的信息来构建其认为最能响应用户查询的答案。代码完全是基于概率生成的:它构建一个在统计上最有可能包含用户所寻求的内容的响应,基于它的训练数据和软件计算出的单词之间的关联。该代码将仅仅由于随机机会而生成关于某个人的虚假陈述。其设计存在固有缺陷,这就解释了为什么ChatGPT会提供看似荒谬或完全错误的回答。正是因为生成式人工智能出现了生成虚假信息而导致侵权的情形下,服务提供者自身往往难以发现,而通常需要借助用户的通知,这也是对其适用“通知规则”的重要原因。
  总之,笔者认为,在认定生成式人工智能虚假信息侵权责任时,仍然应当适用我国民法典第1195条所规定的“通知规则”,用户在使用中一旦发现虚假信息,其应当及时提出,人工智能服务提供者在收到通知后应当在合理期限内删除该虚假信息。如果其未能在合理期限内删除相关的虚假信息,则其应当依法承担相应的侵权责任。在欧洲,现在也有不少学者认为,可以利用用户的群体智慧来纠正虚假信息,应允许用户通过举报、通知等方式告知相应系统的内容审核人员,使其能及时处理虚假信息。生成式人工智能的开发人员或服务提供者有义务及时回应用户的通知或举报。这实际上也就是要适用“通知规则”。
  但应当看到,完全对生成式人工智能服务提供者适用“通知规则”,也存在一定的问题,因为一方面,其通常无须适用反通知规则,即用户在发现生成式人工智能提供的信息有误,或者提供虚假信息时,用户在通知服务提供者之后,服务提供者及时更正相关的信息或者完善算法,即可解决相关的问题,而无须适用反通知规则。另一方面,针对有些侵权内容,服务提供者在收到通知后,按照生成式人工智能发展的现有技术条件,即便服务提供者采取了相关的技术措施,仍然可能无法消除相关的侵权内容,此时,应当以现有技术为标准,允许服务提供者主张类似于产品责任制度中的“发展风险抗辩”(the development risks defense)或者“现有技术抗辩”(the state-of-the art defense),并据此主张不承担责任或者减轻责任,这也有利于降低生成式人工智能服务提供者在提供服务过程中的法律风险,从而促进该技术的发展。但现行立法尚未就此作出明确规定,未来应当在法律上对此作出完善。

04

结语

面对人工智能时代的来临,我们应当坚持发展与安全并重、促进创新与依法治理相结合的原则,采取有效措施鼓励生成式人工智能的创新发展。与此同时,我们也必须正视人工智能的侵权风险。在现有的技术能力无法完全避免此类侵权发生的情形下,有必要借助法律手段有效防范侵权发生,减少损害的发生几率。面对生成式人工智能侵权,侵权责任法在价值取向上既要防范侵权行为的发生,又要鼓励技术创新;既要对受害人提供救济,也要激励技术的创新和发展。秉持这样一种价值理念,就有必要在生成式人工智能服务提供者过错的认定方面采取现有技术标准,督促服务提供者采取必要的技术措施,防范损害后果的发生,并鼓励企业大胆进行科技创新,从而促进我国人工智能产业的健康发展。

END


往期推荐:



《比较法研究》2023年第5期要目

蔡仙:自动驾驶中过失犯归责体系的展开

邹学庚:控股股东信义义务的理论反思与类型化

冷传莉:比例原则私法化的体系定位与调整对象

田芳:宪法隐私权的道德限制——从Roe v. Wade案被推翻说起

王迎龙:轻罪治理背景下出罪模式研究——实体与程序路径的双重反思

朱晓峰:个人信息侵权责任构成要件研究

吴桂德:商业数据的私法保护与路径选择

周学峰:生成式人工智能侵权责任探析

张明楷:轻罪立法的推进与附随后果的变更

陈兴良:刑法教义学中的历史解释

解正山 | 约束数字守门人:超大型数字平台加重义务研究

中国政法大学 主办
比较法学研究院 编辑长按识别 扫码关
继续滑动看下一个
比较法研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存