查看原文
其他

生成式AI作品“合理使用”之前传:著作权侵权应如何认定?

元语洲 AI与网络法 2024-01-08


一、

引言

2023年7月13日,国家互联网信息办公室等七部门联合发布《生成式人工智能服务管理暂行办法》(以下简称“暂行办法”),并自2023年8月15日起施行。该法第七条对生成式人工智能(简称“生成式AI”)开展预训练和数据处理活动提出了知识产权合规的要求,即“涉及知识产权的,不得侵害他人依法享有的知识产权”。由此,生成式AI与知识产权之间的关系被正式写进立法。
在生成式AI著作权领域,与《暂行办法》相比,此前《暂行办法草案》对于该条的规定为“用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:(二)不含有侵犯知识产权的内容”。“不得含有侵犯知识产权的内容”与“不得侵害他人依法享有的知识产权”看似意思相同,但实则对生成式AI服务提供者提出了不同程度的合规义务。前者强调生成式AI服务提供者应对预训练数据集进行事前审核,由提供者对是否构成侵权进行实质性判断;而后者侧重于对AI预训练的过程进行动态监管,也为AI服务提供者寻求合理使用的侵权豁免或寻求获得权利人的许可预留了空间。二者相比,后者更加符合生成式AI的技术原理和司法实践。这是因为,从近期国外发生的生成式AI著作权侵权案例来看,实务界对认定生成式AI构成著作权侵权可能并没有那么简单,当学界在如火如荼地讨论生成式AI预训练数据是否适用“合理使用”的时候,国外正在发生的生成式AI著作权侵权案例却将争议焦点放在了“合理使用”的前置要件——AI生成作品侵权应当如何认定?本文主要以2023年以来美国率先开启的大模型生成式AI著作权侵权诉讼为切入点,重点针对Stability AI集体诉讼、Getty Images V. Stability AI、Open AI和Meta集体诉讼四个事件对该问题进行探讨。
需要说明的是,由于Stability AI集体诉讼是涉及生成式AI在大模型时代被诉侵犯著作权集体诉讼的第一案,原告在本案中的起诉思路和指控理由也成为了另外几起案件的“风向标”,且本案也是美国法院首个召开听证会和公开原被告诉讼文书的案件。其余三个案件的起诉书也基本遵循了与本案近乎相同的指控理由和论证思路。可以预见的是,本案的原告起诉、被告应诉以及法院判决都将对后面的案件起到重要的指引作用。因此,本文旨在对Stability AI集体诉讼案件的争议焦点、原告指控理由以及原被告答辩意见中关于著作权侵权的内容进行详细梳理,同时结合其他三个案件起诉书中的异同点进行分析,以说明当前生成式AI大模型著作权侵权诉讼在司法实践中面临的主要难题。

二、

案例分析

(一)Stability AI集体诉讼
2023年1月,美国三名艺术家Sarah Andersen、Kelly McKernan、Karla Ortiz代表其他集体诉讼成员(以下统称为“原告”)对Stability AI Ltd.(英国),Stability AI Inc.(美国),Midjourney, Inc.(以下简称“Midjourney”),DeviantArt, Inc.(以下简称“DeviantArt”)四名被告发起集体诉讼,指控四位被告所使用的生成式AI图片产品(以下简称“AI产品”)在未经用户同意下擅自爬取了数百万甚至数十亿张受著作权保护的图像的未经授权的副本用于训练模型和生成AI图片。
值得注意的是,本案的始作俑者是由Stability AI Ltd.和Stability AI Inc.(二者统称为“Stability AI”)共同开发、训练、维护的AI产品Stable Diffusion,其能够根据用户的文字提示(text prompt)在作品库中寻求与之相匹配的既有图片进行学习和训练,从而随机生成与符合该文字提示或者描述相类似的AI生成图片。[1]Midjourney和Deviant Art之所以被牵涉其中,是因为二者开发的AI图片产品均使用了Stable Diffusion作为其图片生成引擎。2023年4月18日,四位被告分别针对原告的指控提交了驳回原告诉讼的动议。[2]2023年6月3日,原告就被告的驳回动议提交了申诉意见。2023年7月3日,被告提交了针对原告答辩的答辩意见。2023年7月19日,在加州法院召开本案的听证会上,负责此案的加州联邦法官表示,他倾向于驳回原告的诉讼动议,但允许原告重新主张自己的诉讼请求及理由陈述。[3]本文基于对本案起诉状(Complaint)以及Stability答辩意见的整理,对本案的争议焦点、原告指控的理由以及原被告围绕驳回动议的答辩意见进行如下梳理。
1. 原告的起诉书内容
本案是依据《美国联邦民事诉讼规则》第23(b)(3)而提起的集体诉讼,适用前提为该诉讼具有主导性的共同问题(Commonality & Predominance)。原告认为,本案具有7个主导性的共同问题,分别为(1)直接侵犯著作权(Direct Copyright Infringement)、(2)间接侵犯著作权(Vicarious Copyright Infringement)、(3)违反《美国数字千年著作权法》(DMCA Violations)、(4)侵犯形象权(Right of Publicity Violations)、(5)不正当竞争(Unlawful-Competition)、(6)禁令救济(Injunctive Relief)、(7)预期防御(Anticipated Defenses)。在上述7个问题中,与生成式AI爬取数据侵犯著作权为两个方面:一是生成式AI收集、训练及输出AIGC作品的过程是否侵犯了原告的著作权;二是被告未经原告许可而删除或修改其作品的CMI是否构成侵犯著作权。这两个争议焦点也是当前生成式AI在收集和使用训练数据集过程中最容易,值得我国业界予以前瞻讨论。本文仅就上述问题(1)和(2)对生成式AI的著作权侵权认定进行探讨。
其一,关于被告是否直接侵犯著作权的问题。该侵权行为包括两个方面:一是被告下载和存储原告的作品副本是否侵犯原告的著作权;二是被告未使用原告的作品副本以训练其AI产品是否侵犯了原告的著作权。原告主张该诉讼请求的主要理由在于(节选):(1)原告依法享有对被告用于AI训练的作品或图片的著作权;(2)被告未经原告授权而从事以下侵权行为:(a)将其作品用于训练机器学习、AI、计算机编程或基础性预测引擎;(b)将其作品与Stability AI, Deviant Art, Midjourney或相关的生成式AI产品进行结合使用;(c)下载、存储、分发其作品副本用于训练和生成AI图像作品;(d)在原告作品上创造衍生作品并;(e)擅自传播其作品;(3)被告的行为损害了原告的利益;(4)被告直接或间接从其侵权行为中获利;(5)被告出于商业目的而侵犯了原告的版权作品;(6)被告使用训练图片副本与其AI产品相结合来生成电子图片和其他结果,而这些输出结果只根据训练图片生成而无需再添加其他新要素(旨在增强训练图片与输出结果的关联关系)。
其二,关于是否违反DMCA的问题。根据DMCA§1202的规定,任何人未经著作权人或法律授权不得故意删除或更改著作权管理信息(CMI)。因此,被告移除了原告作品的CMI或故意使其AI产品生成的作品遗漏了CMI的行为是否违反DMCA的上述规定。原告主张该诉讼请求的主要理由在于(节选):(1)原告作品包含了著作权声明、作品的标题和其他标识信息、作品创作者的姓名和其他识别信息、该作品的著作权人的名称和其他识别信息这四项CMI内容;(2)被告没有主动联系原告并取得其对于删除或修改CMI的许可;(3)被告在明知其没有取得许可的情况下移除和更改了原告作品的CMI,这也使得用户难以通过AI生成图片的CMI联系原告并取得其许可;(4)被告删除和更改CMI助长了用户生成和复制AI生成图片的侵权行为,导致原告无法得知一张AI生成图片究竟是在多少作品的作用下训练而成,也难以证明该AI生成图片源于他们的作品,使得原告的侵权行为更为隐秘。
值得一提的是,原告在本案中专门就Deviant Art违反其用户服务协议向Stability提供原告作品用于训练数据集的行为提出了合同违约的诉讼请求,指控Deviant Art实质性地违反了其自身的隐私政策和服务合同,包括:(a)与未经授权的第三方共享原告的个人数据;(b)违反规定出售和分发原告的个人数据;(c)在宣称已经删除用户数据的情况下仍继续使用;(d)在其政策范围外使用和传输用户数据。
在起诉书的事实部分,原告首先分别针对Stability AI、Midjourney和Deviant Art的基本信息、AI产品的技术原理及其与Stability Diffusion之间的关系进行论证。其次,原告对Stability Diffusion训练数据最重要来源的大模型AI数据集网站LAION进行介绍,披露了LAION数据集来源在两个方面的违法性:一是LAION其于2021年发布的LAION-400M数据集所包含的4亿个训练图像实际上是未经图片著作权人和网站运营者的同意擅自复制和爬取而来;二是Stability为了获取更加充分和高质量的数据集,付费支持LAION开发了一个包含超过58.5亿图片数量的数据集LAION-5B及其子集(subset)LAION-Aesthetics,其中LAION-Aesthetics数据集中47%的图片是从100个网站爬取而来,而Deviant Art也是其重要的数据来源之一。原告诉称LAION-Aesthetics数据集中约有330万来自Deviant Art的图片。最后,原告控诉Deviant Art选择拥抱AI生成图片市场而背叛了其画家团体,在违反了自身用户服务协议的约定,未经著作图片权人的同意之下允许Stability基于商业目的对其网页进行数据爬取,侵犯了画家们的著作权。可见,原告旨在通过上述指控事实由内到外地论证Stability的侵权行为成立:一是Stability Diffusion使用的LAION数据集在源头上就已存在侵权事实;二是Stability和Deviant二者之间互为提供AI生成引擎技术和训练数据集,在行为上亦存在侵权事实。
2. 被告提出驳回动议的理由
针对原告的诉讼请求,Stability AI于2023年4月18日提出驳回原告诉讼的动议请求,理由如下:
其一,直接侵犯著作权不成立。Stability AI认为原告的该项指控不成立,理由在于:(1)原告没有在起诉前取得本案涉及作品对应的著作权。Stability AI在此引用了美国最高院的判例[4],指出原告部分著作权是在起诉后才登记。例如,原告Sarah Andersen在起诉前只有16项登记的著作权,但其并未指明被告哪些AI生成图片侵犯了其对应的著作权作品。而其余两名被告McKernan和Ortiz在起诉前均没有享有任何著作权作品,故其著作权侵权的指控应不予支持;(2)原告没有针对单一的、具体的直接侵权行为进行指控。被告通过引用判例来论证对于著作权直接侵权的指控应当足够充分(sufficiently)且应当满足“实质性相似”的标准。[5]原告只是笼统地指出被告AI产品生成的图片侵犯了其作品著作权,但并没有明确是哪一张具体的AI生成图片存在侵权情形。被告采取将计就计的答辩思路,巧妙利用了原告关于AI生成图片技术原理部分的事实陈述漏洞,即“一般来说,Stability Diffusion的输出图片中没有一个是相同的,用户根据特定的文本提示而提供的信息很可能与任何特定的训练数据中的图片相似”。因此,原告在起诉状里的事实陈述恰好表明被告AI生成图片可能与任何人的作品存在关联,而非仅仅与原告的作品存在实质性相似。被告藉此削弱了原告作品与AI生成图片“实质性相似”的关联性;(3)Stability Diffusion不是一个拼接工具(collage tool),而是允许用户通过文本提示创造全新和独特的图片,其生成图片也不构成原告作品的衍生作品。
其二,关于违反DMCA的答辩理由。针对原告主张被告未经许可删除和更改其作品CMI的观点,Stability AI的答辩理由也很简单,即在第一个问题答辩理由(2)的基础上分别引用了多个判例,提出了三个方面的答辩理由:(1)原告无法准确、具体地指出是哪张作品的CMI被非法删除,也无法指出被告究竟删除了哪些CMI内容[6];(2)原告缺乏可信证据来证明被告在明知其爬取数据中包含原告作品的情况下仍故意删除或更改其作品CMI[7];(3)对于被告删除CMI将引诱、促使或者隐瞒其侵权行为的指控,原告无法提出确切的行为模式和侵权路径来证明被告的行为将造成上述后果。可见,Stability AI抓住了原告的举证漏洞寻求答辩策略,结合过往判例、AI图片生成路径的不确定性及原告的举证不能等方面进行切入进行答辩。
综上所述,在本案中,虽然原告以被告未经其许可违法复制和爬取图片数据为由提出了侵犯了著作权、违反了DMCA以及构成不正当竞争等诉讼请求。尽管原告在起诉状主导性的共同问题中的“预期抗辩”部分指出被告可能会引用“合理使用”作为抗辩理由,但被告在其首次答辩中并没有直接援引“合理使用制度”,而是结合过往判例,紧扣原告的举证漏洞,围绕AI生成图片在数据来源上的模糊性和复杂性,及其与著作权人作品之间的关联性进行质证,旨在论述原告不能也不可能证明AI生成图片到底侵害了哪一张具体作品的著作权,将案件的争议焦点置于“合理使用”抗辩之前的“侵权作品认定”阶段。
3.原告关于被告驳回动议理由的回应
2023年6月2日,原告就被告的驳回动议提交了答辩意见[8],主张其关于著作权侵权的指控成立,具体答辩理由如下:
其一,原告对涉诉侵权作品的主张符合起诉条件。针对被告认为原告未提交具体侵权作品的意见,原告引用了Perfect 10, Inc. v. Cybernet Ventures, Inc., 167 F. Supp. 2d 1114, 1120 (C.D. Cal. 2001)案例以主张著作权侵权并不需要对具体侵权作品进行具体的指控。该案的原告主张被告的网站存在成百上千的侵权摄影图片,法院在该案例中认为,如果要求原告对每张涉诉图片作出具体的说明和指控,则将违背《美国联邦民事诉讼规则》第八条所确立的“简单而明确的陈述”的要求,因此判定其指控已具体充分。原告认为,除非Stability AI 能够证明本案的侵权作品与上述案例类型不一致,否则其主张的“指控不具体和不充分”理由不能成立。
其二,原告已对被告侵犯其著作权作出充分指控。针对被告提出的“实质性相似不足”的理由,原告认为“实质性相似”并非著作权侵权的构成要件,而只是一种帮助法院识别被诉侵权作品是否使用了原告作品中独创性要素的判断方法。在美国的司法实践中,如要证明侵权行为的成立,原告应当证明被告已接触了原告的作品且原被告的作品具有实质性相似。在这里,“实质性相似”可以用来判断以下两个不同的概念:一是“复制”,即被告对原告作品进行的复制行为(而非独立创作);二是“非法使用”,即被告对原告受著作权保护的作品进行了复制(而非不受保护的作品)。因此,原告认为是否构成实质性相似并不是认定被告侵犯其著作权的唯一标准,仅这一个理由就足以驳回被告的反对动议。
除此之外,为了补强本次起诉的指控理由,原告强调著作权人对其注册作品享有包括复制、发行、公开展示、表演和创作衍生作品在内的专有权,并从以下四个方面增加了被告的侵权理由,包括:(1)Stability AI复制原告作品来训练其AI产品的行为直接侵犯了原告的复制权;(2)Stability AI 通过 Stability Diffusion 和Dream Studio 存储和分发原告作品的行为直接侵犯了原告的发行权,而发行权并不涉及“实质性相似”的判断;(3)Stability AI 创作和发行的AI产品Stability Diffusion 和Dream Studio 是由大量的侵权作品构成,因此本身就属于直接侵权的衍生作品,无需使用“实质性相似”进行判断;(4)Stable Diffusion和DreamStudio的输出图像属于直接侵权的衍生作品。显然,原告希望通过上述四个理由补强起诉书指控理由不充分的暇疵,避免陷入“实质性相似不足”的困境。
其三,原告指控能够满足“实质性相似”的测试要求。原告在回应中指出,被告以“实质性相似不足”作为驳回动议的理由是被告使用的“障眼法”(red herring)。实际上,即使原告的起诉理由未满足“实质性相似”的标准,也不影响本案的开庭审理,对于“实质性相似”的判断应当交由庭审阶段来解决,而非在起诉阶段来决定。此外,原告为了强调本案的“实质性相似”难以判断,继续坚持了起诉书的观点,即“任何一个被告生成式AI产品输出的图像都不可能与任何原告特定的作品相匹配”。因此,原告主张法院可以从被告的AIGC图片和原告作品之间合理推测二者之间具有“实质性相似”,以此避免该案的诉讼程序因“实质性相似”而被驳回。
4.被告对原告答辩意见的回应
2023年7月3日,Stability AI回应了原告的上述答辩意见[9],并开门见山地指出,原告的诉讼请求之所以不能成立,不仅是因为其指控理由不够具体、充分,还在于其缺乏支撑上述指控理由的诚信基础(Good Faith),表现在以下方面:
其一,两位原告自始缺乏起诉的权利基础。原告不仅没有为McKernan和Ortiz这两名原告未取得著作权的事实补充证据,反而承认了二者在未取得注册著作权情况下就提起了诉讼,而且两位原告也没有提出驳回动议的反对理由。
其二,原告安德森的著作权侵权指控也无法奏效。对于在起诉前已取得16项注册著作权的原告安德森来说,Stability AI对其指控提出了4点反对理由:
1)安德森的指控应限于已登记的16个作品,其他未登记的作品不应包含在内;
2)安德森未能明确提出任何具体的被侵权作品。Stability AI指出,原告试图以Perfect 10, Inc. v. Cybernet Ventures, Inc.的案例来说明其无需就具体的侵权作品起诉,但该案例引用的并不恰当。因为原告的已注册作品仅16个,远远未达到该案例中所提到的成百上千的作品数量,要求其提供具体的被侵权作品几乎不可能会损害《美国联邦民事诉讼规则》第八条的制度;
3)安德森的直接侵权理由也不成立。Stability AI指出,原告既无法证明被告被诉AI产品输出的图片与其具体特定的作品构成实质性相似,也无法证明被告直接侵犯著作权的可能性。相反,原告承认了Stability AI的生成式AI产品输出的图片不太可能与原告作品进行匹配。该观点也与原告指控其AI产品及AIGC作品构成侵权衍生作品的自相矛盾,因为即使侵犯衍生作品的著作权也需要符合实质性相似的判断基础。Stability进一步强调,原告主张无需证明实质性相似,由法院合理推测作品之间构成实质性相似的观点也是不成立的;
4)原告安德森的Stability AI“压缩”(Compression)理论也无法奏效。Stability AI 指出,原告在回应中指控被告的产品Stability Diffusion因压缩和存储了侵犯著作权的训练数据副本而属于侵权衍生作品,该指控毫无依据且背离技术原理。事实上,原告之所以没有解释Stability Diffusion“压缩”的训练数据是否与其作品构成实质性相似,是因为他们对技术原理的理解有误——Stability Diffusion本身并不存储任何著作权作品或其他作品的压缩副本,而只存在对从第三方渠道获取的数据进行训练的过程。换句话说,由软件代码构成的AI产品与图片作品之间不可能具有实质性相似的客观基础。因此,原告的指控应当被予以驳回。
5.美国法院就本案听证会的意见
2023年7月19日,本案的首个听证会在美国加利福尼亚州北区地方法院举行。法官 William Orrick 听取了关于 Andersen v Stability Ltd 案中被告驳回动议的口头辩论,认为原告有关输出图像的合理性不足,因为其无法证明自身作品与被告生成式AI创建的图像之间存在实质性相似,因此法官倾向于驳回原告的申诉,同时允许原告重新陈述自己的主张。此外,法官指出,三位原告中只有Andersen女士可能有权参与本案的二次答辩并对Stability AI主张索赔请求,因为另外两名原告未能在起诉前取得登记的著作权作品。[10]
该案作为大模型时代下生成式AI著作权侵权诉讼的第一案,本案当事人在过去半年间已进行了两轮争锋相对的诉前对抗,并将实务界对于此类案件的关注点导向了著作权侵权认定的问题之上,逐渐呈现出与理论界聚焦讨论AIGC版权与“合理使用”问题的二元分立之态势,笔者认为该现象的原因有二:一方面是源于美国本土丰富的判例法实践,“遵循先例”使得被告能够提出包括“申请赔偿的著作权应当在起诉之前予以登记”、“符合实质性相似标准的侵权指控需具体、准确”、“须有确切的证据证明被告删除CMI的具体内容和侵权行为”等抗辩理由;另一方面系源于AI技术与法律制度的内在冲突,具体表现为生成式AI在数据收集、预训练及输出结果阶段存在极大的复杂性和不确定性,导致著作权人难以建立起AI生成作品与其著作权作品之间存在因果关系的证明桥梁。只有在确定AI生成作品与其爬取的著作权作品数据之间存在关联性,才能确定具体有哪些作品的著作权受到侵害,进而才可能讨论是否适用“合理使用”的问题。只有在法院最终驳回了被告驳回动议的答辩意见,并支持原告对于被告侵权行为的认定,被告才有可能继续拿起“合理使用”的盾牌进行防御,需要视本案接下来的发展方向而定。
(二) Getty Images V. Stability AI
无独有偶,继三名艺术家提起Stability AI集体诉讼后,2023年2月3日,全球知名图片运营商盖蒂图片(以下简称Getty)在美国特拉华州地区法院单独针对Stability AI提起诉讼,指控Stability AI在未经许可之下擅自从Getty的图片库中复制了超过1200万张图片以及相关文本和元数据来训练其 Stable Diffusion 模型。
1.本案与Stability AI集体诉讼案的对比
由于两个案件都涉及图片作品的著作权侵权问题,且Stability AI被指控的侵权行为如出一辙。在本案中,原告针对Stability AI的侵权行为提出了版权侵权、提供虚假版权管理信息(CMI)、删除或更改版权管理信息(CMI)、商标侵权、不正当竞争、商标淡化和欺诈交易行为七个诉讼请求,与Stability AI集体诉讼案相比增加了提供虚假CMI、商标淡化及欺诈交易。由于两个案件的案由、当事人及被诉侵权行为都基本相同,故上述共同的诉讼请求及对应的理由也相差无几,本文对此不再赘述。仅对两个案件的差异部分进行分析。从生成式AI侵犯著作权的角度而言,本案值得关注的差异部分在于,Getty是如何举证和论证Stability AI侵犯CMI和商标?这种指控的事实是否清楚、理由是否充分呢?
2.两个案件的差异原因
根据Getty在起诉书中的陈述及其官方网站的说明,Getty的指控得益于其网页对图片作品的一系列保护措施。一方面,Getty对其网站展示的图片资产采取了以下侵权保护技术:(1)关于图片的标题及著作权的原创说明(如图一所示);(2)在图片中固定带有内容标识的水印和作者信息(如图一所示);(3)包含著作权管理信息相关的元数据等(如图二所示)。正是因为这些防御机制的存在,Stability Diffusion将爬取的Getty用于生成新的AI图片时将不可避免地产生具有类似的水印痕迹,从而使得Getty更容易通过被爬取图片上的水印、作者信息及CMI来取得Stability AI的侵权证据,与前述自然人著作权侵权相比具有更强的取证和举证能力,也更容易证明侵权事实的成立。
图一来源:盖蒂图片官网
图二来源:盖蒂图片官网[11]

另一方面,Getty从数百万张图片中选取了7216个样本以证明Stability Diffusion在未经其许可下对其作品进行预训练。这些包含Getty作品CMI的水印作品后生成的输出图像与其原作品存在高度相似(如图三所示)。其中有些AI生成图片甚至还留存着部分带有Getty商标的水印,容易使他人误认为这些图片出自Getty,而有的图片经AI训练后变得怪诞或者丑化,也可能导致Getty的社会评价降低(如图四所示)。正因如此,Getty认为,Stability AI和其他用户通过使用其经开源的Stable Diffusion和 Dream Studio 对Getty图片作品CMI的修改以生成新的AI图片,并向用户提供风格相似、且具有Getty商标的AI作品,既属于非法删除或修改其作品CMI,也构成了商标侵权。

可见,与前案相比,虽然本案的案由、被告及侵权行为都基本相同,但本案原告Getty在起诉中展现出来的证据和事实均比前案更为充分和具体,不仅明确列举额了Stability AI具体侵犯了哪些作品,还通过对比经AI修订后的生成图片与之相对应的原图片在水印上的相似之处来证明Stability AI生成图片的数据就是源于其著作权图片,从而解决了前案被告提出的“无法提供实质性相似的具体案例”问题,也更有可能证明侵权行为的成立。由此可延伸思考的问题为,对于上述两个案件涉及的AI图片作品侵权的证明标准而言,原告应当如何确定自身作品与AI生成作品之间构成“实质性相似”的关系?AI生成作品删除和修改原作品的CMI后是否还能适用“合理使用”呢?这些仍有待继续关注案件的最新进展。

图三来源:Getty诉Stability AI起诉书
图四来源:Getty诉Stability AI起诉书
(三) Open AI 和 Meta 集体诉讼
2023年6月28日,就在Open AI因其生成式聊天AI产品ChatGPT涉及非法盗取数据而被提起集体诉讼的同一天,两位美国作家PAUL TREMBLAY 和MONA AWAD 代表其他原告针对Open AI提起了著作权侵权集体诉讼。2023年7月7日,美国三位作家Sarah Silverman、Christopher Golden和 Richard Kadrey代表其他原告提起了针对Open AI的第二项著作权侵权集体诉讼;同日,美国作家Richard Kadrey、Sarah Silverman 和 Christopher Golden代表其他原告针对Meta公司的发起了著作权侵权集体诉讼。

1. 本案与前案的对比

相较于Stability AI的集体诉讼而言,围绕Open AI和 Meta发生的集体诉讼案件虽然同样都是与著作权侵权有关,原告指控的侵权行为也都表现为未经著作权人同意而擅自爬取其作品数据以训练和生成AI衍生作品。根据原告代理人的说明,Open AI和 Meta 使用的训练数据集中的大部分材料都来自受版权保护的作品(包括原告撰写的书籍),而且这些作品是 Open AI 和 Meta 在其未经同意、授权及支付对价的情况下复制的。[12]据此,原告对Open AI和Meta提出了直接侵权、间接侵权、非法删除与错误提供作品CMI、过失侵权、不正当竞争等指控理由,与Stability AI案件相比增加了不当得利和过失侵权两个请求。除此之外,二者最显著的区别在于著作权侵权客体的不同。Stability AI的被诉侵权客体为图片作品,而Open AI和Meta的被诉侵权客体为文字作品。结合上述案件的起诉状、原告提交的证据以及被告的答辩理由来看,侵权客体的不同将直接影响原告的举证难度。

2. 四个案件的差异原因

首先,对于图片作品而言,原告需要确保其所主张的侵权作品在起诉之前已取得著作权登记,以及提供被告AI产品侵犯其著作权的具体输出图片。然而,原告的图片作品虽然是确定的,但被告AI产品基于爬取和训练原告作品所生成的图片作品却是不确定的,既可能是单独基于原告作品训练而来,也可能是掺杂或融合了原告作品及他人作品的训练数据后输出的结果。故二者之间的关系并非一因一果,而是一因多果或者多因一果。正因如此,在Stability AI集体诉讼案件中,原告在起诉书中指出“用户根据特定的文本提示而输入的信息很可能与任何训练数据集中的图片相似”,反而给被告留下了缺乏“具体指控”和“实质性相似”的答辩理由。但在Getty诉Stability AI一案中,原告通过自身的水印机制让被告的生成式AI产品在预训练数据过程中被动地生成了带有原告商标和水印图像的作品图片,这也能给AI侵权作品留下具体且明确的“具体指控”,从而避免了出现前案的举证难题。这足以说明针对AI生成图片侵权的举证难题并非不可克服,而须依赖于未雨绸缪的反侵权措施,从而防患于未然。

其次,对于文字作品而言,原告除了同样需要取得著作权登记外,还应提供被告AI产品根据用户提示(Prompt)所生成的具体文字或聊天内容。此时原告的作品是确定的,被告基于用户提示及经爬取和训练原告作品所生产的文字内容也是确定的。原告在Open AI集体诉讼中提交的证据直观地展示了ChatGPT是如何根据用户提示而生成对应的文字内容。譬如,用户输入的Prompt为:“请总结和归纳Paul Tremblay 原著《The Cabin at the End of the World》第一部分的内容”。ChatGPT据此输出的结果即为关于该作品第一部分的完整、准确的原文内容,而不存在其他作品的贡献因素。在这种情形下,AI生成作品和原作品之间存在一因一果的对应关系。因此,在Open AI和Meta的起诉状中,与Stability AI“缺乏具体指控”不同,原告不仅提交了具体、明确的被侵权作品名单,而且都重点强调了如果被告的生成式AI产品没有从原告作品中爬取和存储相关的表达内容则将无法发挥作用(cannot function),从而论证了文字作品与AI生成作品之间的对应关系。

最后,图片作品与文字作品出现差异的根本原因在于生成式AI在训练和处理图片数据和文字上的技术路径存在不同。从上述起诉书的技术解析来看,生成式AI对图像的处理需要通过其扩散模型的正向扩散(加噪)和反向扩散(去噪),而加噪和去噪过程存在不确定性(如加入随机种子或者人为调整参数)而导致最形成的图片也具有不确定性。相比之下,文字作品的训练过程相对简单,只要爬取到对应的作品数据,AI的大语言模型在经过自然语言处理后可基于统计概率的文字接龙即可生成输出符合用户提示要求的答案,因此很容易生成与原作品一一对应的内容。

三、

小结

综上所述,虽然学界当前热议的“合理使用”是生成式AI提供者在著作权侵权困境中寻求破局的关键因素,但上述以Stability AI 集体诉讼为代表的系列生成式AI诉讼案件表明,合理使用并不是生成式AI侵犯著作权纠纷在当前阶段首当其冲的问题,实务界在讨论合理使用之前需要首先解决以下三个问题:其一,生成式AI模型在训练阶段和输出阶段均存在侵犯他人著作权的风险(训练阶段表现为使用未经授权或非法的数据源来训练作品而可能侵犯复制权、修改权、汇编权、保护作品完整权等;输出阶段表现为未经著作权人同意而以自己的名义生成和分发其衍生作品,可能侵犯作品的发行权、表演权、信息网络传播权等),那么应当如何适用“接触+实质性相似”原则来解决这两个阶段涉及的作品侵权认定难题呢?其二,面对原告难以就被告生成式AI产品非法获取训练数据进行取证和举证的现状,司法实践应当如何认定被告存在“接触事实”,是要求被告举证责任倒置以“自证清白”,抑或是统一让原告承担无法举证的不利后果?其三,对于文字、图片、视频等不同类型作品的生成式AI著作权侵权案件,“接触+实质性相似”的传统判断标准应当如何适用在具体个案中呢?
归根到底,上述案件揭示了传统著作权判定标准在面对生成式AI技术产物时所产生的适用难题。就当前国际司法实践普遍遵循“接触+实质性相似”判定标准而言,著作权人要主张证明生成式AI作品构成侵权至少需要满足以下两个层面的证明条件:一是关于生成式AI收集预训练数据属于非法来源的直接证明。在上述案件中,著作权人均难以提交能够证明被告生成式AI数据来源的直接证据,仅能通过旁敲侧击地引述公开的新闻报道、被告在公开场合的产品介绍以及指控被告可能使用“影子图书馆”(Shadow libraries)等间接证据,并在起诉书中使用了“On information and belief”的前缀表述对被告预训练数据的非法来源进行描述,以此表明原告无法对该描述事实的真实性负责,也从侧面反映出原告在生成式AI著作权侵权诉讼中存在明显的举证困难。法官是否会根据这些间接证据认定被告具有接触原告作品的机会和事实,目前仍不得而知;二是关于指控生成式AI作品与原告作品构成“实质性相似”。在上述案件中,原告首先需要确保其在起诉前已取得被诉作品的著作权。其次需要确定被告的AIGC产品侵犯了哪一个具体的作品,最后需要具备充分、确切的事实理由来证明被告的AIGC作品与其作品之间构成一一对应的实质性相似。然而,由于生成式AI在训练和生成图片作品和文字作品上的路径具有差异性,这也直接影响了原告举证的难易程度。与仅通过Prompt就能一一对应的文字作品相比,图片作品的侵权认定存在复杂性、模糊性及不确定性,但这并不意味着判定图片作品的“实质性相似”不具可行性。在Stability AI作为被告的两起案件中,原告对于被诉图片作品的侵权主张就呈现出模糊和确定的二元差异,根本原因就在于Getty针对被诉作品建立了完善的著作权信息管理机制,使得Stability Diffusion生成的图片作品“粘贴”了与原告作品相似的商标水印和CMI信息,这也能很大程度上增强法官支持作品构成实质性相似的内心确信。最后,从Stability 集体诉讼案件的最新进展来看,美国法院接下来关于是否支持被告驳回动议的裁定将直接影响到其他三个案件乃至其他州法院相似案件的未来走向,生成式AI侵犯著作权该如何认定,“接触+实质性相似”的著作权侵权判定原则应当如何适用此类案件,著作权人应当如何就不同类型的AIGC作品(包括图片作品、文字作品乃至视频作品)构成“接触实质性相似”进行举证和说理,相信这些问题都将在这些新兴的诉讼中找到答案。


注释

鉴于篇幅原因,略去原文参考文献部分。
[1] 例如,如果用户在Stable Diffusion中输入“一只戴着棒球帽的狗在吃冰淇淋”类似的文本提示,Stability Dif fusion即可生成与该文字描述相类似图像,这就如同在搜索引擎上运用关键词搜索得到相应的结果。
[2] See https://storage.courtlistener.com/recap/gov.uscourts.cand.407208/gov.uscourts.cand.407208.58.0.pdf

[3] See https://www.lexology.com/library/detail.aspx?g=fbc46704-bc39-4599-a49b-caf663247d46

[4]See Fourth Estate Public Benefit Corp. v. Wall-Street.com, LLC, 139 S. Ct. 881, 886 (2019)
[5]See Skidmore v. Led Zeppelin, 952 F.3d 1051, 1064 (9th Cir. 2020)
[6]See Free Speech Sys., LLC v. Menzel, 390 F. Supp. 3d 1162, 1175 (N.D. Cal. 2019) (Orrick, J.)
[7]See Harrington v. Pinterest, Inc., 2022 WL 4348460, at *5 (N.D. Cal. Sept. 19, 2022
[8]See https://storage.courtlistener.com/recap/gov.uscourts.cand.407208/gov.uscourts.cand.407208.66.0_1.pdf
[9]See https://storage.courtlistener.com/recap/gov.uscourts.cand.407208/gov.uscourts.cand.407208.73.0_2.pdf
[10]See https://storage.courtlistener.com/recap/gov.uscourts.cand.407208/gov.uscourts.cand.407208.92.0.pdf
[11]See https://www.gettyimages.com/detail/photo/aerial-view-of-icebergs-beneath-stor%C3%B8en-island-near-royalty-free-image/1470613309
[12]See https://llmlitigation.com/index.html#contact


作者简介

元语洲,广东财经大学智慧法治研究中心研究人员

声    明

本公众号原创文章的著作权均归属于AI与网络法团队,需转载者请在本公众号后台留言或者发送申请至cyberlaw2018@outlook.com,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。      

本文并非针对任何产品或服务的法律意见书。本文结论仅是根据作者搜集的资料产生的、暂时性的理论研究结论,可能存在不准确。本文不代表任何人或机构的正式意见。本文仅为交流之用,所有内容不构成对任何个案的意见、建议或观点。作者和本公众号明示不对任何根据本文任何内容的作为或不作为所导致的后果承担责任。


关于AI与网络法团队:

我们的目标是原创与分享人工智能和网络法领域最前沿的文章与资讯,为中文世界带来更多的知识增量。


联系方式:

cyberlaw2018@outlook.com


更多往期文章请点击:

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存