查看原文
其他

潘香军|论机器学习训练集的著作权风险化解机制

潘香军 上海市法学会 东方法学
2024-10-09

潘香军

香港大学法律学院硕士研究生

要目

一、问题的提出
二、机器学习训练集的侵权风险
三、著作权法的制度回应及反思
四、机器学习训练集的著作权风险化解机制

训练集是机器学习中不可或缺的重要源泉,以大数据“喂养”为基础的新型人工智能在输入端亦可能存在侵犯作品复制权、翻译权、改编权的风险。现行立法对于训练集的规制和利用尚存在真空地带,著作权法框架下的合理使用、法定许可、知识共享协议等相关制度均无法有效应对机器学习训练集面临的著作权挑战。对此,提出一种风险化解机制,阐述在安全港规则之下,通过构建安全港进入与退出的具体路径,配合相关的技术措施,从而克服现有制度的不足,突破训练集使用作品的困境。

一、问题的提出

在人工智能浪潮的席卷之下,Stable diffusion与ChatGPT等机器学习新型应用横空出世。2023年3月,OpenAI再次实现深度学习的里程碑式跨越,推出了GPT-4。作为一个大型多模态模型,它使用来自人类反馈的强化学习来训练模型,建立了一个可预测扩展的深度学习栈,拥有更强大的识别系统、更多样的图像文本输入功能和更准确的结果。人工智能应用场景、算法、算力之所以能够在新发展阶段中呈现几何式的提升,离不开机器学习和模型训练的深度、广度和精度,而数据则与机器学习之间有着微妙的关系。

一方面,数据是训练人工智能的一个基础性环节。首先,机器学习是通过计算方法从经验中学习来提高系统性能的技术。在计算机系统中,经验以数据的形式存在,机器学习的主要任务是开发从数据构建模型的学习算法。这表明,对于过去数据的收集抓取是机器学习的基础性步骤。其次,机器学习的目标是优化程序和性能,即通过更多的数据汇集实现对决策程序的修改。不具备代表性或样本较少的数据可能会导致偏差和谬误,欲让机器不断接近甚至超越人脑、作出公正准确的决策,必须要搜集海量数据并生成数据集合。最后,机器学习是一个动态的过程,具有复杂性和自动化两个方面的特征,既能够随着数据环境的变化而改变适应产生全新的输出,又可以随着时间的推移使用规则进行自我编程和模型的自行构建以完成任务。

从广义上来说,机器学习大致可以分为监督学习和无监督学习两种类型。但现阶段,强化学习已经逐渐成为机器学习、人工智能和神经网络中最为活跃的领域之一,它并非完全通过样本(Label)进行学习,而是由智能体(Agent)不断地观察周边环境状态,做出对应的决策动作(Action),进而得到回报(Reward)以此不断改进自身的参数进行迭代。其在与环境的交互、行动的评估中涉及了源源不断的经验和数据,因此,机器学习某种程度上的就是数据要素驱动型的数据训练、模型构建和算法优化。

另一方面,虽然人工智能对于数据的需求依然迫切,但机器学习所带来的颠覆性改变给法律监管带来了新的挑战。文学艺术的激励机制与科学技术发展之间的矛盾,作品的知识产权保护与机器学习数据多样性之间的矛盾,自动化的数据挖掘技术与未经许可爬虫行为间的矛盾,均需要法律手段的调和。目前,各国也开始逐渐形成多样化的治理方案。遗憾的是,这些举措并未真正解决机器学习训练集上所承载的多方利益平衡问题。

在立法中,大多数地区的法律将规制的重点放在了文本与数据挖掘上,虽然它和机器学习训练集都涉及了数据的提取与整合,但两者依然存在差异,第二部分将详细讨论。目前,立法层面的技术并没有能够完全回应机器学习训练集可能造成的侵权风险,而是仅仅局限在了文本数据挖掘本身。此外,不少人也认为欧盟委员会、欧洲议会和欧盟理事会制定的人工智能法案(草案)已经无法回应ChatG- PT所带来的威胁。

在司法实践中,知识产权侵权的案例也层出不穷。Getty Images已对开发AI绘画生成器的Stability AI提起了诉讼,认为Stability AI未经许可,从其图片库中复制1200万张图像作为训练数据,且未支付任何费用,侵犯了Getty Images的著作权。2023年1月,一群艺术家对Stability AI、Midjourney和DeviantArt Inc.提起诉讼,反对其未经许可使用图片的行为。新型的机器学习应用的知识产权问题不断涌现,解决思路尚不明晰。

在学界,大部分知识产权类的文献都聚焦于人工智能的输出端,讨论了人工智能生成物的版权、专利等问题,却忽视了在以机器学习为特征的人工智能生态系统中,起始阶段的输入端和中间过程中的种种变量可能导致的侵权后果。这些机器学习的训练集并不完全是单纯的过程性或者非表达性使用,而需要更加精细化的利益考量。

因此,本文主要解决的问题是如何在著作权法下实现机器学习训练集的保护和利用。具体而言,机器学习训练集与数据文本挖掘之间存在何种关系,前者是否可以直接适用后者的规则体系?机器学习训练集的生成和使用的行为是否存在侵犯著作权的风险,具体可能会侵犯哪些权利?现有的著作权法中规定的合理使用、法定许可、知识共享协议等相关制度是否可以有效化解机器学习训练集的侵权风险?本文试图提出应对一种机器学习训练集侵权风险的化解机制,阐述在安全港规则之下,如何突破训练集使用作品的著作权困境。

二、机器学习训练集的侵权风险

机器学习训练集与文本数据挖掘的逻辑有所不同。文本数据挖掘的目的在于定位和提取相关的信息,找到数据之间的变量关系、模式和趋势,是一种行为模式。而机器学习的训练集是用于模型的训练、拟合、构建,文本数据挖掘可以是训练集生产的前置性步骤,但并非必要条件,一些信息可以直接成为人工智能模型的训练数据,无需进行数据挖掘。如,在用户和ChatGPT的互动中,用户输入一些文本信息、图像信息,可以直接被视为一种训练集,即使需要一些噪音处理,也不涉及数据文本挖掘技术,但如果在此基础上使用了数据文本挖掘,可能会提升训练集的质量和有效性。因而二者是交叉的关系,但是立法层面上并没有能够完全涵盖机器学习的本质,而是仅仅局限在文本数据挖掘本身,对于训练集存在一定的真空地带和滞后效果。

机器学习训练集是一个庞大的数据文本集合体,其中的权属成分较为复杂,大致可以分为公有领域的数据、经授权许可的数据和未经授权许可的数据,前两者与版权无涉。机器学习是一项具有很高的正外部效应的活动,位于公有领域的,或是不受著作权客体保护的数据应当为了科学技术的进步发展和公共利益而被无偿地使用和分享。而经过授权许可的数据往往是由机器学习的开发者和数据库的所有者达成了许可协议,这种在意思自治下的普通市场交易行为也不应由著作权实行额外的干预。最具争议的应该是机器学习训练集中未经著作权人许可的作品,对这种作品的使用可能会有侵犯著作权的风险。

复制权

著作权法中的复制行为包括但不限于印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等多种方式,机器学习是一种典型的复制依赖型的技术,需要以批量的、频繁的信息复制的方式实现输出功能,因而训练集的生成过程必然涉及了数据的复制,并且几乎会涉及整个作品或者至少作品中所包含的大部分内容。

首先,在数据获取的阶段,有四种途径可以获得机器学习的创作素材:一是通过爬虫协议抓取数据;二是通过破译等技术手段直接复制文本;三是将非电子出版物进行数字化再现;四是在用户服务协议中设置强制许可条款。在未经他人许可的情况下,以形成训练集并对机器学习进行数据喂养的目的,通过上述方式对数据进行的大量复制操作,完全符合著作权法中对于复制的内容和方式的规定,存在复制权侵权的风险。

其次,为了构建训练集,须将获取的数据以一定的形式存储和固定。有学者认为,人工智能应享有机器阅读权,将训练集输入机器是类比人将信息储存进大脑的过程,没有形成有形的复制,因此,人工智能也不因训练集的使用侵犯著作权。然而,即使是模拟人脑,人脑在阅读学习获取知识的过程中并不会在大脑中进行文字的固定,相反,机器学习训练集会在不同的介质中创建副本、进行有形的存储,即便转化成了信息文本,依然可以通过机器对其中的作品进行读取。现有技术很难实现直接在线的数据分析和处理。然而机器学习的共同特征就是要进行数据处理,必须提供某种形式的副本。在这种情况下,将文本长期保存到计算机硬件上成为必然选择,这种将其作品以某种形式停留在硬盘、内存或者云服务中的行为,远远超出了著作权人对于自己作品的可控范围和理想预期,具有侵犯复制权的风险。

翻译权

关于机器学习训练集是否可能会对翻译权产生侵权,学界存在不同的看法。有学者指出,机器学习将作品转化为可读的计算机语言是一种翻译行为。笔者认为,机器学习训练集的翻译行为包括两个部分,一是将普通文本格式化为计算机可读文本,二是著作权法意义上将作品翻译为其他语言的行为。前者并不会对著作权造成侵权,因为计算机的语言并不是真正意义上的作品,不是思想的表达,也不能为正常人类所理解,只是为了让机器读取其中的数据而设置的算法操作过程。对于后者,则有可能产生侵权的风险,原因在于,自然语言处理的功能之一是机器翻译,机器学习的过程需要多语言的训练集,对其中的规则、用法、词汇进行翻译模型的搭建,训练集即是用于指导机器学习这些映射关系。然而,想要获取工业级强度的模型,则需要无数不同类型的平行语料库作为训练的文本,除了国际机构中不同语言的翻译文件(如欧盟立法)、经典作品的不同译本、影视作品的多语言字幕以及一些开放的平行语料库之外,大部分可获得的训练文本依然是单边语料,尤其是一些使用人群和翻译需求较少的小语种更为明显。此外,由于每种语言的原文本也不同,翻译训练的结果质量不佳,以Meta为代表的开发者使用桥梁挖掘策略,例如,将英语作为连接其他两种不常用的语言的桥梁,这就涉及为了实现翻译的多样性和可拓展性,利用编码器和训练程序对单边语料库进行的翻译,并在此基础之上生成了互相对照的平行文本,成为嵌入多语言机器翻译的数据来源。这种未经著作权人许可,在训练集的准备阶段,将其作品翻译成不同语言的行为显然存在侵权的风险。

改编权

改编权是对原作品进行改编的权利,包括但不限于形式、功能、类型等等,有人指出,人工智能是根据函数模型,即便是算法程序,来进行创作,其间并没有对任何一件作品进行改编、翻译,只有使用者才会根据其意志要求人工智能按照指令进行改编。

本文认为,这种理解实际上跳过了训练集的准备和生成的步骤,直接指向了输出阶段。初代人工智的数据架构、训练方法、模型和算力并不复杂,随着机器学习的不断进步和对自然语言处理的不断深化,让机器在多种不同类型的作品之间切换已经成为轻而易举的事情。在ChatGPT面世之前,人工智能已经出现了小说转剧本的智能写作功能,或是通过深度学习的神经网络,生成以文本描述为条件的详细图像。以AI绘画的训练集为例,有人提出,AI绘画仅仅是对于美术作品中思想的借鉴和画风的模仿,然而,其实在将原作品输入机器进行学习之前,研发者还需要对作品进行噪声添加、编码、压缩等操作,这一行为并不是直接复制作品的原始版本,而是在图像信息空间中以潜在的表现形式展现出来,同时保存着原有作品中最关键、最本质的特征。转码等行为与著作权法中的改编行为性质是类似的。它不仅仅是对一些绘画理念的抽象,更多的是对作品中元素的描摹和重新排列组合,其中独创和核心的部分并没有被排除。类似的对作品原始内容进行的安排和更改的预处理行为,尤其是对于其中重要成分的提取、整合和再利用,应当认定为版权法意义上的改编。

三、著作权法的制度回应及反思

在著作权法的框架下,大致有以下几种规制方法应对可能存在的侵权行为:合理使用、许可制度、知识共享协议等。本文将对上述方法进行合理性与可行性的分析,检视在现有制度下能否有效化解著作权的风险。

合理使用的不足

立法和学术界的主流主张是通过著作权合理使用条款对机器学习训练集进行豁免,这种方式存在一定程度的正当性。合理使用是一种较为灵活的方式,旨在解决平衡竞争获取使用之间的紧张关系,以及平衡版权所有者、后续创作者、竞争者以及公众之间复杂的利益关系。如果机器学习训练集仅依靠公共领域的作品,则会遗漏很多有价值的数据。相反,从激励理论的视角看,著作权法具有公共政策的属性,其目标非仅仅是赋予著作权人排他性的私权利以获得垄断性经济收益,而是要利用各种权利的分配机制,激励源源不断的信息生产和传播,无论是激励著作权人的创作,还是促进作品流通,都是为了产生更大的公共利益。合理使用制度能够降低市场交易的成本,激励机器学习研发者进行技术的革新,而这种技术又恰好能够通过其输出端口为公众提供更多的公平信息获取机会,提高网络空间中信息传播的效率,让多样化的文化市场愈发繁荣,实现功利主义视角下社会公共福祉的最大化。

本文认为,合理使用制度,然而,不足以完全解决机器学习训练集上的利益平衡问题,尤其是在用以表达性输出的机器学习中显得有些捉襟见肘,从实然层面,合理使用主要存在以下几个问题。

其一,从逻辑上看,合理使用是一种针对侵权指控进行辩护的法律补救措施,而不是一种有把握地创造新事物的合法权利。这种补救性、防御性的措施在互联网时代存在很大问题。合理使用的结果是全有或全无,即要么辩护成功,所涉使用毫无保留的合法,要么辩护失败,让被告承担侵权责任。然而这两种情形都无法解决机器学习的侵权问题。

机器学习合理使用存在两个大前提,一是训练集是一种非表达的方式,不是为了促进人类的表达为目的;二是训练集不会影响作品的潜在市场。然而,新时期的机器学习不仅有研发者的参与,更有用户的使用和训练,通过输入的文本对机器学习进行训练或微调的本身就是为了表达性使用,使它能够从文本中获取更多的信息并输出更为精准的结果。而这些结果运用了他人的成果,又通过自动化的学习模式生成了类似的作品,是对原作品潜在市场份额的挤压。换言之,机器学习训练集合理使用的大前提并没有能够为其提供足够的正当性,即便能够在人工智能初期为非表达性使用提供合理性,但也无法应对新时代层出不穷的用于表达性输出的训练集,无法对侵权指控进行有力的反击。

其二,在制度层面,我国的合理使用没有能够为将机器学习训练集的行为合法化提供足够的空间。这是因为,我国著作权法中的合理使用的体系依然较为封闭,列举模式的规定无法容纳新的类型,而现有的法条也很难通过文义解释将机器学习训练集纳入合理使用条款。比如,为个人学习、研究,使用他人已经发表的作品中,从文义解释的角度出发,无论是将机器学习的主体认定为人工智能,还是开发算法技术的公司,均明显不符合“个人”的内涵;此外,个人的学习也不同于机器的学习,前者是一种基于理性和能动性的独特的人类行为,而后者的学习更多意义上是一种既定规则之下的训练和模型拟合。而“为学校课堂教学或者科学研究,翻译或者少量复制已经发表的作品”中,机器学习虽然落入科学研究的范畴中,但是机器学习的训练集是建立在海量数据之上,通过数据喂养实现对人工智能反复的训练,从而才能越来越接近人类想达到的效果。

从体系解释的角度看,著作权法第24条并非完全的兜底条款,其中第十三款中的“其他情形”仅限于法律、行政法规的规定,目前,我国尚未有法律法规将机器学习训练集纳入规制的范围。同时,我国合理使用的构成要件中还包括非商业要素,显然,许多机器学习的技术公司并不满足这一条件,基于机器学习的开发训练往往还是以获取市场利润为目的。2014年英国的版权法、2016年法国的知识产权法典以及2019年欧盟委员会发布《数字单一市场版权指令(草案)》中均强调了文本与数据挖掘技术要用于非营利性的科学研究。合理使用中的非商业性要素对于整个版权法的公平正义的实现具有重要的意义,非商业的目的在于防止他人免费利用本需要付费才能获得的作品,如果认为以获取经济利益为目的的机器学习也可以免费无授权的使用所有的作品,那么数字学者吞噬数百万篇文章却无须补偿作者,而更传统的文学诠释者必须为他们解释的受版权保护的作品付费。同时,随着越来越多的机器学习研发者在市场上的蓬勃兴起,作品的分享以及搭便车的利用行为将成为常态,将会严重侵害著作权人的经济利益,违背了分配正义。

其三,不确定性问题。在比较法上,美国的合理使用制度也无法完全处理好机器学习训练集利用的相关问题。美国四要件的判断标准使得合理使用的条件十分模糊,司法的裁量权过大,在法律后果上存在较大的不确定性和不一致性,这会导致两个方面的不利后果:一是法律效果上的不公平。相比于占据了著作权人很大一部分比例的作者而言,拥有更多权力的大型科技公司有更大的赢面,著作权人处于劣势地位。若完全通过合理使用为训练集正名,便会打破利益分配的格局,使本应当属于作者的那一部分利益流向了科技公司。二是阻碍了技术创新,尤其是挫伤中小科技公司的机器学习的进一步发展。由于中小企业无法承受高额罚款,合理使用结果的不确定性会迫使他们慎重使用受版权保护的数据,阻止较小的市场参与者创建和利用潜在价值。长此以往,会加剧社会不同规模实力企业之间的分化,使大企业形成技术垄断,这与著作权法信息自由和公平接触、利用知识的初衷背道而驰。同样,如果将指导性作用的三步检测法或者合理使用四要素运用到我国司法实践中,仍然无法为人工智能的作品合法使用提供可预测的法律确定性,反而会引发寒蝉效应。

其四,针对合理使用的模糊性难题,美国提出了转换性使用,即“以增加某方面价值的方式使用原作品的行为”,这种观点后来在司法实践中得以彰显运用,1994年美国联邦最高法院首次将此概念在“坎贝尔案”中适用,将一项效仿他人音乐作品的行为视为合理使用。法院在判决中指出,如果二次使用行为基于或利用原作品增加了新表达、新意义、新见解、新功能,那么应视为通过转换原作品使用目的或方式的合理使用。本文认为,转换性使用依然存在较大的模糊性,判断是否具有新的目的和特点应当遵循何种标准并未有定论,并且在外在的客观环境中,很难探究处于内在的主观目的和动机。此外,虽然机器学习训练集可能在原作品基础之上进行了数据上的处理分析,但其使用目的之一是提高输出结果的准确性,依然属于表达性使用的范畴,与原作品本身的目的无异。在具体表达方式上,很多深度学习的结果依然只是对其庞大数据库中已经存在的原始文本的替换输出和复制再现,没有产出全新的信息和理解,并非一定属于具有新的意义、内涵和表达的创作,因此不符合转换性的实质。

我国也有学者主张应当将转换性适用进行本土化的改造和释义/阐释,试图通过解释功能将其嵌入我国著作权法的体系中。但司法实践中,法院对转换性使用的方式仅限于“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”,与机器学习的使用方式不符。

法定许可的障碍

法定许可制度,即未经著作权人的许可可以直接使用其作品,但需要支付合理的报酬(著作权法)。从经济学角度来看,交易成本是一个重要的法律制度衡量标准,而法定许可制度的成本优势在于,一方面无须权利人的事前授权,免除了识别训练集中的版权、请求授权以及后续的谈判和研发成本,为人工智能技术的突破创新减轻了负担。另一方面,过度的松绑又不利于版权的激励,因此,在机器学习技术研发者可以通过简化的流程获取作品的同时,法定许可又通过要求其支付费用的方式,保持了双方之间的利益平衡,避免了为了促进技术发展而剥夺牺牲了著作权人利益的情形,即使其作品成了机器学习的训练集,合理报酬的奖励机制依然可以一定程度上满足著作权人的创作动机。

然而,在可行性、公平性和灵活性方面,法定许可制度依然存在一些不可逾越的障碍。

首先,无论是从网络上抓取数据还是通过与人的交互获取文本和语言,现阶段的机器学习都已经实现了自动化的操作,也就是说,从其文本收集到进行适当过滤和处理并最终将其纳入训练集的一部分,都是由人工智能完成,这种无监督学习的过程很大程度上已经没有了人类的参与,更不用说让人类对其行为进行实时的监管和事后的区分,虽然其中可能有人类为其创建的模型在发挥作用。法定许可无须事先得到同意,但需要支付给权利人报酬,所以依然需要研发者在海量的自动化文本中进行版权的识别,本质上并没有减轻负担,反而增加了需要支付报酬的经济成本。由于一个训练集中存在数个作品和与之对应的多个著作权人,识别区分的难度又较大,著作权人很有可能无法及时准确地获得经济报酬。

其次,版权法通过市场力量发挥作用,市场寻求以支付能力和意愿来衡量的经济价值最大化。然而,即便单个作品的价值不高,建立在海量作品之上的机器学习训练集在法定许可制度之下也会面临高昂的成本,为了训练集生成所花费的巨额成本已经超过了训练模型所获得的收益,开发者的支付能力和意愿下降,因而与版权人之间可能无法进行有效的市场交易,形成了一定程度的市场失灵。为了打破这种市场壁垒,开发者可能会通过两种方法解决:一是研发技术手段,对有著作权的作品进行爬虫等操作,以获取更多的训练数据,这与法定许可和版权法的目标背道而驰;二是将高昂的许可费用转嫁到用户身上,使用户间接地承担了机器训练集初始阶段的生成成本,导致了不公平的结果。

再次,法定许可还可能会导致偏见与歧视的问题。由于获取作品成本的增加,机器学习研发者可能会更多地使用容易获得、合法的低风险作品,但这些数据存在时间久远、内容老旧、质量参差的特征,在这些数据中存在固有的时代局限性,最终导致训练集中的原始数据和模型产生种族差别、性别差异、地区区隔等等,而随着机器学习多个步骤的重复,会导致这种偏见不断地累积扩大,形成了歧视的后果。

最后,法定许可制度还存在僵化性。一方面,法定许可在我国面临着和合理使用同样的制度兼容性问题,诞生于传统时代的法定许可类型中没有为机器学习训练集提供足够的解释土壤;另一方面,法定许可制度本身还存在一定的僵化性,一般不允许作者随时退出,且著作权人在定价机制上的话语权较小。这种类似的缺点还体现在比较法的强制许可制度上,通过公权力机关的介入控制市场的交易,有可能会超过必要的限度,剥夺了著作权人公平的定价和获得报酬的权利,同时还增加了利益分配和程序设计的制度成本。

共享协议的掣肘

知识共享协议的本质就是将机器学习训练集中那些未经授权的作品以事前授权的方式化解著作权的侵权问题。劳伦斯·莱西格教授发起成立的公益性组织向文学创作者、艺术家、作曲家以及其他创作者免费提供一系列标识作品权利状态的工具,公众通过这项特殊的许可协议,能够在遵循协议的前提下,自由合法地使用作品或者。

针对传统授权模式和法定许可制度下的交易成本,知识共享协议能够使机器学习的研发者在生成训练集时省去了协商和沟通的流程,不仅适应了机器学习对海量作品的无障碍获取和广泛普遍地利用,丰富了公共领域的资源,还有益于著作权人对其作品使用的控制。知识共享协议由署名、非商业使用、禁止演绎和相同方式共享四种要素组成,著作权人在四个要素、六种类型中进行选择与组合,为创作者在保留绝对权利和公共领域之间提供了多样的选择,无论放弃哪一部分的权利,其最重要的独占权仍然被自身所保有。但与之相对应,如何克服交易环境的不确定性、授权的柔性和非商业性要素的不兼容性还有待探索。

首先,共享协议的实质是一种事前授权机制,但这种授权并非强制的,是鼓励或祈求版权者放弃一部分版权权益。在游戏IP改编、混音作品、二次创作等,作品能够通过使用和传播中获得无形的宣传,给著作权人带来了潜在的、衍生的利益,但在机器学习训练集中,算法的黑箱、机器的自动化学习、输入与输出结果的不确定性,一定程度上弱化了私益;同时,授权一经发出,在著作权保护期内是不可撤销的,这些条件使得著作权人让渡一部分权益的意愿并不一定很高,尤其是一些创新性强、艺术性高的优质作品,作者没有足够的动力通过CC协议免费让机器学习研发者使用,这类作品依然会被著作权人垄断。

其次,知识共享协议是一种较为弹性、灵活的授权,著作权人签署共享协议后,对机器学习中作品的使用没有太强的控制权,当许可条款被违反时,它无法克服版权侵权导致的复杂后果。这种授权缺乏有效的使用监督和违约救济,对于机器学习的研发者或者用户在使用过程中是否超出了授权的范围、违反了共享协议,著作权人的知情权是无法得到保障的。

最后,知识共享协议的一个要素为非商业性使用,这个要素可能会与自由内容创作、基本有益使用存在不兼容性。有人提出,非商业性的限制并非在确保著作权人的经济收益,而是在阻止他人获得收益,提高了作品的使用成本和后续的创作门槛。然而,共享知识协议并不意味着著作权人放弃其作品的商业价值,为了保有作品原有的市场份额和潜在的利润,著作权人经常会选择限制作品后续的商业性使用。现阶段,机器学习研发主体仍然是以营利为目的的科技公司,然而商业的概念比较宽泛抽象,商业与非商业之间的界限不清晰,训练机器模型的行为是否是直接商业化的行为尚未有定论,共享协议目前尚无法协调原著作权人的潜在价值和机器学习训练集衍生出的商业利润。

四、机器学习训练集的著作权风险化解机制

欲在知识产权法中解决机器学习训练集的版权问题,必须克服以上制度的僵化和弊病,通过动态化的思维、系统分类的方式以及柔性灵活的框架设计,形成一个机器学习训练集的生态系统,本文赞成将机器学习训练集的著作权问题纳入安全港规则进行保护和利用。

在机器学习的训练中,涉及了人工智能开发者、著作权人和用户三方主体。有人会质疑,训练集是机器学习预先设定的集合,而用户并非训练集的参与者。实际上,英国版权、外观设计和专利法案第9条已经将计算机生成作品的作者身份定义为“为创作作品进行必要安排的人”,这种灵活的版权不仅能够激励软件的开发人员向用户提供产品,而且还可以鼓励用户使用AI进行创作。目前,用户在人工智能生成物中已经有了很大程度的参与,未来AI也必然会成为改变人类生产力和劳动模式的重要辅助工具。在机器学习的过程中,用户与机器之间的交互也是一种学习范式,用户通过不断地输入文字、图片,ChatGPT能够提取、分析其中的信息数据,从而给出与用户需求更加匹配的答案,而对话中的文本内容、言语风格等都成为其训练集的一大来源,为它的迭代更新进化提供了数据养分。因此,在人机交互的机器学习中,用户其实是一个必不可少的环节,通过自己对人工智能的使用,深度参与了训练集的构建。

但是用户、开发者和著作权人对训练集的贡献各有不同。在训练集的生成阶段上,开发者主要贡献的是预先训练的原始集合,而用户在训练集中的角色则是在人工智能流入市场后的使用过程中构建起来的,而著作权人则是贯穿于整个阶段,无论是开发还是使用的过程中,都有可能会利用他人的作品进行训练。在生成训练集的目的上,对于开发者而言,机器学习的训练集主要指向两个方面的功能,其一是训练模型,其二是输出表达,而用户的目标仅包括输出表达,即期待AI能够输出更加完美的内容,与开发者的目的存在部分重合,著作权人的诉求则是基于训练集对其作品的使用,应当在人工智能的市场上分得一杯羹。

根据上述的分析,本文搭建了一个安全港规则的进入与退出框架。如前所述,在公有领域和授权许可的领域,训练集的版权问题没有太多争议。在未经著作权人许可的领域,应当考虑参与的利益相关者、训练集构建的目的、市场竞争机制、社会公共利益等方面,形成保护的闭环。

安全港的进入

美国DMCA中的安全港规则开了先河,成为各个国家版权法效仿的对象,安全港规则是指“赋予特定对象免于赔偿责任或惩罚后果的保护措施。”如果让所有的机器学习训练集的形成和使用进入安全港中,在满足规定要件的情况下即可免除侵权责任,可以消解一部分合理使用、法定许可和共享协议的负面作用。在安全港条件的设置上,本文认为应包括以下几个方面:(1)适用该规则的应仅限于初始训练阶段的研发者,而不包括用户;(2)适用的客体为已经发表完结了6个月以上的作品;(3)研发者享有的权利为对作品的复制、翻译、转码、提取、改编等,但不包括传播和共享等;(4)将许可制度的报酬机制纳入考虑范围,即通过法定许可让著作权人让渡一定权利的同时获得最低限度的报酬权。

首先,进入安全港的主体应严格限制在初始训练阶段的研发者。如前所述,在训练集的生态中,涉及了用户、研发者和著作权人三方主体,构成非表达性与表达性使用两种功能。随着机器学习的优化迭代,很难将两种功能完全区分开,人工智能使用训练集是为了掌握创作技巧,而创作的目的就是表达性输出,因果关系的链条难以切断,因此,应当在主体条件和使用阶段上进行限定。训练集是研发者耗费了精力与劳动进行信息搜集、完成构建和输入全过程的一项成果,训练集生成的阶段性目的是给机器学习注入数据、搭建模型,形成一套初步的学习反馈架构,在初始的训练阶段,机器并不会真正地输出结果,仅是通过对训练集中作品的分析处理,形成潜在的表达。在这一阶段,用户无法知晓研发者如何对人工智能进行训练,也无法接触到训练集的作品及机器学习的应用程序,因此用户既不会利用他人作品进行训练生产类似的作品,也避免了研发者通过机器学习向用户谋利的行为,从而规避了其他几种制度中判断是否构成商业性利用的模糊性。

其次,当作品发表一定时间后,例如当发表或连载完结满6个月后,著作权中的排他性垄断权利衰减,科技应用和发展的利益更值得被保护。进入自媒体时代后,人人都是内容创作者,世界充斥着类型繁杂、良莠不齐的作品,然而在快餐化的阅读习惯和流量至上的经济模式下,人们对待新作品的注意力很难维持较长的时间,而作品往往也是在发表的初期受到较多的关注度,拥有较高的市场价值。而当作品发表了一段时间以后,热度开始衰减,市场上的作品和玩家也许已经经历了无数轮新的洗牌,因此在安全港的客体要件中,为作品设置一个期限,平衡著作权人的利益和人工智能发展的需求是十分必要的。例如,ChatGPT在2022年11月推出时,训练的数据仅截至2021年9月,且无法连接互联网获取新的数据,这虽然存在数据搜集清洗耗时久、数据验证和审查步骤多等技术层面的客观原因,但的确能够在一定时间内给新发表的作品创造了自由生长的市场空间。

再次,如果需要在训练集中使用作品,应当对其进行有限的排他权保护,即开发者可以对作品进行复制、改编、翻译、转码、提取等必要的操作,从而形成更加全面完整的训练集,但是不得进行分享和其他类型的操作,换言之,机器学习训练集对作品的使用不包括传播权。这是因为,传播权往往指向输出阶段的人工智能生成结果。但在安全港的限制中,用于模型搭建和优化的训练集是一种内部的过程性使用,没有与用户产生交互,也没有在训练阶段将文本和信息向公众公开传播。如果训练集中使用的作品可以传播,则会导致数据集共享的泛化,无法有效规制作品在网络传输过程中的侵权行为。

最后,通过法定许可制度的报酬机制进行利益的分配,可以一定程度上消解训练集对作品消费性使用。如果过分限制作品的使用,机器学习会缺乏很多高质量的输入,不仅会导致输出的结果参差不齐,还可能会使人工智能研发所需要的许可成本超过了可能的收益,阻碍了研发者的创新。从政策层面看,知识产权保护制度宽松的国家会拥有更自由的创新氛围和更强的科技生产力,进而提高了其国际竞争力,反之亦然,法律不应当是扼杀新事物,为其发展设置障碍,而是要尽量地平衡好各方的利益,让技术的发展惠及所有人。如果不通过合理的利益分配机制,给予著作权人一定的经济激励,本身处于劣势的著作权人就无法从训练集的使用中获得收益,还要将其潜在的利益让渡给以赚取更多商业价值为目的的科技企业,使机器学习的研发者从这种免费搭便车的训练集使用行为中获得商业收益,最终利益衡量的天平过多地向开发者倾斜。

安全港的退出

安全港的退出是指并非满足上述要件就可以直接驶入并免责,而是存在一些例外情形,使主体必须从安全港驶出,或是无法直接进入该规则的涵射范围之内。本文认为,在出现以下两种情况时,安全港规则不能理所当然地成为免责事由,应当结合具体情形,平衡用户、著作权人和开发者的利益。

第一,著作权人的选择退出。当研发者对机器学习进行初始训练时,著作权人很难知晓其作品是否用于训练集中,因为他们可能没有机会在机器学习的输入端发现作品被研发者使用以及被侵权的行为,更不用说发送侵权的通知了,因而事前的知情同意原则难以发挥作用。于是,通过安全港规则来平衡双方的利益能够降低交易成本,推动新兴产业的发展。然而,当此类应用流向市场,走入了公众视野,产生了商业效益时,著作权人的权利行使就变得格外重要。若要求机器学习的研发者对其中的版权进行辨识分类,则需要耗费大量的成本,且结果未必确切。此时,著作权人成了最小成本负担者,通过主动地检索其作品是否用于机器学习,并提出选择退出的请求,让自己的作品免于未来的训练和使用,能够有效减轻科技创新的负担,同时确保了对著作权人使用意愿的尊重。选择退出机制类似于一种事后的通知删除规则,著作权人行使退出权时,机器学习已经完成初步预先训练,因此安全港规则能够成为训练集在初始阶段使用作品的侵权阻却事由;与此同时,该时点又位于机器学习进一步优化调整的前一个阶段,能够使作品免于进一步的训练和使用。这种起承转合式的衔接能够与安全港规则相互配合,实现利益分配格局的公平性。

第二,用户使用受版权保护的作品训练的行为不能直接进入安全港规则,需要具体分析。例如,个人将某作者的部分作品截图输入至ChatGPT的对话框中,要求其对作品风格进行细致的分析,这种纯粹为了个人学习研究的目的当然无需承担任何侵权责任。然而,更多情况下,用户是为了让机器学习形成表达性的输出而使用他人作品进行训练,如果这些输出与现有市场形成了竞争关系,则很有可能给著作权人的经济利益带来损失,影响了原有市场的正常运作。这种市场导向型的表达性训练集使用作品的行为无法直接驶入安全港中,而是应当结合输出端进行整体性的判断。我国司法实务认为,应当将专门为了合理使用行为而进行的复制,应当与后续使用行为结合起来作为一个整体看待,不应当与后续的合理使用行为割裂开来。即如果是专门为了后续的合理使用行为而未经许可复制他人作品,应当认定为合理使用行为的一个部分,构成合理使用。反之,因为用户使用作品就是为了表达性输出,如果后续输出的行为对先前作品造成了侵权,那么先前使用作品进行训练的行为亦是侵权,两者之间具有直接的因果关系,不能直接通过安全港规则对用户的行为免责。

配套措施的设计

为了更好地将安全港规则与训练集的保护进行耦合,相应的技术措施应至少涵盖两个方面,一是减少训练集的过度拟合;二是AIGC的识别与检测。

机器学习是在一个可修改的通用模板之上,对参数赋值、修改、调整,让程序的性能和标准得到优化。当机器学习将函数与数据拟合得过好时,可能会带来过度拟合的风险,类似于在法律推理中将规则和事实过分联系或混为一谈。这就会导致研发者的初衷本是通过对图像的学习进行创造性的输出,实现革命性的目的,但由于机器学习中强大的拟合性特征,要么使最终的结果与训练集中的作品别无二致,要么针对同一个集合过度训练,提取了过多的细节,运用在新的训练集中产生了结果偏差。解决此类问题的方法包括早停(early-stopping)、简化模型(network-reduction)、数据增强(data-expansion)以及正则化(regularization strategy)等策略。因此,在技术措施上,一方面应当在训练集中包含更多不同类型的示例和元素,增加可使用的作品数量;另一方面,较少地使用训练集中作品实质性、创造性地表达,而是选择其中最为合适和普遍的特征进行学习。科学的技术措施既能够减少独特性或噪声对输出的干扰,又能够降低训练和输出全过程中作品相似性带来的著作权侵权风险,因为机器对那些具有普遍性的词汇、语法、语义、构图、颜色等方面的分解和训练仅仅是最为基础和功能上的表征,属于自由传播的公共领域,而不属于著作权保护和关注的内容。

此外,为了更好地保护著作权人的退出权,需要在技术层面提高AI作品的检测功能。申言之,第一,只有为著作权人提供是否使用了其作品进行训练的检测模型,才能有助于著作权人查询作品是否被纳入训练集,从而作出是否退出使用的决定。第二,应当为市场提供作品是由人类创作还是由人工智能生成的技术检测。人工智能的输出依然还可能存在误导性和失控性,在瞬息万变的社会中,人们对未来能否将AI创作深深植根于日常生产生活方式中的态度还不置可否。目前OpenAI已经宣布推出AI Text Classifier的文本检测器,Stability AI也表示艺术家可以在HaveI Been Trained网站上检索,从而确认Stable Diffusion训练集是否使用了其图像作为数据集的一部分。

结语

通过构建安全港规则下的进入与退出机制,并将相应的技术措施嵌入规则中,可以有效防范机器学习训练集可能引发的著作权风险。相比于合理使用,安全港规则克服了其不确定性和利益偏向的问题。安全港提供的是有限、有条件的安全免责,需要行为人付出一定的成本、满足特定的条件才能进入,由行为人进行选择是否选用而非强制性适用。研发者需要支付一定的经济成本才能安全进入免责地带,但安全港的具体条件清晰明确,研发者在进行训练使用时无需担忧由于合理使用的不确定性带来的不利后果。相比于法定许可,安全港规则克服其较高的交易成本,防止市场失灵的发生,通过事后的选择退出机制,免去了研发者在初始阶段的训练需要支付的沟通成本、识别成本,又缓和了制度的僵化,给予了权利人退出的选择。相比于共享协议,安全港规则克服了著作权人不愿放弃部分权益的不足,使训练集中的作品更加多样化,能够缓解样本不足所导致的歧视与偏见,同时还将商业性要件的不兼容性转化为对主体和训练阶段的条件设定,为人工智能产业的发展注入了新的动力。

往期精彩回顾

周灿|网络运营商数据监控行为的法律边界——以云存储服务商为例

邵子杰|突破与局限:非类型化数据不正当竞争行为的反不正当竞争法一般条款适用
温雅璐  程鹏|个人信息刑民交叉保护理念及方法的差异
李晓霞|数据合规视野下个人信息保护归责标准的重构
王伟强|视频贴片广告屏蔽行为的说理及展开
陈玲|技治主义视域下民事诉讼中大数据证据的适用与规范——基于289份民事判决书的实证分析



上海市法学会官网

http://www.sls.org.cn


继续滑动看下一个
上海市法学会 东方法学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存