李安:机器学习的版权规则:历史启示与当代方案 |《环球法律评论》2023年第6期
点击蓝字,关注我们
如需转载本文,请在文末留言
转载时烦请注明转自“《环球法律评论》公众号”字样
李安,中南财经政法大学知识产权研究中心讲师。
本文系《机器学习的版权规则:历史启示与当代方案》一文的正文,注释从略,全文发表于《环球法律评论》2023年第6期,原文请参见环球法律评论网站:http://www.globallawreview.org,或点击文末左下角“阅读原文”。
内容提要:在人工智能时代,作品是机器学习的高质量数据资源。如何对机器学习的版权规则作出抉择以促进文化、技术两个领域的创新,是当前的一个重要问题。临时复制和自动钢琴的版权史提示我们:合理使用不是解决机器学习版权纠纷的唯一制度选择,非作品性使用和侵权责任对其有补充作用,应在分类讨论的基础上对机器学习版权规则进行梯度设置。具体来说,机器学习分为“非表达型”和“表达型”。前者属于非作品性使用,无侵权责任;后者进入专有权范围,推定为侵权:若学习大众表达则应设定合理使用免除侵权责任但允许权利保留,若模仿个别作者则未获许可应负侵权责任,若为科研活动则应认定合理使用免除侵权责任。我国应将作品性使用作为版权侵权成立要件之一,将大众表达型机器学习规定为附但书的合理使用情形,同时对算法训练数据版权信息披露义务作出规定。
关键词:人工智能 ChatGPT 文本数据挖掘 合理使用 非作品性使用
一、问题的提出
机器学习的版权纠纷,前已有之,于今为烈。2022年9月,一名程序员在美国法院对GitHub等提起集体诉讼,称被告违反开源软件许可协议使用开源社区中数十亿行源代码来开发其自动编程产品,侵犯版权。2023年1月和2月,盖蒂图片社相继在英国、美国法院起诉Stability AI,称被告未经许可从原告的图片库中复制了超过1200万份图片用以训练其图片生成模型,侵犯版权。2023年6月和9月,作家群体在美国法院相继提出集体诉讼,称OpenAI未经授权使用作品训练ChatGPT产品,侵犯版权。2023年6月,我国某企业发布声明,斥责另一企业未经授权爬取自己的作文素材用以训练其智能产品“作文AI助手”,并称将提起诉讼。
机器学习之所以多发版权纠纷,是因为作品在人工智能时代具有数据资源属性和算法训练价值。新一代人工智能的技术核心是以“数据训练算法”为特征的机器学习。数据的好坏直接关系人工智能的好坏。相比其他数据,作品数据是典型的高质量数据资源,具有无与伦比的算法训练价值。例如,原告在Tremblay, Awad v. OpenAI案中指出“书籍一直是大语言模型训练数据集的关键内容,因为书籍提供了高质量长篇写作的最佳范例”,ChatGPT的进化迭代很大程度上得益于书籍数据使用比例的增加,GPT-1的训练数据包含了7000部书籍,而GPT-3训练数据中的书籍超过35万部。在实践中,将作品作为数据用于机器学习,首先要对作品进行大批量复制存储,其次要通过汇总分类、添加标签等工序将作品整理为数据集,最后提取有用信息、形成模型。若被用于机器学习的作品受版权保护,就会引发版权问题,即涉嫌侵犯版权人以复制权为核心的专有权利。
机器学习的版权问题是版权界当前热议且颇具争议的问题。国外很多学者使用“转换性使用”“技术性合理使用”“合理学习”等概念及理论来论证机器学习中的作品使用属于合理使用。国内学者也多主张将机器学习中的作品使用新增为一项合理使用情形。与机器学习密切相关的文本数据挖掘已被相关立法或判例界定为合理使用,如欧盟2019年《单一数字市场版权指令》(Directive on Copyright in the Digital Single Market,下称“《版权指令》”)第3、4条、美国谷歌图书案。.不过,以合理使用制度处理机器学习的版权问题,存在两点争议:一是,是否所有的机器学习行为都在版权专有权控制范围之内,因而需要主张合理使用进行免责辩护?美国学者邝(Jenny Quang)认为,将作品作为数据用于机器学习根本不构成侵权行为,所以实际上不需要进行合理使用分析。二是,是否所有进入版权专有权控制范围的机器学习行为,都能通过“三步检测法”认定为合理使用予以免责?荷兰的森福特莱本教授(Martin Senftleben)认为,鉴于文本数据挖掘对多种类作品的大批量使用以及后续输出内容对被使用作品市场的侵蚀,欧盟2019年《版权指令》之文本数据挖掘例外是否符合“三步检测法”,存在争议。
如何对机器学习的版权规则作出抉择,是我国面临的一个重要议题。机器学习的版权规则事关我国人工智能的技术创新和产业发展,同时又关涉广大文艺创作者和传播者的切身利益。我国于2023年7月发布《生成式人工智能服务管理暂行办法》,第7条原则性规定训练数据“不得侵害他人依法享有的知识产权”。不过,这一原则性规定在我国版权法中的具体规则,尚付阙如。我国该如何对机器学习作出版权回应,以兼顾文学艺术、智能技术这两个领域的创新激励?合理使用制度能否妥善地处理机器学习的版权问题?在合理使用之外,还存在哪些更合适的制度方案?一刀切地对所有的机器学习进行合理使用版权定性是否科学?机器学习在我国的版权抉择需要认真地回答这些问题。机器学习版权规则的当代抉择,承负着对过去的觉知和对未来的参与。在历史上,新技术对版权制度的冲击和重塑并不少见,所引发的版权论争无疑是解决当前机器学习版权问题的重要法治资源。回顾历史,我们可从当局的利益纷争中抽出身来,更加清醒地分析当下的问题,更为科学地谋划未来的发展。本文愿作此种尝试。
二、临时复制和自动钢琴的
版权史及其经验启示
在历史上,新技术引发的版权论争有很多。下文将着重回顾“临时复制”和“自动钢琴”这两个版权历史事件,因为这两项技术与本文所讨论的机器学习具有相似性——均以复制作品为技术发展的必要前提,进而触及以复制权为核心的版权专有权体系。
(一)临时复制的版权论争及其经验启示
20世纪后半叶,计算机和互联网兴起。为方便人们在线浏览网页、观看视频,数字作品会在计算机中临时缓存,之后将被自动清除掉。这在网络版权法中称作临时复制。临时复制的版权定性在1996年《世界知识产权组织版权条约》(World Intellectual Property Organization Copyright Treaty,WCT,下称“《版权条约》”)外交会议上是一个焦点问题。
在最初的《版权条约》基础提案(basic proposal)中,第7条涉及临时复制问题。具体来说,第7条第1款规定了宽泛的复制权即“应当包括直接或间接的作品复制,不管是长久的还是临时的”;第7条第2款为“以使作品能够显示被感知为目的的临时复制,或短暂性或附随性复制”引入权利例外,同时第7条的附随说明强调,第7条第2款中与临时复制相关的权利例外应受限于“三步检测法”。换句话说,基础提案主张对复制权作宽泛解释以覆盖网络环境中所有的数字化复制行为,同时以满足“三步检测法”为条件为临时复制行为设立狭窄的权利例外。
然而,并非所有世界知识产权组织(World Intellectual Property Organization,WIPO)成员国都认可基础提案第7条关于临时复制的版权定性。丹麦代表认为,“以使作品能够显示被感知为目的的临时复制,或作为技术过程组成部分的短暂性或附带性复制,不属于《保护文学艺术作品伯尔尼公约》(Berne Convention for the Protection of Literary and Artistic Works,下称“《伯尔尼公约》”)第9条第1款意义上的复制行为。”同样地,瑞典代表也认为临时复制“不属于真正的复制”。挪威代表更为直接地指出,条约不应仅采用版权例外的形式使临时复制处于自由状态,而应清晰地规定临时复制在复制权利范围之外。鉴于许多成员国的反对,基础提案第7条最终被删除,《版权条约》最终文本只在第1条第4款规定“将被保护的作品以数字形式存储在一个数字介质上,构成《伯尔尼公约》第9条第1款意义上的复制行为”。
诚然,机器学习过程中的作品复制更多是稳定且长期的复制存储,所以临时复制的版权规则不能直接适用于机器学习。但是,1996年《版权条约》外交会议关于临时复制的版权争论对机器学习的版权问题分析仍具有重要的历史价值。主要的经验启示如下。
其一,新技术自由发展空间的版权保障并非仅有合理使用制度。前述争论显示,如果版权法想要给新技术发展留下自由空间,有两种方法:一是扩大版权专有权范围以涵盖作品的新技术使用方式,但认定其为合理使用,如基础提案第7条的提议;二是限缩版权专有权范围,将作品的新技术使用方式排除出专有权所控行为范围,如丹麦、挪威等国对基础提案第7条的反对意见。在逻辑上,应首先考察新技术对作品的使用是否在版权专有权范围之内,然后再考虑新技术对作品的使用是否属于合理使用。
其二,新技术开发应用中的作品复制并非都是版权法意义上的复制行为。丹麦、挪威等国主张临时复制“不属于《伯尔尼公约》第9条第1款意义上的复制行为”,实质上是区分了“版权法意义上的作品复制”和“非版权法意义上的作品复制”,且强调不是所有的作品复制都是版权法意义上的复制行为。“非版权法意义上的作品复制”和“非商标法意义上的商标使用”一样,是对知识产权专有权所控行为范围的限定。应认识到,“版权理论不是一个关于复制如何错误的理论,而是一个关于如何区分非法复制和合法复制的理论。一旦我们从复制是错误的角度来看待版权,我们就会禁不住误解版权。”
(二)自动钢琴的版权论争及其经验启示
自动钢琴(player piano)是一种可以自动演奏的乐器,自动演奏的指令由卷轴发出。卷轴上面有许多孔,乐谱以打孔的形式记录在卷轴上。自动钢琴的版权争议起源于19世纪后半叶,一直延续至20世纪初,所论争的核心问题是:复制权是否可以覆盖音乐卷轴的制造?
最初,复制权无法覆盖音乐卷轴的制造。主要原因是:音乐卷轴不是给人眼观看的,而是供机器阅读的,原则上机器阅读不算侵权。1886年《伯尔尼公约》规定,用于机械再现音乐的装置的制造销售不应被认为是对音乐作品版权的侵犯。在1896年的巴黎大会上,音乐版权人要求修改公约,禁止未经许可制造销售包括自动钢琴在内的机械音乐装置。德国代表对此表示反对,首要理由是:卷轴等音乐材料与印刷的活页乐谱不同,购买者不是用来阅读的。同样的说理出现在美国1908年White-Smith v. Apollo案中:联邦最高法院判定卷轴不是版权法意义上的侵权复制品,因为“它们不是供眼睛阅读的乐谱,而是机器的一部分”;“甚至对于音乐家的眼睛而言,这些卷轴也没有传达任何意义”;“即使是那些熟练制作这些卷轴的人也无法将其作为音乐作品来阅读”。
不过,最终经过版权人的抗争,国际条约及各国法律都相继承认卷轴是乐谱作品的复制品,确认复制权可覆盖机械复制。1908年,柏林会议对《伯尔尼公约》作出修改,第13条第1款规定音乐作品的作者对“将作品改编到用于机械再现这些作品的装置中”享有专有权利。美国1909年修改《版权法》(Copyright Law),将版权人的专有权利扩展至“任何形式的记录”,机械复制被纳入版权控制范围;德国1910年修改《著作权法》(Urheberrechtsgesetz),规定音乐作品的作者享有专有的机械复制权。值得注意的是,在承认机械复制权的同时,多数立法例规定音乐作品的机械复制适用法定许可:若作者已经许可将其音乐作品录制到机械装置中,则第三者在依法支付使用费的前提下可实施这种录制。总的来说,自动钢琴版权史的经验启示有以下三点。
其一,新技术对作品的使用应区别“仅机器使用”和“机器使用+人类使用”。复制权可否控制音乐卷轴的制造?对该问题,法律先是否认,最后转为承认。这一转变的原因在于:人们逐渐认识到,“即使卷轴不能被人类眼睛阅读,但自动钢琴确实发出了适合人类耳朵的声音”;“全部地豁免机器可能会出现White-Smith v. Apollo案的问题:最终用于人类眼睛的作品使用将会逃脱版权审查。”可见,在“仅机器使用”的观念下,不承认复制权可覆盖音乐作品的机械复制;在认识到作品是“机器使用+人类使用”后,承认复制权可覆盖音乐作品的机械复制。这一区分为机器学习的版权问题分析提供了分类讨论的思路。
其二,新技术所涉版权规则的设置应协调好两组利益关系。许多立法例在规定复制权可覆盖音乐卷轴制造的同时引入了法定许可。这一权利限制是为了平衡各方利益。一是音乐版权人与自动钢琴制造商的利益平衡。法定许可一方面可保障音乐版权人的经济报酬,另一方面能确保自动钢琴制造商继续开拓新兴的唱片市场。二是自动钢琴大型制造商与中小型制造商的利益平衡。在机械复制权被立法承认之前,大型自动钢琴制造商与一些乐谱出版商签订独家许可协议,垄断了大量的音乐资源。中小型制造商要求打破垄断,获取市场竞争机会,于是法律在承认机械复制权的同时引入了法定许可。同样地,机器学习版权规则的设定,一方面要兼顾版权人和技术开发商的利益,另一方面要调和技术开发商之间的竞争关系,尤其要重视中小企业的市场进入问题。
其三,新技术所涉版权规则的设定应考虑国家发展利益、国际竞争关系。在1896年的巴黎大会上,音乐版权人要求修改公约,禁止未经许可制造销售包括自动钢琴在内的机械音乐装置。德国代表对此表示反对,除了“卷轴等音乐材料不是被购买者用来阅读的”之外,还有一个理由:美国等非公约成员国没有规定该项禁止,若公约作禁止规定,将不利于公约成员国就该项技术和产业与他国竞争。同样地,技术的国际竞争是机器学习版权规则设定的一个重要约束条件。如美国学者指出,若美国法院在当前进行的几个机器学习版权纠纷中判决支持版权人,会“使生成式人工智能开发商将其经营基地转移至其他国家,即作品作为训练数据被视为合理使用的国家”。
三、机器学习版权规则的
合理使用观点及其反思
与临时复制和自动钢琴一样,机器学习的版权问题是,如何对新技术环境中的作品使用进行版权定性及制度安排。机器学习版权规则的现有学术讨论和法律实践多集中于合理使用,但合理使用并非万全之计,其在诸多方面存在问题,值得进一步追问和反思。
(一)目前机器学习版权规则的
多数观点:合理使用
目前多数观点主张使用合理使用制度来解决机器学习的版权问题,相关说理主要从以下三个层面展开。第一,在技术层面,合理使用能提高机器可学习作品的数量、质量,促进算法技术健康发展。若要求版权许可,则会促使机器学习使用获取限制低但带有偏见的数据,而劣质数据的输入是出现算法偏见的主要原因。第二,在经济层面,合理使用可免除或降低权利交易费用,减少人工智能发展成本,降低中小企业的市场进入门槛。交易成本、市场失灵常被用来解释合理使用之经济合理性,同样的说理也被用于机器学习版权问题。第三,在法理层面,机器学习对作品的使用具有“目的转换性”,可认定为合理使用。此外,前文已述,学者还提出“技术性合理使用”“合理学习”等概念及理论来解说机器学习在版权法上构成合理使用。
在法律实践中,欧盟2019年《版权指令》第3、4条分别规定了非商业目的和商业目的的文本数据挖掘版权例外,其中商业目的的文本数据挖掘例外允许权利人“选择退出”。虽然指令文本没有直接提及机器学习,但该例外被认为与人工智能相关。相似地,美国法院在谷歌图书系列案中认为谷歌的一项图书资料分析服务具有转换性,因此判定其为合理使用,此案判决被认为对当前的机器学习版权纠纷具有先例价值。此外,日本2009年《著作权法》(著作権法)第47-7条(2018年改为第30-4(ii)条)规定了十分宽泛的文本数据挖掘例外,其既适用于商业目的也适用于非商业目的,且不允许权利人选择退出。据此,日本的上野达弘教授称“日本是机器学习和文本数据挖掘的天堂”。在我国,机器学习中的作品使用不属于《著作权法》第24条所列举的十二种合理使用情形。第24条是一个未完全开放的法律条款,一方面被引入的“三步检测法”之第一步限定“在下列情况下”,另一方面兜底条款规定其他合理使用情形须由“法律、行政法规规定”。因此,机器学习无法通过解释一般条款或兜底条款被认定为合理使用。对此,学者建议我国修改法律将机器学习对作品的使用新增为一项合理使用情形。
对于机器学习版权规则之合理使用观点,我们不禁追问:合理使用是唯一的制度选择吗?毕竟在版权史上,解决新技术版权纠纷的制度工具不只有合理使用。以临时复制、自动钢琴的版权论争为例,新技术对作品的使用有三种定性:版权权利范围之外的自由使用,即图1中A行为;版权权利范围之内的合理使用,即图1中B行为;版权权利范围之内的侵权使用,即图1中C行为。
A在权利范围之外,不构成侵权,无侵权责任(nonliability)。此类作品使用是非版权法意义上的作品使用,是不将作品作为作品的使用(非作品性使用)。B在权利范围之内,初步认定为侵权,应承担侵权责任,但经合理使用抗辩可免除责任(exempt from liability)。C在权利范围之内,构成侵权,应承担侵权责任(liability);反而言之,使用作品应获得许可(法定或意定)、支付报酬。目前多数观点将机器学习定性为合理使用,即B行为。那么机器学习有没有可能是A行为或C行为呢?以下两个问题值得反思。第一,是否所有的机器学习均在版权权利范围之内,进而有必要认定其为合理使用?这是合理使用的前置问题。第二,是否所有进入版权权利范围之内的机器学习,都能认定为合理使用?这是合理使用自身的认定问题。
(二)合理使用的前置问题:
机器学习是否均在版权权利范围之内?
前文已述,挪威等国反对《版权条约》基础提案第7条关于“将临时复制定性为合理使用”的提议,其逻辑是:如果行为没有进入版权权利边界,不存在侵权,那么就没有必要讨论合理使用。合理使用的法律性质有三种学说,即权利限制说、侵权阻却说、使用者权说。我国司法实践采取侵权阻却说。例如,某案的裁判逻辑是:第一,涉案电子游戏画面构成作品;第二,网络直播行为受版权专有权控制;第三,网络直播不是对游戏画面的合理使用;第四,被告应承担停止侵权、损害赔偿责任。在该案中,第二步的侵权分析即被诉行为是否进入权利所控行为范围,先于第三步的合理使用分析。我国学者也多采侵权阻却说。如王迁教授在讨论适当引用时指出,在评论他人作品时会发生作品复制或播放行为,“‘合理使用’正是豁免了此类复制或播放行为所可能导致的侵权责任”。总之,行为是否进入版权受控行为范围的分析要先于合理使用分析。同样地,机器学习的合理使用定性也存在一个前置问题,即机器学习是否进入了版权权利范围?
这一前置问题非常重要。若忽略此问题,不对版权法意义上的作品使用和非版权法意义上的作品使用加以区分,就会像误认商标描述性使用为商标合理使用一样,使合理使用成为一个伪概念。《商标法》第48条强调商标使用是“用于识别商品来源的行为”,也即商标法意义上的商标使用是对商标符号所指(识别商品来源)的使用。《商标法》第59条第1款之描述性使用是对商标符号其他所指(第一含义)的使用,不是在商标法意义上使用商标,因此不存在合理使用的前提。商标描述性使用之合理使用定性的错误,在机器学习领域也可能出现。例如,上野达弘教授在分析日本《著作权法》第30-4条(涉及文本数据挖掘)时指出,“第30-4条可被认定为一个界定著作权固有权利范围的工具,与‘商标意义上的使用’理论有相似性,尽管第30-4条不是作为著作权范围界定的规定,而是作为著作权例外的规定之一。”这里体现出该学者的疑惑:文本数据挖掘,在理论上应是在权利范围外部、旨在限定权利范围的自由行为,但在法律中却是权利范围之内的例外行为,似有不妥。
当前对机器学习合理使用定性之前置问题的反思,集中体现为欧盟学者对2019年《版权指令》第3、4条的批评。森福特莱本教授指出,“法律制定者应首先确认文本数据挖掘背景下的作品复制究竟是否具有版权相关性,是否落入复制专有权的控制范围”;“欧盟2019年《版权指令》第3、4条对文本数据挖掘的规定,假定文本数据挖掘具有版权相关性并寻求阻止侵犯复制权的方法,是一种‘Berne/TRIPS/WCT-plus’现象”,其他国家不必效仿,可以“将文本数据挖掘中的复制行为从一开始就放在复制专有权所控范围之外”。无独有偶,比利时马高尼教授(Thomas Margoni)等指出:欧盟2019年《版权指令》第3、4条“将数据分析定性为财产权主张的例外,这从根本上就错了”,因为“文本数据挖掘不应该被认定为版权侵权,而是版权控制范围之外的问题”。总的来说,若机器学习作品属于非作品性使用,则不需要合理使用制度“出场”,版权纠纷就可被解决。
(三)合理使用的认定问题:
机器学习是否都符合“三步检测法”?
如《版权条约》基础提案第7条的附随说明所强调的那样,权利例外的设置应受限于“三步检测法”。“三步检测法”来源于《伯尔尼公约》第9条第2款、《与贸易有关的知识产权协定》(Agreement on Trade-Related Aspects of Intellectual Property Rights,TRIPS)第13条,对包括合理使用在内的限制与例外具有指导和约束作用。依据该协议第13条,设立合理使用情形需遵循以下三点:一是应限于某些特殊情况,二是不得与作品的正常使用相冲突,三是不得不合理地损害权利人的合法利益。我国2020年《著作权法》将“三步检测法”引入第24条。根据世贸组织专家组发布的争端裁决意见,第一步中的“某些”要求合理使用应被清晰限定,“特殊”要求合理使用应在数量和质量层面加以限制;第二步中的“正常使用”应涵盖作品当前的传统使用方式和未来的潜在使用方式;第三步强调对权利人合法利益的损害不能超出合理范围,如不能对权利人造成或可能造成不合理的收入损失。将机器学习定性为合理使用是否能够通过“三步检测法”呢?
鉴于“三步检测法”中核心概念的模糊性,显然不能得出确切的肯定答案。相反,“三步检测法”中核心概念的模糊性将是权利人攻击机器学习合理使用之合法性的出发点。第一,机器学习的适用场景非常广泛,将所有场景下的机器学习定性为合理使用,在第一步检测中会受到诘难,一方面是因为“某些”要件要求合理使用明确限定,另一方面是因为“特殊”要件在数量层面对合理使用进行限制。第二,虽然将作品作为数据用以训练算法不是传统的作品使用方式,但属于潜在的、正在发展的作品使用方式。有学者指出,版权内容的数据训练许可市场已经存在、正在发展,典型的许可实践是各大互联网企业服务协议中的知识产权条款。例如,有的平台使用平台内的用户内容训练绘画产品“×××× AI”,其版权合规主要依赖服务协议中宽泛的版权许可条款。的确,作品的使用方式存在一个流变过程,潜在的作品使用方式会慢慢形成许可市场进而被认可为一种新的作品使用方式。第三,某些机器学习对权利人经济收入机会、作者职业生计的损害,以比例原则观之,很难谓之合理。“不合理的损害”是第三步检测的核心,具体判断可借助比例原则。比例原则包括目的正当性、手段实现目的的适当性、手段之于目的的必要性、损害与收益的均衡性或比例性。机器学习的诘问在于:机器学习(尤其是模仿个别作者的机器学习)应用目的是否正当?其所带来的技术进步与其对版权人的利益损害是否成比例?人工智能开发的确很重要,但不应不惜一切代价。
不断进步的机器学习技术,使人工智能公司未经许可从受版权保护的作品中提取价值,并以商业目的使用这些价值,可能某天会危及人类创作者的生计。随着ChatGPT、文心一言等生成式人工智能的火爆,越来越多的文艺创作者将人工智能视为真正的竞争威胁,这种担忧转化为版权批评。生计受到威胁的文艺创作者开始联合起来,组成团体,表达诉求。例如,2023年7月,近8000名作者与作家协会一同签署了一份公开信,要求OpenAI等人工智能公司在使用作品进行机器学习时,必须取得权利人许可并支付合理报酬。再如,欧洲艺术家、出版商联合组建了“欧洲人工智能监管协会”,发表声明(截至2023年4月11日已有8371人签署该声明)要求人工智能公司在未经许可的情况下不得使用作品训练其智能算法和产品,并呼吁为作者增加一个“AI训练权”。
四、机器学习的分类讨论
与版权规则的梯度设置
批判机器学习版权规则之合理使用观点,不是主张机器学习不适用合理使用规则,而是强调合理使用应有所为有所不为。机器学习种类多、应用广,涉及人脸识别、绘画作文等诸多场景,不同的机器学习对作品的使用方式以及对版权人利益的影响是不同的,因此将机器学习一刀切地笼统定性为合理使用是不妥的。机器学习的版权治理应对机器学习分类讨论,在此基础上为不同类型的机器学习梯度性地设定非作品性使用、合理使用、侵权责任等不同的版权规则。机器学习分类讨论的首要问题是分类标准的确定,这可从自动钢琴版权史中获得启示。与“仅机器使用”和“机器使用+人类使用”的分类相似,有学者以是否有表达性内容输出为标准将机器学习划分为“非表达型”和“表达型”。在这一分类中,表达型机器学习应再分两类讨论:一是大众表达型机器学习,以学习大众表达为目的;二是个人表达型机器学习,以模仿特定作者为目的。因此,下文将机器学习分为三类讨论:非表达型、大众表达型、个人表达型。此三类机器学习的讨论背景是以营利为目的,而非营利主要涉及机器学习的科研活动,将在本节最后一部分讨论。
(一)非表达型机器学习:
非作品性使用,无侵权责任
非表达型机器学习,指没有表达性内容输出的机器学习,例子如自动识别技术。为研发人脸识别系统,某开发者从某网站的新闻报道中抓取出约50万张新闻图片,进而从新闻图片中提取出44773张人脸图像,用以训练算法。又如,某影视公司起诉脸书等,称被告擅自下载其三维影视作品用以训练自动驾驶的场景识别技术,侵犯版权。除了没有表达性内容输出,非表达型机器学习还有一个特点:从作品中提取的有价信息是非表达性的事实或思想,如从作品中提取出人脸要素、场景要素。
非表达型机器学习对作品的使用属于非作品性使用。德国的斯特罗威尔教授(Alain Strowel)对“非作品性使用”(not used as a work)和“作品性使用”(used as a work)作出区分,指出作品的侵权使用应是将作品作为作品来使用,这一要求根植于版权法的基本目的——鼓励向社会公众发表言论。此外,美国的德拉西诺韦尔教授(Abraham Drassinower)将对“合理使用”和“非作品性使用”(nonuse)作出区分,后者指仅技术性的、非交际(noncommunicative)目的的作品使用。“为确保建构之概念能经济有效地实现其规范目的,其建构、适用与调整自当心系于该概念实现预设之价值的功能。这是功能所以决定法律概念之建构的道理。”黄茂荣教授认为,目的和功能相近,分别对应法的主客观方面。版权的功能式定义应取向于版权法目的,即保护作者表达的创作与传播。在功能主义视角下,版权是仅控制作品表达性内容之使用的专有权,而非意图控制所有作品使用行为的专有权。有别于形式主义法学将复制、汇编等作品使用行为三段论式地机械认定为侵权,功能主义取向于版权法目的之实现,分析作品使用是否利用了表达性内容,进而判断侵权与否。这种功能主义方法与版权的财产权性质是一致的——版权是财产权,但有别于物权,不具有绝对排他性,不控制作品的所有使用行为,不独占作品的全部社会收益。综上,非表达型机器学习虽然复制存储、汇编整理了作品,但没有提取表达性内容且无表达性内容输出,其对作品的使用不以使用作品中的表达性内容为目的,属于非作品性使用,不构成侵权,无侵权责任。
可能有异议观点认为,既然将非表达型机器学习定性为非作品性使用,其法律效果与合理使用一样,均是无需获得许可的自由使用,那么还有必要区分非作品性使用和合理使用吗?这种区分是必要的,原因除了上文提及的两者之间存在着的根本性差异,还有以下三点。第一,将非表达型机器学习定性为非作品性使用,法律可预期性更高。合理使用的一大特点是法律概念模糊、法律适用不确定,该特点在实践中又转变为轻率的侵权诉讼、漫长的诉讼过程等,这些都将成为人工智能企业特别是初创型小企业创新发展的阻碍因素。相比而言,非作品性使用可为人工智能企业提供一个法律预期更为明确的“安全港”。因为,若该类作品使用不属于版权侵权,难以捉摸的合理使用就无须进一步分析了。第二,将非表达型机器学习定性为非作品性使用,法律评价更为积极。如图1所示,非作品性使用是无侵权责任,而合理使用是有侵权责任但予以免除。虽然两者均不实际负担侵权责任,但法律评价不同。无责定性之行为比免责定性之行为更具有正当性,法律对无责定性的行为是赞许、支持的态度,而对免责定性的行为仅仅是不反对的态度。被认定为非作品性使用而非合理使用的非表达型机器学习,其对作品的使用不是值得原谅,而是其一开始就没有做错事情。第三,非作品性使用能为合理使用“减负”,防止合理使用泛化、异化。为应对技术发展,合理使用被过度解释以便覆盖作品的某些新技术使用,不断地泛化甚至异化。典型例子是“转换性使用”的滥用:“法院最初仅保守地处理那些在内容或目的上有强烈转换性的无争议案件。然而,通过类比的链式效应,法院将定义一点一点地扩展到越来越远离原始语境的事实模式。这个概念最终到了临近断裂的点。”将非表达型机器学习解释进合理使用会进一步加重合理使用的泛化、异化,而非作品性使用在更好地为新技术创造宽容性法律环境的同时避免合理使用扭曲变形。
另外,可能有观点会质疑非作品性使用的司法可行性。诚然,我国法院多偏好单一规则(仅合理使用)的简易分析,而怠于区分规则(非作品性使用和合理使用)的辨析。不过,法律是实践的科学,更是规范的科学。故此,法律不应一味地迁就实践,而应能动地改良实践,这是使命而非自负。而且,以认知科学观之,非作品性使用的司法适用不会新添太多认知负担。第一,非作品性使用可凭借“图式”来提高司法认知效率。知识产权司法实践遵循“客体资格认定、受控行为分析、权利例外判定、法律救济断定”这一认知图式。非作品性使用的司法适用遵从该认知图式,其与合理使用分别隶属于受控行为(权能)分析、权利例外判定环节。具体来说,非作品性使用是从反面来协助受控行为范围的分析,其作用如同客体排除领域之于客体资格认定。与其说是新提出“非作品性使用”,毋宁说是对现有司法实践中“受控行为分析”的重新发现和强调。第二,非作品性使用可以借助“类型”来提高司法操作性。例如,《著作权法》第24条所列的12种合理使用情形对合理使用的司法适用具有巨大的认知效用。同理,我们可总结、阐释非作品性使用的具体类型(如非表达型机器学习)来为司法服务。
(二)大众表达型机器学习:
受限制的合理使用,免除侵权责任
大众表达型机器学习,指以模仿大众表达为目的的机器学习,所使用的作品来自数量众多的作者。实践中,大部分的表达型机器学习以学习大众表达为目的。例如,微软小冰为了开发其绘画能力,筛选出人类近400年出现的较为出名的画家236位,将他们的画作数字化为可供机器学习的数据集合。另如前文所述,为开发GPT-3,OpenAI搜集了超过35万部书籍用于训练语言大模型算法。
无论是微软小冰还是ChatGPT,都有表达性内容的输入和输出,其对作品的使用属于在版权法意义上使用作品,但可构成合理使用而免除侵权责任。原因如下。第一,该类机器学习从作品中提取的学习对象是表达要素,如词汇、色彩的组织方法、排列顺序等。版权的保护对象是表达,而符号的组织排列就是表达的一种形式。如美国联邦最高法院所言:“版权是对词汇组织安排的权利”,“这种财产权的对象是作者著述中词汇的顺序”。以获得人类表达能力为目的,机器学习从作品中提取出语词排列、色彩搭配等表达要素,并不关心作品表达背后的事实真假和思想含义。第二,该类机器学习所提取出的表达要素通常不是被学习作品受版权保护的独创性表达。机器学习对作品数据进行统计分析和数学建模,本质上是对数据进行“求同存异”,即保留重复率高的数据、排除重复率低的数据。所以该类机器学习从作品中提取的表达要素通常是所有作品文本中高频率出现的表达组合,这些常用表达是作者共同体内部通用的大众化表达,处于公共领域不受版权保护。第三,该类机器学习的创作内容不会不合理地损害被学习作品的市场利益。必须承认,人工智能有时不是从作品数据中“学习”而是从中“记忆”,如此便有可能输出与被学习作品构成实质性相似的内容,构成侵权。这种输出内容实质性相似的侵权情况,在大众表达型机器学习中出现的概率较小,在下文将要讲到的个人表达型机器学习中出现的概率较大。这类情况是因为算法不够“智能”而出现的,会随着技术不断成熟而逐渐减少直至消失。机器学习技术越先进,其所生成的新作品在“质”上就越有别于被学习作品,而非实质性相似的新作品即使减损了被学习作品的市场利益,也不会被版权法评价为“不合理”。此外,实质性相似问题还可在输出端施加过滤技术予以避免。综上,将大众表达型机器学习界定为合理使用是合适的。
不过,应认识到,大众表达型机器学习通常不会替代某个被学习作品的市场,但它有可能替代被学习作品的作者群体。显然后者的利益损害要比前者更大。对此,有学者曾发问,美国合理使用“四要素中的哪一个要素考虑了‘人类存在风险’?”鉴于利益冲突的复杂性和利益衡量的多重性,知识产权的权利限制也有受到限制的趋向。考虑到人类创作者的利益,有必要对大众表达型机器学习的合理使用进行反限制。合理使用的一种反限制形式是允许权利人保留权利、选择退出。例如,我国《著作权法》第24条第4、5项分别规定了对时事性文章、公众集会上讲话的合理使用,之后有一个但书:著作权人/作者声明不许刊登、播放的除外。类似立法例还有欧盟2019年《版权指令》第4条,其对商业目的文本数据挖掘例外附加了“退出机制”。本文主张参照《著作权法》第24条第4、5项,为大众表达型机器学习设立附加退出机制的合理使用,理由有如下两点。
其一,能顾及版权人的利益,缓和版权人的反对情绪,增加合理使用立法规则的可接纳性。机器学习的版权抉择不能仅强调技术发展,还应激励文艺创作、顾及版权人利益。国内学者在做比较法分析时多强调日本《著作权法》第30-4条(内含文本数据挖掘)例外规定的宽泛,鲜有提及该条还有一但书:若根据作品的性质和目的及使用情况,作品使用会不合理地损害著作权人的利益,则本条规定不予适用。2023年8月,日本新闻协会等四大行业组织发表联合声明,批评日本《著作权法》在促进人工智能发展的同时没有充分地考虑著作权保护,建议对第30-4条进行补充解释或立法修改。另外务实地讲,智能技术开发者一方对合理使用规则受限制的让步和妥协,能够最大程度地获得版权主体一方的承认和合作,进而使合理使用立法顺利进行。例如,2022年6月英国版权局提出修法动议,计划在版权法第29条中引入可覆盖商业使用的文本数据挖掘例外;但2023年初,英国议会在版权人的强烈反对下叫停了这一立法程序。英国上议院通信与数字委员会指出,开发人工智能很重要但不应不合理地损害创意产业的利益,英国可考虑采取其他方法,例如欧盟2019年《版权指令》的做法——为版权例外附加退出机制。
其二,能为版权人与智能技术开发者之间的私人自治、利益合作创造制度空间。机器学习的版权治理应尊重立法权威,但不能单纯地寄希望于立法。在立法之外,实践主体间带有进化性质的动态利益博弈对规则的最终定型和未来发展具有重要作用。也就是说,机器学习的版权规则不只有硬法,还应重视软法:私人间的自治规则。在附加退出机制的合理使用立法框架下,版权人可借助网络平台、技术措施联合起来共同行使退出权利,构建一个新的集体行动框架,在选择退出合理使用规则的同时创建旨在降低交易成本的“一站式”版权许可机制。类似实践在欧盟已经展开:Spawning是一家致力于构建“AI同意机制”的企业,一方面为艺术家提供“作品是否被用于人工智能训练”的查询服务,帮助艺术家从他人的训练数据集中选择退出;另一方面为人工智能公司的训练数据集提供版权合规服务,协助其获得版权许可。可见,版权人选择退出合理使用并不必然意味着作品退出训练数据集,其可通过具有交易成本优势的许可机制使作品留在或回归训练数据集。私人间的自治实践能为机器学习的版权治理提供群众智慧和社会动力。
(三)个人表达型机器学习:
构成侵权使用,应负侵权责任
个人表达型机器学习,指以模仿个别作者为目的的机器学习,所使用的作品几乎都来自特定作者。例如,Stability AI的绘画产品复制搜集了大量画作数据,可向用户提供个人订制式的绘画服务:用户只需输入的某位画家的名字,程序就能生成与该画家艺术风格一致的新画作。另如,2023年上半年,“AI歌手”在中国社交网站上迅速走红。这些AI歌手是通过在算法程序上输入目标歌手歌曲、生成声学模型而创建的。版权人认为,未经授权使用音乐作品、录音制品来训练AI歌手是一种版权侵权行为。
机器学习以模仿个别作者为目的使用特定作者的作品,难以认定为合理使用。主要原因如下。第一,该类机器学习从作品数据中提取出的要素是作品中受版权保护的核心部分——作者的个性化表达。康德关于著作权属于人格权的学说塑造了以德国为代表的“作者权”理论体系,其强调作品财产权源于作者人格的延伸,作品独创性在于作者的个性化表达。旨在模仿某一作者表达的机器学习,是以无限接近该作者的创作风格为技术目标的,从被学习作品中提取的信息实质上是某一作家一贯的个性化表达,这是作者的人格延伸、作品的独创性所在。第二,被学习作品的个性化表达会在输出内容中再现,对被学习作者的合法利益产生不合理损害。该类机器学习的技术越成熟,被学习作品的个性化表达在输出内容中再现的概率就越大,对被学习作品的市场替代效应就越明显、对被学习作者的职业生计影响就越显著。2023年1月,三位艺术家对Stability AI提起版权诉讼,事由之一就是被告提供以模仿某一画家为目的的衍生性绘画服务,有偿出售特定艺术家风格的AI画作,这将对被学习画作形成市场竞争,剥夺原本属于被学习画家的市场利益。
另外,个人表达型机器学习有一个特点:偏向于去学习创新型、领军型的知名作者。因为,知名作者的个性化表达更具有识别性、独创性,一方面在技术上更容易被提取和模仿,另一方面在市场上更具有消费价值。故此,个人表达型机器学习主要是对文艺创作的创新者、领军者带来利益损害,而该群体创作激励的减损会破坏整个文艺创作生态环境,甚至威胁人类文艺创作的可持续性发展。如果机器学习想要保留可持续性的人类作品资源以供算法训练,那么个人表达型机器学习就不宜认定为合理使用,反而应尊重作者的个性化表达,有偿使用其作品。而且,就个人表达型机器学习来说,被学习作品的版权人数量较少、容易找到,版权许可的交易费用不高,不至于出现市场失灵的情况。在法经济学看来,若不存在版权交易市场失灵情况,就不宜采用合理使用规则。
(四)机器学习非营利科研活动的
版权定性与规则安排
机器学习有营利与非营利之分,非营利机器学习主要以科学研究为目的。区别营利与否的法律意义,主要是对表达型机器学习而言的,因为无论营利与否,非表达型机器学习对作品的使用均属于非作品性使用,无侵权责任。与上文讨论的表达型机器学习的版权规则不同,以非营利科研活动为目的的表达型机器学习可认定为研究型合理使用,学界对此有较为广泛的共识。研究型合理使用在我国《著作权法》第24条中主要体现为第1项的个人研究、第6项的学校科学研究。人工智能企业的表达型机器学习的非营利性科研活动更贴近个人研究,为更好地涵摄该类科研活动,可将个人研究修改为私人研究。
五、结语:机器学习版权规则的
中国方案
在机器学习的版权问题中,合理使用不是万能之计,非作品性使用和侵权责任(反面即许可使用)对合理使用有补充作用。我们应取向于激励文化创新、保障技术创新之目的,在分类讨论的基础上对机器学习的版权规则进行梯度设置:(1)非表达型机器学习属于非作品性使用,不侵权,无侵权责任。(2)表达型机器学习进入版权所控行为范围,初步认定为侵权:若学习大众表达,应设置附加退出机制的合理使用规则免除侵权责任;若模仿个别作者,未经许可使用作品应负侵权责任;若为非营利科研活动,应认定为私人研究型合理使用。上述主张在我国法律中的落实和推行可具体化为以下三点。
其一,将作品性使用作为版权侵权成立要件之一。前文已述,作品性使用是以使用表达性内容为目的的作品使用。在我国,作品性使用要件尚未有明确的法律条文依据,但这不意味着该要件不存在,因为可从版权法立法目的、表达思想二分原则等出发阐释、证立版权侵权之作品性使用要件。所以,目前最重要的是凝聚法理共识、形成理论通说。在没有实证法的情况下,理论通说也可以指导法律实践。待实践成熟时,可将作品性使用要件写入《著作权法》侵权行为条款(第52、53条)中,形成法律条文。不管是否以营利为目的,非表达型机器学习均属于非作品性使用,无侵权责任。
其二,将大众表达型机器学习中的作品使用规定为附但书的合理使用情形。这一新增合理使用情形的法律条文拟定:“为开发计算机系统的表达能力,以复制、汇编等方式使用非特定作者已经发表的作品进行计算分析,但著作权人以合适的方式声明不许使用的除外”。该拟定条款之“开发计算机系统的表达能力”将适用对象限定为表达型机器学习;“非特定作者”排除了个人表达型机器学习;但书是对该类合理使用的限制,允许权利人选择退出。根据第24条,合理使用情形的新增须由“法律、行政法规规定”,因此该合理使用情形可写入《著作权法实施条例》或在下次修订《著作权法》时增补进第24条。此外,第24条第1项中的“为个人学习、研究或欣赏”可改为“为私人学习、研究或欣赏”,“私人”研究可更好地涵摄人工智能企业的表达型机器学习的非营利科研活动。
其三,对机器学习的训练数据版权信息披露义务作出规定。我国《著作权法》或专门的人工智能监管法案应规定:人工智能服务提供商应记录并公开其算法训练数据中受版权保护的作品信息。规定版权信息披露义务是必要的,除了提高人工智能透明度和可信度之外,还有两点版权法上的理由:一是尊重作者的精神权利。作者有署名权等精神权利。不管机器学习是否为作品性使用、是否构成合理使用,都应披露其对版权作品的使用信息,以表示对作者创造性劳动的尊敬。这与《著作权法》第24条关于合理使用“应当指明作者姓名或名称、作品名称”的规定是一脉相承的。二是方便版权人行使财产权利。机器学习的相关信息处于黑箱之中,难以被外人所知。只有在充分保障知情权的情况下,版权人才能判断自己作品在机器学习中的被使用状态,进而行使权利保留、主张权利救济等。在这个意义上,版权信息披露义务是机器学习版权规则的配套立法措施。
环球法律评论征订方式
微店订阅
★ 请在汇款留言栏注明刊名、订期、数量,并写明收件人姓名、详细地址、邮编、联系方式,或者可以致电我们进行信息登记。
联系方式
订阅热线:010-59366555
邮 箱:qikanzhengding@ssap.cn
银行汇款
户 名:社会科学文献出版社
开户行:工行北京北太平庄支行
账 号:0200010019200365434
邮局汇款
收款人:社会科学文献出版社期刊运营中心
地 址:北京市西城区北三环中路甲29号院3号楼华龙大厦A座1403室期刊运营中心
邮 编:100029
《法学研究》公众号,敬请关注:
《环球法律评论》公众号,敬请关注:
点击 阅读原文 了解更多