查看原文
其他

朱开鑫:生成式人工智能对版权体系影响的思考

朱开鑫 版权理论与实务杂志
2024-08-26


原文刊载于《版权理论与实务》2024年第1期,原标题为关于生成式人工智能对版权体系影响的思考——技术、产业和制度三个面向,转载请注明出处。文章注释从略,完整原文请见《版权理论与实务》纸质版。

【扫描下方二维码即可订阅2024年全年《版权理论与实务》杂志。欢迎订阅!欢迎投稿!】


【朱开鑫丨国家版权局网络版权产业研究基地研究员】
【内容提要】生成式人工智能的快速发展与广泛应用,给整个版权体系带来了深刻的变革与影响。在技术层面,生成式人工智能正推动整个版权体系进入到一个全新的快速变革机遇期;在产业层面,生成式人工智能赋予了版权行业以新的创作发展模式;在制度层面,生成式人工智能引发了全球各国对于版权法上主、客体制度以及权利、责任分配规则等问题的系列思考和探讨。
【关键词】生成式人工智能;版权;技术;产业;制度

当下,新一轮生成式人工智能技术变革正在加速演进。受此驱动,全球生成式人工智能产业发展也迈向新阶段,呈现出蓬勃发展的态势。顾名思义,生成式人工智能便是用来生成内容的,所以在涉及的众多法律领域中,版权议题尤为受到关注。本文从技术、产业、制度三个层面分析生成式人工智能对于版权体系的影响和挑战,并在借鉴既有理论研究成果和域外先进实践经验的基础上,从行业实际出发提出合理化、可行性的建议思考。

一、技术面向:生成式人工智能引领版权领域变革机遇


(一)版权产业和制度的发展根植于科学技术的演进变迁


作为“因印刷技术而生,随科技革命而变”的版权产业和法律制度,其发展方向天然地受到技术创新的影响。版权“copyright”一词的由来,便是印刷、造纸技术的诞生,孕育出以“复制 copy”为核心的权利体系,之后伴随声、电、光、磁、比特等新技术与载体的演进,而不断丰富发展。[1]

新一轮生成式人工智能变革,被称为是百年不遇、堪比工业革命一般的技术机遇。2022年11月30日,美国人工智能公司OpenAI发布ChatGPT,短短2个月,用户量便超过1亿,成为全球互联网历史上增长最快的应用。生成式人工智能“顾名思义”是用来创作内容的,因此在涉及的众多法律问题中,版权领域的问题尤为受到关注。

从生成式人工智能的进化史来看,其并非突然产生,而是经过了长达60多年演进发展:从最早的萌芽期,到沉淀积累期,再到今天的快速突破期。早在1950年诞生的图灵测试,便是最早和最典型的对人工智能生成内容质量水平的测验。根据中国国内研究机构统计,2023年1—7月,中国有共计64个大模型发布;而截至2023年7月,美国共发布114个大模型,韩国位居第二,日本、法国和以色列的大模型发布量位列其后。[2]

(二)生成式人工智能使得版权关注领域发生了显著转变


版权被誉为“技术之子”,但回溯其发展历史,其更适合被称为“传播技术之子”。整体来看,版权制度的发展贯穿两条主线:一是新技术的演变带来新的传播方式,进而不断丰富版权的权利类型;二是新技术的更迭带来新的传播载体,进而持续拓展版权的客体种类。[3]

生成式人工智能技术的兴起,使得人们对版权的关注从事后的“内容传播”领域转向事前的“内容创作”领域。而在此之前,创作一直被视为人类专属领域,作为作品制度基石的“独创性智力表达”则只能由人完成,别无替代。生成式人工智能带来了全新的认知革命,“人类创作”正日益被“AI生成”所赶超和替代,由此也引发了内容创作领域,主、客体范畴界定及权属、责任分配等系统性挑战。

在生成式人工智能崛起之前,创作技术对版权制度的影响,人们能够直观感受到的或许只有拍摄技术进步催生出摄影、电影等作品。至于近些年在影视动漫、网络游戏等领域兴起的数字创作技术,更只是人类延伸辅助手段而已,在具体表达层面仍然需要高度依赖于人类自身的创作构思。

二、产业面向:生成式人工智能推动版权行业创新发展


(一)生成式人工智能深刻改变了版权领域的创作模式


生成式人工智能未来或将成为通用的内容生产工具,进而颠覆版权行业的创作形态。在传统版权领域,内容生成、知识创作是手工生产模式,高度依赖于专业技能与经验传承。生成式人工智能的发展正在使得知识与人快速解耦,并推动整个版权创作形态,从依赖“大脑构思+手工操作”向“人类构思、筛选+机器生成”转变。

从“PGC”(专业生成)到“UGC”(用户生成)再到“AIGC”(人工智能生成),版权领域的内容创作模式当下正在加速迭变。“PGC”模式之下,生成内容的质量高,但存在生产周期长、效率低的问题;“UGC”模式之下,通过提升作品分发效率和降低创作门槛,激发了全社会的内容供给总量,但在创作水平和质量层面则难以完全保证;“AIGC”模式则克服了此前“PGC”模式和“UGC”模式,在内容创作数量和质量上存在的显著不足,有望成为未来主流的内容生产模式。[4]

(二)中国网络版权产业积极拥抱生成式人工智能技术


生成式人工智能显著降低了版权领域的技能依赖和创作门槛,加速推进内容创作平权时代的来临。基于大规模语料和深度学习算法,生成式人工智能可以输出高质量的文章、图片、音乐、影视动画等多模态的内容。创作将不再是一个被专业群体垄断的高门槛领域,普通大众在AIGC的辅助下,只要具备有价值的想法和观点,具体的表达完全可以交由AI来完成实现。[5]

中国网络版权产业积极拥抱生成式人工智能这一变革机遇,并广泛运用于文字撰稿、语音处理、美术制图、视频剪辑、虚拟主播等具体领域。在生成式人工智能技术的赋能之下,网络文学、数字音乐、网络游戏、网络直播以及视听动漫等细分产业持续快速发展。根据相关统计,2022年中国网络版权产业的市场规模已经突破了1.4万亿人民币。

自2022年起,生成式人工智能内容创作模式逐步发展成熟,在各领域应用快速普及,形成产业化。预计2023年中国生成式人工智能应用市场规模有望突破千亿元。从生成式人工智能在网络版权产业的应用来看,其价值不仅在于从1到100,降本增效,突破人力瓶颈,实现快速的规模化生产;更能够助力从0到1的开拓性创作,例如在《流浪地球2》等影片制作过程中,便运用了人脸跨龄、虚拟预演等全新的内容生产方式。[6]

三、制度面向:生成式人工智能带来版权规则变革挑战


(一)关注一:大模型训练与“合理使用制度”


从生成式人工智能全产业周期来看,模型训练阶段的版权问题处于起始环节,因而受到各界的广泛关注。目前来看,生成式人工智能领域的案件争议也大都聚焦于这一阶段:根据不完全统计,仅2022年11月至2023年10月,美国加州北区法院便受理了超过10起艺术家、创作者起诉OpenAI、Stability AI等生成式人工智能厂商大模型训练的版权侵权相关案件。

从生成式人工智能模型训练全周期来看,有三个技术阶段的版权问题值得关注。第一,作品获取阶段的版权关注。即模型训练研发平台通过购买数据库或者爬取公开数据等方式,获取作品数据的行为,这一阶段主要涉版权法上“技术保护措施”和“权利管理信息”的法律判断。第二,作品存储阶段的版权关注。即将包含作品的语料数据进行存储,但值得注意的是作品语料并非直接存储在模型之中,而是存储在其他相关的本地服务器之中,供模型训练之时调取。这一阶段主要涉版权法上“复制权”的侵权判定问题。第三,作品处理阶段。这也是模型训练最为核心的阶段,包括通过无监督学习、监督学习等模式,将作品体现的相关性、模式等转换为参数并存储在模型内部。但目前来看,各界对于这一技术步骤在版权法上的行为属性判定尚未形成基本共识。有观点认为,“作品处理”行为可能落入到改编权范畴;有观点认为,该行为可能落入到版权法对于兜底权利的规定范畴——“应当由著作权人享有的其他权利”;还有观点认为,该行为可能本质上并不属于版权法专有权利规制的范畴。[7]

在生成式人工智能时代,版权领域传统的“授权许可模式”的可适用性存在一定的困境,有待进一步的论证探讨。第一,“授权的基础”有待明确。前文已经述及,目前来看在整个模型训练阶段最为核心的作品处理行为,究竟落入版权法上的何种权利规制范畴尚未明确。第二,模型训练版权“授权的可行性”有待论证。实操层面,目前仍存在训练数据规模过大、对应的版权主体不明、具体的授权落地机制困难等现实问题。第三,“授权的意义”有待评估。在授权机制存在难以落地的情况下,对于授权的强制要求,可能会产生整个大模型行业的“寒蝉效应”“模型偏见”“模型记忆”等一系列问题关注。[8]

从国际层面来看,2023年以来全球各国都在加速探索通过“合理使用”等版权限制与例外制度,对生成式人工智能模型训练过程中的作品利用行为,进行不同程度的版权责任豁免。2023年1月,以色列司法部发布专门意见,明确AIGC模型训练符合本国“版权法”对“合理使用制度”的规定,而其正是以《美国版权法》上合理使用“四要素分析”为蓝本。[9]2023年2月,韩国经济部长会议发布《新增长4.0推进计划》,指出“推动版权法的修订,允许在数据分析中使用版权作品,以发展超大规模的人工智能”。[10]

2023年5月,日本政府表示允许AIGC模型训练对于版权人作品的直接利用。而早在2018年日本便修改《著作权法》,设置了新的“合理使用”条款——“不以欣赏作品原有价值为目的的利用”。[11]2023年11月,欧盟《人工智能法案(草案)》最新版本明确,2019年通过的《单一数字市场版权指令》关于“文本与数据挖掘例外”的规定适用于生成式人工智能模型训练。

值得关注的是,生成式人工智能模型训练阶段的版权责任豁免问题,涉及权利保护、激励创作以及技术创新、产业发展等多重价值目标。未来可能需要更加科学和平衡的制度设计,例如欧盟提出的“文本与数据挖掘模式”一方面给予AIGC模型训练阶段对版权作品利用的授权豁免;但另一方面,对于商业属性的AIGC模型训练则允许版权人通过特定技术可识别的方式保留这一权利。[12]

(二)关注二:AI生成内容与“可版权性议题”


生成式人工智能应用发展使得在作品的最终形成过程中,人类的贡献不断衰减而机器的贡献不断提升。这引发了各国关于人工智能生成内容能否获得版权法下作品制度保护的系列探讨。如何评估人工智能生成内容的独创性?人工智能生成内容是否符合作品或邻接权客体的要求?何种程度的人类干预能够使得人工智能生成内容获得版权保护?等等。

从国际层面来看,2023年3月,美国版权局基于人类作者身份的要求,率先发布“生成式人工智能版权注册指南”表示不会将完全由人工智能生成的内容注册为作品。通过公开文件检索,美国版权局AIGC版权注册代表性案例共有四例:2022年2月14日的“最近的天堂入口”案(A Recent Entrance to Paradise),2023年2月21日的“黎明的扎里亚”案(Zarya of the Dawn),2023年9月5日的“太空歌剧院”案(Théâtre Dopéra Spatial),以及2023年12月11日的“SURYAST”案,但均拒绝予以版权注册。

举例来讲,2023年8月18日,美国哥伦比亚特区法院就“泰勒诉美国版权局AI绘画版权登记案”作出判决。最终基于“版权法仅对自然人进行财产权激励”“版权法渊源表明作者身份等同于人类创作”“联邦最高法院一直坚持人类作者的要求”三点理由,重申了美国版权法“只保护人类作者身份,不对纯机器生成内容加以保护”的论断,驳回了原告的起诉。2023年9月5日,美国版权局再次拒绝“太空歌剧院”的版权注册。该局解释,Midjourney和Gigapixel AI生成的特征必须作为非人为创作排除在外。由于Allen要求注册整个作品,并拒绝放弃属于人工智能的部分,因此不能注册该请求。

与此同时,也需要注意英国版权法则存在对“计算机作品”(Computer-generated Work)的规定,目前来看原则上可以涵盖对人工智能生成内容的版权保护。而世界知识产权组织(WIPO)、国际保护知识产权协会(AIPPI)等国际组织,[13]对于人工智能生成内容可版权问题尚未有指导性的明确意见。世界知识产权组织(WIPO)于2020年5月29日发布《经修订的关于知识产权政策和人工智能问题的议题文件》,对于AI生成内容的属性尚无定论,但明确自动生成和辅助创作的划分是解决前提。“人工智能生成的”与“人工智能自主创造的”是可以互替使用的术语,系指在没有人类干预的情况下由人工智能生成产出。在这种情况下,人工智能可以在运行期间改变其行为,以应对意料之外的信息或事件。要与“人工智能辅助完成的”产出加以区分,后者需要大量人类干预或引导。

应当说,我国关于人工智能生成内容可版权性问题的判定标准具有内在一致性,强调应当体现自然人的创作贡献。《著作权法》第11条明确规定,“创作作品的自然人是作者”。2023年8月,中国国内出现了首例涉及人工智能“文生图”版权属性判定的案件。原告在北京互联网法院提起诉讼,主张自身利用开源软件Stable Diffusion生成的AI绘画内容构成美术作品,被告未经授权的公开传播行为侵害了其享有的信息网络传播权等。原告表示本案不在于简单的侵权索赔,而是要在产业层面为AIGC发展明确版权法上的行为预期。2023年11月27日,北京互联网法院作出一审判决,表示涉案AIGC工具仅是使用者的辅助创作手段,生成内容能够体现使用者的独创性贡献,构成受版权法保护的作品。[14]

关于人工智能生成内容能否受到作品保护,可以从以下几个层面加以关注探讨。首先,从技术层面来看,生成式人工智能技术在当下仍然仅是人类的辅助性创作工具[15],远没有达到突破“主客体、人物二分”的技术临界点。因此,对于人工智能生成内容加以保护,可以实现版权法上“激励创作”的内在制度目标。但需要明确的是我们需要激励的主体是利用人工智能进行内容创作的人,而非人工智能技术本身。

从产业层面来看,有恒产者才会有恒心,不对人工智能生成内容加以保护会很可能带来一系列负面影响:首先,一定程度上会影响对于生成式人工智能的使用动力,进而反向影响上游大模型产业的研发动力;其次,可能会影响生成内容IP的后续授权和维权稳定性;再次,还可能会诱发未经授权的内容使用,进而带来创作、交易市场的混乱。

从制度层面来看,目前AI生成和非AI生成的内容,只是人类利用了不同的创作工具,而在生成内容的外在表现形式层面并无本质差异。因此,在版权法上,不论是创设新的作品类型还是新的邻接权客体类型,都可能引发与既有作品类型外观重合的问题。退一步来讲,即使借鉴英国的“计算机生成作品”模式,对人工智能生成内容设置权利范畴和保护期限的特殊限制,也存在诱导人们隐瞒AI生成的反向制度激励问题,进而导致在实践中制度难以落地的风险。值得关注的是,自英国1988年创立计算机作品以来,仅衡平法院在2006年1月20日作出一例相关判决。[16]

对于AI生成与“可版权性”问题的制度应对路径可以分为以下三个方面。第一,只要AI生成内容满足客观上的独创性要求,便可以落入版权法作品保护范畴。当然,需要AI模型使用者能够证明自身的创作贡献以及与生成作品之间的必要联系。但这更多是在发生相关作品权属、侵权等争议之后。从版权法角度来看,虽然不强调AI生成创作的“独创性高低”,当仍需满足“独创性有无”。

第二,认定AI生成内容具体构成何类作品,需要看AI生成内容的外观表现形式,符合版权法对于哪些特定作品的要求。根本来看,AI生成内容不会构成一类全新的版权客体类型,最终还是会落入文字、美术、音乐、视听等既有作品范畴之中。

第三,无需过度纠结AI生成内容质量的高低,即使有些提示词和模型参数可能设计得较为简单,生成内容的独创性没那么高,但非AI生成内容的独创性也会存在高低差异。低质量的AI生成作品,也包括相对简单的提示词可能产生的同质化作品,最终都会被市场所筛除和抛弃,相应的权利人也不会有过高的传播和商业利用预期。归根结底,法律只需解决特定内容是否受到版权保护的问题,诸如艺术价值、市场价值此类问题则应当交由市场来加以评判。

(三)关注三:AIGC平台责任与新“避风港制度”


首先,根据“权利之所在,责任之所在”的基本原则。哪一方主体享有人工智能生成内容的相关权利,哪一方主体便需要承担对应内容可能引发的版权侵权责任。从目前各国产业实践来看,AIGC服务提供者基本都会通过“用户协议”约定生成内容归使用者所有,并由使用者对生成内容的后续传播利用承担相关的责任。OpenAI用户协议规定,ChatGPT输出内容的相关权利归属于用户,用户在遵守服务条款后,可以出于任何目的使用输出内容。Midjourney用户协议规定,付费用户对于使用服务生成的内容享有所有权(own the assets you create),只要不违反现行法律的要求;不付费用户则适用CC BY-NC协议。Stable Diffusion online用户协议规定,适用“CC01.0通用协议”,将生成内容投入“公有领域”,任何人都可以商业利用,无需授权。[17]

相较于此前“避风港制度”下,网络服务提供者版权侵权责任的归责基础,在于是否促进了“用户侵权内容的传播”;生成式人工智能的模型研发平台和商业应用平台,作为新兴网络服务提供者,涉及的则是“用户侵权内容的生成”。在生成式人工智能技术的出现之前,平台侵权责任判定侧重于:“用户上传侵权内容(直接侵权责任规制的范畴)→‘传统的网络服务’扩大侵权内容传播(既有‘避风港制度’规制的范畴)”两个环节。在生成式人工智能技术的出现之后,平台侵权责任则需要关注:“用户利用‘生成式人工智能’产生侵权内容(新‘避风港制度’规制的范畴)→用户上传侵权内容→‘传统的网络服务’扩大侵权内容传播”三个环节。[18]

值得注意的是,生成式人工智能的内容输出模式,决定了其在版权侵权问题的判定上存在天然的特殊性。我们需要首先思考用户利用AIGC服务生成内容的行为究竟是一种版权法规制的“公开传播”行为还是仅仅是一种不受版权规制的“个人使用”行为?目前来看,无论是“文生文”还是“文生图”领域的AIGC产品,生成的内容都是以对话形式存在于封闭的用户交互界面之中,因此原则上可以被认定为是一种非公开的个人使用行为。由此,即使生成内容存在版权法上的侵权风险,除非用户加以后续的公开传播、利用,否则也不存在版权法规制的侵权行为发生。

从平台责任角度来看,AIGC服务提供者在平台属性和责任判断上,具有较为明显的技术中立性特征。从内容生成角度来看,一方面,AIGC平台内容本身不会主动输出任何内容。另一方面,AIGC平台不会事前存储自身未来将会输出的内容。从内容传播角度看,一方面,AIGC平台生成的内容不会向不特定第三方主体呈现、展示。另一方面,AIGC平台也不会主动公开传播使用者生成的内容。

虽然生成式人工智能的内容输出模式存在特殊性,并且生成式人工智能服务提供者具备天然的技术中立性,但鉴于其庞大的内容输出能力,客观上还是存在提升社会整体版权侵权传播风险的可能。有研究发现,ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟;谷歌公司此前统计过,自1440年古登堡印刷机发明以来,全社会出版约1.298亿本书。每本书估算5万单词,总共约有6.5万亿单词;由此,按照ChatGPT于2023年初的内容生产能力,每14天便可以输出相当于人类全部印刷作品的内容量。即便延长到14周或14个月甚至更长的时间维度,这依旧是一个令人惊叹的内容输出能力。[19]

面对新技术、新业态带来的新平台责任,应当说版权领域的责任判断一直都是一个风向标。作为全球平台责任基石的“避风港制度”,便是从版权领域发展而来,并进一步向其他民事权益领域延伸。生成式人工智能技术发展带来的一个总体趋势是:使得我们对平台版权责任的关注,从“内容传播”领域转向“内容生成”领域。内容传播平台的版权责任判定较为传统,而以AIGC服务提供者为代表的内容生成平台的版权责任判定则是一个全新的议题。

时至今日,生成式人工智能的崛起使得版权法似乎又遇到了当年创设“避风港制度”时同样的技术变革机遇期。需要我们从生成式人工智能服务提供者版权保护注意义务视角出发,重新基于技术变革、产业发展以及版权保护等多重维度,思考如何创设适合“AIGC时代”的新的平台责任规则。[20]


原文刊载于《版权理论与实务》2024年第1期,原标题为关于生成式人工智能对版权体系影响的思考——技术、产业和制度三个面向,转载请注明出处。文章注释从略,完整原文请见《版权理论与实务》纸质版。

【扫描下方二维码即可订阅2024年全年《版权理论与实务》杂志。欢迎订阅!欢迎投稿!】


【往期精彩内容】




继续滑动看下一个
版权理论与实务杂志
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存