合规实务 | AIGC知识产权领域的法律风险与合规应对
全文共7815字
预计阅读时间:20分钟
W&W国际法律团队
专注互联网出海法律实务:
W&W国际法律团队深耕海外多地区多条业务线,通过多年来积累的出海法律服务经验以及资源优势,结合本土化的合规经验与国际化的思维,致力于为出海互联网企业提供专业的一站式法律解决方案,为逐鹿海外的互联网企业提供优质及多元化的法律服务,为各类新型业务搭建运营合规体系及提供有效的风险评估及合规解决方案。
互联网前沿领域法律服务:
W&W国际法律团队深耕出海法律实务的同时,也紧跟互联网前沿动态,可以为互联网企业提供前沿领域的法律服务,为企业开拓新的业务领域保驾护航,比如AIGC产品全链路合规法律服务,包括AI与数据合规, AIGC与知识产权布局、侵权风险防范,内容审核标准制定等。
覆盖以下行业领域:
物联网、智能家居、智能汽车、车联网、芯片制造、Web3.0、NFT、AI、电子设备及智能终端制造、数字化安全、IOT、云计算与服务、社交网络平台、电子商务、短视频视听直播、网络游戏、人力资源等行业领域。
(此处仅展示部分内容,如有任何需求,请尽管与我们联系。)
引言
人工智能技术的迅速发展和广泛应用,可能引发一系列的法律风险与合规应对问题,其中广受关注与讨论的问题之一即知识产权问题,W&W国际法律团队将在此文中就AIGC有关知识产权法律问题进行分析和阐述。本文所提及的AIGC可能涉及的法律风险点仅仅是我们在实践以及对行业的观察中进行总结并提炼的部分风险点,并未涵盖AIGC涉及的所有法律风险点。同时由于人工智能技术的复杂性和不确定性,不同行业和应用场景中可能会出现其他的AIGC法律风险点,需要进一步的研究和探析。
(一)知识产权侵权风险
1、数据采集和训练阶段
数据是一切生成式人工智能的灵魂,是AIGC的灵感和素材来源。AIGC所采集的数据来源于包括但不限于公共数据集、公共网站、自有数据、众包数据、合成数据等数据源,而AIGC获取上述数据的主要方式包括数据交易、自行采集和开放数据爬取等方式,但不管使用何种方式生成结果,该生成式人工智能输出的内容仍很大几率包含前述数据来源中他人享有著作权作品的部分或全部特征。
换言之,AIGC作为在大量不同数据集上训练出来的模型,如使用受著作权保护的数据来训练人工智能模型,AIGC的文本数据挖掘技术可能导致其在他人享有著作权的作品中“借鉴”部分内容。对于这部分内容,若不能适用“合理使用”或其他免责事由,则可能引发侵权纠纷。此外,如AIGC使用的数据集或文本中存在未经授权使用他人的商标或专利等情形,同样可能导致侵权风险。
采集、训练数据过程通常会伴随着数据的复制行为,也就是将收集到的数据复制到计算机或服务器中进行处理和存储。此外,在进行特征提取和降维等过程中,也需要对数据进行复制和重构,以便使用特征提取算法和降维算法进行处理,以便训练模型或生成新的艺术作品或内容,此时,可能构成复制权侵权。另外,上述对数据进行清洗和预处理以及特征提取和降维的过程,虽然并没有完全还原原始作品,但是将会保留作品关键特质,此时可能构成改编权侵权。
2022年,马里兰大学以及纽约大学的研究员在题为Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models的论文中系统地探究了不同数据集和不同训练数据量的扩散模型是否会复制其训练数据中的图像。总体来说,扩散模型可能会从其训练数据中复制图像,即人工智能生成系统可能会从训练它们的数据中复制,生成模型是在未经知识产权权利人授权的情况下,使用互联网上数十亿张图像进行训练。
·案例:AIGC数据训练侵权案
2023年1月13日,三名插画师Sarah Andersen、Kelly McKernan和Karla Ortiz对Midjourney Inc.、DeviantArt Inc.(推出DreamUp的公司)以及Stability A.I. Ltd(推出Stable Diffusion的公司)提起了诉讼,这是首例有关AIGC数据训练侵权案。三名插画师指出,上述公司在未经过他们同意或提供补偿的情况,使用他们的艺术作品进行数据训练。在该案中指出,当Stable Diffusion根据其用户的提示生成图像时,它使用训练图片通过软件处理生成看似新的图像。这些所谓“新”的图像完全基于训练图片,并且是根据Stable Diffusion在组装给定输出时使用的特定图片的二次创作。
2022 年 11 月,马修·巴特里克对微软子公司 GitHub 提起集体诉讼,指控他们的产品 Copilot 违反了版权法 [Butterick,2022]。该诉讼围绕Copilot非法使用互联网上的许可代码部分而没有署名。德克萨斯A&M大学教授蒂姆·戴维斯(Tim Davis)也提供了Copilot逐字复制他的代码的例子。尽管微软和OpenAI已经承认Copilot在公共GitHub存储库中接受了开源软件的培训,但微软声称Copilot的输出只是一系列代码“建议”,并且对这些建议没有任何权利。Microsoft 也不对生成的代码的正确性、安全性或版权做出任何保证。
2、输出内容阶段
如前述内容,人工智能输出的内容主要依赖于其背后庞大的数据库,其输出内容的步骤包括文本编码、噪声预测、去噪等过程。输出内容时的知识产权风险指的是AIGC生成的内容侵犯了他人的知识产权,例如侵犯了原作品的版权等。这种风险通常是由于AIGC生成的内容与已有作品过于相似或几乎一致导致的。AIGC是否构成对他人知识产权的侵犯,构成对何种著作权具体权能的侵犯,需根据实质相似标准作相应判断。
实质性相似是指两个作品在表达方式、构成要素、情节安排、人物塑造、主题等方面具有相似性,达到了足以构成侵权的程度。实质性相似是判断是否构成侵权的一个重要标准,需要综合考虑多种因素,包括作品的整体结构、表现手法、风格特点、主题内容等。
目前在AIGC的场景下,由于AIGC的生成过程能够从海量的素材中提炼抽象的元素,并进行多种组合和变化,如果AIGC与原作品在表达方式、构成要素、情节安排、人物塑造、主题等方面具有实质性相似,达到了足以构成侵权的程度,就可能构成复制权侵权行为。反之,即使不构成实质性相似,也可能构成侵权行为,如AIGC保留原作品的基础表达,仍然可能构成对原作品改编权的侵权行为。
(二)免责事由
1、合理使用
合理使用制度是允许使用者在某种特定的情况下使用受版权保护的作品而不需要获得著作权人的授权或支付费用。这个原则在各国版权法中被广泛应用,它的目的是平衡版权持有人的权益和公众利益。
根据美国版权法,判断是否构成合理使用需要考虑的因素包括:使用的目的(是否为商业用途)、使用的性质(是否为转载、评论、新闻报道等)、使用的数量和重要性(使用的是否是整个作品或其中一部分)、使用对原作品市场价值的影响等。这些因素并不是一成不变的,而是需要根据具体情况进行综合考虑。只有同时满足以下情形,使用公开可用数据库的数据才有可能构成合理使用:
·提取数据者是数据库的合法用户;
·提取数据是为了教学或研究目的,并非商业目的;
·使用时标明数据来源。
在我国,从《著作权法》第二十四条有关“合理使用”的规定包括十三种情形,其中较为贴合AIGC的情形可能只有三种,包括“个人使用”“适当引用”以及“科学研究”。
W&W国际法律团队认为,具体来说“个人使用”的范围和目的都存在严格的限制,如只能用于个人学习、研究或欣赏等非商业性目的;“适当引用”的范围和前提也存在限制,如只能用于介绍、评论说明某一作品或说明某一问题等非商业性目的;“科学研究”对作品的利用限定在学校课堂教学或者科学研究,只能用于学校课堂教学或者科学研究等非商业性目的,并且复制数量也受到限制。
但是,有关AIGC的应用面向广泛领域的用户,其现有商业模式和应用,并不符合合理使用的规定,因此难以通过合理使用主张免责以规避风险。
2、Text and Data Mining (TDM)
Text and Data Mining(有限文本和数据挖掘,TDM)是指一种在英国版权法中的例外情况,它允许人们在一定的情况下使用受版权保护的文本和数据进行挖掘,而不需要获得版权持有人的授权或支付版权费用。
英国版权法还规定了一个临时复制例外情况(Temporary Copying Exception),允许人们在进行TDM时制作临时复制,以便更好地进行数据处理和挖掘,例如在使用互联网浏览器时,由于浏览器需要在计算机的内存中暂存网页的图像和文字等数据,因此这些数据的临时复制并不构成侵权行为。
同样地,当一个人在观看电影或听取音乐时,由于播放设备需要暂存一些数据在内存中,这些临时复制也不构成侵权行为。这个例外情况的条件包括:复制是为了进行TDM;复制必须是临时的,而且必须是为了进行技术性处理;复制必须是合法的;复制不应该对原始作品市场价值造成重大不利影响。
欧盟则于2019年正式通过Directive on Copyright in the Digital Singles Market(《单一数字市场版权指令》),创设文本与数据挖掘(TDM)的例外,支持数据科学和人工智能的发展。但如果权利人以适当的方式明确保留对作品或其他客体的使用,则不适用该例外。
如果对作品的使用既不构成“合理使用”,也无法满足TDM的规定,规避侵权风险的路径则须考虑传统的路径——获取知识产权人的授权,但目前AIGC大模型背景下,如需获取合法授权,就需要先从数以亿计的数据来源中甄别出哪些是仍受版权保护的作品,接着设法获取每个作品的版权人或有权授权主体的联系方式,再逐个沟通是否可提供授权、授权费用标准等事宜,这对AIGC开发者来说意味着巨大的时间与金钱成本,几乎是不可能实现的。
可见,如果坚守目前知识产权保护制度,则很可能会对AIGC开发者对于技术创新的追求与投入造成负面影响,未来是否可能参考避风港原则,AIGC开发者仅在收到相关权利人的通知后未在合理期限内及时将其侵权信息从数据源中删除后才承担侵权责任,这可能是平衡AIGC产业发展与现有知识产权保护的路径之一。
(三)AIGC是否具备可版权性
从PGC到UGC,再到如今迎来AIGC的时代,随着AIGC技术的不断发展和应用,其版权问题也越来越成为人们关注的焦点。
讨论AIGC能否受版权保护,W&W国际法律团队认为需要从两方面加以厘清,一是内容是否构成作品,包括内容是否符合作品对独创性的要求,二是如果构成作品,应如何确定作者身份和著作权的归属。其中就前一问题的分析应在暂不考虑主体的前提下进行,否则一开始就纳入主体因素会造成逻辑循环,即“因为主体不是人,所以相关内容不是作品;因为相关内容不是作品,所以它没有作者,无需认定作者和著作权归属”。
1、AIGC是否构成作品
版权法的目的是鼓励和保护作者的原创性,因此各国版权法均对作品的独创性作出了要求。在著作权领域,独创性一般是指一个作品经作者独立完成,且具有一定的创造性,能够明显与他人作品的思想区分开。
有关各国家和地区对“作品”的定义如下:
·在中国法项下:
《著作权法》第三条对作品作出了定义,指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果,同时在《著作权法实施条例》第二条中也予以了明确。根据前述规定,作品应当具备以下三个构成要件:
(1)限定在文学、艺术和科学领域;
(2)作品应当具有独创性;
(3)能以某种有形形式复制。
在司法实践中,判断是否构成作品,各方对所属领域并无太大争议,多集中在作品的独创性和能否以有形形式复制的认定上。如最高人民法院在(2016)最高法民申2158号一案中认为:“只有具备独创性并能以某种有形形式复制的智力成果,才是著作权法给予保护的作品。”
·在美国法项下:
作品是指“任何原创性的固定表现形式,无论是以何种形式或媒介表现出来”。这包括文学、音乐、戏剧、舞蹈、绘画、雕塑、摄影、电影、软件等。
·在欧盟法项下:
根据欧盟版权法,要获得版权保护,必须满足两个条件:(a)创作必须是作品;(b)必须是上述作品的原作者或已通过转让获得版权。
欧盟委员会通信网络、内容和技术总局2020年发布了名为《人工智能的趋势与发展:对知识产权框架的挑战》报告,报告中提出了“四步测试法”,即四个相互关联的标准,来判断AIGC是否符合“作品”资格:
·文学、艺术、科学领域;
·人类智力活动 ;
·独创性;
·表达。
根据欧盟发布的“四步测试法”,AIGC能否符合“作品”资格,主要取决于是否满足第二步和第三步,即AIGC是否表达了人类的智力活动、是否具有独创性。
AIGC的内容生成过程是由用户输入提示词后,人工智能据此调取数据自动生成内容,虽然最终生成的内容与用户输入的提示词在内容上有一定的关联性,但其表达却并不受用户控制。我国《著作权法实施条例》第三条也有明确规定,著作权法所称创作,是指直接产生文学、艺术和科学作品的智力活动。很明显,AIGC的内容生成过程并不属于用户“直接产生作品”,因此难以被认定为作品而受著作权保护。
2023年2月,美国版权局首次就AI生成作品的是否享有版权作出的回复也是相似的观点,认为AI制作的漫画插图不受版权保护,因为插图虽然是依据用户输入的文本生成的,但用户对内容生成过程没有相当的控制权,对最终生成的内容也无法进行预测。
如果不考虑最终生成的内容,而仅考虑用户关于AIGC内容的构思过程,用户的思想有无可能单独获得著作权的保护呢?答案是否定的。因为思想、表达二分法是版权法上的一项基本原则,即版权法只保护作者具有独创性的表达,而不保护思想本身,无论其是否具有独创性。这项原则被许多国家接受成为判断著作权法保护范围的基本理论,国际条约中对此也有规定,《与贸易有关的知识产权协定》(TRIPs协定)第9条第2款就规定,版权的保护仅延伸至表达方式,而不延至思想、程序、操作方法或数学概念本身。
2、认定作者和著作权归属
根据我国《著作权法》的规定,著作权人包括作者和其他依照著作权法享有著作权的自然人、法人或者社会组织等,AI显而易见不属于前述范畴,不符合版权主体的要求。
在泰勒诉维达尔案(Taylor v. Vidal)中,原告泰勒主张人工智能可以被解释为“人”,因此人工智能生成作品可以获得专利权。但法院在论证过程中,使用了大段篇幅论证为什么发明者不能包括人工智能,并聚焦于在人工智能时代如何认定一个人为“人”。该案也从侧面反映了对人的主体性之挑战是可版权性过程中的一大难题。
2023年3月16日,美国版权局发布了Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence(《版权登记指南:包含人工智能生成材料的作品》) ,针对包含人工智生成材料的作品进行版权保护的问题进行了说明:
·在美国宪法和版权法中使用的“作者”一词不包括非人类。科技工具可以是创作过程中的一部分,但作品表达的创造性必须是由人类控制的。
·如果只是AI技术根据人类的提示(Prompt)产生作品,则该作品缺乏人类作者身份,不受版权保护。
·如果人类艺术家以足够有创意的方式选择或安排AI生成的材料,以及艺术家修改AI生成的材料以符合版权保护标准,使得AI生成的作品包含足够的人类作者身份,则可以支持版权主张。
该指南还举例说明:使用Adobe Photoshop编辑图像的视觉艺术家仍然是修改过的图像的作者。重要的是人类在多大程度上创造性控制了作品的表达,并“实际形成”了作者身份的传统元素。
(注:为方便阅读,本文已略去原报告注释。各位读者如需进一步了解,可后台回复 “AIGC” 获取报告全文。)
推荐阅读:
W&W邀请函 | 7月12-14日:2023全球数据合规年度论坛-数据要素市场化落地
要点分析 | 欧盟Artificial Intelligence Act 解读(二)
要点分析 | 欧盟Artificial Intelligence Act 解读(一)
主编介绍
王 捷 律师
垦丁广州联合创始人、执行主任、垦丁国际业务部负责人、
W&W国际法律团队创始人
业务领域:
个人信息保护与全球数据合规、数据合规、互联网与网络法实务合规、企业出海合规、网络安全
王律师持有CIPP/E(国际信息隐私专家认证/欧盟)、区块链应用操作员资格证书、数据安全师、数据合规官资格证书,是联合国世界丝绸之路委员会专家,中国国际贸易促进委员会深圳调解中心专家调解员,广东省法学会信息通讯法学研究会理事,荷兰RuG国际经济法与商法硕士。
王律师曾在阿里巴巴大文娱集团、国际律所与海外仲裁委员会工作积累了12年+科技型公司实务经验,具备中外律所从业背景。专业能力模块包括产品风险管控、业务流程搭建、竞对攻防布局、政府监管合规、海外公司治理等。王律师已为多家头部与一线的知名互联网公司、大中型外资企业及大型国企提供专业法律服务,行业覆盖物联网、智能终端制造、IOT、云计算与服务、社交网络平台、电子商务及平台、智能汽车与车机系统、芯片制造业、网络游戏、Web 3.0、NFT、AI、以及GPT等新兴领域。
王律师擅长解决由互联网、数据及智能技术引发的数据安全风险与合规解决方案落地,包括数据保护与合规、产品风险管控、业务流程搭建、风险分析评估、政府监管合规、竞对攻防布局,已为各类涉互联网企业拓展全球市场提供法律支持,尤其擅长为企业出海欧美、东南亚、印度、日韩、中东、中国港澳台地区等新兴及重要市场提供有效的合规解决方案与落地支持。
同时,王律师独著《Comparison of Various Compliance Points of Data Protection Laws in Ten Countries/Regions》,在全球最高分的六篇论文中,荣获国际知名隐私组织FPF第 12 届政策制定者年度隐私论文奖,该文章同时被评为年度隐私政策制定者“必读”文章。其耕笔的多篇互联网与数据合规文章收录于国际知名专业数据库。
联系方式:jie.wang@kindinglaw.com
+86 13650790754
资讯编写
陈凯婷
垦丁律师事务所W&W国际法律团队实习生