查看原文
其他

监管趋势及合规建议: 生成式人工智能训练材料获取与使用

陈容、赵敏西 商法CBLJ
2024-12-13


专家策略


陈容

汉坤律师事务所

合伙人

estella.chen@hankunlaw.com

赵敏西

汉坤律师事务所

律师

minxi.zhao@hankunlaw.com

法使用版权材料对训练人工智能(AI)至关重要,但也是AI前端开发面临的主要著作权风险之一。在训练过程中,开发者需要将大量文本数据投喂给AI算法模型以提升训练效果,但这难免涉及到受版权保护的作品。虽然目前各国对于复制版权材料用于训练AI的行为是否侵犯版权、是否可主张合理使用等问题尚未给出明确定论,但从各国监管情况来看,对生成式AI训练材料的监管呈现日趋严格的态势。本文现就欧盟、日本、美国以及中国对生成式AI训练素材的最新监管趋势进行简要介绍并提出相应的合规建议。


各国监管日益趋严

虽然欧盟在《关于数字单一市场版权及相关权的指令》(下称《版权指令》)中专门对文本数据挖掘这一机器学习的基础技术规定了版权例外,但其中对商业目的的文本数据挖掘仍设有诸多限制,包括被挖掘的内容必须是合法获取、且其知识产权未被权利人以适当方式明确保留等。同时,为落实《版权指令》的相关规定,欧盟于2024年3月13日通过的全球首个AI监管法案《人工智能法案》中亦进一步规定通用人工智能模型提供者应当制定政策尊重《版权指令》规定下有关版权方声明保留文本数据挖掘的权利,且有义务起草和公布其用于培训AI模型材料的详细摘要。可见,欧盟有意提高AI技术的透明度和合规性,以确保AI系统在开发和使用过程中尊重版权法并保护版权所有者的权益。在前述立法背景下,近日,谷歌公司因未经法国出版商及新闻机构许可而擅自使用其版权内容训练人工智能产品Bard而受到法国竞争管理局2.5亿欧元的处罚。


日本虽因其在2018年著作权法修订中增加“为计算机信息分析目的”的版权例外条款且未限制行为必须出于非商业目的,被认为是“机器学习的天堂”,但在2024年,日本文化厅通过《AI与著作权相关问题的指引》征求意见稿,进一步澄清了并非任何在机器学习中使用版权作品的行为都能构成版权例外,增加了例外的限制。


目前美国关于AI训练材料的合理使用问题尚无定论,但在Thomson Reuters诉Ross Intelligence一案,即美国首次考虑生成式AI在训练过程中使用第三方受版权保护的材料是否构成合理使用的案件中,法院对合理使用版权材料训练AI的要素进行了说明,包括行为的营利性、转换性、产生市场替代可能性等等。虽然目前本案尚未审结,但该案中法官对合理使用要素的分析归纳体现了美国司法对版权法与生成式AI之间关系的审慎和细致考量。


中国2023年8月15日起施行的《生成式人工智能服务管理暂行办法》中亦对生成式AI服务提供者对训练材料的获取提出要求。其中第七条明确规定生成式AI服务提供者在开展预训练、优化训练等训练数据处理活动时应当使用具有合法来源的数据和基础模型,涉及知识产权的,不得侵害他人依法享有的知识产权。


合规建议

在前述监管背景下,总体而言,生成式AI企业未经权利人授权使用版权作品训练AI,很可能引发著作权侵权风险。因此,在训练材料的获取和使用方面,我们建议生成式AI企业可从以下几方面做好风险防控:


首先,若企业自主爬取训练材料,应尽量选择低风险来源的文本数据(如已进入公有领域的材料、开源数据库等),并确保训练材料来源合法,例如不得破坏技术保护措施、不得获取盗版版权内容,同时还应注意版权人是否已声明禁止爬取内容用于AI训练等。


其次,企业可与版权方签订授权许可协议,有效降低侵权风险的同时亦可以提升训练数据质量。需注意的是,从第三方处购买训练数据库的,应要求对方提供明确的版权链条及授权文件,并要求其对版权合法性作出陈述保证。


另外,企业应建立训练素材库的定期审核机制,规律性地筛查排除其中的高风险内容。对于用户可输入内容的AI模型,建议区分自有数据库与用户自行上传的第三方输入素材库,提高监管的效率及全面性。


最后,建议企业尽量做好训练材料的来源及使用记录,若后续因训练材料出现问题,企业可通过提供透明度报告、说明训练数据来源来主张企业系合法合规获取训练材料、已尽到注意义务等,尽可能降低企业相关责任。



作者 | 汉坤律师事务所合伙人陈容、律师赵敏西。实习生晁鑫对本文亦有贡献


本文刊载于《商法》2024年3月刊,原标题为“监管及合规建议: 生成式人工智能训练材料获取与使用”。如欲阅读电子版,欢迎浏览《商法》官网。

往期专栏精选



长按扫码关注我们

为了让您第一时间获取专业法律资源

请常点“在看”

并将CBLJ 商法设为星标


阅读原文查看更多专家策略的相关内容

继续滑动看下一个
商法CBLJ
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存