“你的AI侵犯了我的版权”:浅谈AIGC背后的版权保护问题
朱开鑫 腾讯研究院高级研究员
张艺群 腾讯研究院助理研究员
全球首例:“Stable Diffusion”
AIGC模型版权侵权案
技术原理:AIGC模型涉及
哪些作品利用行为?
AIGC模型训练阶段存在哪些
版权侵权风险?
若将训练前数据准备过程,也囊括至模型训练阶段。则Stable Diffusion模型对版权作品的主要利用行为系“复制”与“改编”。相关行为主要体现于两个步骤中。
其一,是准备训练数据过程中的复制。由于LAION-5B数据库本身并不提供版权作品副本而仅提供版权作品在线URL列表的索引,因此在训练Stable Diffusion模型前,需要先将作为训练数据的作品从相应网络地址下载并存储,以形成版权作品的副本。
其二,是对作品进行编码后,将其输入至“图像信息空间”的改编。较之于对作品的直接下载与存储,过程对作品进行了噪声添加与编码(压缩),未在“图像信息空间”“无差还原”原始版权作品,但其仍保留了作品内容中最关键、本质的特征,应当认定为版权法意义上的改编。
AIGC模型输出阶段存在哪些版权侵权风险?
AIGC版权侵权是小概率事件?
AIGC能否构成“合理使用”免责?
传统的作品“授权利用模式”是否适用?
一方面,授权许可模式可能造成AIGC研发的“寒蝉效应”。在面临版权作品高昂的授权许可费用时,AIGC研发主体往往面临两种选择:一是,放弃AIGC领域,进而转向其他行业;二是,坚守AIGC领域,但使用免费数据进行训练。然而,前者无疑阻碍了人工智能技术和产业发展的趋势,与科技进步规律相违背;后者则可能因训练数据的不足,而引发算法模型偏见等不良后果。
国内思考:更加关注AI模型训练
中的版权问题
如何破局:AIGC内容生产模式
的版权治理探索
参考资料来源:
[1]https://twitter.com/fpmarconi/status/1625867414410825728?cxt=HHwWgMC4_ZLznpAtAAAA.
[2]https://edition.cnn.com/2022/10/21/tech/artists-ai-images/index.html
[3]See UNITED STATES DISTRICT COURT NORTHERN DISTRICT OF CALIFORNIA SAN FRANCISCO DIVISION,Page3-4.
[4]需指出,LAION-5B数据库并非直接提供图像数据,而仅提供图像和对应文本的在线URL列表的索引。为获取图像数据和文本间的对应度,LAION-5B首先会下载图像,但在数据训练完后会进行删除.
[5]Alammar, J:The Illustrated Stable Diffusion,https://jalammar.github.io/illustrated-stable-diffusion/.
[6]See KEVIN P. MURPHY, MACHINE LEARNING: A PROBABILISTIC PERSPECTIVE ,2007,at 22, 593.
[7]https://stablediffusionweb.com/:”Q:What is the copyright on images created through Stable Diffusion Online?A:Images created through Stable Diffusion Online are fully open source, explicitly falling under the CC0 1.0 Universal Public Domain Dedication.”2023年2月10日访问.
[8]See Guadamuz A, Do androids dream of electric copyright? Comparative analysis of originality in artificial intelligence generated works, Intellectual Property Quarterly,2017,2:169-186.
[9]See Gowthami Somepalli , Vasu Singla , Micah Goldblum , Jonas Geiping , Tom Goldstein, Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models, https://arxiv.org/pdf/2212.03860.pdf, 2023/2/16.
[10]See Copyright Law of the United States, Chapter 1: Section 107.即,第一,这种使用是否具有商业目的或是为了非营利的教育目的;第二,受版权保护的作品的性质;第三,同整个有版权作品相比所使用的部分的数量和内容的实质性;第四,这种使用对有版权作品的潜在市场或价值所产生的影响.
[11]即《著作权法》第二十四条第一款之(一)(二)(六)项内容.
[12]参见吴汉东:《人工智能生成作品的著作权法之问》,《中外法学》2020年第3期.
[13]https://haveibeentrained.com/,2023年2月20日访问.
[14]See Sebastian Berns& Simon Colton , Bridging Generative Deep Learning and Computational Creativity, https://computationalcreativity.net/iccc20/papers/164-iccc20.pdf, 2023/2/20.
推荐阅读
腾讯研究院:《万字圆桌实录:ChatGPT背后的AIGC,将生成怎样的浪潮?》