泰和泰研析 | AI绘画之杂谈——使用Stable Diffusion有感
前言
本篇文章系笔者使用stable diffusion后的一些思考,文章将从stable diffusion使用过程及出图结果的角度出发,进行浅层的法律分析,鉴于不专精,故称之为杂谈。
一、
绘画过程展示
(一)
传统绘画
简单讲,不论是使用铅笔、沾水笔手绘还是使用类似apple pen的工具在设备上利用绘画app作画,大致都遵循一个基本过程:构筑草图➡描边线稿➡透视修正➡填充细节➡上色➡后期。
举个不太专业但较为形象的例子便是:
(二)
AI绘画
1.操作工具简介
目前市面上可使于AI绘画的程序很多,笔者本文分析的“stable diffusion”(下称“SD”)系目前用户基数较多的一款开源代码,SD本身具备潜在扩散模型、OpenCLIP编码器、超分辨率放大器等技术,使得代码使用者能够利用其做到文字转图像的效果,故称该过程为“AI绘画”。
因为开源,使用者们基于分享利好自发为SD建立了非程序员也能操作使用的界面,名为“stable diffusion webUI”。
2.“绘画”过程演示
笔者通过一段时间的研究学习,学会了SD的基本操作方法:
首先,在stable diffusion模型框中选择一个基础模型。
此处笔者选的是“anythingV5V3”,该模型系使用二次元风格的图进行“炼制”成的模型,故生成的图均系二次元风格,至于何为“炼制”,暂且按下不表。
其次,在正向提示词框中输入想要生成的图中的元素,在反向提示词框中输入不想让其出现在图中的元素。
笔者想生成“少女在沙滩漫步,阳光洒在身上”的画面,在正向提示词框中输入了“1 girl ,walking on the beach ,the sun fell on her body”。
最后,在迭代步数中选择AI计算的次数,同时选择采样方法、图形大小、提示词引导系数,该系数越高图形与提示词的匹配程度越高。
笔者选择了计算20次,再随便选择一个采样方法、图形大小默认512*512,系数选择7。
上述便是一次AI绘画最基本的操作,完成后生成了下列3张图⬇。
接着,笔者为了图像质量更高。
在正向提示词中输入了“best quality ,masterpiece ,extremely detailed wallpaper ,perfect lighting,(extremely detailed CG:1.2), paintbrush……”
在反向提示词框中输入了“(worst quality:2),(low quality:2),(normal quality:2),(duplicate:1.331),(morbid:1.21),(mutilated:1.21),(tranny:1.331),mutated hands,(poorly drawn hands:1.5),blurry,(bad anatomy:1.21),bad hands ,missing fingers,(((extra arms and legs)))……”
正向内容为杰作、高质量、优秀的细节、绘画笔触等;反向内容为低质量、畸形的身体结构等;括号的使用系增加权重,在提示词过多的情况下,使用括号可以让SD将括号内的内容优先计算,括号越多权重越高。
再次点击生成后,作出了下列3张图⬇。
相较之下,画面质量似乎比前次出图高了一些,但细看就会发现面部崩坏的问题没有解决,且笔者注意到为了改善质量而输入的“paintbrush”被SD直接识别为“画笔”,导致画面中出现该元素,而沙滩元素被稀释。
此时,笔者继续在正向提示词框中输入“looking at viewer, close-up, upper body,”意为改变画面构图,集中展现人像,生成图如下:
此次的图像脸部不再崩坏,甚至有着二次元原画师的水平,原因在于该基础模型本身。
打个比方:SD模型生成的过程可喻为炼丹,海量的样本图是原材料,AI学习后最终形成的模型是丹药,炼成之后直接使用丹药就可输出原材料风格的图像;笔者所用的“anythingV5V3”便是使用大量二次元萌系风格的图作为样本进行数据计算训“炼”成的模型,而这大量的样本图基本上系偏半身像的特写绘画,故采用该样本生成的模型,自然擅长该风格,若使用其绘制全身像、远景图将会出现算力不够的情况,导致画面出现崩坏。
明白了该原理后,笔者未变更其他设定,仅将基础模型进行更换,换为真人风格、2.5D风格的基础模型,再次生成了图像:
可见,画中“女孩”“沙滩”“阳光”“画笔”的元素依然在,但画面风格随着基础模型的更换也发生了巨大的变化。
笔者在最后一次生成的图中找到其seed值:2677603146。
将其固定在“随机数种子”框中,
再次进行图像生成。
可见除了人物面部出现细微变化,其余要素完全相同。这是因为随机数种子控制画面的计算随机变量,未固定时每次生成都会重新随机计算,一旦固定,画面的主要元素特征将随之固定,所以生成的画面基本相同。
这时,笔者将正向提示词中的“1 girl”改为了“1 boy”。
再次生成。
图中的女生替换为了男生,因随机数种子相同,故画面构图大体相同,同样多次生成不会改变画面要素,仅面部细节调整。
以上,便是AI绘画的基础操作,笔者花大篇幅进行介绍,一是作为一个科普,二是表明笔者真实操作使用了SD,并非理论上的纸上谈兵。
二、
AI绘画的法律问题
(一)
使用AI绘画生成的图是否系作品,使用者是否有著作权?
笔者认为:不是、没有。正如王迁教授所言,该问题本应盖棺定论,但鉴于中国的特殊环境,不少人仍在主张人工智能生成物是作品,使用者享有著作权,笔者在此简要分析如下:
1.从独创性角度分析
著作权法意义上的作品应当具备独创性。所谓独创性,可分解为“独”与“创”。独,指独立创作,源于本人,即作品并非照搬或精确临摹产生;创,指作品具备一定程度的智力创造性,能体现作者独特的智力判断与选择,展现作者的个性表达,所以,要创造作品,该创造过程必须给作者留下智力创造的空间[1],作者在该空间中进行个性化的判断、选择、取舍,通过该过程将其个性烙印在最终形成的作品上。
传统绘画的作画过程,无论是使用app中的智能笔刷还是使用透写台、勾线笔、云形尺、网格线工具一笔一划去勾勒,都离不开人类的手,通过双手,人类可以将自身所想进行实实在在的表达:描边使用直线或者曲线、该处进行浅勾还是厚涂、采用撞色还是统一色温等,可谓画中每一个要素都是自身想法判断、选择、取舍的体现。
而AI“绘画”的生成过程,首先,基本风格走向由基础模型确定;其次,画面细节通过正反提示词进行固定;再次,画面元素由随机数种子进行打散、重组;最后,仅有画面的动作部分可用SD的高阶功能——“ControlNet”进行大体描绘(笔者虽然还未能熟悉该功能,但通过学习得知该功能主要用来控制画面人物动作,如复杂的体态姿势需要预先画出人物动作线条再进行生成)。由此可知,即使AI绘画使用者设定再多高阶功能、将提示词描述再详细、具体,也仅在宏观层面控制画面风格、图中元素及人物形态,无法将自身所想及于画面全部细节,换言之,使用者无法提前得知AI输出的图像有着何种细节,更无法控制该细节,但恰恰是该种细节的创作过程才是著作权法上独创性的体现。一般而言,AI绘画使用者通过一次又一次调试、修改,最终从众多生成物中选择质量较高的部分作为本次“绘画”的成果,该方式被戏称为“抽卡”,该“抽卡”过程没有留给操纵者选择的空间,使用者并非在创造空间中一笔一划去取舍、选择,去将自身风格烙印在作品上,而是提出命令、给出要求,等待收货,即使该命令、要求十分详细、具体,但该种行为无创造性的性质不会改变。
不可否认优秀的使用者在使用AI进行“绘画”时,其提示词十分复杂,使用者在此过程中所花功夫并不少,但目前著作权法并非采用额头流汗原则,具备独创性与否是判断是否构成作品的前提之一。
2.从权利转移角度分析
有人认为,AI生成的产物即使不能评价为基于使用者的行为创作生成,但可评价为AI的作品,使用者通过使用协议使用该AI,通过协议约定将AI享有的著作权转让给使用者,由此也能取得著作权。
笔者认为该种想法亦是错误的。一方面,SD这种开源代码本身不存在任何使用协议;另一方面,即使假设有商业的AI绘画程序,其用户使用协议中将AI绘图生成物的权利转让给使用者,但转让的前提是自身享有权利。
如前所述,在笔者将各种设定固定后,反复点击生成,会生成完全不同但要素相同的图像,但笔者将随机数种子确定后,画面要素即固定,可以推测目前的AI绘画程序仍然系严格按照研发者预先编写好的程序语言进行运算,只要确定了基本模型(即风格方向)与提示词(即画面元素),则主要画面已经成型,使用者的设定的数据被AI采集后经过演算会输出成怎样的画面,已经预先通过基本模型“炼”好的“丹”固定,获得的结果具有确定性,没有留下选择的空间;该种作品不具备著作权法所要求的“创”的特性。并且,该种说法还暗含一个前提:AI可以作为著作权人存在,该前提本身便与著作权法相悖。
3.从实务案例分析
2023年2月,美国一位名为克里斯·卡什塔诺娃(下称“克里斯”)的艺术家使用人工智能绘画工具生成了一本名为《黎明的查莉娅》的漫画书。但当克里斯在美国版权局申请登记时,美国版权局表示克里斯有权获得书中撰写和编排部分的版权,但不适用于人工智能生成所产生的图像;且在克里斯提出异议后明确表示:“用户无法预测人工智能的具体输出这一事实,使得在考虑版权时,人工智能这一工具与艺术家使用的其他工具不同,如果艺术家对像人工智能这样的图像生成工具施以创造性控制,无异于产出物是可以被保护的。”[2]
美国版权局可谓是旗帜鲜明地表达AI生成物并非使用者的智力活动产物,不应当以著作权进行保护,其理由基本同笔者想法一致,同时我们注意到美国版权局还是认可了该漫画中存在克里斯基于自身思想进行编排、选择的部分——撰写和编排部分。
(二)
AI绘画的侵权危机
SD虽为开源代码,但其开发公司stability AI在发布SD时也同时发布了一份“官方”基础模型,供使用者初始使用。如前所述,AI绘画的基础模型决定了出图的大方向,为了生成高质量的图片,就需要训练出优秀的基础模型,训练过程则需要投入海量的同种类样本图让AI进行大量演算,从而形成在某一风格中特别拔尖的“绘画高手”。
这海量的高质量图片那里来呢?答:网络,但网络中的高质量图片,绝大部分的著作权保护期均未经过。
虽stability AI称其发布的“官方”基础模型抓取的图片均是公开许可的图片,并未侵犯任何画家、摄影家等权利人的权利,但有不少艺术家在使用SD的过程中偶然发现某几次生成的图片与自身作品出现高度的相似,故前段时间,盖蒂图片社及Sarah Andersen、Kelly McKernan和Karla Ortiz三位艺术家分别起诉了stability AI,称其未经许可便从网络上抓取近60亿张由艺术家创作的图片来训练AI模型,并建立了竞争性业务优势[3][4]。同时,基于开源,SD的使用者们,在学习一定代码知识后都可以使用SD进行基础模型的训练,如笔者使用的“anythingV5V3”模型,便是由大量二次元萌系图片训练而来,且此类“民间”模型“炼制者”数量大有人在,随着SD这类代码程序的普及,该问题是时候得到重视了。
笔者认为,利用网络采集的图片训练AI模型,不可避免得使图像存至自身服务器或硬盘,则该行为至少落入著作权人复制权所控制的范畴,进一步来看,若使用图片训练基础模型之后,使用者并未将该模型出售、或利用生成图进行商业用途,仅发表在个人社交平台进行分享,笔者初步认为构成合理使用中的“个人使用”从而排除侵权,但除此之外任何形式的利用,不论使用者是否就该模型收费交易或者取得其他形式的利益,未经许可使用他人作品的行为系构成侵权无疑的。
(三)
其他感想
1.不能将创作行为寄托于AI
笔者因初中二年级开始接触二次元而成为一名手绘涂鸦爱好者,以绘画者的身份在了解到AI“绘画”时,第一反应是惊讶于AI已经进化到这种程度了吗?但是实际使用后发现AI的运行原理仍然是站在巨人的肩膀上,采拿来主义,或许是因为技术本就如此;其实现代作品本身也不可避免会存在前辈们优秀的影子,如致敬经典系列,很少有人能从0到1进行创作,这些都无可厚非,但鉴于AI这种运算学习方式系由大量的样本去训练,而该结果就是其输出的作品是在样本的基础上进行要素的打散、重组,这种方式能够产生新的生成物,但笔者认为该方式不能生成承载人类创造灵感美的作品,换言之,AI生成物可以做到“不重复”但没有“新东西”了。
2.“AI绘画杀死原画师”?
另外一个比较直观的感受是,即使不存在任何绘画知识,只要在网络上翻看几篇教程,花一些时间便能安装使用SD,利用别人“炼制”好的模型,生成一些精美的图片,故前段时间有人称“AI绘画杀死了原画师”,确实不排除一些人可以利用AI技术生成精美的图片,然后在社交媒体上满足自己的虚荣心,甚至用来售卖盈利,但笔者实际使用SD后认为AI绘画还远达不到人人能熟练掌握的程度,一方面,提示词的编写需要花一定的时间进行学习,其精力成本并不小;另一方面,使用者无法精准控制AI的生成图,就该一点已经否定了AI淘汰画师这一说法:若不能控制作品展现为内心之表达,AI始终只能作为画师的工具。
— 注释 —
[1]参见王迁《知识产权法学 核心知识点精讲》,25页,北京,中国人民大学出版社,2022.11
[2]《美国版权局:AI作图不受版权保护》
https://baijiahao.baidu.com/s?id=1758598820568279008&wfr=spider&for=pc
[3]《Getty Images在美国起诉人工智能插图生成器Stable Diffusion侵犯版权》
https://baijiahao.baidu.com/s?id=1757192292535560104&wfr=spider&for=pc
[4]《AI绘画法律争端升级:华盖创意和3名艺术家起诉Stability AI》
https://www.sohu.com/a/631826899_260616
作者简介
蔡明航 律师
业务领域:房地产、著作权、劳动争议
近期研析推荐
ARTICAL
2023-05-12
2023-05-12
2023-05-11
2023-05-11