艺术家与AI研究者的跨界碰撞丨记青源Workshop「AI+艺术」研讨会(2022年第10期)
艺术创造力是人类最无可替代的能力之一,曾几何时,艺术是AI无法涉足的疆域。但从2014年推出的GAN,到近年的DALL-E、CogView、MidJourney,再到今年横空出世的Stable Diffusion,AI艺术生成不仅掀起了一股大众艺术创作热潮,并开始对人工智能技术和产业发展方向产生重要影响。AI从很大程度上加速了工业设计的流程,提升了效率,而反对者则认为,AI生成的作品无外乎机械复制、拼凑组合,远不能称之为艺术。
AI创造艺术的起源和挑战是什么?如何评价AI所创造的艺术?AI真的能替代一部分创作者的工作吗?在本年度青源Workshop第10期「AI+艺术:应用与挑战」主题研讨活动上,北京智源人工智能研究院基础模型研究中心伍昱、中央音乐学院音乐人工智能系李子晋、中国传媒大学副教授吴卓浩、设计师西乔、中央美术学院设计学院教授费俊等分享了他们的观点,另有10余位AI及艺术领域学者参与了本次讨论,智源社区将本次活动报告与讨论公开部分的主要内容整理如下。
AI技术发展带来的革新和思考
北京智源人工智能研究院 基础模型研究中心 伍昱
2018年左右,AI科学家Jason Weston在Facebook AI Research的一场讲座里提到了对未来的展望和AI研究者应该重点关注的方向,其中就有AI for Creativity。当时的AI技术在搜索、广告、推荐、翻译等任务上取得了不错的效果,很大程度上可以替代人工和传统的方法。但在全新的创造领域,AI创造力还是非常弱的,或者说没被真正有艺术创造力的人认可。但从去年到现在,极速发展的文生图技术,可以说很大程度上向我们展示了AI的创造力。
2021年1月,OpenAI推出了DALL-E,引起极大轰动,这项技术展现了,人们可以通过输入「牛油果椅子」让AI生产相应的概念,也可以创造出一些真实世界中很少的概念。智源研究院也在2021年5月推出了中文的文图生成模型CogView,这项工作和OpenAI的工作算是同时期的探索。2021年11月MSRA提出了女娲模型,该工作不仅能生成图片,还能生成视频。同年12月百度提出了更大规模的ViLG。如果说2021年这项技术还停留在科研探索层面,那么2022年的大爆发则揭示了这项技术在商业落地上的成熟,更多的商业级产品开始出现,这其中就包括DALLE-2、MidJourney、以及最近开源的Stable Diffusion,Diffusion成为文生图的主流技术。
智源研究院也在今年上半年推出了CogView 2.0 和视频生成的CogVideo,当时也引起了不小的关注。在Stable Diffusion开源之后,我们也基于Stable Diffusion尝试做了一个中文版和国画版,生成效果的惊艳程度超过了我们的预期。
万物有声
艺术创作与AI技术的狭路相逢
设计师 西乔
艺术创作与AI技术的狭路相逢
设计师 西乔
AI创造力行动:小朋友与AI的共创
中国传媒大学副教授、阿派朗创造力乐园联合创始人 吴卓浩
AI创造力行动:小朋友与AI的共创
中国传媒大学副教授、阿派朗创造力乐园联合创始人 吴卓浩
新媒体艺术与人工智能创作者的边界
中央美术学院设计学院教授 费俊
新媒体艺术与人工智能创作者的边界
中央美术学院设计学院教授 费俊
费俊教授展示了新媒体艺术作品「水曰」。该作品在武汉公墓所做,公墓很适合表达生命,因此选择了一个人工湖。该作品全部埋在水下。费俊团队设计了一个人工智能交互的装置,人只有与湖面进行对话时,才看到湖面会以涟漪的方式回应。这是一个「看不见」的作品,既看不见技术也看不见作品本身,这个作品成为激活自然表达的一个不可见的能量。它的互动方式很特殊,人可以在现场对水说任何话,可以去哼一首小曲,也可以讲一段心里话,水会通过我们提供的一个声纹情绪识别的算法,解读声音中的情绪,并基于人的情绪做出回应。很多人以为它是声音可视化的作品,他们会去想通过呐喊激活水面的涟漪甚至看到喷泉,但是算法恰恰产生一个反面结果,当你情绪越激动、越极端时,水面往往会产生非常缓慢,甚至充满禅意的涟漪。费俊团队与中科院人工智能团队进行合作,用声纹识别方式完成该作品,并在展览中获得将近10万条数据,这些数据比原始数据更有效,通过打标签的方式再反哺模型。
新媒体艺术作品「水曰」
问答环节
问题1:AI艺术创作,或者说广义上的AI创作,如何形成有效的工作流?(AI艺术跟现有产业在工具链和工作流上的融合)
纪蕾:让AI去设计或者去生成脑子里东西的时候,会花很多的时间在调整prompt,目前的一个研究方向就是,引导模型去发现比较好的prompt,并引导大家怎么使用这个产品。近期发现有prompt的网站是收费的,如果设计出来生成效果比较好,就比如说定价15美元,可以形成这样的产业链。此外,无代码或者低代码,也是现在研究的一个方向,意在尽量简化现在的模型,让模型更加易用。
吴卓浩:在创作过程中,一方面AI真的能帮到很多忙,另一方面很碎片化,各个环节串不起来。有的艺术家是做3D的,有做平面的,有的偏向于设计,每个人都在试图构建自己的工作流。在这个过程中,一方面源源不断新的AI出来,肯定是好事。另一方面,构建这个工作流过程中,任务管理很重要。专业创作者,经常工作状态是睡觉前让(系统)跑,第二天早上起来对着一万张生成的图片,从中筛选。如果有比较好的任务管理方式,把所有想法微调的方向,全部作为程序输入,对于设计者来说更友好一些。
问题2:如何判断AI生成艺术的效果?(AI和艺术更有机地结合)
林咏华:我在AI+艺术上的一个工作是,2018年做的AI剪辑,当时和腾讯体育合作,需要给整场3、4个小时的篮球赛,在MVP公布之后,剪辑出一个一分钟的高亮。当时AI还不能生成视频,而是找到相应的片段完美地拼凑起来。合作的方式是,剪辑师事先定义好他们认为很不错的故事线框架,比如前10秒是高潮,第二个10秒是低谷,第三个10秒是什么。再用AI去分析NBA的视频,插到故事线中。我认为,在这方面,第一,未来要考虑走向人机协同;第二,怎样将人类创作的灵魂以某种形式注入进去。AI只是做了low level的工作,而故事线的设计还是需要人类剪辑师来做。
费俊:我认为,今天AI科学家如果想要深入挖掘AI+艺术,还是需要了解当代艺术。我们对艺术的理解还停留在古典艺术阶段。艺术史已经不关心图像了。当然对于插画师设计师来讲,AI的工具价值是肯定的,但它已经不是当代艺术中最核心的部分。我们已经从图像过渡到图像与图像的语境。AI生成的图像,不是技术问题。而是观念问题。举个例子,马赛尔杜尚把小便池放在美术馆里,起名叫《喷泉》就打开了当代艺术的新篇章,一个现成工业品被当做艺术品了。这件事颠覆美术史,产生新的观念价值。如果可以通过简单的方法论进行迁移的,显然不是艺术。如果可以去迁移这种颠覆性的观念,而不仅仅是图像的拼贴,更符合当代艺术的核心命题。这是我个人的观点。
李子晋:在音乐中也是如此。目前来看这种革新性和创造性的内容一定是人为的,甚至都不是普通人能创造出来的。所以我在想可能我们现在AI做的事情可以予以一定的包容度,把它理解成是一个6、7岁的小朋友,你怎么去教他?现在我们主要讨论的还是模仿性质的AI。比如音乐创作上,一小段旋律的生成是没问题的,但和声的进行,曲式的变化, 这些都是结构性的,也是我们一直解决不好。可能涉及到音域、场域等更高级的问题。
李军:艺术可能是计算机最后能达到的人类自己的一块高地。我认为,如果基于我们对艺术这个词本身的界定来讲,这个词可能国际上是有冲突的,因为艺术本身是针对人而不是针对工具。艺术家和匠人靠积淀,而AI需要依靠大量重复技能训练。基于模型数据训练的逻辑来讲,大概率方向还是生产效率提升的工具。刚才报告中跟水来对话,我相信如果人类历史上没有这样艺术家的创想,想让AI凭空生成这样的创想,几乎是不可能的。
黄铁军:艺术本身也在变,我认为,生成一幅画,一段音乐,其实只是一个短期的现象。艺术一定会产生一种新的形式,这种新的形式,比如照相、电影、电视,总的来说它是很多人去欣赏的一种形态。
我想象中的艺术是无处不在的,是综合性的。不是简单地挂在墙上,不只是一部电影、几首歌曲。艺术家可能是一种导演的角色或者上帝视角。比如我想听什么就给你生成什么,我想看什么,你眼前出现的景象就是最符合你此刻心境的。
问题3:AI+艺术的定义是什么?
吴子薇:AI艺术的定义是什么?刚刚我们讨论的那些例子可以分成三个类别:一个是人类的作者来选择是什么样的网络或者什么样的network architecture,第二是人类作者来设置training set。第三个在生成之后,人类作者来选择他们觉得什么是最成功的一个作品。但是目前并没有对AI艺术确切的定义。
有两种AI+艺术的定义,第一种,回到AI的定义,AI或者计算机能够实现人类认知的一个再现,实现人类艺术家的一些认知。第二,因为人类身体、头脑或其他局限无法创造的艺术,机器来实现。
十三维:AI和艺术,要从艺术的起源和脉络来看。很早以前,艺术就有生成式的创作方式,在古代,达芬奇等画家就利用过水流、波纹等自然系统产生图案。
计算机产生之后,菲利普·加兰特提出了「生成艺术」的概念,即只要利用一个创造系统进行创作。这个系统可以是自然规则,可以是计算机程序或AI大模型,甚至可以是另外一个系统,比如生态系统等,大家一起跳舞或者一起有一些行为艺术,都叫生成艺术。
今年的一篇论文将AI创造系统分为五个层级,前两层就是机器艺术家,最简单的一层就是单纯的生成系统。输入某些外部数据参数,改变了参数会有不同的输出。第二层加入了鉴赏系统,这个鉴赏系统说到底什么好的图片,什么不好的图片,还是用人类的一些价值观或者学习到的一些东西,给它设定好一些判别,类似于GAN。
达到第三、四、五层,说明这个艺术系统可能通过图灵测试了。第三层为单纯的艺术系统,这个系统是能够发明自己的审美函数或者适应度函数。这个艺术品的好坏,不是人类通过外部数据输入决定的。这里的艺术创作结果可以部分改变世界,甚至可以影响我们人类的价值观。
第四层,共生系统,是指能与人类进行交流,我们人类说这个好看不好看,艺术家也会给出意见,图灵艺术系统也会给出意见。交流后的结果,大家会有一个共识,即好不好看。这个系统通过传感器、外面的摄像头、声音等等捕捉外面的环境等等作为自己的输出,这一层已经能够通过图灵测试了,我们甚至可以说它有了自己的审美和个性。
第五层,真实系统,可以在线检测人类的反应,比如交流时图灵艺术家可能会看我们的反应,将我们的现场动态转化成自己的数据和经验,同时也会储存自己的一些思想、所有审美的价值等等,最终自己也会运转反映到和真实世界共生的创造系统中,这可能是最高级的创造系统。
问题4:如何解决AI+艺术落地的问题?
西乔:AI落地的问题。第一,现有的AI模型需要有更高的可控性包括更精确的编辑能力,支持对细节反复的打磨、迭代。第二,能够在输出质量上有提升。第三,满足自定义需求的同时,又让成本变得可负担,对现有的生成模型做一些针对性的微调。现在会有越来越多模型关注编辑和细调的需求,去关注定制化。这对于AI图像生成技术应用于实际商业级的创作工作流会带来非常乐观的预期。
关于数据源的问题,有大量艺术家的作品没有经过同意就被作为了训练数据,这是现在一些模型训练商或者厂商的做法,这么做到底有没有问题?艺术家的知识产权在这个场景下到底受不受保护?基于现有的艺术品版权法律而言,艺术家能不能对一种风格主张版权。如果艺术家的作品被未经许可拿去做了训练,大家除了舆论谴责,这是无能为力的,这是现在法律框架下的现状。推己及人,联想一下以后,我们如果作为AI艺术的创造者,我们用模型生成出来的作品,这中间还包括我们的偏好数据,我们创作过程中迭代挑选标记修改的行为数据,是不是以后也会被不经许可用于训练,我们也是无法主张这个权利的,这也是我对于现在模型AI开发方提出的一个问题。
整理:李梦佳