查看原文
其他

跨界艺术家朱浚侨:AIGC 的确可以做多样的创作,但人也会越来越重要

东西文娱 东西文娱 2023-10-23


东西精品沙龙系列‍

本期AIGC与生产力

上期分享‍

喜马拉雅珠峰智能实验室负责人卢恒

点击文末可阅读


2022年下半年以来,NLP技术与深度学习模型的完善、多个大模型开源并探索商业化可能,正在加速AIGC与产业结合,更大规模地落地业务与应用场景。这有望推动AIGC从辅助内容创作,向覆盖文本、绘画、音频、视频、游戏、创意营销、数字人、虚拟直播等多个行业的生产力工具转变,并产生价值增量。


在这一背景下,日前东西文娱&东西游戏联合东方财富证券研究所,举行“AIGC与生产力”系列会议,主要探讨AIGC的应用场景与产业化落地方向。下为现场纪要摘要。


(全文点击下图即可阅读)

影视导演、先锋摄影师、实验影像艺术家、视觉设计师,
“VinlexWorkshop”创意单位主理人  朱浚侨




StyleGAN模型:抗原妖怪


首先讲一下我一开始是怎么接触到AIGC的。我会把它称为我认知当中的“上古时期”。一开始了解到AI的时候是因为这个StyleGAN模型,当时我接触 StyleGAN模型的时候,正好是处在一个居家隔离的状态。当时想起在2019年、2020年的时候,我有看到过其他的视觉艺术家做了一些针对StyleGAN的特性进行的艺术创作。我觉得这个东西很Hype,是很具备时代性的内容。


但是当时我觉得它的技术门槛比较高,可能需要非常多的算力,与我这种个人创作者是有一定距离的,所以没有去进行深度的了解。


但是在今年年初的时候,因为空闲时间更多了,于是我去深入地研究了一下,发现它好像已经发展到个人创作者也可以进行一些创作的阶段。之后在家里的那段时间,我做了一个StyleGAN的数据集训练。



这个是我使用了《宝可梦》和《数码宝贝》的数据集,做了一个叫做《ATGMON:抗原妖怪》的项目。因为当时每天大家都会跟抗原试剂打交道,它的形状特别像我们小时候动画片里的数码暴龙机,然后它上面又有一串小小的数字,我就把这个数字当做模型里面的那个random seed,就是种子。


通过这一串数字,每天你可以抽取一个属于你的小妖怪,可以陪伴大家度过一段相对比较无聊和甚至低落的日子。因为StyleGAN在当时的情况下并不能训练出特别优质的图像,除非使用大量的训练。但我作为个人创作者不可能做到这么大量的训练,就用相对讨巧的方式做了一个像素风格的生成。这是其中一些我觉得比较喜欢的(可爱的)几只生成出来的抗原妖怪。







Disco Diffusion模型:

本歌取引、《堕天使接引图》


差不多三月末四月初的时候,我偶然了解到了diffusion,也就是扩散模型。当时我第一次感受到Disco Diffusion生成画面的质量的时候,我是非常震惊的。“AI已经到了可以通过一句话就生成图片,甚至是生成画作的这种阶段了。”我当时非常吃惊,就产生了一些作为艺术工作者的浪漫幻想,就会认为,是不是AI已经可以理解我想做的一些艺术创作了?


所以我去做了一些更偏抽象风格的艺术创作。因为当时Disco Diffusion生成一张高清图片可能要花二、三十分钟,甚至训练步数比较多,画质设置的比较高的话,可能会到一个小时、两个小时,时间非常长。然后生成出来的图像其实也不能说非常细致,更多的是一种似是而非的抽象美感在里面。所以我根据它的这个属性,也算是讨巧,做了一些偏水墨、抽象风格图像的生成,然后再加入自己的想法和风格在做了修改与调整,做成了一个结合了木刻。水墨,与版画风格的一组作品,《堕天使接引图》。



这套作品同时也是属于我当时有一个项目叫做《本歌取引》。这个项目是使用人工智能生成作为取引与借典的一种方式,来将由人类曾经所创作的各媒介的艺术,作为人类本歌的一种再度创作。简单来说就像是原本我描述这个月亮很美,用了一首古诗词去描述月亮美这件事。但是我也可以想是不是月亮很美这件事情,既可以通过文字来转化为诗歌,也可以通过同样的意向来使用文字去生成图像的。所以就构建了这样的一个项目进行尝试,这是我其中的一个子项目的一副作品。就在前段时间,我也很高兴,这副画作也已经被一位海外的藏家看中,最终以实体的方式来到了现实之中。






Midjourney:

《百相行者》、西部生成世界


我认为对于个人创作者来说最重要的一个工具出现了,它就是Midjourney。我觉得这个模型的出现真正开启了diffusion模型百花齐放的状态。因为在那个情况下,同时还有DALL-E,以及后来的stable diffusion,它们真正实现了一个文字生成图像模型的质的飞跃。原本我可能要等一个晚上才能生成图片,现在变成了我可以拿一个手机就直接可以输入文本,文本立刻就能生成图片。


我非常敬佩这个Midjourney做到了嫁接在discord上这样一个行为,这让他拥有了更便捷的使用方式,更好的社区环境以及更便携的使用场景。比如说我今天在外面有一个灵感,只需要在手机里面输入一段文字,它立刻就能生成出来。它有可能不是我最想要的图像,但是它会给我很多的灵感。于是我们可以基于这样的创作思路去做一系列的生成,而且不需要花费像原本那么大量的时间成本。



于是我顺应着我之前更偏好的“新水墨画风”的概念,做了一个基于我作为艺术家对于自我身份认同的经历的一个新项目叫做《百相行者》。我用水墨的方式把每位角色形象设定在不同的场景、处于不同的状态下,做了一个系列的AIGC生成创作。并且基于Midjourney能够快速迭代的生产方式,我做了总计100张的图像,组成《百相行者》。


同时基于这样非常高效的生成经验,我与曾经摄影合作过的加拿大时尚品牌IIMAGE Plus进行了一次联名计划,我们做了一个跟《西部世界》有关的一个概念,叫“西部生成世界”。



大家可以看到这个图像里面有很多的牛仔赛博格女郎,这个就是用Midjourney当时相对比较早的模型去做的生成,这几张图片比较好地表现了油画的质感。我们把它和传统工作流结合得还是比较自然的,AIGC代替了设计的部分,最终把图像设计在了服装上。这是我们的first drop,一款正在驾驭水牛的牛仔女郎短袖。





AIGC进入传统工作流、

AI面部驱动图像模型探索


到了六月,因为工作原因,我正好接到《这就是街舞》开场的队长大秀微电影的执行导演的工作。我们导演组做了整体的拍摄策划,同时结合了虚拟制片的方式进行了这次微电影的制作。其中我们正好接到李承铉队长想要一个基于水墨的舞台的需求。


这次非常巧,我们导演组内的另外一位执行导演也是一位一起研究AIGC的圈内大佬,于是我们就想到了用 AIGC的方式去做影视原画设计,使用了Midjourney生成了一个中国风水墨庭院的场景。



最终整理出来四张图,当时李承铉队长选了最左侧的那张。艺人在一个很快的沟通里面就确定了他想要的风格。然后基于Midjourney的图,在blender里面做了一个建模,把这个给到负责虚拟制片的老师,才得出了最终非常惊艳舞台效果。


与此同时,我在这么多文本生成图像的创作经验中开始思考,觉得难道AIGC只能基于文本生成图像这样这一件事情,有没有别的可能性?



这个时候我看到了一个面部驱动的模型,叫First Order Model。我想是不是可以通过这个模型给我们的影视创作带来一些不一样的尝试?于是我和我的两位说唱歌手好友,来自北京厂牌云道的张卍寶Wanbo和南京厂牌Shooc的普兰兹一PlanZ,基于他们做的一首中国说唱巅峰对决的diss。我们三个一拍即合,在这首歌的MV里面,我们把所有参赛选手的脸全部换成这两位说唱歌手的面部,然后用两位Rapper原本录制的说唱的片段,去进行了一个影视化的动画驱动,完成了这支诙谐讽刺的MV。





基于Stable Diffusion的Fine tune探索:抗原妖怪进化型、Tattoo Diffusion


后来我们都看到Stable Diffusion的出现,以及它所具备的非常棒的生成能力,以及正式步入大众视野的AI绘画,我开始了一些对fine tune的探索。


首先是我使用了stable diffusion的新模型去对过去的项目《ATGMON:抗原妖怪》做了新的提炼,类似进化的感觉。我们可以看到原本它是一个pixel art像素风的图片,但是经过stable diffusion的Deform版本对于图像语义的理解之后,它变成了更像插画水准的图片。



与此同时,还与另外一家曾经合作过的时尚服装品牌CSFC共创了一款联名系列,“人工智能会梦见蝴蝶吗?。



左侧是根据衣服原有的版型作为底图,然后stable diffusion在底图上生成完全定制的一个图像。相当于说任何衣服的形状,它可以完全根据版型去做非常匹配的生成。



之后,是我们真正使用fine tune的一个尝试。这个是我和海辛、周末,我们三个人去做了一个基于纹身贴的fine tune。大家都找了一些比较符合自己审美的数据集,然后把这些数据集归纳到一起,筛选之后做了一些标注。标注完之后,周末做了fine tune的调整和debug的工作。


这是我们做的一个比较早期的效果。输入怪人剪影,花朵,然后出来大概是这样的一个状态。如果未来我们的这个数据集标注能够做得更细化,可能它出来的效果会更加的精准。





AI模型的组合搭配:《景观:电子计算》NFT电子音乐专辑


作为创作者,我觉得AI模型的组合搭配,它的作用会远远大于你单独使用某一个模型来创作。



这是我最近在做的一个结合了Text to Music,Text to image,Image to text这三类模型的NFT 电子音乐专辑,叫做“景观:电子计算”。其实它所有的东西都来源于同一个概念,把你的概念注入到这三个模型当中,它就会以一种衍生的方式扩散到你想要的所有形式,包括图像、声音以及用声音转换的新图像。



中间的这张图像是我的日常创作,使用Midjourney做了一个反乌托邦,灭世风格的微缩景观图像。我把这张图交给Clip进行prompt反求, 它给了我一长串对这张图片氛围、内容的描述。我再把这一段prompt扔到了text to music,这个时候它给我的结果让我感到非常惊喜。


在这样的情况下,我做了一张专辑,里面总共是24首歌。我基于它生成的这些音乐本身,做了一些自己对这个音乐的重新理解。在我以一个专辑的逻辑下,去排布了整段音乐之后,其实我心中是有一个完整的故事线在里面的。但是这样的情况下,原本那些图片已经不能匹配了,于是我就重新去为每一首单曲生成了封面,在视觉音乐与故事性上进行了收束,完成了第一张完全基于AIGC所生成的NFT专辑。







创作者对AIGC的真正需求:
回归想象力

最后,我们作为创作者来说,对于AIGC真正的需求是什么?或者说我们使用AIGC去创作的源动力在哪里?我觉得它是让我们创作者回归想象力的初衷,是一个对于传统思维的巨大突破。

AIGC的出现可以让我们完全打破传统的思维模式,让我们回归到最原初的那种想要去创作的方式。

我觉得AIGC能做的事情会变得越来越多,但是很多人会觉得AIGC能做的东西越来越多,那人是不是越来越不重要了?作为一个创作者来说,我觉得当AIGC能做的东西越来越多的时候,人在其中的地位会变得越发重要。因为我们作为创作者,跟观众之间的关系其实是:我需要把我的表达、我的想法作为一种价值传递给他们。但是如果人消失了,它只是一个纯架构的、外形上的东西,那它中间我们最想表达的价值传递,其实就消失了。

所以我觉得当AIGC能做的东西越来越多的时候,人在其中需要作为一个精准的、信息传达的generator,去给你的audience去传达你想要表达的信息。这一点是我对于未来AIGC创作当中创作者的定位。

东西精品沙龙系列

「AIGC与生产力」


Hello!
我们在为更加闭环、更加高效的服务模式做准备
欢迎加入限定白名单
与我们一起探索













您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存