11月28日,Stability AI在官网发布了开源文生图模型SDXL Turbo,可以做到文本生成图片实时响应。“头号AI玩家”第一时间上手尝试了一下,相比DALL·E 3、Midjourney以及Stable Diffusion,SDXL Turbo生成效率非常快,能够做到实时微调图像,生成1张图片的时间基本控制在2秒以内。
据Stability AI官方介绍,SDXL Turbo是基于SDXL 1.0迭代而成,使用了全新的对抗扩散蒸馏技术(Adversaral Diffusion Distillatio),所需图像的生成步骤从50步减少到1步,并且不会损坏图片的质量。“X”平台用户分享自己用SDXL Turbo在24秒内生成了256张图,用户“HylaruCoder”也称,4060Ti配置生成速度为0.3秒。
图片来源:Reddit;人工智能生成艺术1年前vs现在一年前,AI只能生成一些大致的轮廓图片,而现在实时生图都不是问题,甚至连AI创作的漫画续作都已经出版销售,进入商用阶段。11月22日,由AI辅助创作的《怪医黑杰克机器的心脏》这部作品正式出版销售。
一年过去,文生图领域进化到什么程度了?达到出版水准有多难?还有哪些亟待探索和解决的问题?“头号AI玩家”和一些创作者聊了聊。
1年前vs现在,文生图领域的极大改变
一直以来,GAN(生成对抗网络)方法是生成图像的标准模型。自GAN以后,AI绘画模型经过了几次迭代,陆续上线了DALL·E、Imagen、Diffusion,“头号AI玩家”此前做过相应的梳理和报道。
除了模型间的变化差异,从Disco Diffusion到Midjourney,再到SDXL Turbo,文生图效果还发生了怎样的改变?
“头号AI玩家”用相同的提示词进行了一组对比试验,上图是2022年8月Midjourney生成的图像,下图是同一组提示词于2023年11月底生成的图像。
2022年8月Midjourney生成图片
2023年11月Midjourney生成图片
上述两幅图相同提示词:Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.
蝙蝠侠(左边)和德怀特·施鲁特(右边)在宾夕法尼亚州斯克兰顿的某个停车场里打架,戏剧性的灯光,照片逼真,单色,高细节。
可以看到,最明显的区别在于在场景创作上,AI已经能够清晰描绘出具体的场景,人物和场景有了明显的区分。
另外,AI对于语句的理解和想象力有了极大的进步,能够勾画出两个人物的面部细节,并且在构图和透视上展现了一定的审美水平。
对于人物的动作解读也有显著不同,比如,下面以“一个跳舞的男人”为提示词生成的图片。
2022年9月,Midjourney生成的图片
2023年11月底,Midjourney生成图片
现在的文生图技术有效避免了像素化、模糊化的视觉缺点,能够生成更具有轮廓细节、更加清晰真实的图像。连AI饱受嘲讽的“不会画手”,在这一年时间里也得到了进化。
相比一年前,速度大幅度提升的同时,生成的图片质量也并不逊色。
“X”平台上还有专门分享用AI生成蝙蝠侠的玩家。我们也用他分享的提示词生成了图片,和他之前的图片进行了对比。
左起为网友2022年8月Midjourney生成图片;“头号AI玩家”2023年11月Midjourney生成图片
使用同组提示词: Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠侠风格为艺术家Shepard Fairey,底部带有“希望”字样。
在漫画风格上,尽管生成的文字还是无法做到100%准确,但人物形象“Batman”生成形象更明确,对艺术家风格的理解也更细致,在颜色、元素组成上更丰富。
海外社交平台Reddit上,有不少网友对于人工智能艺术的迭代升级进行了讨论。
有网友表示,“这就像人们指出GPT-4有一些小瑕疵,并以此推断AI将在半个世纪内保持当前的能力,但他们一次又一次地错了。所以永远不要对人工智能下注”。
还有网友调侃,“和现在相比是:我无法根据您的请求生成图像,因为它不符合我们的内容政策(版权)”。
也有人质疑1年前有点夸张,应该是2年前吧,但确实有了肉眼可见的进步。
当然,我们也能从其他案例中找到文生图领域技术进化的痕迹。
今年年初,日本漫画师筱房六郎在“X”上发文称,AI绘画存在很大的问题,比如无法生成“长满青苔”的图像,也无法描绘“摔倒”的动作,人体的构造和关节都是错乱的。
他认为,人类漫画师扔掉画笔,转向AI还为时尚早。
不过,目光转向今年9月,日本漫画家Ume分享了他用AI生成的漫画。
Ume表示,AI现在能画出许多表情和一定程度的姿势,对于人物刻画的细节也比之前成熟不少。
但他还提出,让AI生成俯视图或者仰视图,或是改变作画视角还是非常困难。
AI作画达到出版水准,有多难?
文生图技术的快速发展,使得用AI创作漫画成为一个必然趋势。早在2020年,日本研究人员就利用深度学习技术(StyleGAN),分析了知名漫画家手冢治虫的经典作品,创造了世界上第一部由AI生成的漫画《PHAEDO》(Tezuka 2020项目)。而今年,为了纪念手冢治虫的作品《怪医黑杰克》连载50周年,官方推出了由AI辅助创作纪念作《怪医黑杰克机器之心》,希望借助人工智能,将手冢治虫的创作理念延续下去。
从《怪医黑杰克》公布使用AI创作续集以来,社交平台上关于AI创作漫画的讨论从未间断。有网友留言称,日本有一批最具才华的漫画师,但是却靠AI出版漫画,很怪。“X”平台上有漫画爱好者认为,“这些角色都很完美,因为他们是由人类创作的。”
当然,也有人表示奇怪,“AI能写10000种剧情,但有1种表达了手冢治虫的想法吗?”但AI生成漫画并没有那么简单,后期工作也远比想象要多。有漫画师提到,《怪医》这个项目更像是研究,而不是漫画创作。在故事情节方面,项目组成员需要将漫画原本的世界观、剧情、对白、人物设定进行解构,投喂给GPT-4,然后让GPT-4学习手冢治虫此前作品的画风和思想,生成可能的台词和分镜。然后将这些台词、故事内容交由Stable Diffusion处理,最后由项目小组成员整理归纳,完善成具备出版条件的作品。据NHK报道,为了能够成功模仿手冢治虫的风格,AI借鉴了6000多张角色图片,识别了手冢治虫65部作品。大量的数据投喂下,AI生成了基本的剧情和人物设定,但最终精细的调整和设计,还是由人类创作者来完成。数字艺术家“脑玩家mindplayer”今年3月也发布了一部AI辅助创作的漫画《ARES觉醒》。
她告诉“头号AI玩家”,用AI辅助创作漫画通常需要列好故事提纲,列明章节后再交给ChatGPT进行细化调整,它可以细化到每一页具体的分镜内容。“但分镜排版比想象的难很多,如果完全没有美术基础,分镜这个坎都过不去”。“脑玩家mindplayer”以下面这张AI绘画封面举例。她认为,对于个人创作者来说,简单生成儿童绘本风格的漫画会简单一些。
但如果要达到日漫出版的效果,没有一定的绘画水平和后期工作,很难完成。再加上调整和修改的成本,得不偿失。漫画师三三对“头号AI玩家”提到,AI现在唯一的缺点就是“生成什么,你就得要什么”,有时候创作意图和灵感都很难用语言表达,更别说靠AI进行解释和渲染。不过,在手冢治虫这部漫画出版之前,日本早已出版过首部由AI生成技术完成的漫画作品《赛博朋克桃太郎》。
图片来源:《CyberPunk PeachJohn》作者Rootport彼时,这部漫画的部分细节模糊,构图简单,透视关系紊乱,甚至遇到AI无法生成的近景时,创作者Rootport也直接摆烂,“这个手部特写实在没办法了”。从去年年底到现在,AI生成技术在可控性和一致性上也有了长足的进步。
一些漫画师表示,由于模型的分辨率提高了,手部细节已经可以通过微调生成,比起当时轮廓和大致框架都不正确,已经是一个质的飞跃。“脑玩家mindplayer”也提到,使用同一套提示词,目前SDXL和DALL·E 3的出图质量都不错。“现在很多功能都被开发出来了。图片能够进行扩展微调,需要的时间成本起码变低了。”三三补充说道。令人惊讶的并不是AI自动生成漫画,而是AI迭代速度之快,漫画师们需要数十年磨练的笔触技巧,AI在一年之内就可以达到,完成进化。当然,目前AI生成图像还存在一些缺陷,比如还没有开源软件能让角色保持连续性,视觉上更容易生成大全景,分镜刻画困难,场景一致性问题等等。但无论是《怪医黑杰克》AI续作的成功出版,或是不同玩家尝试的AI辅助生成漫画,都为文生图的进化添上了浓墨重彩的一笔。AI现阶段能够辅助我们做到什么程度?或许每一部作品都是答案。文末彩蛋:体验网址👉:https://clipdrop.co/,里面集成了Stability AI自己开发的应用,包括SDXL、SDXL Turbo,感兴趣的玩家可以在线体验。SDXL需要较高的内存和显存,如果电脑配置不是特别高的话,不用下载模型,Clipdrop线上也值得一玩。
「内容好生意」2024新榜大会来了,就在1月23-24日,北京望京凯悦!
作为由新榜主办的一年一度的内容行业盛会,我们将邀请这个行业最具代表性的创作红人、明星机构、品牌操盘手等前沿玩家,复盘AIGC、短剧、出海、品牌直播等行业热点背后的内容生意。
目前大会报名已正式开启,想了解更多信息或报名,请点击文末“阅读原文”,期待与你相见。
「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。
欢迎分享、点赞、在看
一起研究AI