1秒1张图实时成画，2023文生图领域进化有多快？

Original 阿虎头号AI玩家 2023-12-16

作者 | 阿虎

编辑 | 卷毛

天下武功，唯快不破。1秒1张图，免费还开源。

11月28日，Stability AI在官网发布了开源文生图模型SDXL Turbo，可以做到文本生成图片实时响应。

“头号AI玩家”第一时间上手尝试了一下，相比DALL·E 3、Midjourney以及Stable Diffusion，SDXL Turbo生成效率非常快，能够做到实时微调图像，生成1张图片的时间基本控制在2秒以内。

据Stability AI官方介绍，SDXL Turbo是基于SDXL 1.0迭代而成，使用了全新的对抗扩散蒸馏技术（Adversaral Diffusion Distillatio），所需图像的生成步骤从50步减少到1步，并且不会损坏图片的质量。

“X”平台用户分享自己用SDXL Turbo在24秒内生成了256张图，用户“HylaruCoder”也称，4060Ti配置生成速度为0.3秒。

是不是没想到，文生图技术能进展这么快？

图片来源：Reddit；人工智能生成艺术1年前vs现在

一年前，AI只能生成一些大致的轮廓图片，而现在实时生图都不是问题，甚至连AI创作的漫画续作都已经出版销售，进入商用阶段。

11月22日，由AI辅助创作的《怪医黑杰克机器的心脏》这部作品正式出版销售。

一年过去，文生图领域进化到什么程度了？达到出版水准有多难？还有哪些亟待探索和解决的问题？“头号AI玩家”和一些创作者聊了聊。

1年前vs现在，文生图领域的极大改变

一直以来，GAN（生成对抗网络）方法是生成图像的标准模型。自GAN以后，AI绘画模型经过了几次迭代，陆续上线了DALL·E、Imagen、Diffusion，“头号AI玩家”此前做过相应的梳理和报道。

除了模型间的变化差异，从Disco Diffusion到Midjourney，再到SDXL Turbo，文生图效果还发生了怎样的改变？

“头号AI玩家”用相同的提示词进行了一组对比试验，上图是2022年8月Midjourney生成的图像，下图是同一组提示词于2023年11月底生成的图像。

2022年8月Midjourney生成图片

2023年11月Midjourney生成图片

上述两幅图相同提示词：Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠侠（左边）和德怀特·施鲁特（右边）在宾夕法尼亚州斯克兰顿的某个停车场里打架，戏剧性的灯光，照片逼真，单色，高细节。

可以看到，最明显的区别在于在场景创作上，AI已经能够清晰描绘出具体的场景，人物和场景有了明显的区分。

另外，AI对于语句的理解和想象力有了极大的进步，能够勾画出两个人物的面部细节，并且在构图和透视上展现了一定的审美水平。

对于人物的动作解读也有显著不同，比如，下面以“一个跳舞的男人”为提示词生成的图片。

2022年9月，Midjourney生成的图片

2023年11月底，Midjourney生成图片

现在的文生图技术有效避免了像素化、模糊化的视觉缺点，能够生成更具有轮廓细节、更加清晰真实的图像。连AI饱受嘲讽的“不会画手”，在这一年时间里也得到了进化。

相比一年前，速度大幅度提升的同时，生成的图片质量也并不逊色。

“X”平台上还有专门分享用AI生成蝙蝠侠的玩家。我们也用他分享的提示词生成了图片，和他之前的图片进行了对比。

左起为网友2022年8月Midjourney生成图片；“头号AI玩家”2023年11月Midjourney生成图片

使用同组提示词： Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠侠风格为艺术家Shepard Fairey，底部带有“希望”字样。

在漫画风格上，尽管生成的文字还是无法做到100%准确，但人物形象“Batman”生成形象更明确，对艺术家风格的理解也更细致，在颜色、元素组成上更丰富。

海外社交平台Reddit上，有不少网友对于人工智能艺术的迭代升级进行了讨论。

有网友表示，“这就像人们指出GPT-4有一些小瑕疵，并以此推断AI将在半个世纪内保持当前的能力，但他们一次又一次地错了。所以永远不要对人工智能下注”。

还有网友调侃，“和现在相比是：我无法根据您的请求生成图像，因为它不符合我们的内容政策（版权）”。

也有人质疑1年前有点夸张，应该是2年前吧，但确实有了肉眼可见的进步。

当然，我们也能从其他案例中找到文生图领域技术进化的痕迹。

今年年初，日本漫画师筱房六郎在“X”上发文称，AI绘画存在很大的问题，比如无法生成“长满青苔”的图像，也无法描绘“摔倒”的动作，人体的构造和关节都是错乱的。

他认为，人类漫画师扔掉画笔，转向AI还为时尚早。

不过，目光转向今年9月，日本漫画家Ume分享了他用AI生成的漫画。

Ume表示，AI现在能画出许多表情和一定程度的姿势，对于人物刻画的细节也比之前成熟不少。

但他还提出，让AI生成俯视图或者仰视图，或是改变作画视角还是非常困难。

AI作画达到出版水准，有多难？

文生图技术的快速发展，使得用AI创作漫画成为一个必然趋势。

早在2020年，日本研究人员就利用深度学习技术（StyleGAN），分析了知名漫画家手冢治虫的经典作品，创造了世界上第一部由AI生成的漫画《PHAEDO》（Tezuka 2020项目）。

而今年，为了纪念手冢治虫的作品《怪医黑杰克》连载50周年，官方推出了由AI辅助创作纪念作《怪医黑杰克机器之心》，希望借助人工智能，将手冢治虫的创作理念延续下去。

《哆啦A梦》中关于重现手冢治虫经典制作的情节成真

从《怪医黑杰克》公布使用AI创作续集以来，社交平台上关于AI创作漫画的讨论从未间断。

有网友留言称，日本有一批最具才华的漫画师，但是却靠AI出版漫画，很怪。

“X”平台上有漫画爱好者认为，“这些角色都很完美，因为他们是由人类创作的。”

当然，也有人表示奇怪，“AI能写10000种剧情，但有1种表达了手冢治虫的想法吗？”

但AI生成漫画并没有那么简单，后期工作也远比想象要多。

有漫画师提到，《怪医》这个项目更像是研究，而不是漫画创作。

在故事情节方面，项目组成员需要将漫画原本的世界观、剧情、对白、人物设定进行解构，投喂给GPT-4，然后让GPT-4学习手冢治虫此前作品的画风和思想，生成可能的台词和分镜。

然后将这些台词、故事内容交由Stable Diffusion处理，最后由项目小组成员整理归纳，完善成具备出版条件的作品。

据NHK报道，为了能够成功模仿手冢治虫的风格，AI借鉴了6000多张角色图片，识别了手冢治虫65部作品。

大量的数据投喂下，AI生成了基本的剧情和人物设定，但最终精细的调整和设计，还是由人类创作者来完成。

数字艺术家“脑玩家mindplayer”今年3月也发布了一部AI辅助创作的漫画《ARES觉醒》。

《ARES觉醒》

她告诉“头号AI玩家”，用AI辅助创作漫画通常需要列好故事提纲，列明章节后再交给ChatGPT进行细化调整，它可以细化到每一页具体的分镜内容。

“但分镜排版比想象的难很多，如果完全没有美术基础，分镜这个坎都过不去”。

“脑玩家mindplayer”以下面这张AI绘画封面举例。她认为，对于个人创作者来说，简单生成儿童绘本风格的漫画会简单一些。

但如果要达到日漫出版的效果，没有一定的绘画水平和后期工作，很难完成。再加上调整和修改的成本，得不偿失。

漫画师三三对“头号AI玩家”提到，AI现在唯一的缺点就是“生成什么，你就得要什么”，有时候创作意图和灵感都很难用语言表达，更别说靠AI进行解释和渲染。

不过，在手冢治虫这部漫画出版之前，日本早已出版过首部由AI生成技术完成的漫画作品《赛博朋克桃太郎》。

图片来源：《CyberPunk PeachJohn》作者Rootport

彼时，这部漫画的部分细节模糊，构图简单，透视关系紊乱，甚至遇到AI无法生成的近景时，创作者Rootport也直接摆烂，“这个手部特写实在没办法了”。

从去年年底到现在，AI生成技术在可控性和一致性上也有了长足的进步。

左边为人工手绘；右边为AI实时生成

一些漫画师表示，由于模型的分辨率提高了，手部细节已经可以通过微调生成，比起当时轮廓和大致框架都不正确，已经是一个质的飞跃。

“脑玩家mindplayer”也提到，使用同一套提示词，目前SDXL和DALL·E 3的出图质量都不错。

“现在很多功能都被开发出来了。图片能够进行扩展微调，需要的时间成本起码变低了。”三三补充说道。

令人惊讶的并不是AI自动生成漫画，而是AI迭代速度之快，漫画师们需要数十年磨练的笔触技巧，AI在一年之内就可以达到，完成进化。

当然，目前AI生成图像还存在一些缺陷，比如还没有开源软件能让角色保持连续性，视觉上更容易生成大全景，分镜刻画困难，场景一致性问题等等。但无论是《怪医黑杰克》AI续作的成功出版，或是不同玩家尝试的AI辅助生成漫画，都为文生图的进化添上了浓墨重彩的一笔。

AI现阶段能够辅助我们做到什么程度？或许每一部作品都是答案。

文末彩蛋：体验网址👉：https://clipdrop.co/，里面集成了Stability AI自己开发的应用，包括SDXL、SDXL Turbo，感兴趣的玩家可以在线体验。

SDXL需要较高的内存和显存，如果电脑配置不是特别高的话，不用下载模型，Clipdrop线上也值得一玩。

「内容好生意」2024新榜大会来了，就在1月23-24日，北京望京凯悦！

作为由新榜主办的一年一度的内容行业盛会，我们将邀请这个行业最具代表性的创作红人、明星机构、品牌操盘手等前沿玩家，复盘AIGC、短剧、出海、品牌直播等行业热点背后的内容生意。

目前大会报名已正式开启，想了解更多信息或报名，请点击文末“阅读原文”，期待与你相见。

「头号AI玩家交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。

也欢迎围观小红书@头号AI玩家，我们在这里日常练习AI绘画。

欢迎分享、点赞、在看

一起研究AI

继续滑动看下一个

bxrf的瓜

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

生什么病，就忌什么口，这张表留着很有用！速看

1秒1张图实时成画，2023文生图领域进化有多快？

1年前vs现在，文生图领域的极大改变

一直以来，GAN（生成对抗网络）方法是生成图像的标准模型。自GAN以后，AI绘画模型经过了几次迭代，陆续上线了DALL·E、Imagen、Diffusion，“头号AI玩家”此前做过相应的梳理和报道。

除了模型间的变化差异，从Disco Diffusion到Midjourney，再到SDXL Turbo，文生图效果还发生了怎样的改变？

“头号AI玩家”用相同的提示词进行了一组对比试验，上图是2022年8月Midjourney生成的图像，下图是同一组提示词于2023年11月底生成的图像。

2023年11月Midjourney生成图片

上述两幅图相同提示词：Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠侠（左边）和德怀特·施鲁特（右边）在宾夕法尼亚州斯克兰顿的某个停车场里打架，戏剧性的灯光，照片逼真，单色，高细节。

可以看到，最明显的区别在于在场景创作上，AI已经能够清晰描绘出具体的场景，人物和场景有了明显的区分。

另外，AI对于语句的理解和想象力有了极大的进步，能够勾画出两个人物的面部细节，并且在构图和透视上展现了一定的审美水平。

对于人物的动作解读也有显著不同，比如，下面以“一个跳舞的男人”为提示词生成的图片。

2022年9月，Midjourney生成的图片

2023年11月底，Midjourney生成图片

现在的文生图技术有效避免了像素化、模糊化的视觉缺点，能够生成更具有轮廓细节、更加清晰真实的图像。连AI饱受嘲讽的“不会画手”，在这一年时间里也得到了进化。

相比一年前，速度大幅度提升的同时，生成的图片质量也并不逊色。

“X”平台上还有专门分享用AI生成蝙蝠侠的玩家。我们也用他分享的提示词生成了图片，和他之前的图片进行了对比。

左起为网友2022年8月Midjourney生成图片；“头号AI玩家”2023年11月Midjourney生成图片

使用同组提示词： Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠侠风格为艺术家Shepard Fairey，底部带有“希望”字样。

在漫画风格上，尽管生成的文字还是无法做到100%准确，但人物形象“Batman”生成形象更明确，对艺术家风格的理解也更细致，在颜色、元素组成上更丰富。

海外社交平台Reddit上，有不少网友对于人工智能艺术的迭代升级进行了讨论。

有网友表示，“这就像人们指出GPT-4有一些小瑕疵，并以此推断AI将在半个世纪内保持当前的能力，但他们一次又一次地错了。所以永远不要对人工智能下注”。

还有网友调侃，“和现在相比是：我无法根据您的请求生成图像，因为它不符合我们的内容政策（版权）”。

也有人质疑1年前有点夸张，应该是2年前吧，但确实有了肉眼可见的进步。

当然，我们也能从其他案例中找到文生图领域技术进化的痕迹。

今年年初，日本漫画师筱房六郎在“X”上发文称，AI绘画存在很大的问题，比如无法生成“长满青苔”的图像，也无法描绘“摔倒”的动作，人体的构造和关节都是错乱的。

他认为，人类漫画师扔掉画笔，转向AI还为时尚早。

不过，目光转向今年9月，日本漫画家Ume分享了他用AI生成的漫画。

Ume表示，AI现在能画出许多表情和一定程度的姿势，对于人物刻画的细节也比之前成熟不少。

但他还提出，让AI生成俯视图或者仰视图，或是改变作画视角还是非常困难。

AI作画达到出版水准，有多难？

您可能也对以下帖子感兴趣

bxrf的瓜

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

生什么病，就忌什么口，这张表留着很有用 ！速看

生成图片，分享到微信朋友圈

1秒1张图实时成画，2023文生图领域进化有多快？

1年前vs现在，文生图领域的极大改变

一直以来，GAN（生成对抗网络）方法是生成图像的标准模型。自GAN以后，AI绘画模型经过了几次迭代，陆续上线了DALL·E、Imagen、Diffusion，“头号AI玩家”此前做过相应的梳理和报道。

除了模型间的变化差异，从Disco Diffusion到Midjourney，再到SDXL Turbo，文生图效果还发生了怎样的改变？

“头号AI玩家”用相同的提示词进行了一组对比试验，上图是2022年8月Midjourney生成的图像，下图是同一组提示词于2023年11月底生成的图像。

2023年11月Midjourney生成图片

上述两幅图相同提示词：Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠侠（左边）和德怀特·施鲁特（右边）在宾夕法尼亚州斯克兰顿的某个停车场里打架，戏剧性的灯光，照片逼真，单色，高细节。

可以看到，最明显的区别在于在场景创作上，AI已经能够清晰描绘出具体的场景，人物和场景有了明显的区分。

另外，AI对于语句的理解和想象力有了极大的进步，能够勾画出两个人物的面部细节，并且在构图和透视上展现了一定的审美水平。

对于人物的动作解读也有显著不同，比如，下面以“一个跳舞的男人”为提示词生成的图片。

2022年9月，Midjourney生成的图片

2023年11月底，Midjourney生成图片

现在的文生图技术有效避免了像素化、模糊化的视觉缺点，能够生成更具有轮廓细节、更加清晰真实的图像。连AI饱受嘲讽的“不会画手”，在这一年时间里也得到了进化。

相比一年前，速度大幅度提升的同时，生成的图片质量也并不逊色。

“X”平台上还有专门分享用AI生成蝙蝠侠的玩家。我们也用他分享的提示词生成了图片，和他之前的图片进行了对比。

左起为网友2022年8月Midjourney生成图片；“头号AI玩家”2023年11月Midjourney生成图片

使用同组提示词： Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠侠风格为艺术家Shepard Fairey，底部带有“希望”字样。

在漫画风格上，尽管生成的文字还是无法做到100%准确，但人物形象“Batman”生成形象更明确，对艺术家风格的理解也更细致，在颜色、元素组成上更丰富。

海外社交平台Reddit上，有不少网友对于人工智能艺术的迭代升级进行了讨论。

有网友表示，“这就像人们指出GPT-4有一些小瑕疵，并以此推断AI将在半个世纪内保持当前的能力，但他们一次又一次地错了。所以永远不要对人工智能下注”。

还有网友调侃，“和现在相比是：我无法根据您的请求生成图像，因为它不符合我们的内容政策（版权）”。

也有人质疑1年前有点夸张，应该是2年前吧，但确实有了肉眼可见的进步。

当然，我们也能从其他案例中找到文生图领域技术进化的痕迹。

今年年初，日本漫画师筱房六郎在“X”上发文称，AI绘画存在很大的问题，比如无法生成“长满青苔”的图像，也无法描绘“摔倒”的动作，人体的构造和关节都是错乱的。

他认为，人类漫画师扔掉画笔，转向AI还为时尚早。

不过，目光转向今年9月，日本漫画家Ume分享了他用AI生成的漫画。

Ume表示，AI现在能画出许多表情和一定程度的姿势，对于人物刻画的细节也比之前成熟不少。

但他还提出，让AI生成俯视图或者仰视图，或是改变作画视角还是非常困难。

AI作画达到出版水准，有多难？

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

生什么病，就忌什么口，这张表留着很有用！速看