查看原文
其他

AI绘画商用案例:Stable Diffusion 生成B站塞尔达H5小游戏梗图

设计师忠忠 Stable Diffusion 炼丹阁 2023-08-19

前言

最近跟B站合作搞了一个响应《塞尔达·王国之泪》上线的H5小游戏《抢先体验塞尔达新玩法·究极手》,以AI融合现实物品的方式让玩家提前体验到林克新能力“究极手”的快乐,也算是 Stable Diffusion 大规模商用的一次实践案例,跟大家简单分享一下项目流程经历,并讨论是否存在更优秀的解决方案。

H5小游戏的链接:

https://b23.tv/kvB4Kb1

项目背景 

本次需求的项目背景是需要做一个响应《塞尔达·王国之泪》上线的H5小游戏,具体设想最开始时是借鉴林克的新能力余料建造,让玩家生成类似的梗图,以此提前体验新游戏带来的快乐。

余料建造可以将一件物品与另一装备或盾牌进行组合,组合出新的武器,例如将冰块与弓箭组合成有冰冻效果的弓箭,将魔物的眼睛与弓箭组合成有自动追踪效果的弓箭,还有和以前的洗脑神曲【PPAP】也梦幻联动了起来。

因为余料建造这种游戏方式需要预先准备好大量的合成效果图,使用传统方式创作成本过于高昂,所以本次需求计划采用AIGC生成的方式进行创作,以在有限的时间和预算的限制下更好的满足项目需求。

以下我将从项目最开始到项目结束全流程复盘本次项目过程,包括Midjourney和Stable Diffusion 如何选择,选择了Stable Diffusion 后怎么选定大批量制作的模型和参数,融合物品的关键词组合与效果,大量图片筛选的流程与技巧等。


项目过程 

     第一阶段:初步确定方向

初步沟通

甲方爸爸以下方的手枪和吉他融合的梗图为案例,希望制作出类似的梗图,在呼应王国之类的林克的融合能力的同时增强趣味性,参考知乎文章《林克变成了手工耿!《塞尔达传说王国之泪》登热搜各种梗图玩爆》https://zhuanlan.zhihu.com/p/618206418


我通过 Midjourney 和  Stable Diffusion 的融合命令进行了初步尝试,以下是详细说明,下文的Midjourney简称为MJ, Stable Diffusion 简称为SD。

MJ的融合命令:A::B

使用MJ的命令进行了初步尝试,但是效果和预期的梗图差距毕竟大,当时是希望真实的梗图风格,这组图距离预期差距较远。加上考虑到甲方可能需要比较强的定制特征和大量的候选图,MJ的定制性较差,难以批量出图,就放弃了MJ选择了SD进行深入研究,而且SD积累的经验复用性也更强。

现在回头看,当时的实验的方案并不够多,深入研究后MJ应该也能产出类似满足需求的图像。有兴趣的朋友可以实践一下,我的初步实验是无法形成预期的两者融合成像,所以本次需求主要是由SD完成的

Axe, dramatic spotlighting highlights the intricate design and functionality; hyper - realistic style, exceptional attention to detail, ultra - high - definition textures, captivating color contrasts, and a striking visual impact make for a truly unique piece masterpiece, highly detailed, absurdres

部分关键词

SD的融合命令

SD有多种能实现融合效果的命令,不同命令之间又可以加权重和嵌套,加起来可能性比MJ多很多,前期我经过简单实验后主要使用 [A|B]C 交替渲染 的方式,具体逻辑为第一步渲染A,第二步渲染B,第三步渲染A,依次循环,C则是共用元素。这是第一阶段比较满意的样图,长剑融合了键盘和吉他的特征,盾牌融合了篮球和吉他的特征。

中间发现融合生物的样式会比较混乱,放弃了物品名单中的生物选项,专注于物品融合。二次元动漫风格也有一些尝试,但没出太好的结果。还是偏写实风一些的效果更好。

SD底模的选择

在这个阶段也跑了大量的xy轴对比图来进行对比不同的模型生成图片的效果,经过多轮筛选之后,ReV Animated 模型脱颖而出,生成的效果最符合需求,下方为测试过程的样图之一。

这里也用上了之前文章提到的修改xy轴对比图大小上限的办法来生成超大对比图以提升对比效率,Eagle的超大图的浏览查看有些卡顿,目前是直接用系统查看器的,这方面还需要更好的工具来进行查看。

进一步沟通

甲方提出了当前的融合特征是有一些,但是看起来没啥梗,玩家没有转发意愿的问题,争对这个问题,我收集学习了大量的表情包,还有看了许多手工耿和梗指南的视频,制作出了【黑锅之弩】梗图,射谁谁背黑锅哈哈,在各微信群收到不少好评,但后续因为制作成本问题无法批量制作,挺遗憾的。

过程中的其他问题

制作过程中还遇到了模型生成的图存在大量人物,无法使用的问题,这可能是由于模型训练集里太多人物的缘故,毕竟这是目前的主流需求和训练方向,经过学C站物品类生成图的关键词,发现可以在正面词里加上product 等物品类关键词,负面词里加上girl、human 等人类关键词,可以一定程度缓解这种现象。

第一阶段总结

经过了20万张图量级的前期大量实验,发现大规模制作能明显看出物品特征的武器1200张不太现实。现阶段只有两种方案可选:

方案一是纯SD生成方案,两种物品去融合成一种武器,但是不保证能看出两个物品的特征,只能尽量保留,可以按原计划制作1200张。

方案二是先建立基本三维模型,再AI渲染最终成品图的方案,可以保证看出两个物品+武器特征,类似于黑锅之弩,狙击之剑的方向,但只能制作125张。

4月27日,经过一周的方向研究和选择,经过甲方最终确认,选择方案一纯SD生成方案,4种武器,25种物品,一共有1200种组合,5月4号早上交付一半,5月9号早上交付剩下的,剩于时间修改一些有问题的图片,5月10号全部上传完成,5月11号正式上线。

当时懵懂的我,还不知道等待我的将会是什么哈哈,后面的修改远比我想象的要多(感受到世界线收束了)。


     第二阶段:制作第一个版本

五一期间基本全在家肝图了,大批量跑图,与筛选合适的图片并行。在这个期间我还是犯了经验不足的错误,太过自信自己对图片和甲方意图的把握,制作过程中的沟通太少,直到5月4号交付那天才发现自己选出来的图大部分是不合格的。浪费了大量的时间精力,虽然说休假时打扰甲方爸爸对接人不好,但是沟通过少影响了项目推进,会造成更大的麻烦,这中间的度我还需要更好的把握。

本阶段版本的甲方认为的问题点是即没有武器的明显特征,只能大概看出是长剑这样的对应武器,然后大多数也看不出来融合了什么物品。

我之前是确认过可以【允许看不出来融合了啥物品】+【相对不重视明显的武器特征】的,我认为我筛选出来的图片符合这两个前提,但是忽略的甲乙方对同样的文字理解是不同的,争论对错没有意义,推进项目才是最要紧的。我完全可以在20张图,100张图的时候再次确认一下,对齐一下理解,就能避免大量的后续返工,以后的需求制作中要注意这一点。

关键词优化

参考第一阶段的方向图,基于已经确定不追求真实感的方向,对关键词进行了优化,补充了背景、细节描述、风格描述、渲染器参数。盲盒lora可以简化一些画面元素,但权重不能太高,真实感参数在这个位置这个组合情况下似乎影响不大。

现在回头看刚开始时就可以上完整结构的描述词,效果应该会更好一点。

大批量跑图与逐张跑图

跑图的过程中,发现榴莲、吉他等物品使用默认的权重参数出图效果不理想,额外单独修改权重跑了一波,结果就理想了一些,还有一些单词不太合适的,也补充跑了一波。

默认参数:[slipper|guitar]spear单独修改权重:[(slipper 1.5)|guitar](spear 1.2)

之所以选择批量跑图而不是逐张制作是因为逐张制作的效率太低了,先批量跑图挑选,然后差的再逐张补充是更高效率的方案。而且在当时对能生成怎样的图没有一个全局认知的情况下,先大量尝试是更稳妥的选择。

逐张制作的优势是可以灵活调整,让单张图的质量更好,而且不会重复选图,可以简化一些批量跑图选图的后期操作,缺点就是要画更多的时间,全局质量容易不平均,全局质量可能会不均匀,尤其在时间有限的前提下,可能会出现前部分精细、后部分粗糙的情况。

现在回头看当时的先批量跑图再逐张选图的策略没啥问题,如果再做类似需求的话,有一定经验和把握的我可以考虑使用逐张跑图以追求最佳效果

同时可以多开云服务器短期内跑出大量的图以供挑选,因为对新手来说云服务器长期跑图更复杂更容易出问题,大量图片下载也不方便(是真的很不方便!!!经常报错!!!)。但是张跑图方案就没有这个问题,一次只需要几百张最多,跑完即刻检查和下载,要下载的张数也就几张。

值得一提的是 DPM++ SDE Karras 采样器在本次项目中的表现很不错,虽然渲染速度比默认的Euler a 慢了一半左右,但是渲染出来的质感要更丰富精致许多,需要类似风格的小伙伴们可以重点考虑。

筛选大量图片

在刚开始挑选图片时,我的速度非常慢,一整天才挑选完了5000多张,因为考虑的细节太多了,比如很多时候图片已经传达了物品信息,就不必费劲的再去看文件名单词区分了。在Eagle中挑选不应该用默认自适应布局+拖动图片的方式,应该是网格布局+快捷键添加图片到上一个文件夹

刚开始做的时候真的很傻气很不成熟,虽然也是一个多年工作经验的设计师了,由此可以得到的经验是,不可大意膨胀,这些基础的工作流程优化要时时多反思怎样可以做的更好,不然陷入在低效流程中,累死人还成果很差,实在是不值得。

另外还尝试了利用外包人员进行初筛,写好规则让外包人员进行是会明显降低挑选图片的负担,但经济上划不划算就看具体情况了哈哈,下方是部分规则截图,是最新版规则,与第一阶段有所差异。

GPT4辅助提升效率

GPT4在本次项目中主要在两个方面明显提升了效率,一方面是日常小问题的解决,比如说穷举出25个物品的所有可能,这种可以直接回复的。

另一方面是提供各种Python脚本辅助处理文件和各种批量需求,比如说做好了299张,但不知道是少了300个词组里的哪一张,就可以让GPT4写脚本进行比对,自动找出缺失的是哪一张补上,比起人工核对省力很多。

虽然写脚本批量处理的解决方案早就存在了,但是在GPT4出现以前只能找别人帮忙写,成本太高了,而GPT4降这个成本降低到了可以接受的水平,AI的核心就在于降低成本我觉得,太复杂的问题出错了的花就拆解成多个流程逐步解决一般都可以。

下方是我发现别人帮忙用SD生成的图片只有种子标题没有关键词标题,无法搜索管理时,使用GPT4写脚本提取图片中的关键词信息恢复了关键词命名,方便搜索管理很多。具体案例比如说文件名从【43646-2089611777】恢复成【43646-2089611777-[USB drive_slipper]sword,Battlefield and Sky Background,photorealistic,wide shot, finely detailed, purism, ue 5, a computer rend】

第二阶段总结

本阶段主要是大批量跑图后再筛选出合适的图片,四个武器都跑了,筛选完两个在下一阶段也就是5月4号提交。现在回头看除了以上提到的问题外,其实可以考虑在这个阶段就进行物品更换的,将不合适的物品更换为更有特征,更容易表现的物品,对整个项目的最终产出质量应该会有所增幅。

     第三阶段:交付第一个版本,改为侧重武器表现方向

方向变更

5月4号交付了第一批600张长剑与盾牌之后,甲方认为目前的稀奇古怪的图片不符合他们的预期,挑选出了具有更明显武器特征的20多张剑与150多张盾牌图片确认按这个方向制作。

这个节点能优化的就是之前需要分批确认了,及早调整方向能节省些时间精力,其他方面能优化的点我暂时还没想到。

融合成品体现物品的特征

在制作过程中发现要求体现两个特征还相对容易一点,例如一个武器特征+一个物品特征,要体现一个武器特征加两个物品特征就很困难了,大概率体现不出来三个特征,或者勉强体现但画面十分混乱(这里混乱图就不放了哈哈,有点克苏鲁)。

现在回头看,当时应该多抽点时间试试A AND B AND C、[A:B:X] C 等各种组合和混合组合。虽然当时出于时间紧急的缘故,想着现有方案能出还可以的效果就不多试验了,而且当时看到的教程上是没有这些现成组合的。但是也错过了更好的完成需求目标的机会的感觉。

无限沉浸于试验会导致没有足够的时间完成需求,试验不足会导致可能于更优秀的成果擦肩而过,这其中的度的把握还需要修炼,感觉和AI训练也挺像的,太多的步数会导致过拟合,太少的步数又学习不足哈哈哈。


     第四阶段:交付第二个版本,改为物品方向并加急制作第三个版本

交付的第二个版本为侧重武器特征的版本,这次在每个小节点都有沟通了,但是依旧逃避不了最后修改的命运哈哈。

最后甲方还是推翻了之前侧重武器的方向,要求改为去掉武器,就两个物品融合成专属道具,但是得看出两个物品的特征,图片总数变更为300张。因为当时已经5月8号晚上,靠我一个人已经无法完成更高质量要求的300张图片,我将大部分跑图与筛选任务外包,才勉强在10号交上了最终版本,也就是现在线上大家看到的版本。


总结 

也算是历尽艰辛做完这次的项目和写完本次的复盘文章了,在这里想先特别感谢一下我的小伙伴云游君,帮我处理了GPT给的脚本无法处理的复杂需求,没有他那又得多做好多的无用功,实在太浪费了哈哈哈。

另外感谢一起其他团队小伙伴和甲方爸爸的对接同学,我们一起很好的合作完成了这个项目,虽然小有波折,但总体上来说还是一次很愉快的合作的,期待下一次有机会再一起合作搞点有趣的项目。

然后再回到项目本身,本文聊了基于高度可定制性选择了Stable Diffusion 作为本次项目AI绘画实现工具,基于大量的XY轴对比图选择了效果最好的 ReV Animated 模型和 DPM++ SDE Karras 采样器,融合物品的关键词组合与效果,大量图片筛选的流程与技巧等,欢迎各位留言讨论物品融合、流程优化等相关问题~

也可以查看一波往期文章学习一下相关知识,比如《GPT4-设计师最好的代码助理(一)》这篇文章中就有如何修改 Web UI 上限,生成超大预览图的方法教学 


GPT4-设计师最好的代码助理(一)


用不了ChatGPT?快来装最强平替ChatGLM


Dreambooth 炼丹术流程速览-微调 Stable Diffusion大模型训练画风(一)


Dreambooth 官方炼丹教程万字详解-Epochs\Batch size\学习率 等超参数调优 (一)


Dreambooth 官方炼丹教程详解-影响显存的高级设置(二)


更多细节讨论也可以加入 Stable Diffusion 炼丹阁 和道友们一起交流丹道奥秘,比如 讨论药材的选取与火候的控制成丹的评估方案等等~ 仙途漫漫,携手同行哈哈哈


点个在看你最好看



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存