查看原文
其他

如何在元宇宙玩转AI文生图和图生图?|元来是你15

2D AIGC 元象XVERSE 2023-12-09


图片是元宇宙不可或缺的组成部分,也为其带来了丰富的视觉表达和交互形式。作为AI驱动的3D内容生产与消费一站式平台,元象今天会展开讲讲我们的2D AIGC能力:图/文生图。

元象 3D AIGC 能力
文本
语音
‍图片
3D场3D人3D物

对话生成

空间音频

文生图

大世界

视频动捕

物体生成


歌声合成

图生图

路网

AI编舞





NeRF

手势生成


之前技术篇中,我们介绍了图/文生图背后的关键技术——生成式大模型(Generative Models)的过去、现在与未来。


点击阅读:图/文生图的技术发展与高潜方向
本期将从两部分具体介绍图/文生图的应用。

  1. 原理:概述文生图、图生图、可控生成三种技术原理。
  2. 应用:元象工作流中如何应用图/文生图技术,提高元宇宙内容生产效率。


 全文共计4500字,预计阅读15分钟。


技术篇中出现Stable Diffusion算法,真正改变了游戏规则。它基于Latent Diffusion Models,大大降低算力需求和个人部署门槛。开源模型更是投下一枚重磅炸弹,让图像生成领域创造了前所未见的繁荣。

如下图所示,Latent Diffusion主要缓解了扩散模型生成较慢的问题,将最耗时的多次自回归从像素空间转移到隐参数空间,极大减少模型训练和推理的时空复杂度。

Latent Diffusion模型 [1]

对于只能随机生成图像的模型,可控生成是非常重要的应用基础。因为训练数据中包含自然语言信息,发展基于文本引导的图像生成就非常自然。Latent Diffusion能根据各类引导信息,如文本、分割图、图片等,生成可控的图像。


 文生图 


文生图是利用输入的文本描述,让模型生成符合描述的图像。首先,文本会被分解成单词序列,并转换成向量特征以捕捉语义信息。然后,利用交叉注意力机制,这些特征与图像生成器结合,使生成的图像与文本描述相匹配。这种方法使得我们可以更加准确地控制图像生成的过程,让模型创造出所需的图像。


 图生图 


虽然Latent Diffusion模型也可通过图像控制,但需要额外图像数据训练专门的图生成模型,这限制了模型能力及其应用场景。在图生图中,我们无需训练新的模型,而是以输入图加上随机噪声作为开始,后续也通过相同的方式不断去除噪声来生成新图。通过调节输入图上的加噪程度,我们可以调节重绘幅度,一开始加噪越少,生成图就会保留越多的原图信息,反之,则生成图会添加更多新内容。


这样的方法能灵活控制生成结果,比如控制重新绘制的程度,或者控制颜色、纹理、主体目标等细粒度条件。


文生图相比,图生图控制更灵活,应用场景更广泛。


 任意条件的可控生成 

ControlNet [2]

除了文本和图片外,我们也可以利用其他引导信息,上图的ControlNet是一种相对廉价的方式,让任何文生图大模型都有任意可控生成的能力。

ControlNet的局部图 [2]

ControlNet训练一个额外编码器表征条件信息,并直接通过残差连接将信息注入到原本的扩散模型解码器中。除此之外,T2I Adapter [3]也是类似的方案,区别是T2I将控制信息注入到扩散模型的编码器中。

可控生成案例,右滑依次为简笔画  姿态  深度图  分割图 [4]


上图展示了几种可控生成例子,我们也可以通过其他条件,如细节补充、局部重绘等功能完成生成。任意条件的可控生成大大提升了扩散模型的实用价值。无论产品设计或图像编辑,到更复杂的视频生成,都可利用各类控制条件来完成高质量作品。



图像生成与编辑在众多领域被广泛应用,如电商、广告设计、概念设计、建筑设计、插图制作、游戏资源制作、照片编辑、图像修复等。


在内容生产领域,许多游戏公司已将AIGC能力带入正式生产流程中,其中最容易产生价值的,就是游戏素材生产。



使用专有模型生成的游戏素材
生活中最常见的图像编辑,也开始与AIGC交融。今年4月,Adobe推出生成式图像产品Firefly,集成文生图、图生图、字体效果编辑等多种常见AI功能,并在最新PhotoShop测试版中展现了部分能力。


Adobe官方演示创成式填充能力(Generative Fill)
 元象的应用 
元象在AIGC领域有着完整而深入的布局。我们的能力覆盖了图像,语音、视频的2D AIGC,到虚拟场景、数字人表情动作生成的3D AIGC。
元象的应用方面,图像生成已经被应用于各个产品流水线中,极大提高了生产效率,我们也开发了对内的AIGC工具箱,供公司内部生产使用。除了基础工具使用之外,我们还在实际应用场景中做了许多针对性的探索,如特殊图像生成、歌曲封面生成、风格转换等。


 文生图 

  元宇宙IP形象设计概念


文生图的一大类应用就是美术概念生成,无论是生成人物还是美术场景,目前许多AI模型都能生成令人惊艳的作品。


3D空间的美术生产环节中,人物设计是颇具挑战的一环。有了AI辅助,我们只需输入一句话,就能得到高质量的结果。将人物的人设作为提示词,甚至能产生更具创意的人物设计。

元象不同风格的数字形象设计

  元宇宙场景原画设计


因为训练数据集中包含大量场景信息,相比人物,AI更擅长绘制场景,因此根据应用场景的需求,能设计出高品质、多风格的场景。


元象场景美术设计示例

  特殊场景、人物生成


绘图时,常需要绘制自己的肖像或特殊物体,但训练数据集并不包含这些目标数据,AI模型无法满足这些需求,而研究者则专门提出了一系列微调训练的解决方案。只用极少量(1到100张)图像微调预训练模型权重参数,就能让模型画特殊物体。但这些方法在训练多个目标经常相互影响,最终影响生成质量。


游戏特定场景和人物生成
元象因此提出解耦多目标微调方法,降低训练时每个目标间的相互污染,获得更好结果。如上图所示,与原始Stable Diffusion相比,元象模型输出了更逼真的前背景效果。

  根据歌词生成封面


这也是一项有趣的尝试,为歌曲提供可视化信息,创造新奇的听歌体验。因为歌词有各类抽象表达,而AI模型不容易准确理解其中含义和意境。元象就利用语言模型中的词性分析,先提取有具象表达能力的名词、形容词,再借助模型语义理解能力,更准确绘制出符合歌词意境的图像。


根据歌词生成封面图


文生图的应用总体面临不小的挑战,也有众多待解决的问题。比如目前所有模型都无法样样精通,需要图生图借助多个模型不断修改,才能生成满意的图。还有模型“听不懂人话”,很多模型不是基于自然语言,而是用标签(Tag)来做提示描述,降低了图像标注难度,但模型很难理解多个物体间关系,Tag之间也容易相互污染。此外,版权问题未来也可能是文生图会应用的一大阻力。
 图生图 

  建筑设计


元象通过草图生成建筑外观


AI也擅长建筑设计或室内设计。通过上文介绍的ControlNet,以及专门绘制建筑的扩散模型,输入建筑白模,甚至是几何线条,就能绘制出外观绚丽的建筑,对建筑视觉图或室内装修工作者来说,可显著提高出图效率。


而在元宇宙行业中,用AI生成逼真或梦幻的建筑模型和场景,能帮助设计师和决策者更好理解、评估和呈现设计方案,提高了3D空间的生成效率。


  电商广告


元象AI产品广告海报设计


有了AI加持,对电商不可或缺的商品图也不在话下。用AI快速生成多样化的商品图,可以省去一部分商品拍摄成本,或将服装展示在不同AI模特身上,节约模特拍摄成本。

  材质替换


是图像编辑的一种应用方式,可用于美术制作或特效制作。元象利用模型微调技术和局部重绘能力,能为图像中物体替换为特殊材质。


物品替换为竹编材质

  风格转换


风格转换并不是扩散模型专属,在生成对抗网络(GAN)中有利用,甚至更早的学者还用图像编解码器,将图像编码为风格和内容两种信息,完成风格迁移任务。而使用扩散模型的优势,一个是生成质量更好,二是在大数据上训练,能支持更丰富的风格选择。


利用扩散模型进行风格转换


这种方法比较简单,可利用文本信息来引导生成图像的风格,上图展示了用国风、赛博朋克、像素风等关键词来控制生成图像的结果。


元象还设计了更复杂的生成流程:前背景图像融合。它不仅可以转换人物风格,还可以把人物放置到优美背景中。
为了让任意人景都能自然融合,要先用分割技术从图像中“抠”出人物,贴到真实或预生成的背景中,确定人物和背景的大概相对位置。但这时的融合并不完美,有明显拼贴和割裂感。继续对图像进行再次整体重绘,最终获得自然、符合意境的图像。
我们添加了文本描述,能修改人物服饰和风格;还利用图像反推文本技术,分析人物性别、年龄、服饰、姿态、饰品等信息,尽可能多地还原人物特征和背景信息,比直接生成增加可控性,更好提升图片生成质量。

前背景图像融合的生成流程
除了上述例子,图生图应用领域也在不断拓展。由于它依靠的是用户输入的图像,所以面临的版权问题更少,相信未来会在图像编辑、电商、广告领域有更广泛和成熟的应用。

 未来高潜应用 


  大转小:细分领域专有模型


由于图片数据在量级上远低于文本数据,不太可能在短期内出现ChatGPT类似能力的AI绘画工具,在满足不同领域的众多需求上,AI绘画挑战艰巨。但活跃的社区和各种私有模型的涌现,让由大转小的另辟蹊径有了可能。
为各个细分领域训练专有的小模型,是短期内提高生成多样性、保证高质量的一条高性价比路线,也已经涌现了覆盖建筑、盲盒、游戏素材、全景图到室内设计等不同领域专有模型。未来随着算法和算力的提升,预计将会有越来越多这类拥有更好性能的专有模型

  更精确:符合用户意图的准确绘图


AI绘图虽然达到可用级别,但距离好用还有不小差距,主要就是可控性有所欠缺,比如对数字、位置等信息不够理解。这与文本引导的实现原理有关,模型只理解绘制目标,却“听不懂人话”。
目前一些研究在用更多信息引导生成,比如用描述位置信息的布局图结合文本,实现特定位置目标生成。这是一种短期方案。而脱离手工指定布局,结合大语言模型理解文本,实现文本到布局、再到目标的准确理解,并使用布局、目标信息完成最终绘图,或许是自然的解决方案。


参考资料

[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." In CVPR 2022.

[2] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).

[3] Mou, Chong, et al. "T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models." arXiv preprint arXiv:2302.08453 (2023).

[4] GitHub - lllyasviel/ControlNet: Let us control diffusion models!
- 关于我们 -


- 推荐阅读 -
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存