其他
如何在元宇宙玩转AI文生图和图生图?|元来是你15
文本 | 语音 | 图片 | 3D场 | 3D人 | 3D物 |
---|---|---|---|---|---|
对话生成 | 文生图 | 物体生成 | |||
图生图 | |||||
手势生成 |
点击阅读:图/文生图的技术发展与高潜方向
原理:概述文生图、图生图、可控生成三种技术原理。 应用:元象工作流中如何应用图/文生图技术,提高元宇宙内容生产效率。
对于只能随机生成图像的模型,可控生成是非常重要的应用基础。因为训练数据中包含自然语言信息,发展基于文本引导的图像生成就非常自然。Latent Diffusion能根据各类引导信息,如文本、分割图、图片等,生成可控的图像。
文生图
文生图是利用输入的文本描述,让模型生成符合描述的图像。首先,文本会被分解成单词序列,并转换成向量特征以捕捉语义信息。然后,利用交叉注意力机制,这些特征与图像生成器结合,使生成的图像与文本描述相匹配。这种方法使得我们可以更加准确地控制图像生成的过程,让模型创造出所需的图像。
图生图
虽然Latent Diffusion模型也可通过图像控制,但需要额外图像数据训练专门的图生成模型,这限制了模型能力及其应用场景。在图生图中,我们无需训练新的模型,而是以输入图加上随机噪声作为开始,后续也通过相同的方式不断去除噪声来生成新图。通过调节输入图上的加噪程度,我们可以调节重绘幅度,一开始加噪越少,生成图就会保留越多的原图信息,反之,则生成图会添加更多新内容。
这样的方法能灵活控制生成结果,比如控制重新绘制的程度,或者控制颜色、纹理、主体目标等细粒度条件。
与文生图相比,图生图控制更灵活,应用场景更广泛。
可控生成案例,右滑依次为简笔画 姿态 深度图 分割图 [4]
图像生成与编辑在众多领域被广泛应用,如电商、广告设计、概念设计、建筑设计、插图制作、游戏资源制作、照片编辑、图像修复等。
在内容生产领域,许多游戏公司已将AIGC能力带入正式生产流程中,其中最容易产生价值的,就是游戏素材生产。
生活中最常见的图像编辑,也开始与AIGC交融。今年4月,Adobe推出生成式图像产品Firefly,集成文生图、图生图、字体效果编辑等多种常见AI功能,并在最新PhotoShop测试版中展现了部分能力。
Adobe官方演示创成式填充能力(Generative Fill)
元象的应用
元象在AIGC领域有着完整而深入的布局。我们的能力覆盖了图像,语音、视频的2D AIGC,到虚拟场景、数字人表情动作生成的3D AIGC。
元象的应用方面,图像生成已经被应用于各个产品流水线中,极大提高了生产效率,我们也开发了对内的AIGC工具箱,供公司内部生产使用。除了基础工具使用之外,我们还在实际应用场景中做了许多针对性的探索,如特殊图像生成、歌曲封面生成、风格转换等。
文生图
元宇宙IP形象设计概念
3D空间的美术生产环节中,人物设计是颇具挑战的一环。有了AI辅助,我们只需输入一句话,就能得到高质量的结果。将人物的人设作为提示词,甚至能产生更具创意的人物设计。
元宇宙场景原画设计
特殊场景、人物生成
元象因此提出解耦多目标微调方法,降低训练时每个目标间的相互污染,获得更好结果。如上图所示,与原始Stable Diffusion相比,元象模型输出了更逼真的前背景效果。
根据歌词生成封面
文生图的应用总体面临不小的挑战,也有众多待解决的问题。比如目前所有模型都无法样样精通,需要图生图借助多个模型不断修改,才能生成满意的图。还有模型“听不懂人话”,很多模型不是基于自然语言,而是用标签(Tag)来做提示描述,降低了图像标注难度,但模型很难理解多个物体间关系,Tag之间也容易相互污染。此外,版权问题未来也可能是文生图会应用的一大阻力。
图生图
建筑设计
AI也擅长建筑设计或室内设计。通过上文介绍的ControlNet,以及专门绘制建筑的扩散模型,输入建筑白模,甚至是几何线条,就能绘制出外观绚丽的建筑,对建筑视觉图或室内装修工作者来说,可显著提高出图效率。
而在元宇宙行业中,用AI生成逼真或梦幻的建筑模型和场景,能帮助设计师和决策者更好理解、评估和呈现设计方案,提高了3D空间的生成效率。
电商广告
有了AI加持,对电商不可或缺的商品图也不在话下。用AI快速生成多样化的商品图,可以省去一部分商品拍摄成本,或将服装展示在不同AI模特身上,节约模特拍摄成本。
材质替换
风格转换
这种方法比较简单,可利用文本信息来引导生成图像的风格,上图展示了用国风、赛博朋克、像素风等关键词来控制生成图像的结果。
元象还设计了更复杂的生成流程:前背景图像融合。它不仅可以转换人物风格,还可以把人物放置到优美背景中。
为了让任意人景都能自然融合,要先用分割技术从图像中“抠”出人物,贴到真实或预生成的背景中,确定人物和背景的大概相对位置。但这时的融合并不完美,有明显拼贴和割裂感。继续对图像进行再次整体重绘,最终获得自然、符合意境的图像。
我们添加了文本描述,能修改人物服饰和风格;还利用图像反推文本技术,分析人物性别、年龄、服饰、姿态、饰品等信息,尽可能多地还原人物特征和背景信息,比直接生成增加可控性,更好提升图片生成质量。
除了上述例子,图生图应用领域也在不断拓展。由于它依靠的是用户输入的图像,所以面临的版权问题更少,相信未来会在图像编辑、电商、广告领域有更广泛和成熟的应用。
未来高潜应用
大转小:细分领域专有模型
为各个细分领域训练专有的小模型,是短期内提高生成多样性、保证高质量的一条高性价比路线,也已经涌现了覆盖建筑、盲盒、游戏素材、全景图到室内设计等不同领域专有模型。未来随着算法和算力的提升,预计将会有越来越多这类拥有更好性能的专有模型。
更精确:符合用户意图的准确绘图
目前一些研究在用更多信息引导生成,比如用描述位置信息的布局图结合文本,实现特定位置目标生成。这是一种短期方案。而脱离手工指定布局,结合大语言模型理解文本,实现文本到布局、再到目标的准确理解,并使用布局、目标信息完成最终绘图,或许是自然的解决方案。
参考资料
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." In CVPR 2022.[2] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).[3] Mou, Chong, et al. "T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models." arXiv preprint arXiv:2302.08453 (2023).[4] GitHub - lllyasviel/ControlNet: Let us control diffusion models!- 关于我们 -
- 推荐阅读 -