生成式 AI 作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。 随着 DALL-E2,Stable Diffusion 和 DreamFusion 的发布,AI 作画和 3D 合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式 AI 技术深刻地拓展了人们对于 AI 图像生成能力的认识,那么这些生成式 AI 方法是如何生成以假乱真的视觉效果?又是如何利用深度学习和神经网络技术来实现画作、3D 生成以及其他创造性任务的呢?我们的综述论文将会给您提供这些问题的答案。
论文地址:
https://arxiv.org/abs/2112.13592
GitHub地址:
https://github.com/fnzhan/Generative-AI
项目地址:
https://fnzhan.com/Generative-AI/
在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。 在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期 DragGAN 提出的控制点引导等,并且介绍了相应模态数据的处理方法。在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。
由于基于 GAN 的方法一般使用条件 GAN 和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。