AI艺术的背后:详解文本生成图像模型
The following article is from Mindverse Research Author 胡鹏博
导语
AI 艺术生成已经开始走进大众的视野中。在过去一年里,出现了大量的文本生成图像模型,尤其是随着 Stable Diffusion 以及 Midjourney 的出现,带起了一股 AI 艺术创作热潮,甚至很多艺术家也开始尝试用 AI 来辅助艺术创作。在本文中,将会系统梳理近几年出现的文本生成图像算法,帮助大家深入了解其背后的原理。
为了探索复杂科学与人文艺术交叉领域,集智俱乐部正在主办“复杂科学与艺术”研讨会,汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者,展开跨学科研讨,并合作产出。研讨会自2022年7月开始,每月一期,共十二期。AI生成式艺术也是研讨会主题之一。欢迎感兴趣的朋友报名加入。报名入口及详情见文末。
胡鹏博 | 作者
朱思嘉 | 排版
十三维 | 审校
目录
目录
基于 VQ-VAE
AE
VAE
VQ-VAE
DALL-E
基于 GAN
VQGAN
VQGAN-CLIP
DALL-E Mini
Parti
NUWA-Infinity
基于 Diffusion Model
Diffusion Model
GLIDE
DALL-E2
Imagen
Stable Diffusion
模型试玩
总结
基于VQ-VAE
基于VQ-VAE
AE
自编码器由编码器以及解码器组成(如下图所示)[1] ,其首先对图像进行压缩,之后,在对压缩后的表征进行重建。在实际应用中,自编码器往往会被用于降维,去噪,异常检测或者神经风格迁移中。
首先设置 K 个向量作为可查询的 Codebook。 输入图片通过编码器 CNN 来得到 N 个中间表征 ,然后通过最邻近算法,在 Codebook 中查询与这个 N 个中间表征最相似的向量。 将 Codebook 中查询的相似向量放到对应 的位置上,得到 。 解码器通过得到的中间表征 重建图片。
训练一个 dVAE(文章里面称为 dVAE,实际上是一个 VQ-VAE,这里不再赘述),其中,Codebook 的数量为 8192 训练一个自回归模型,这里文章中使用的是Transformer,通过输入文本,来预测中间表征
基于GAN
基于GAN
初始化一个生成器 和一个判别器 . 固定生成器 的参数, 只更新判别器 的参数。具体过程为:选择一部分真实样本,以及从生成器 得到一些生成的样本,送入到判别器 中,判别器 需要判断哪些样本为真实的,哪些样本为生成的,通过与真实结果的误差来优化判别器 固定判别器 的参数, 只更新生成器 的参数。具体过程为:使用生成器 生成一部分样本, 将生成的样本喂入到判别器 中,判别器会对进行判断,优化生成器 的参数,使得判别器将其判断为更加偏向于真实样本。
基于Diffusion Model
基于Diffusion Model
不同于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像领域的核心方法,当前最知名也最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,均基于扩散模型。在这部分,会对扩散模型的原理以及基于扩散模型的算法进行详细的介绍。
CLIP模型,对齐图片文本表征 先验模型,接收文本信息,将其转换成 CLIP 图像表征 扩散模型,接受图像表征,来生成完整图像
训练一个 CLIP 模型,使其能够对齐文本和图片特征。 训练一个先验模型,由自回归模型或者一个扩散先验模型(实验证明,扩散先验模型表现更好),其功能是将文本表征映射为图片表征。 训练一个扩散解码模型,其目标是根据图片表征,还原原始图片。
其作用是将图像转换为低维表示形式,从而使得扩散过程是在这个低维表征中进行的,扩散完成之后,在通过VAE 解码器,将其解码成图片。
U-Net 是扩散模型的主干网络,其作用是对噪音进行预测,从而实现反向去噪过程
主要负责将文本转换为U-Net可以理解的表征形式,从而引导U-Net进行扩散。
模型试玩
模型试玩
https://nightcafe.studio/
https://huggingface.co/spaces/dalle-mini/dalle-mini
https://github.com/openai/dall-e (需要等 Waitlist)
https://beta.dreamstudio.ai/dream
https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
https://www.midjourney.com/home/
https://nuwa-infinity.microsoft.com/#/ (暂未开放,可以保持关注)
总结
总结
[1] An Introduction to Autoencoders
[2] https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
[3] Neural Discrete Representation Learning
[4] https://openai.com/blog/dall-e/
[5] Zero-Shot Text-to-Image Generation
[6] Generative adversarial nets
[7] Taming Transformers for High-Resolution Image Synthesis
[8] VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance
[9] https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-mini--Vmlldzo4NjIxODA
[10] Scaling Autoregressive Models for Content-Rich Text-to-Image Generation
[11] NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis
[12] Denoising Diffusion Probabilistic Models
[13] https://lilianweng.github.io/posts/2021-07-11-diffusion-models/#nice
[14] https://huggingface.co/blog/annotated-diffusion
[15] Classifier-Free Diffusion Guidance
[16] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
[17] Hierarchical Text-Conditional Image Generation with CLIP Latents
[18] https://openai.com/dall-e-2/
[19] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
[20] https://github.com/sd-webui/stable-diffusion-webui
[21] https://huggingface.co/blog/stable_diffusion
►►►
复杂科学×艺术系列研讨会公开报名中
研讨会详情与框架:
推荐阅读
计算美学百篇论文大综述:如何从复杂性科学视角进行审美 计算美学前沿速递:用信息论“重新发现”风景画艺术史 物理学和生物学中的真与美 《张江·复杂科学前沿27讲》完整上线! 成为集智VIP,解锁全站课程/读书会 加入集智,一起复杂!