AI生成艺术的底层原理:非平衡物理的扩散模型
The following article is from 集智俱乐部 Author Brown University
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
一把牛油果形状的椅子,熊猫在湖面上溜冰,袋鼠玩国际象棋,宇航员在火星上骑自行车...... DALL·E 2, Stable Diffusion 等图像生成模型可以根据输入文本,产生各种超乎想象的图片。这背后的原理,来自非平衡物理中的扩散模型。如果为高维图像空间中的像素添加噪声,像墨水在水中扩散,然后逆转这一过程,就可以从噪声中生成图像,得到出乎意料的图像组合。
翻译 | 朱欣怡
审校 | 梁金
图1. DALL·E2 生成这些“金鱼在海滩上喝可口可乐”的图像。OpenAI 创建的这个程序可能从未遇到过类似的图像,但仍然可以生成它们。
1
图像生成模型与概率
要理解如何将图像转化为数据,可以先从一个仅由两个相邻灰度像素点组成的简单图像开始。我们可以根据每个像素的阴影(从0表示全黑到255表示全白),用两个值来完全描述这个图像。我们可以用这两个值将图像映射为二维空间中的一个点。 如果我们将多个图像标绘为点,可能会出现簇——某些图像及其对应的像素值比其他图像出现得更频繁。现在想象一个在平面上方的曲面,其中曲面的高度对应于簇的密度。曲面绘制出图像像素的概率分布图。我们最有可能在曲面的最高部分下方找到单个数据点,而在曲面的最低部分找到的数据点很少。 现在,我们可以使用这个概率分布生成新图像。需要做的就是随机生成新的数据点,同时遵守一个限制,更多地生成高概率数据——这个过程被称为对分布“采样”。每一个新的点都是一个新的图像。 同样的分析也适用于更逼真的灰度照片,比如说每张照片有100万像素。不过现在,绘制图像需要100万个坐标轴,而不是两个。这些图像的概率分布将是复杂的100万+1维曲面。如果对该分布进行采样,将生成100万个像素值。将这些像素打印在一张纸上,图像看起来就很可能像原始图像。 生成模型面临的挑战在于:学习构成训练数据的某组图像的这种复杂概率分布。这种分布之所以有用,既因为它捕捉到了数据的全局信息,又因为研究人员可以结合不同类型数据(比如文本和图像)的概率分布,组成超现实的输出,如金鱼在海滩上喝可口可乐。Anandkumar 说:“你可以混合和匹配不同的概念...创造全新的、训练数据里也没有的场景。” 2014年,生成对抗网络(GAN)模型成为第一个能产生真实图像的模型。但是 GAN 很难训练:它们可能不能学习完整的概率分布,并且可能锁定在分布的子集来产生图像。例如,在各种动物的图像上训练 GAN,却可能仅生成狗的图片。
提出生成对抗网络(GAN)模型的论文(2014) 论文题目:Generative Adversarial Networks 论文链接:https://arxiv.org/abs/1406.2661
机器学习需要一个更稳健的模型。在物理学启发下,Jascha Sohl-Dickstein 将提供一个实例。
图2. Jascha Sohl-Dickstein 基于扩散原理开发了一套新的生成模型算法。| 来源:Asako Miyakawa
2
扩散模型
在 GAN 诞生之际,Sohl-Dickstein 还是斯坦福大学大学的博士后,致力于生成模型的研究,同时对非平衡热力学很感兴趣。物理学的这一分支研究不处于热平衡的系统——在系统内部和系统-环境之间有物质与能量交换。 一个解释性的例子是,一滴蓝色墨水扩散到整个盛水的容器中。起初,墨水在空间一点形成一个黑色斑点。此时,如果要计算在容器的某个小体积内找到墨水分子的概率,需要一个概率分布能清晰地模拟墨水开始扩散前的初始状态。但这种分布很复杂,因此很难取样。 然而,墨水最终会扩散到水中,使水变成浅蓝色。这导致更简单、更均匀的分子概率分布,可以直接用数学表达式来描述。非平衡热力学描述了扩散过程中每一时刻的概率分布。最重要的是,每一步都是可逆的——只要步间距足够小,就可以从简单分布重新回到复杂分布。
图3. 图像生成模型受到扩散模型启发。| 来源:Samuel Velasco/Quanta Magazine
Sohl-Dickstein 利用扩散原理开发了一种生成模型算法。想法很简单:算法首先将训练数据集中的复杂图像转化为简单噪声——类似于从一滴墨水扩散成淡蓝色的水——然后教系统如何逆转这一过程,将噪声转化为图像。 下面是它的工作原理。首先,算法从训练集中获取图像。和前面一样,假设这100万个像素都映射到数域,我们可以将图像绘制成百万维空间中的一个点。该算法在每个时间步向每个像素加一些噪声,相当于墨水在一个小时间步的扩散。随着这个过程继续,像素值与它们在原始图像中的值的关系越来越弱,并且像素看起来更像是简单的噪声分布。(这个算法还在每个时间步向原点微移每个像素值。这种微调可防止像素值变得太大以致计算机无法轻松处理。) 如果对数据集中的所有图像都这样做,那么在百万维空间中,点的初始复杂分布(不易描述和采样)就会变成围绕原点的简单正态分布。Sohl-Dickstein 说:“一系列的转换非常缓慢地将数据分布变成一个大的噪声球。这个‘前向过程’创造的分布可以让你轻松采样。” 接下来是机器学习部分:将从前向过程获得的噪声图像输入神经网络,并训练它预测上一步获得的噪声较小的图像。一开始它会出错,所以需要调整网络的参数,这样它就做得更好。最终,神经网络可以可靠地将来自简单分布样本的噪声图像完全转变为来自复杂分布样本的图像。 训练后的网络是一个成熟的生成模型。现在,甚至不需要原始图像来执行前向过程:有简单分布的完整数学描述,可以直接从中采样。神经网络可以将这个样本(基本上只是静态的)变成与训练数据集中图像相似的最终图像。 Sohl-Dickstein 回忆起扩散模型的最初结果时说道:“当你眯起眼睛说‘那个彩色的斑点看上去像一辆卡车。’我就像这样,花了很久的时间盯着不同的像素形态,试图从中看出结构。当结果比之前更结构化时,我很兴奋。”3
结合扩散模型与大型语言模型
Sohl-Dickstein 在2015年发表了他的扩散模型算法,但比起 GAN 还相差甚远。虽然扩散模型可以在整个分布上进行采样,而且永远不会陷入只输出图像子集的困境,但图像结果看起来更糟,而且过程太慢了。Sohl-Dickstein说:“当时,这个模型并不令人惊喜。”
扩散模型论文(2015) 论文题目:Deep Unsupervised Learning using Nonequilibrium Thermodynamics论文链接:http://proceedings.mlr.press/v37/sohl-dickstein15.html
有两个学生,当时与 Sohl-Dickstein 都互不相识,他们把最初工作中的点点滴滴与像 DALL·E2 这样的现代扩散模型联系起来。第一个是宋飏,当时在斯坦福大学读博士。2019年,他和导师提出了一种新方法来构建生成模型,而不需要估计数据的概率分布(高维曲面)。相反,它估计的是分布的梯度(可以看成是高维曲面的斜率)。 宋飏发现,如果他首先用不断增加的噪声水平扰动训练数据集中的每一幅图像,然后用神经网络基于分布梯度预测原始图像,有效地去除噪声,可以让它的技术效果更好。一旦经过训练,他的神经网络就可以从简单分布中采样得到一个有噪声的图像样本,并逐步将其转换回代表训练数据集的图像。图像质量很好,但机器学习模型的采样速度极慢。而且他做这件事时,对 Sohl-Dickstein 的工作一无所知。宋飏说:“我当时根本不知道扩散模型,2019年我们的论文发表后,我收到了一封来自 Jascha 的邮件。他指出,(我们的模型)有非常强的联系。”
估计数据分布梯度的生成模型(2019) 论文题目:Generative Modeling by Estimating Gradients of the Data Distribution 论文链接:https://proceedings.neurips.cc/paper/2019/hash/3001ef257407d5a371a96dcd947c7d93-Abstract.html
图3. 宋飏帮助提出了一种新的技术:通过训练网络有效地解读有噪图像,从而生成图像。
2020年,第二个学生看到了这些联系,意识到宋飏的工作可以改进 Sohl-Dickstein 的扩散模型。Jonathan Ho 最近刚刚在加州大学伯克利分校完成了他的关于生成模型的博士工作,但他仍致力于此。他说:“我认为这是机器学习中最有数学美的分支学科。” Ho 结合宋飏的一些想法和神经网络领域的其他进展,重新设计并更新了 Sohl-Dickstein 的扩散模型。他说:“我知道,若要引起大家的关注,我需要让模型生成好看的样本。我确信,这是我当时能做的最重要的事情。” 他的直觉是正确的。2020年,Ho 和同事发表了一篇名为 Denoising Diffusion Probabilistic Models(去噪扩散概率模型)的论文,宣布了这个新改进的扩散模型。它很快成为一个里程碑,现在被研究员们简称为 DDPM。根据一个基准的图像质量——比较生成图像分布与训练集中图像分布——这些模型与包括 GAN 在内的所有竞争生成模型相比,不相上下,甚至更优。没过多久,大佬们就注意到了。目前,DALL·E 2, Stable Diffusion, Imagen 等商业模型都使用了 DDPM 的一些变体。去噪扩散概率模型(2020) 论文题目:Denoising Diffusion Probabilistic Models 论文链接:https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html
图4. Jonathan Ho 和他的同事结合 Sohl-Dickstein 和宋飏的方法,使得 DALL·E 2 等现代扩散模型成为可能。
现代扩散模型还有一个关键成分:大型语言模型(large language models, LLM),如 GPT-3。这些生成模型在互联网文本上进行训练,用来学习文字而不是图像的概率分布。2021年,Ho(现在是一家隐形公司的研究科学家)和他在谷歌研究中心的同事 Tim Salimans,与其他地方的团队合作,展示了如何结合大型语言模型的信息与图像生成扩散模型,用文本(比如“金鱼在海滩上喝可口可乐”)指导扩散过程,从而生成图像。如 DALL·E2 这样的从文本到图像模型成功的背后原因,就是这种“引导扩散”(guided diffusion)过程。“他们远远超出了我最疯狂的期望。我不能假装我预见到了这一切。”Ho说。结合大型语言模型与图像生成扩散模型(2021) 论文题目:Variational Diffusion Models 论文链接:https://proceedings.neurips.cc/paper/2021/hash/b578f2a52a0229873fefc2a4b06377fa-Abstract.html
4
生成模型也会生成问题
本文经授权转载自微信公众号“集智俱乐部”。
原文链接:
https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
相关阅读
2 DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象
4 AI驱动、高精度传感、鹰眼光学追踪……本届世界杯用球内含了多少黑科技?
近期推荐
1 怀念朱照宣先生
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
看不到封面了?快加星标!!长按下方图片关注「返朴」,查看更多历史文章