深度学习和几何(演讲提要)
感恩节来临,生活节奏终于缓慢下来。纽约长岛天空一片湛蓝,艳阳高照,满地碎金。这一阶段,老顾收到很多读者来信,大多询问深度学习和最优传输理论的关系,很多问题反映出读者的深度思考和独特见解。恰逢老顾也在研究生课堂上为学生们讲解深度学习的几何观点,最近也在世界各地给了很多相关的演讲。目前正是生成对抗模型理论迅猛发展阶段,也是深度学习算法和硬件迅速演化阶段。老顾倾向认为最优传输理论对于深度学习中的生成模型给出了迄今为止最为严格的理论解释,并对未来的发展有一定指导作用。最优传输理论(Optimal Mass Transportation ),凸几何(Convex Geometry),蒙日-安培方程(Monge-Ampere Equation)的交汇给出了生成模型的几何观点。为此,老顾求教于世界上这一领域的知名数学家,向丘成桐先生请教蒙日-安培方程和Alexandrov理论,和Villani探讨最优传输的Brenier理论和GAN的关系,向汪徐家先生请教蒙日-安培方程解的正则性和Alexadrov逼近的收敛阶[5]。老顾也鼓励身边的年轻人投身到这一研究方向,深入理解最优传输理论,下苦功取得工程突破。
目前,老顾在哈佛大学的数学科学和应用中心负责人工智能方面的研究工作。诚聘博士后,有意愿者,请和老顾联系(gu@cmsa.fas.harvard.edu)。
最近,老顾在世界各地给出了一些演讲,主题是深度学习的几何观点,下面将这几次演讲的内容简略记录一下。相信的数学推导,可以参看以前的系列文章,深度学习的几何观点,学习能力上限,概率变换观点,蒙日-安培方程。
基本假设
近些年来,深度学习方法摧枯拉朽般地超越了传统方法,我们认为基于统计的深度学习方法的成功是因为如下的两个数据分布规律:
流形分布律(law of manifold distribution):在高维背景空间中,特定类的真实数据分布靠近某个低维流形;
聚类分布律(law of cluster distribution):同一类数据中的不同子类,对应于流形上不同的概率分布;并且这些概率分布之间的距离足够远,使得这些子类可以被区分。
比如,我们考察所有的128乘128的彩色图像,所有这样的图像构成了
流形嵌入
那么,我们如何来描绘这个流形,如何获取这个流形,如何保证逼近的精度?这些正是深度学习的第一个主要任务:学习流形的结构,计算流形嵌入。数学上,假设给定嵌入在背景空间中的流形,我们将流形上的一个开邻域,同胚映射到参数空间,这一过程被称为是流形的局部参数化。用深度学习的语言来讲,就是学习编码映射(encoding map)和解码映射(decoding map),参数域被称为是隐空间(latent space)或者特征空间(feature space)。数据流形上的每个点被映射成参数域上的一个点,即每张人脸图片被映射成隐空间中的一个点,被称为是这张图片的特征(feature),或者编码(code)。
数学上,给定一个流形嵌入在高维欧氏空间之中,我们在流形上稠密采样,通过采样点,我们可以重构分片线性流形,用以逼近初始流形。在数字几何中,我们用三维扫描仪扫描一张人脸曲面,得到的是稠密点云,然后我们对点云计算三维背景空间的Delaunay三角剖分,得到一张分片线性的曲面(三角网格),这张分片线性的曲面就是真实光滑人脸曲面的离散逼近。逼近的精度,取决于采样的密度,理论上一般用
深度学习采取同样的手法,我们在数据流形上稠密采样,然后重构分片线性流形,用以逼近数据流形。理论上
在深度学习中,这种参数表示就是解码映射,一般由一个DNN来表示。通常我们用ReLU DNN,因此参数表示是分片线性映射。
Fig.1 Autoencoder 学习流形。
我们将这些概念应用,做一个思想实验(thought experiment):假定背景空间是三维欧氏空间,数据流形是弥勒佛曲面(图1左帧)。我们在曲面上稠密采样,用经典的自动编码器(autoencoder)学习,将数据流形编码到二维隐空间(图1中帧);在将隐空间的特征向量映射会背景空间,得到分片线性的重构流形(图1右帧)。我们看到,重构流形较好地逼近了初始流形,编码映射和解码映射是:连续单射,即拓扑同胚。
Fig 2. 解码映射的分片线性结构。
ReLU DNN可以表示分片线性映射,例如弥勒佛的编码映射和解码映射。图2显示了这种分片线性结构。背景空间中的任意一点被映射到隐空间中,激活一系列的神经元,如果背景空间中的两点激活同样的神经元,那么它们彼此等价。所有彼此等价的点构成一个等价类,形成背景空间中的一个胞腔,每个胞腔被ReLU DNN线性映射到隐空间的一个胞腔。图2中不同的胞腔用不同的颜色来表示。由此,我们可以真切看到编码映射的分片线性结构。
概率变换
深度神经网络将数据流形的一个邻域映射到隐空间中,将数据的概率分布映射到隐空间中参数域上的一个概率分布。不同的编码映射会得到隐空间中的不同概率分布。
Fig. 3 不同的编码映射得到不同的概率分布。
图3显示了这一概念。两种编码映射将弥勒佛曲面映射到隐空间(平面圆盘),我们在平面圆盘上均匀采样,在拉回到弥勒佛曲面上。上面一行的编码映射将平面的均匀采样拉回成曲面上的非均匀采样;下面一行的编码映射将隐空间的均匀采样拉回成曲面上的均匀采样。这意味着,通过对隐空间进行变换,我们可以控制概率分布。在生成模型中,我们希望在隐空间均匀采样,从而得的数据流形上的均匀采样,即图3中的第二种情形。
最优传输
将一种概率分布变换成另外一种概率分布,这正是最优传输理论(Optimal Mass Transportation)的拿手好戏。这一理论有三种解读方式:概率论,偏微分方程和微分几何。我们简述如下:给定欧氏空间中的凸区域
这里距离函数
Fig 4. Wasserstein-GAN 模型的几何解释。
最优传输理论和Wasserstein距离被广泛应用于对抗生成网络(Generative Adverseral Net),生成器(Generator)的主要任务就是计算最优传输映射,将隐空间的均匀(或者Gauss)分布映射成数据分布;判别器(Discriminator)核心是计算数据分布和生成分布之间的Wasserstein距离。在目前的GAN模型中,判别器和生成器的计算相对独立,彼此竞争。图4给出了W-GAN的几何解释。
不同的距离函数
Briener势能的梯度映射
Brenier理论同时表明,Wasserstein距离的计算结果和最优传输映射的计算结果之间相差一个数学变换。因此,生成器和判别器的计算可以大为简化。
凸几何
另一方面,蒙日-安培方程刻画了微分几何种闵可夫斯基(Minkowski)问题和亚历山大(Alexandrov)问题,因此最优传输映射可以用几何方法求解。
Fig. 5 闵可夫斯基问题和亚历山大问题。
图5 显示了Minkowski和Alexandrov问题的几何图景:给定凸多面体每个面的法向量和面积,我们可以唯一决定凸多面体的形状。Alenxandrov问题中的凸多面体就是Brenier势能函数。根据我们的理论,Alexandrov问题可以通过凸优化来求解。
半透明模型
我们可以将流形嵌入和概率变换分拆,前者用AutoEncoder实现,后者用我们倡导的OMT 几何方法求解,这样我们将一部分的黑箱变得透明,得到半透明生成模型 AE-OMT。
Fig 6. AE-OMT 半透明生成模型。
如图6所示,数据流形到隐空间的编码和解码映射用AutoEncoder实现,在隐空间中我们用几何方法计算Brenier势能函数,得到最优传输映射,将均匀分布映射成数据在隐空间的分布。
这种学习模型异常简单,同时概率变换部分的理论透明,优化能量为凸,保证了最优传输映射的存在性,唯一性,和数值稳定性。同时,离散解到光滑解的逼近阶也有理论保证。
Fig 7. 随机生成的人脸图像。
我们用这一模型来生成人脸图像,用CelebA数据集进行训练,然后在隐空间对编码随机采样,再用解码映射得到图像,如图7所示。
Fig 8. 人脸图像流形上的一条曲线。
我们在隐空间任选两点,然后画出连接两点的直线段,解码映射将线段映成人脸数据流形上的一条曲线,如图8所示,我们看到姿态、表情、肤色的光滑变化过程。
Mode Collapse
很多自然数据分布式多模态的,就是说同一类数据中有多个子类,每个子类对应着数据流形上的不同分布。这些分布的支集(support)可能彼此分离。这时,传统的GAN模型非常难以训练,学习的结果也不尽人意。一般会出现两种情况,有可能GAN只能生成一两个数字,而无法生成所有10个数字;或者,GAN模型可能生成一些没有意义的图片。
Fig 9. MNIST 的生成结果。
比如我们学习MNIST数据,如图9所示,第二行第四列、第七行第四列的数字比较有歧义。
Fig 10. 第三行的人脸,左眼为棕色、右眼为蓝色。
再如我们学习CelebA数据,如图10所示,第三行的人脸一只眼睛为蓝色,另外一只眼睛为棕色。这在生物学上是极其罕见的事情。
Fig 11. Mode collapse 的几何解释。
我们用图11来解释Mode Collapse的原因。在平面上,数据集合为离散点集,分成三个团簇,所有数据点的概率测度都相同。我们将单位圆盘映射到数据集合,就是说我们求取单位圆盘的一个胞腔分解,每个胞腔映射到一个数据点,胞腔的面积彼此相等。同时,在所有这种胞腔分解中,求得唯一的一种,使得传输代价最小,即离散最优传输映射。Brenier势能函数表示成定义在单位圆盘上的凸多面体曲面。我们看到,凸多面体有3条尖脊,平面圆盘的胞腔分解有3条分割线,将圆盘分成3个区域,每个区域映到一个团簇。因此,最优传输映射不是连续映射。但是,ReLU DNN只能表达连续的分片线性映射,这意味着最优解不在DNN的函数空间里面。因此ReLU DNN或者映到某几个团簇,或者映到团簇之间的无意义区域。半蓝半棕眼睛的图像就是如此生成。在这种情形下,Brenier势能函数是连续的,传输映射是非连续的,DNN应该去表示Brenier势能函数,而非直接表示传输映射。
小结
这里,我们基于流形分布假设、团簇分布假设将深度学习的任务分解为流形嵌入和概率变换。概率变换可以由经典的最优传输理论来解释,并用几何方法来取代。简单的Autoencoder-OptimalTransportation (AE-OMT)模型可以用于各种生成任务,对于Mode Collapse给出了几何解释。
几何观点下的深度学习方向具有大量的理论问题期待解决,大量的技术细节需要仔细探讨,大量的实际应用等待开发。如果广大同学和朋友有兴趣合作,欢迎切磋交流!
鸣谢
这些工作是和世界各地很多学者共同完成,哈佛大学的丘成桐先生,格罗斯大学的罗锋教授,石溪大学的Dimitris Samaras教授【4】,大连理工大学的罗钟铉教授,雷娜教授,郑晓朋教授,武汉大学的苏科华教授,北京师范大学的崔丽教授,Arizona大学的王雅琳教授,UCLA的刘克峰教授,首都师范大学的方复全教授,香港中文大学的雷乐铭教授等等,一概表示感谢!特别感谢Cedric Villani先生,汪徐家教授!也特别感谢研究生团队,温成峰,齐鑫,李新元,郭洋,安东生,李轩,刘会东,王怡硕,陈伟,任玉雪,柯景耀和很多同学!
References
Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. "Geometric Understanding of Deep Learning". arXiv:1805.10451 .
https://arxiv.org/abs/1805.10451
Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.
Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488
Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.
Haodi Chen, Genggeng Huang and Xu-Jia Wang, “Convergence rate estimates for Aleksandrov's solution to the Monge-Ampere Equation", Accepted by SIAM J. Numerical Analysis.