GAN和蒙日-安培方程理论
【2019年1月18-21日,丘成桐先生和老顾在哈佛大学数学科学与应用中心组织题为“人工智能的几何分析方法”的会议。会议对外免费开放,欢迎注册参加。会议网址为:http://cmsa.fas.harvard.edu/geometric-analysis-ai/
会议邀请了许多AI领域的知名学者,例如
1. Tomaso Poggio: One of the pioneers in computational neural scence and neural computation. Many important work on the foundation of learning, vision and intelligence etc. Early work with Marr and Crick (who discovered double helix structure of DNA) lead to understanding of fly’s visual system.
2. Naftali Tishby: Information theorist, work mostly on machine learning theory. Proposed information bottleneck theory of deep learning.
3. Eric Xing: Research interested in probabilistic graphical model, Bayesian inference and deep learning. Started an important area of research in machine learning -- distance metric learning in his 2002 NIPS paper. Has PhD in Biology and CS (under Michael I Jordan and Richard Karp). Recently started a highly successful startup Pettum (a distributed machine learning platform attracting several series of investments with a total funds over $100M).
4. Yi Ma: Research interests in computer vision, object detection, and machine learning. His work on the mathematical theory of scene reconstruction from image sequences won the Marr prize (the highest prize in computer vision).
5. Alan Yuille: An important figure in the computational and statistical modeling of imaging. Work with Songchun Zhu on image parsing won the Marr prize.
6. Yingnian Wu: An important figure in the computational and statistical modeling of imaging. Won the Marr prize honorable metion twice: work with Songchun Zhu on texture modeling, and on deformable template.
7. Johannes Schmidt-hieber: Young statistician, but known for his deep statistical work on the inter-layer sparsity theory on the deep neural network. Frequent invited speaker to premier statistical conferences or workshops (I met him at the 2018 Columbia Statistics workshop).
等很多著名专家学者。欢迎注册参加!
最近老顾收到很多读者来信,绝大多数询问对抗生成网络的最优传输解释,以及和蒙日-安培方程的关系。很多问题涉及到经典蒙日-安培方程理论,这里我们从偏微分方程和几何角度介绍一下蒙日-安培方程的理论,主要是解的存在性,唯一性。我们尽量用较为初等的方式来解释。
深度学习和最优传输
深度学习的巨大成功可以归结为自然数据所满足如下两个定则:1)流形分布律:同类自然数据满足特定的概率分布,可以用概率分布来刻画,其支集是高维数据背景空间中的低维流形;2)聚类分布律:同一数据中的不同子类表示成不同的概率分布;并且这些概率分布之间的距离足够远,使得这些子类可以被区分。因此,深度学习的核心任务包括:1)学习流形结构:即计算从流形到参数域的参数化映射(编码、解码映射);也计算流形之间的映射;2)概率分布变换:在特征空间或者图像空间中,计算两种概率分布之间的距离,和两种概率分布之间的变换。
概率分布之间的距离和变换可以用最优传输理论来解释并计算。最优传输理论的基本问题如下:假设
记为
最优传输问题就是求所有保测度的映射中,使得传输代价最小者:
从最优传输理论的观点来看,1)对抗生成网络中的生成器本质上是在计算最优传输映射
基于最优传输观点,特别是几何上的Alexandrov途径,我们设计了新颖的生成模型,进行了初步试验。这里的几何算法可以用硬件加速。详细的讨论请见深度学习和几何(演讲提要)。下面,我们用尽量初等的方法来介绍蒙日-安培方程弱解的存在性和唯一性。
凸函数
图1. 左帧非凸集,右帧凸集。
定义0(凸集)欧氏空间中的集合
如图1所示,左帧是非凸集,右帧是凸集。
图2. 凸函数。
定义 1(凸函数)一个连续函数
或者等价的,
定义2(凸函数)一个函数
引理 1:假设
证明基于下面事实:正定矩阵之和、正定矩阵和正常数的数乘还是正定矩阵;或者用第一个定义。
图3. 凸函数的次微分。
定义3(梯度映射)给定欧氏空间中的凸开集
引理 2:给定欧氏空间中的凸开集
因为梯度映射的雅可比矩阵为函数的海森矩阵,海森阵正定,由隐函数定理,梯度映射局部是微分同胚;再由定义域的凸性和函数的正定性,我们可以导出全局同胚。
我们以二维为例,
例如
我们将光滑函数的梯度推广到连续非光滑情形。
定义4(次微分)一个凸函数
等价地,如果
是函数
图4. 勒让德变换。
定义5(勒让德变换)令
图4显示了凸函数的勒让德变换,其直观思想如下:每一个支撑平面将空间分成上半空间和下半空间,所有的上半空间的交集,被称为是所有支撑平面的上包络,上包络的边界就是凸函数的图(Graph),凸函数可以表示成所有支撑平面函数求上界:
由此,如果我们知道所有的支撑平面,我们可以重构原来的凸函数,如图5所示。我们可以用勒让德变换来表达所有的支撑平面,
图5. 由支撑平面重构凸函数。
凸函数和其勒让德变换彼此对称,即勒让德变换的勒让德变换等于原来的凸函数,
其勒让德变换是对偶点的凸包,对偶点族为
这里,上包络(upper envelope)和凸包(convex hull)操作都有成熟的计算几何算法。
给定光滑凸函数
蒙日-安培测度
定义 6. (蒙日-安培测度)给定开集
这里
蒙日-安培测度也可以理解为梯度映射诱导的拉回测度。考察平面上的可微映射
进一步
即拉回测度的密度函数等于映射的雅可比矩阵的行列式。那么凸函数梯度映射的雅可比矩阵是函数的海森矩阵,记为
蒙日-安培测度具有非常直观而且重要的特性。
引理 3:给定凸函数
首先,我们考虑光滑情形:
我们得到引理(3)成立。一般情形,我们用磨光算子,
不等式成立。
图6. 次微分的单调性。
引理 4:(次微分的单调性)令
那么
证明比较直观,任何
反之,如果
定理1(比较准则)令
那么在
证明如下,首先我们定义凸函数
这里我们选取
用反证法,开集
另一方面
所以有
蒙日-安培方程
定义 7 (Alexandrov 解)令
的Alexandrov解,如果
定义 8 (测度弱收敛)我们说定义在
记成
定理2 (解的唯一性)令
的解如果存在,则唯一。
用反证法,假设存在两个解
我们可以得到迪利克雷问题弱解的稳定性如下:
定理3 (弱解的稳定性)令
假设
我们下面考察弱解的存在性。
定理4(弱解的存在性)令
证明:我们用经典的Perron方法。
给定任意有限测度
弱收敛到
图7. 锥函数。
如图7,我们构造锥面函数
那么,
其蒙日-安培测度满足
我们定义函数集合
具有
定理5.(Brenier)给定
那么存在(依
如果Brenier势能函数
在实际计算中,我们其实是在求Alexandrov解,即对一切波莱尔集合
因为Brenier势能函数几乎处处可导,因此右端有意义。如果我们考虑
我们可以用变分法来求解这种蒙日-安培方程,具体方法请见以前的介绍(二)最优传输理论。
对抗生成模型(GAN model)可以用最优传输理论来解释和计算,生成器等价于求解最优传输映射,判别器等价于计算Wasserstein距离,即最优传输映射的传输总代价。
除了理论严密清晰,白箱替代黑箱,从深度学习的实战角度而言,用蒙日-安培方程的几何解法计算最优传输映射来部分替代目前深度神经网络生成模型方法,具有很多优点:
蒙日-安培方程的几何解法归结为凸优化问题,保证最优解的存在性和唯一性,不会停留在局部最优上面;
蒙日-安培方程的几何解法具有明确的海森矩阵,可以用牛顿法进行优化,二阶收敛。或者用超线性的拟牛顿法,效率远高于线性的梯度下降法。
蒙日-安培方程几何解法的误差可以精确控制,采样密度和逼近Brenier势能函数的
误差模有确定关系,可以自适应条件采样密度,以提高逼近精度。 算法设计具有层级(hirearchical)和自适应(self adaptive)特性,进一步提高效率。
蒙日-安培方程的几何解法硬件友好,可以用目前的GPU并行实现。
实验结果验证了我们的看法,用这种方法从效率和生成质量而言,优于传统方法。
蒙日-安培方程的正则性理论更加复杂,但是对于模式塌缩的理解非常关键。我们会在未来加以详尽讨论。
请长按下方二维码,选择 “识别图中二维码”,即可关注。
【老顾谈几何】邀请国内国际著名纯粹数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。