查看原文
其他

GAN和蒙日-安培方程理论

顾险峰 老顾谈几何 2019-12-18

【2019年1月18-21日,丘成桐先生和老顾在哈佛大学数学科学与应用中心组织题为“人工智能的几何分析方法”的会议。会议对外免费开放,欢迎注册参加。会议网址为:http://cmsa.fas.harvard.edu/geometric-analysis-ai/


会议邀请了许多AI领域的知名学者,例如


1. Tomaso Poggio: One of the pioneers in computational neural scence and neural computation. Many important work on the foundation of learning, vision and intelligence etc. Early work with Marr and Crick (who discovered double helix structure of DNA) lead to understanding of fly’s visual system.

2. Naftali Tishby: Information theorist, work mostly on machine learning theory. Proposed information bottleneck theory of deep learning.

3. Eric Xing: Research interested in probabilistic graphical model, Bayesian inference and deep learning. Started an important area of research in machine learning -- distance metric learning in his 2002 NIPS paper. Has PhD in Biology and CS (under Michael I Jordan and Richard Karp). Recently started a highly successful startup Pettum (a distributed machine learning platform attracting several series of investments with a total funds over $100M).

4. Yi Ma: Research interests in computer vision, object detection, and machine learning. His work on the mathematical theory of scene reconstruction from image sequences won the Marr prize (the highest prize in computer vision).

5. Alan Yuille: An important figure in the computational and statistical modeling of imaging. Work with Songchun Zhu on image parsing won the Marr prize.

6. Yingnian Wu: An important figure in the computational and statistical modeling of imaging. Won the Marr prize honorable metion twice: work with Songchun Zhu on texture modeling, and on deformable template.

7. Johannes Schmidt-hieber: Young statistician, but known for his deep statistical work on the inter-layer sparsity theory on the deep neural network. Frequent invited speaker to premier statistical conferences or workshops (I met him at the 2018 Columbia Statistics workshop).


等很多著名专家学者。欢迎注册参加!





最近老顾收到很多读者来信,绝大多数询问对抗生成网络的最优传输解释,以及和蒙日-安培方程的关系。很多问题涉及到经典蒙日-安培方程理论,这里我们从偏微分方程和几何角度介绍一下蒙日-安培方程的理论,主要是解的存在性,唯一性。我们尽量用较为初等的方式来解释。


深度学习和最优传输

深度学习的巨大成功可以归结为自然数据所满足如下两个定则:1)流形分布律:同类自然数据满足特定的概率分布,可以用概率分布来刻画,其支集是高维数据背景空间中的低维流形;2)聚类分布律:同一数据中的不同子类表示成不同的概率分布;并且这些概率分布之间的距离足够远,使得这些子类可以被区分。因此,深度学习的核心任务包括:1)学习流形结构:即计算从流形到参数域的参数化映射(编码、解码映射);也计算流形之间的映射;2)概率分布变换:在特征空间或者图像空间中,计算两种概率分布之间的距离,和两种概率分布之间的变换。


概率分布之间的距离和变换可以用最优传输理论来解释并计算。最优传输理论的基本问题如下:假设是欧氏空间中的开集,给定两个概率测度,满足总测度相等绝对连续。我们说一个映射保测度的,如果对于一切波莱尔集合,都有


,


记为。给定传输代价函数,映射传输代价等于

最优传输问题就是求所有保测度的映射中,使得传输代价最小者:



就是最优传输映射,对应的传输代价被称为是Wasserstein距离,展开来看:


.


从最优传输理论的观点来看,1)对抗生成网络中的生成器本质上是在计算最优传输映射判别器本质上是在计算Wasserstein距离;2)Brenier理论揭示了在距离下,这两个计算任务之间的等价性,从生成器的解可以解析地写出判别器的解;3)最优传输映射有可能非连续,因此实践中会出现模式坍塌(Mode Collapse)问题。


基于最优传输观点,特别是几何上的Alexandrov途径,我们设计了新颖的生成模型,进行了初步试验。这里的几何算法可以用硬件加速。详细的讨论请见深度学习和几何(演讲提要)。下面,我们用尽量初等的方法来介绍蒙日-安培方程弱解的存在性和唯一性。


凸函数

        

图1. 左帧非凸集,右帧凸集。


定义0(凸集)欧氏空间中的集合被称为是凸集,如果对于一切,那么联结的直线段包含在中,

.

如图1所示,左帧是非凸集,右帧是凸集。


图2. 凸函数。


定义 1(凸函数)一个连续函数为严格凸函数,如果满足不等式


   


或者等价的,


.


定义2(凸函数)一个函数是二阶光滑函数,为严格凸函数,如果的海森矩阵正定(Hessian matrix)



引理 1:假设是凸函数,是一个正实数,那么是凸函数,也是凸函数。


证明基于下面事实:正定矩阵之和、正定矩阵和正常数的数乘还是正定矩阵;或者用第一个定义。


图3. 凸函数的次微分。


定义3(梯度映射)给定欧氏空间中的凸开集是二阶光滑函数,那么映射 被称为是梯度映射。


引理 2:给定欧氏空间中的凸开集是二阶光滑函数,,那么梯度映射是微分同胚。


因为梯度映射的雅可比矩阵为函数的海森矩阵,海森阵正定,由隐函数定理,梯度映射局部是微分同胚;再由定义域的凸性和函数的正定性,我们可以导出全局同胚。


我们以二维为例,是二阶光滑函数,,那么其梯度映射为

.

例如,梯度映射为恒同自映射。


我们将光滑函数的梯度推广到连续非光滑情形。


定义4(次微分)一个凸函数点的次微分(subdifferential)定义为集合


.


等价地,如果,那么超平面


是函数的支撑平面(supporting  plane),即在,并且在


图4. 勒让德变换。


定义5(勒让德变换)令是有界开凸集,是凸函数,其勒让德(Legendre transform)变换定义为



图4显示了凸函数的勒让德变换,其直观思想如下:每一个支撑平面将空间分成上半空间和下半空间,所有的上半空间的交集,被称为是所有支撑平面的上包络,上包络的边界就是凸函数的图(Graph),凸函数可以表示成所有支撑平面函数求上界:


,


由此,如果我们知道所有的支撑平面,我们可以重构原来的凸函数,如图5所示。我们可以用勒让德变换来表达所有的支撑平面,




图5. 由支撑平面重构凸函数。


凸函数和其勒让德变换彼此对称,即勒让德变换的勒让德变换等于原来的凸函数,。因此图4的两个凸函数彼此对称。图4左侧是一族支撑平面的上包络构成的凸函数,支撑平面族为


其勒让德变换是对偶点的凸包,对偶点族为



这里,上包络(upper envelope)和凸包(convex hull)操作都有成熟的计算几何算法。


给定光滑凸函数,其梯度为,梯度映射 ;其勒让德变换满足,梯度映射


蒙日-安培测度

定义 6. (蒙日-安培测度)给定开集,和凸函数,函数决定的蒙日安培测度定义为:

这里是波莱尔集合,欧氏空间的勒贝格测度为


蒙日-安培测度也可以理解为梯度映射诱导的拉回测度。考察平面上的可微映射,映射将面元映到

,

进一步

即拉回测度的密度函数等于映射的雅可比矩阵的行列式。那么凸函数梯度映射的雅可比矩阵是函数的海森矩阵,记为。由此,蒙日-安培测度的公式为


蒙日-安培测度具有非常直观而且重要的特性。


引理 3:给定凸函数 ,我们有



首先,我们考虑光滑情形:,由正定矩阵性质



我们得到引理(3)成立。一般情形,我们用磨光算子,,这里是一系列光滑卷积核,那么 ,这里测度弱收敛

不等式成立。

图6. 次微分的单调性。


引理 4:(次微分的单调性)令为开集,为有界开集,是凸函数,满足条件

那么 ,即


证明比较直观,任何的支撑平面向下平移,成为的支撑平面。这一性质具有鲜明的几何意义,如图6所示,如果图像的凸包包含图像的凸包,则诱导的蒙日-安培测度大于诱导的蒙日-安培测度。


反之,如果诱导的蒙日-安培测度大于诱导的蒙日-安培测度,那么我们也可以推出图像的凸包包含图像的凸包。


定理1(比较准则)令为开集,为有界开集,是凸函数,满足条件

那么在上,我们有


证明如下,首先我们定义凸函数

这里我们选取,使得。定义,那么在边缘上有


用反证法,开集非空,于是对于,集合非空,因此

,

另一方面

所以有 ,矛盾。因此,假设错误,命题成立。


蒙日-安培方程

定义 7 (Alexandrov 解)令是定义在中的一个波莱尔测度,凸函数被称为是蒙日-安培方程

的Alexandrov解,如果 


定义 8 (测度弱收敛)我们说定义在上的测度序列弱收敛到,如果对一切具有紧支集的连续函数,我们都有


.

记成 


定理2 (解的唯一性)令是有界开集,是连续函数,是定义在中的一个波莱尔测度,那么迪利克雷(Dirichlet)问题


的解如果存在,则唯一。


用反证法,假设存在两个解 ,则,并且 ,由比较原则,。对称的,。因此,


我们可以得到迪利克雷问题弱解的稳定性如下:


定理3 (弱解的稳定性)令是一系列有界开集,是定义在上的波莱尔测度,是迪利克雷问题的解



假设 ,并且当时,,那么在局部一致收敛到下面迪利克雷问题的唯一解



我们下面考察弱解的存在性。


定理4(弱解的存在性是有界开集,是定义在中的一个波莱尔测度,,那么存在唯一的凸函数迪利克雷(Dirichlet)问题的解


证明:我们用经典的Perron方法。


给定任意有限测度,都存在一系列狄拉克测度

弱收敛到。由弱解的稳定性,我们不妨设本身就是狄拉克测度,,这里,并且


图7. 锥函数。


如图7,我们构造锥面函数 ,顶点在-1平面上,坐标为;底边在0-平面上,曲线为。显然,凸函数的蒙日-安培测度为狄拉克测度, 。进一步,我们选择常数使得


.


那么,

.

其蒙日-安培测度满足


我们定义函数集合 ,如上面构造,是非空集合。并且如果,则。考察中所有函数最大者,即蒙日-安培测度最小者,我们有:, 容易看出就是所求的弱解。


最优传输映射和蒙日-安培方程

具有传输代价的最优传输问题等价于蒙日-安培方程。


定理5.(Brenier)给定上的概率测度,满足


那么存在(依测度几乎处处)唯一的最优传输映射,和下半连续的凸函数(Brenier势能函数),Brenier势能函数依测度几乎处处可微,并且依测度几乎处处 .


如果Brenier势能函数光滑,我们得到,由此得到蒙日-安培方程:

,

在实际计算中,我们其实是在求Alexandrov解,即对一切波莱尔集合,都有

,


因为Brenier势能函数几乎处处可导,因此右端有意义。如果我们考虑的勒让德对偶,则满足


.

我们可以用变分法来求解这种蒙日-安培方程,具体方法请见以前的介绍(二)最优传输理论。


小结

对抗生成模型(GAN model)可以用最优传输理论来解释和计算,生成器等价于求解最优传输映射,判别器等价于计算Wasserstein距离,即最优传输映射的传输总代价。传输代价的Brenier理论将最优传输映射求解归结为蒙日-安培方程的弱解。这里我们用尽量初等的方法介绍了蒙日-安培方程弱解(Alexandrov 解)的存在性和唯一性,由此帮助大家奠定学习GAN模型的理论基础。


除了理论严密清晰,白箱替代黑箱,从深度学习的实战角度而言,用蒙日-安培方程的几何解法计算最优传输映射来部分替代目前深度神经网络生成模型方法,具有很多优点:


  1. 蒙日-安培方程的几何解法归结为凸优化问题,保证最优解的存在性和唯一性,不会停留在局部最优上面;

  2. 蒙日-安培方程的几何解法具有明确的海森矩阵,可以用牛顿法进行优化,二阶收敛。或者用超线性的拟牛顿法,效率远高于线性的梯度下降法。

  3. 蒙日-安培方程几何解法的误差可以精确控制,采样密度和逼近Brenier势能函数的误差模有确定关系,可以自适应条件采样密度,以提高逼近精度。

  4. 算法设计具有层级(hirearchical)和自适应(self adaptive)特性,进一步提高效率。

  5. 蒙日-安培方程的几何解法硬件友好,可以用目前的GPU并行实现。


实验结果验证了我们的看法,用这种方法从效率和生成质量而言,优于传统方法。


蒙日-安培方程的正则性理论更加复杂,但是对于模式塌缩的理解非常关键。我们会在未来加以详尽讨论。





请长按下方二维码,选择 “识别图中二维码”即可关注。


【老顾谈几何】邀请国内国际著名纯粹数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存