【课程首播】美国纽约州立大学石溪分校顾险峰教授:最优传输理论与计算网上课程
以下文章来源于老顾谈几何 ,作者顾险峰
直播二维码
时间
2021年10月25日到11月18日北京时间每周一、周四 20:30-21:30授课老师
顾险峰(美国纽约州立大学石溪分校计算机系终身教授、美国哈佛大学数学与应用中心客座教授、清华大学丘成桐数学中心客座教授)课程简介
内容简介:这一系列讲座将介绍最优传输的理论、算法和应用。最优传输理论是概率统计与微分几何、流体力学、偏微分方程的交叉学科,理论深刻优美,算法实用强大。本课程主要介绍最优传输理论的基本概念和定理,给出关键定理的证明思想,强调从不同领域的视角来理解;给出现存的主要算法,强调基于几何直觉的计算方法,从底层开始搭建推广至高维、非欧几何的情形;并且给出主要应用,包括计算机图形学中的保面积参数化、计算机视觉中的曲面注册、医学图像中的图像分割、配准与分类,特别是深度学习中的生成模型。
预备知识:线性代数、多元微积分、最好能够用C++、OpenCV和OpenGL进行编程
教材:《最优传输理论和计算》雷娜、顾险峰著,高等教育出版社 2021。
讲座课件 :课程的中文演讲稿将在网上发布;
开源代码 :欧氏平面的最优传输映射代码和测试数据
https://www3.cs.stonybrook.edu/~gu/software/OT/index.html
球面的最优传输映射代码和测试数据
https://www3.cs.stonybrook.edu/~gu/software/SOT/index.html
线上演示、图像、视频,可以通过扫描《最优传输理论和算法》中相应页面的二维码,直接在手机上观看。
作业:讲座系列会提供基本程序库,学生们可以动手添加修改实现最优传输映射等基本算法,并且有专职的助教提供答疑帮助。
授课初衷
最近有很多读者联系笔者,他们对于学习最优传输理论充满激情,但是由于工科背景,自学数学教材过程中都遇到了一些困难。笔者多年从事教育工作,深知自学数学的困难,特别是对于研究生水平的数学专著而言,如果没有过来人指引,经常会不得要领而陷入繁琐的细节,几经挣扎之后无奈放弃。在机械工程领域有着能量密度的概念,例如内燃机的能量密度高于电池的能量密度;与之类似,教材书籍也有着“智力密度”概念,数学书籍无疑是具有很高智力密度的,真正读懂理解,深入内化,需要耗费艰巨的脑力劳动。
另外,目前网络知识肤浅化和碎片化,已经严重影响了年轻一代的思维习惯和思想深度。虽然深度学习的文章铺天盖地,但是对于深入学习数学理论帮助有限。首先,数学理论需要领会理解整体的理论体系,从基本假设和概念开始推导,一以贯之。大量的工程论文都只引用整个理论体系中的个别结论,东鳞西爪,囫囵吞枣。大量的网络文章将商业用语与学术思想混淆,太多的夸张喧嚣,缺乏判别力的青年学生们久经“惊吓”之后,或者日益迟钝麻木,或者以为这就是学术的品味,从而自欺浮夸。特别是经验性的结果大量堆砌,很多工作缺乏理论保证,也无法稳定复现,某些工程领域对于学术思想的严格性要求大为降低。这些使得相关领域的研究趋于平庸化和泡沫化,这会对年轻一代贻害无穷。
我们希望这个系列讲座能够帮助青年学子们构建起深刻完备的知识结构,用严谨科学的态度取代喧嚣浮躁,用第一性原理来指导学术研究。我们希望读者们掌握这本教材的主要脉络,建立起最优传输理论体系的整体图景,深刻理解关键概念和定理,洞察主要定理之间的逻辑推演关系,熟悉各种经典算法,从而真正能够应用到自身的学术研究和工程实践之中。历史上,最优传输理论获得过诺贝尔奖和菲尔兹奖,我们由衷地希望读者们能够达到两种境界:体悟出最优传输理论在抽象世界中的美学价值,领略到她在现实世界中的实用价值!
下面我们简单介绍每次讲座的主要内容:
Monge-Kantorovich-Brenier理论
Monge提出了最优传输问题:给定带有测度的空间, 在所有保测度的映射中寻找总传输代价最小者。给定概率测度和,传输代价函数,Monge问题
这里映射空间
因为所有保测度的映射构成的空间不具备紧性,Monge问题具有本质困难。数百年后,Kantorovich将最优传输映射放松为最优传输方案,
这里所有联合概率分布,其边际分布等于和,构成的空间
所有传输方案构成的空间是紧的,总传输代价为线性泛函,由此由Weierstrass定理,Kantorovich问题的解存在。进一步,通过应用广义Lagrange乘子法,我们可以得到对偶问题:
当我们固定时,尽量增大,这时所有可能的最大者被定义为-变换,
一个函数被称为是-凹函数,如果存在满足。-变换,-凹函数在最优传输理论中起到了关键作用。对偶问题的解的存在性由经典的Ascoli-Arzela得到,最优解。进一步,(KP)最优传输方案的支撑集具有几何特性:循环单调性。反之,具有循环单调性的集合必为某个-凹函数的-次微分图,由此得到(KP)和(DP)的等价性。
(KP)可以由线性规划来求解,传统的有单纯形法、椭球法和内点法。线性规划加上熵正则项,则得到Sinkhorn算法。
对于任意最优传输方案支集中的点, 由-变换的定义我们得到
假如传输代价函数是欧氏距离平方,我们自然得到,即
这里被称为是Brenier势能函数,由是-凹函数,我们得到Brenier势能函数是凸函数。最优传输映射是Brenier势能函数的梯度映射,, 同时也得到最优传输映射的唯一性,这就是Brenier定理。进一步,由保测度性质,和,我们有,即
由此,我们得到Monge-Ampere 方程
满足第二类边界条件。我们看到,Monge-Ampere方程具有强烈的非线性,其求解算法具有本质难度。
凸几何观点
非常奇妙的是概率论和微分几何具有非常深刻的内在联系。在微分几何中,曲面的形状由黎曼度量和第二基本形式所共同决定,但是对于凸曲面而言,其形状由黎曼度量完全决定,这被称为是凸曲面的刚性。例如Minkowski问题就是从封闭凸曲面的高斯曲率来决定曲面形状,Alexandrov问题是由高斯曲率决定开放凸曲面的形状。假如Alexandrov曲面是一个函数的图,这里是平面上的一个区域,高斯曲率给定,那么函数满足方程
这正是Monge-Ampere方程。因此,我们看到Brenier势能和Alexandrov曲面虽然一个来自概率论,一个来自微分几何,表面上看风马牛不相及,但是数学本质彼此等价。我们可以通过求解Alexandrov问题来计算最优传输映射。
离散Minkowski问题可以描述如下:已知封闭凸多面体每个面的面积和法向量,反求凸多面体形状。离散Alexandrov问题类似:已知开放凸多面体每个面的法向量和向 的投影面积。Minkowski和Alexandrov应用Brunn-Minkowski不等式证明了解的唯一性,Alexandrov用代数拓扑方法证明了存在性,但是这种方法无法提供计算方法。丘成桐先生、罗锋教授和笔者等给出了一个基于几何变分法的构造性证明,这个证明给出了实用算法。
从计算几何角度而言,Alexandrov多面体是其支撑平面集合的上包络;而Alexandrov多面体的对偶是每个支撑平面的对偶点的凸包;这里的计算几何中的对偶概念等价于上面的-变换。上包络的平面投影得到Power diagram,凸包的投影得到Power Delaunay 三角剖分;Power Diagram和Delaunay 三角剖分的对偶对应着拓扑中的Poincare对偶。
凸几何的观点和算法可以直接推广到球面最优传输问题,并且自然地应用于光学设计。
从Brenier理论与Alexandrov理论的等价性,从Alexandrov定理与Power Delaunay 三角剖分的内在联系,我们可以考察所有可能的最优传输映射构成的空间,这等价于所有可能的Power Diagram构成的空间,进一步对偶于所有Power Delaunay三角剖分构成的空间。奇妙的是,如果将一个三角剖分视为一个点,所有三角剖分的三角剖分被称为次级多面体(secondary polytope), 而这是Gelfand的理论,它为研究最优传输映射算法的复杂性提供了理论依据。
流体力学观点
空间上所有概率测度构成的空间被称为是Wasserstein空间,任给两个测度和,以欧氏距离的平方为代价的最优传输映射为,这里是Brenier势能函数,最优传输映射的总传输代价定义了这两点之间的Wasserstein距离。McCann插值给出了连接和的测地线 ,这里时刻的最优传输映射为
我们也可以用流体力学角度来进一步来理解Wasserstein空间的黎曼度量结构。考察空间中的时变流场,这里是密度函数,是速度场,密度的演化遵循连续方程:
流场的总动能表达为:
Benamou-Brenier问题是求所有连接和的最小总动能流场:
Benamous-Brenier定理证明了最小作用量等于Wasserstein距离的平方。Otto由此定义了Wasserstein空间的黎曼度量。在Wasserstein空间中的一条路径记为,速度向量为,由连续性方程,在所有这样的速度场中,动能最小者为梯度场,由此可以定义两个切向量和的内积为:
其中和满足
由此得到的黎曼度量结构诱导了协变微分,从而使得Wasserstein空间中的变分法得以实行。可以证明,熵的Wasserstein梯度流等价于从经典信息论中得到热流。
深度学习上的应用
深度学习中每个数据集可以被视为嵌入在高维图像空间中的低维数据流形上的概率分布。深度学习的核心任务包括学习流形结构,表达为编码、解码映射,和概率分布学习,表达为从白噪声到数据分布之间的传输映射。所有的映射都由深度神经网络来表达和逼近。深度学习中的基本算法,例如最大熵原则,最大后验概率等等,都可以被视为在Wasserstein空间中进行带约束的优化,理论上都可以用最优传输理论来解释。例如对抗生成模型(GAN)中的生成器计算隐空间中的白噪声到生成分布之间的传输映射,判别器计算生成分布和真实分布之间的最优传输映射。
生成模型中一个较为棘手的问题是模式坍塌,其内在原因在于传输映射有可能存在奇异点,在奇异点处映射不再连续;而深度神经网络只能表达连续映射,因此无法表达传输映射。理论上,最优传输映射的奇异集合理论目前尚未成熟。最优传输映射的边界满足倾斜条件:对应边界点处的法向量夹角为锐角。考察源测度的支撑集边界和目标测度的支撑集边界,如果不存在它们之间的同胚满足倾斜条件,那么最优传输映射一定存在奇异点。我们可以运用计算几何中的Fechel距离算法来预测奇异点的存在性,或者用Power 中轴算法来直接计算奇异集合。
由于作者准备仓促,学识有限,教材和讲课内容中会有错误不足之处,希望广大读者批评指正!
最优传输理论与计算网上课程专题直播&回放链接:
https://www.koushare.com/topicIndex/i/ocottc
欢迎大家提供各类学术会议或学术报告信息,以便广大科研人员参与交流学习。