查看原文
其他

最优传输理论的全局几何观点

顾险峰 老顾谈几何 2023-11-22

最近很多年轻朋友询问最优传输的理论和计算问题。当年丘成桐先生是通过凸微分几何的Minkowski问题教给笔者Monge-Ampere方程的相关理论,因此笔者一直通过几何图景来理解最优传输和Monge-Ampere方程。最优传输理论具有非常直观的几何图景,并且与经典的计算几何概念和理论密切吻合。例如经典的Brenier理论等价于Minkowski-Alexandorff凸几何理论(图9),c-变换等价于几何中的包络。最优传输中的各种对偶与几何中的各种对偶一一对应:c-变换(勒让德变换)对应包络、凸包直接的对偶(图3,图4),正逆最优传输变换对应Power diagram与Weighted Delaunay之间的对偶(图2,图6),最优传输与最差传输对应上包络与下包络的对偶(图2,图7,图8)。


图1. 弥勒佛曲面通过黎曼映照映射到单位圆盘,从而将曲面面元推前到圆盘,作为最优传输的源测度。


图2. 最优传输(左帧),最差传输(右帧),从图1中的测度映射到标准勒贝格测度。

绝大多数最优传输领域的研究专注于求解一个映射,或者Monge-Ampere方程。这里我们介绍整体几何图景(图10):即所有的Brenier势能函数构成的无穷维泛函凸空间, 所有的目标测度构成无穷维凸空间,最优传输映射诱导了两个空间之间的微分同胚,这个映射逐点由Monge-Ampere方程所确定。我们可以看到,在经典的半离散Brenier最优传输框架下,Brenier势能函数空间有天然的Power Digram剖分(Power Diagram的Power Diagram),目标测度构成的空间具有相应的Secondary Polytope结构(三角剖分的三角剖分),这两个泛函空间之间的映射是分片多项式的,并且映射的雅克比矩阵具有鲜明的几何解释。所谓的求解最优传输映射过程可以被理解为同伦过程:给定曲线段,求其在中的原像,通过求解雅克比矩阵的逆,原像曲线可以逐点被追踪延拓。这种整体的几何图景,为最优传输问题的计算提供了新颖的视角。

在AI生成模型中(例如GAN模型、Diffusion模型),每个数据样本(例如某类图像)被视为高维背景空间中的一个点,整个数据集被视为一片稠密点云,这片点云在某个流形附近,即所谓的数据流形,而数据集代表的点云被视为数据流形上的一个概率分布概率测度)。深度学习的核心任务就是学习流形结构和流形上的概率分布。编码映射将数据流形映射到隐空间解码映射将隐空间映回数据流形。因此,数据流形的拓扑结构由编码映射和解码映射所表达,而编码、解码映射由深度神经网络来参数化。编码映射将数据流形上的分布映射到(推前)隐空间的数据分布,即所谓的隐数据分布。我们用计算机通过伪随机数生成均匀分布(或者正态分布)即白噪声,然后计算一个传输映射,将白噪声变换成隐数据分布,由此数据分布被传输映射所表达,而传输映射也由深度神经网络所参数化。例如,在GAN模型中,生成器计算从白噪声到数据分布的传输映射,判别器计算从数据分布到生成分布之间的最优传输映射,而Diffusion模型计算数据分布到正态分布之间的传输映射(以及逆映射)。由此可见,最优传输为生成式AI奠定了理论基础。

Monge-Kantorovich问题

如图1和2所示,给定欧氏空间中的源区域,以为支集的概率分布,具有密度函数;目标区域,以为支集的概率分布,具有密度函数,一个映射被称为是保测度的,如果对于任意波莱尔集合,都有

保测度条件记为。给定传输代价函数代表从点传输单位质量到的代价,映射的总传输代价为:

著名的Monge问题是在所有保测度的映射中,寻找总传输代价最小者:

最优传输映射的总传输代价定义为之间的距离。

Kantorovich将传输映射放松成传输方案,即定义在乘积空间上的联合概率分布,其边际分布等于,即,这里投影映射为。Kantorovich问题转化为:

更进一步Kantorovich问题等价于Kantorovich对偶问题:

这里的c-变换(经典勒让德变换的推广),

图3. c-变换等价于求取下包络。


c-变换具有鲜明的几何意义:包络。如图3所示,固定任意的,我们定义函数,图中黑色曲线;变动,我们得到一族函数。这族函数图像的包络就是,即图中的红色曲线。等价地,我们可以说每一条都是支撑曲线。考察点,红色曲线与蓝色曲线相切,那么最优传输映映成。我们称为Kantorovich势能函数。如果我们能够计算c-变换,那么就可以直接优化Kantorovich对偶能量,势能函数对序列为:

对于特定的传输代价函数,我们有,因此优化在有限步骤内终止。因此,我们看到几何上的包络是计算中的核心问题。

最优性初等证明

我们可以将目标测度用离散测度(即狄拉克测度之和)来逼近,设

定义在上的Kantorovich势能函数记,满足归一化条件

那么Kantorovich势能函数等于

诱导的一个胞腔分解,

对偶问题的能量可以写为:

假设在时,能量达到最大,这时

即胞腔-体积等于;最优传输映射为

即每个胞腔映射到一个目标点。

我们下面证明这个传输映射的最优性。假设存在另外一个胞腔分解, 满足,传输映射,,那么我们直接比较总传输代价,

这就证明了传输映射的最优性。

Brenier定理

如果传输代价函数是欧氏距离的平方,Monge问题表述为

因为,所以,上式前两项与映射无关. 由此,上面的Monge问题等价于下面的问题

这时,传输代价函数为。对偶问题表述为

这时变换为经典的勒让德变换,

这意味着的支撑平面,梯度为

图4. 函数的凸化:两次勒让德变换,等价于求函数图像支撑平面的上包络。

如图4所示,从几何上看,的所有支撑平面的上包络,即包含的图像是包含图像的最小凸集(凸包)。如果为凸函数,则

固定,设右侧在达到极大值,这时关于的梯度为零,,由此我们得到

同时,即等于自身两次勒让德变换,从而为凸函数。


图5. 图解Brenier定理。

由此,如图5所示,我们得到经典的Brenier定理:当时,最优传输映射等于某个凸函数的梯度映射,,这个凸函数被称为是Brenier势能函数,同时由,我们有, ,即得到Monge-Ampere方程:

各种几何对偶性

为了方便将具体概念可视化,我们定义半离散最优传输Brenier问题:设是凸紧集,是经典的勒贝格测度, 目标测度为离散测度,Brenier问题的对偶表示为 ,

这里的Nearest Power Voronoi Diagram,


图6. 各种对称性,总结为最优传输局部几何观点口诀:代价变换支撑,支撑包络势能,势能微分映射,映射对偶凸形。


如图6所示,我们看到每个目标点对应一张支撑平面,Brenier势能函数

是支撑平面族的上包络,上包络在上的投影是Power Diagram。更进一步,,可以视作是点集的凸包,这里是支撑平面的对偶。凸包的投影,得到点集的Nearest weighted Delaunay三角剖分。最优传输映等于上包络的切映射;其逆(广义)映射也是最优传输映射,,等于凸包的广义梯度映射。这里,我们看到了很多几何上的对偶,支撑平面族的上包络与支撑点集的凸包对偶,nearest Power Voronoi diagram和 nearest weighted Delaunay triangulation对偶,最优传输映射与最优逆映射对偶


图7. Brenier定理推广到最差传输。

还有一个更加隐密的对偶,最优传输与最差传输的对偶,几何上这等价于支撑平面族上包络和下包络的对偶。所谓最差传输问题就是在所有保测度映射中,寻找总传输代价最大者:

如果,Brenier定理依然成立,即存在凸函数,最差传输映射等于的梯度映射,满足Monge-Ampere方程。如果目标测度是离散测度,,对于每个目标点,我们构造支撑平面,这些支撑平面的下包络

下包络对偶于的凸包。下包络的投影得到的farthest power Voronoi diagram

其对偶的三角剖分得到farthest weighted Delaunay triangulation。

图8. 上下凸包对偶下上包络,对应着最优和最差传输。

存在、唯一性几何证明

半离散Brenier定理与经典的凸几何Alexandroff定理等价。给定平面上的凸区域中的开放凸多面体,具有个面,每个面上的法向量给定,任给个正数, 其和等于的总面积,,设第个面的线性方程为,则存在,使得第个面在上的投影面积等于。并且这种凸多面体彼此相差一个铅直平移。因此,我们可以从Alexandroff定理推出Brenier定理中的存在性和唯一性。

图9. Alexandroff 定理,与Brenier定理等价。


下面我们给出更加简单直接的推导过程。

考察半离散Brenier能量:

直接计算,得到其梯度为

这里是Power Voronoi 胞腔的体积。进一步计算能量的Hessian矩阵:

这里的分子是Power Diagram中的一条边,分母是Weighted Delaunay triangulation的对偶边。由得到:

我们看到Hessian矩阵在线性子空间上是严格负定的,因此能量严格凹。

我们定义所有可能的势能函数构成的空间:即所有的使得所有Power Diagram胞腔非空,

首先,非空。不失一般性,我们假设,那么存在的Voronoi Diagram,这时

这意味着

因此非空。的凸性需要用到Brunn-Minkowski不等式:假设是欧氏空间中的凸集,则

这里的Minkowski和:

的勒贝格测度。如果,则所有的Power 胞腔, ,由Brunn-Minkowski不等式,

因此中的维紧凸集。

能量在紧凸集上可微,必然存在达到最大值。如果,则存在一个Power 胞腔,偏导数指向的内部,因此必为的内点,从而

因此,解存在。由上强凹,最大值唯一,因此解唯一。这就证明了最优传输映射的存在性和唯一性。

存在唯一性也可以用几何方法来直接证明。Brenier势能决定了Alexnadroff凸多面体,即支撑平面集合的上包络与圆柱体的交集,然后再与半空间求交。考察下面的优化问题:在超平面的交集上,求的最大体积,由Lagrange乘子法:

的内点处取到最大,则

因为. 假设存在两个最大值,体积相同,则由Brunn-Minkowski不等式, 体积更大,从而得到矛盾。

最优传输的全局几何图景

从上述讨论中,我们看到每次计算最优传输映射,从几何上看主要是在计算凸包和其对偶的上包络


图10. 最优传输的全局几何观点:Brenier势能函数空间到离散测度空间的微分同胚,最优传输问题等价于同伦追踪问题。


我们将所有的最优传输映射从全局角度来考虑,所有的离散Brenier势能函数构成凸紧集,相应的所有的离散测度构成一个维单纯形:

每一个Brenier势能函数映射到某个离散概率测度,这里等于Power 胞腔的体积为最优传输映射,由此定义了整体映射,这个映射是微分同胚,其雅克比矩阵为

给定目标测度,我们希望得到相应的Brenier势能函数。我们首先构造的Voronoi Digram,得到,和相应的 ,然后连接得到线段。我们希望求得下的原像,我们知道的雅克比矩阵,可以局部用来线性逼近,由连续性方法(同伦方法):

我们可以一步一步从追踪到。每一步等价于求解一个Possion方程:

这里雅克比矩阵的系数是变系数的。主要的计算困难是步长的选择,使得在追踪过程中,追踪路径一直在内部,一旦越界立刻返回。如何选择是计算稳定性的关键。理论上,是紧集,是微分同胚,是紧集,到的距离为, 沿着的Hessian矩阵的最小特征根为, 其下界为,那么步长

可以保证搜索过程中不越界。实际应用中,我们并不事先知道距离和特征根的下界,因此算法实现中需要试探和回溯。理论上,这里的微分同胚本质上是次分片多项式的,我们可以计算高阶导数,从而得到精确估计。但是迄今为止没有人认真地计算过这些分片多项式,核心原因在于Secondary Polytope过于复杂。

另一个困难是计算过程中,Power Diagram和Weighted Delaunay Triangulation的组合结构是动态变化的。一个基本的问题是在每个计算过程中,三角剖分变化多少次?这要用到盖尔芳德的Secondary Polytope理论,这一理论可以被概括成“三角剖分的三角剖分”。是两个势能函数,如果它们诱导的在上的Weighted Delaunay triangulations 为,如果相同,那么它们彼此等价。每个等价类构成一个胞腔,对应的一个三角剖分,记为如此我们的的一个胞腔分解:

我们证明这个胞腔分解是Power Diagram,即Power Diagram的Power Diagram。




图11. 盖尔芳德的Secondary Polytope理论,即三角剖分的三角剖分,每个三角剖分抽象成一个点,这些点的凸包表达了所有的三角剖分,凸包边界处的三角剖分为加权Delaunay三角剖分。Discrete and Computational Geometry,S. Devadoss and J. O'Rourke.


如图11所示,我们固定目标采样点集, 的凸包记为。我们考察所有以为顶点的、可能的三角剖分。我们为每一个这样的三角剖分赋予一个特征向量(characteristic vector),的单纯形记为,如果的一个顶点,那么记为

点集的secondary polytope  定义成所有特征向量的凸包【2】:

如果一个三角剖分,其特征向量边界上,那么是某个下的Weighted Delaunay triangulation; 如果 中有一条边相连,则彼此相差一个Stellar 变换,在二维情形彼此相差一个Edge swap. 凸包的对偶是定义在上的上包络

上包络的投影得到的Power VoronoiDiagram,每个胞腔对应一个Weighted Delaunay triangulation ,满足

由盖尔芳德secondarypolytope理论【2】,所有可能的Weighted Delaunay Triangulation 个数为的直径为, 这给出了最优传输映射的计算过程中,三角剖分组合结构变化的次数。我们看到盖尔芳德的secondary polytope(三角剖分的三角剖分)对偶于Brenier势能函数空间的Power Diagram(Power Diagram的Power Diagram);根据Brenier定理,我们得到映射是最优传输映射;具体细节可以参考【1】。目前对于这个二次元power diagram的算法研究几乎一片空白, 我们期待这方面的研究能够有所突破。

目前,在AI领域和计算机科学领域,人们只计算最优传输映射的弱解,而对于解的正则性讨论很少。而Monge-Ampere方程的正则性理论,需要更多更深刻和微妙的几何洞察。在未来,当计算机科学发展进一步深入,最优传输正则性理论的几何图景将会渗透进来。


小结

这里,我们总结了最优传输理论的几何观点,包括局部观点和整体观点。从局部上来看,求解一个最优传输问题的口诀是“代价变换支撑,支撑包络势能,势能微分映射,映射对偶凸形”,这里涉及到大量的对称性,可以从分析和几何两个角度来理解,勒让德变换对应上包络与凸包的对偶,正逆最优传输对应Power Diagram和Weighted Delaunay的对偶,最优最差传输对应上包络和下包络的对偶,通用c-变换对应于曲面族包络等等。


图12. Power Voronoi Diagram 与 Weighted Delaunay Triangulation 对偶,自然出现在最优传输的局部几何观点和全局几何观点之中。


从整体上看,最优传输给出了所有Brenier势能函数构成的空间到所有测度构成的空间之间的微分同胚,其雅克比矩阵由Power Voronoi 边长与Weighted Delaunay 边长之比给出,进一步这个微分同胚是分片多项式的;所有可能的Weighted Delaunay 三角剖分的特征向量的凸包,构成盖尔芳德的Secondary Polytope,即所有三角剖分的三角剖分,其对偶是所有Power Diagram的Power Diagram,即所有势能函数构成的空间的Power Diagram,每个胞腔对应一个三角剖分。相对于局部几何观点,整体几何观点尚未被广泛探索,具有广阔的研究前景。

致谢

感谢丘成桐院士的教导,感谢罗峰教授,汪徐家教授,赵国辉教授等数学家,与他们的深入探讨启发了我们的工作【1】;感谢所有的合作者和同学们。封面 credit: @GIORDANOPHOTOGRAPHY ON INSTAGRAM


【1】Na Lei, Wei Chen*, Zhongxuan Luo, Hang Si, Xianfeng Gu. Secondary Polytope and Secondary Power Diagram. Computational Mathematics and Mathematical Physics, 2019,59(12):1965-1981.

【2】M. Gel’fand, M.M. Kapranov, and A.V. Zelevinsky. Discriminants, Resultants, and Multidi-mensional Determinants. Birkhauser, 1994.




请长按下方二维码,选择 “识别图中二维码”即可关注。





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存