查看原文
其他

人生若只如初见 | 学术人生

2017-04-11 顾险峰 视觉求索


顾险峰 纽约州立大学石溪分校 计算机与应用数学系 终身教授


文章写于2017年2月中旬, 2017年4月10日刊登于《视觉求索》 

 

编者序

每年的4月15是一个特殊的日子,是大量申请研究生院的学子做出决策的截止日期。 这是学术人生道路上一个重要决策。 特刊发顾险峰教授撰写之长文,以飨读者。顾教授用明暗两条线交叉的写作手法介绍了过去20余年来学术界著名的庞加莱猜想的证明思路和技术,以及他自己从本科开始求学、创业;而后治学、立说的心路历程。 文章视角独特、思想深邃、功力深厚、意义非凡。

 

站在4/15的另一边、博士导师的立场看,录取博士生的过程就如同中国云南边境前一阵风行的“赌石”:每块石头标明产地(本科或硕士所在大学)和价格,买方(博士导师)根据石头的外表、品相(成绩、志趣)做选择,然后交出定金后(4年奖学金, 换算后也有100多万人民币),一刀切开(博士生来后一年),是美玉(未来的学术领军人物)还是顽石(当然也有大用,只不过不是导师希望的学术之用罢了),就各凭天命了。 我要说的是,就算是哈佛、MIT这样的名校,切开的也大多是顽石!

 

我认识顾险峰于23年前博士申请与录取的过程。1994年1月, 我在哈佛读博士,被导师Mumford叫去审阅中国学生的博士申请材料。那个时候中美学术交流很少,显然他对中国大学和学生情况不了解,让我帮他“赌石”。从一大堆材料中,我挑出了顾险峰。他不光成绩杰出(1994年清华计算机系应届毕业生总成绩第一),而且个性十足,学术情怀跃然纸上。20多年过去了,他本性难移,依然我行我素、追求他的纯净的数学理想。读者读他下面这篇文章,一定也看得出来。

 

90年代,计算机视觉处于混沌初开、大家都在找“北” 的时期。哈佛、布朗这个学派(也就是Pattern Theory学派)认定了用概率统计建模和计算的方法来研究,这后来被证明是有远见卓识的。顾当时认为统计建模和计算的方法, 还是有点“软”,不如数学(代数、几何、拓扑)方法过硬。所以,1996年当我导师和我离开哈佛去布朗的时候,他决定留下来跟随丘成桐先生学几何,研究形状。最近、他又用几何学的结果来研究概率统计的问题,十分深刻。

 

计算机视觉的发展,最终会走入严格的数学,比如,顾在文章中一开始提到的 代数拓扑学, 就是研究图像空间、感知空间的绕不开的数学工具。只不过,现阶段学术秩序混乱,大家都只是追求结果,而不追求概念和定义的严密性罢了。用一句中国常说的现象, 计算机视觉这个领域现在是 “一管就死、一放就乱”。也就是说,一旦要求严密的数学,就没多少人能做,而且做得缺乏生气。一旦放开严密要求,门槛很低,大家就乱做。顾是直接奔着终点而去的。其精神着实值得大家学习。

 

谨以此背景介绍,作为序。


--- 朱松纯


引言

最近师兄朱松纯教授代表《视觉求索》邀请我撰写有关计算机视觉方面的文章,结合学术,也谈一下理论证明背后心路历程,坎坷之途,激励年轻人走追求真理的道路。在学术方面,师兄对我恩重如山,写些力所能及的文章自然是义不容辞。但是,我的研究日益理论化,看见可造之才就力劝人家为纯粹数学殉道,身边的人都说我有走火入魔的倾向。推己及人,是为年轻的老顾写呢,还是为现在的老顾写,我为此犹豫了很久。如果为年轻人写,就应该深入浅出,诙谐幽默;如果为成熟的年轻人写,就应该高瞻远瞩,严谨深刻,这样文章将会抽象晦涩,佶屈聱牙。我年轻的时候经常读陈省身先生和丘成桐先生的科普文章,每次都是如堕云雾,似懂非懂,但是每次都有心得领悟,常读常新,慢慢琢磨出纤维丛示性类的真髓。

 

回顾自己的经历,我决定不能误人子弟,写一篇跳脱计算机视觉领域,经得起时间考验的框架性文章《浅谈形状空间的几何方法》。这篇文章涉及到了比较现代的几何知识,远远超出计算机科学背景学生的知识体系。《视觉求索》编辑部的学者们非常包容,依然给与我充分的肯定,并且鼓励我再接再励,“结合自己的研究经历(Research),讲一下历史和发展过程(History),写出动机(Motivation),历经的磨难(Struggle)”,以鼓励年轻人。

 

二月中旬,师兄邀请我去UCLA学术交流。我慨然赴约。为了准备一份见面礼,我决定写一下自己和庞家莱猜想相关的学术历程。

 

和绝大多数人一样,我经历了太多的愚昧无知,年少轻狂,也经受过太多的浮华虚荣,物质诱惑。非常幸运的是,二十年前,在我年轻的时候遇到学界泰斗Mumford先生和大师兄朱松纯,他们那时就倡导用统计的方法做计算机视觉,实际上已经指明了统计学习和机器学习的方向。非常不幸的是,那时的我幼稚浅薄,对于大师兄苦口婆心的劝说无动于衷,走了几何加偏微分方程的道路。人生若只如初见,或许一切都会不同,或许依然不解风情。

 

我对于庞加莱猜想相关研究的心路历程大致可以分为如下几个阶段:

 

一、皇帝的新装:在清华读书,接触庞加莱猜想,认为这是一群无聊的数学家用花巧的语言来描述一个显而易见的事实,用皇帝的新装来掩盖其苍白的思想,用以巩固他们不食人间烟火、令人怀疑的学术地位;

 

二、学海拾贝:在哈佛读书,接触多位大师的思想,开始认识到庞加莱猜想的理论深度和难度,但仍然看不出其任何实用价值;

 

三、初窥其径:初步熟悉了证明庞加莱猜想的各种途径,例如瑟斯顿的低维拓扑理论,哈密尔顿的里奇流方法。开始思考将里奇流抽象理论转化为计算方法的可行途径;

 

四、互联网狂潮:投身于时代浪潮,在创业途中认清了自己;

 

五、共形几何顺应时代呼唤,开始创建计算共形几何,无心插柳,偶有小成;

 

六、孤独求索:苦心孤诣,主动自我放逐,游走于多个学术领域;

 

七、重而道远:直面众多开放问题,勤耕不辍,依然任重而道远。


第一节 皇帝的新衣

1990年左右,我在清华计算机系理论专业进行学习,同时学习计算机系的课程和数学系的课程。有一次陈省身先生来清华访问,特意来我们所在的数学班级讲解示性类理论。开始的时候,陈先生面带愠色,直言批评偌大的清华,居然没有人讲授代数拓扑。然后从三角形外角和讲起,高斯-博纳定理。陈先生面色渐渐和缓,讲到微分形式,纤维丛示性类,已是眉飞色舞,神采飞扬。当时我无法理解黎曼度量,活动标架,德拉姆上同调,但是铭记了代数拓扑的重要性。于是我在清华大学图书馆的报废图书中找到一本页面发黄的拓扑书,江泽涵先生呕心沥血的专著《不动点类理论》。这本书用同伦群理论讲解了曲面自同胚的拓扑性质,深入浅出,高屋建瓴。江泽涵先生介绍了曲面自同胚不动点理论中依然存留一些富有挑战性的问题,并热情洋溢地推荐了姜伯驹先生发明的姜群理论,为解决这些艰深的问题提供了极具潜力的工具。近些年来,姜伯驹先生最终给出了证明,其中用到了瑟斯顿曲面自同胚的分类理论。在自学了基本的代数拓扑之后,我日渐理解了庞加莱猜想(Poincare Conjecture)的提法。

 

球面上的任何一个圈都能够在曲面上渐渐缩成一个点;轮胎曲面上有些圈不能在曲面上渐变成一个点。由此庞加莱猜测给定任意维的封闭流形,如果其上所有的圈都能够渐变成一个点,那么这个流形和同维的球面拓扑等价。

 

这个猜想非常直观,似乎不证自明。当时我大惑不解,为什么大家对这句精巧的废话如此痴迷,这究竟是出于数学家近乎病态的自恋还是学术背后有秘而不宣的阴谋?那时,我也在学习若当曲线定理:平面上给定一条光滑的封闭曲线,没有自相交,那么曲线将平面分成两个联通分支。如此直观浅薄的事实,居然需要冗长抽象的证明,纯粹是无病呻吟。作为计算机科学系的学生,我一直耿耿于怀:为什么没有年轻的数学家来戳破这层皇帝的新装?

 

在清华园中,我接触了许多杰出的计算机科学家,例如人工智能领域的张钹先生。那时候,神经元网络如日中天,汉字手写体识别是最具挑战性的问题之一。张先生用拓扑学方法证明了机器手路径规划中的一个基本问题,获得了人工智能界的崇高荣誉。吴文俊先生也在倡导符号主义的人工智能方法,基于吴方法的机器定理证明正在如火如荼地发展。

 

第二节 学海拾贝

1990年代中叶,我幸运地来到哈佛大学求学。在哈佛和麻省理工,我接触了许多学术界的领袖人物和他们光辉的思想。哈佛大学计算机系的Michael Rabin教授是图灵奖得主,他证明了计算机密码学所依赖的大数质数分解问题用概率解法是多项式时间复杂度的。他非常巧妙地将概率和数论相结合,其方法最为关键的一步是抽象代数中的有限域论。Rabin教授的课非常精彩,群论和有限域论用得出神入化。哈佛大学计算机系的Leslie Valiant来自英国,是另一位图灵奖得主,他奠定了机器学习的概率理论基础。Valiant的课非常晦涩深奥,他极度强调哲学思辨。他曾告诫我多做哲学思考,减少编写程序。二十年前,Mumford教授就极度推崇Valiant的思想,他让我深刻领悟Valiant的理论。

 

麻省理工大学人工智能实验室的Berthold Horn教授也讲授机器视觉,Horn是古典计算机视觉领域的领军人物。我前去聆听他的课程,Horn的成名作是“Shape from Shading”:就是从一张图片,根据光照渲染来重建三维曲面。他首先假设曲面的物理性质和光源的位置,然后建立双曲型偏微分方程,最后用特征线法来求解。Horn的另外一项工作是“Extended Gauss Map”:给定一个凸曲面,我们将每一点映到其法向量上,则建立从曲面到单位球面的双射。然后我们将曲面的高斯曲率拷贝到单位球面上,这样我们得到球面上的一个正值函数。Horn将这个球面函数称为“Extended Gauss Map”,从“ExtendedGauss Map”我们可以重建原来凸曲面。虽然存在实用算法来求解这个重建问题,但是没有严格的理论证明。我向师姐询问,师姐直接告诉了丘成桐先生。

 

丘先生听完问题的描述后,立刻笑逐颜开,因为这个问题恰恰等价于求解蒙日-安培方程(Monge-Ampere Equation)。陈省身先生曾说过,蒙日-安培方程是所有非线性偏微分方程中最为非线性的。蒙日-安培方程也是丘先生一生的挚爱。丘先生找出他当年的数学手稿,让我潜心钻研。丘先生所用的几何分析手法深不可测,我手捧武林秘籍,却又内功不够,无法消受。于是我恶补蒙日-安培方程理论,从而系统地学习了闵科夫斯基定理(Minkowski Theorem),亚历山大定理(Alexandrov Theorem)等经典凸几何理论。亚历山大定理当时是用代数拓扑方法证明的,其抽象的存在性证明无法给出构造性方法。长期以来,亚历山大定理的构造性证明一直是悬而未决的问题。二十年后,我和合作者们给出了基于变分原理的构造性证明。那时,我并没有意识到亚历山大定理和概率密不可分的关系。


我有位大学本科同学,她目前在犹他大学电子系做教授,其父亲是陈木法院士。陈院士用概率论的方法证明了黎曼几何中的一个关键问题。这意味着微分几何和概率统计的方法可以相互借鉴。几何上的亚历山大定理等价于概率论上的最优传输问题(optimal mass transportation),蒙日-安培方程给出了概率分布之间的Wasserstein距离。目前深度学习领域中空前火热的Wasserstein-GAN模型,就是用Wasserstein距离来在衡量机器学习所得的概率分布和数据概率分布之间差异。二十年前,我无论如何也想象不出微分几何、偏微分方程和概率论之间的紧密联系,更想不到有朝一日,蒙日-安培方程会在机器学习领域起到关键作用。

 

丘先生在哈佛开课讲解拓扑,特别是米尔诺(John Milnor)的莫尔斯理论(Morse Theory)。同时,他介绍了菲尔茨奖(Fields Medal)得主斯梅尔(Smale)如何用莫尔斯理论证明四维以上的庞加莱猜想。那一课令我醍醐灌顶,茅塞顿开。二十年后,我和自己的学生就是沿用斯梅尔的手法解决工程中心腹地的问题。理论的深刻,手法的优雅,立刻令我意识到以前看法的肤浅幼稚。但是,那时我看不出庞加莱猜想的证明和现实之间的任何联系。虽然我可以从数学角度审美,但是从工程角度而言,并不觉得有何价值。因此,虽然我内心承认了庞加莱猜想的深刻性和美学价值,但是对其进展漠不关心。


图1:曲面单值化定理(Surface Uniformization Theorem)。


另一位菲尔茨奖得主Mumford教授专注于计算机视觉。Mumford教授在代数几何模空间领域的建树令人高山仰止。经过一番钻研,我终于理解了Mumford模空间理论的梗概。在数学上,一个终极目的就是化繁为简,用尽量少尽量简单的模型来统摄所有可能的情况。如图1所示,所有的带黎曼度量的曲面都可以变形成三种标准形状中的一种。这三种标准曲面配有常数值的高斯曲率,其曲率常数为{+1,0,-1},相应的空间被称为是球面,欧氏和双曲空间。并且,这种变形是保角变换。如图2所示,三维人脸曲面变成二维平面圆盘,曲率发生变化,但是局部上,这个变换是相似变换,曲面的局部几何特征被完美保持。所有的双曲曲面构成一个抽象的空间,亦即所有拓扑复杂曲面的共形等价类构成的空间,就是所谓的模空间(Moduli Space)。Mumford教授看出来,这个空间是一个代数簇,亦即某个理想的零点集。

 

三维空间中的所有封闭曲面,都共形等价于代数曲线,因此模空间中的运算可以运用计算代数几何方法实施。直至今日,这个方向的主要工具是计算理想生成元的Groebner基方法和吴文俊方法,这些方法被广泛应用于人工智能中的符号推理。因为计算代数所得结果是绝对精确的,没有任何逼近误差,因此这类计算一般都是NP问题,现实中非常困难。模空间运算的另外一条途径是基于几何偏微分方程。偏微分方程的数值解都是近似,现实中比较切实可行。


图2. 曲面的保角变换


那时,Mumford主要关注于视觉问题,他对于Horn的“Shape FromShading”持有保留意见,但对Valiant的学习理论非常推崇。Mumford告诉我,他认为统计是解决视觉问题的关键。那时,他致力于建立模式理论(Pattern Theory),其中用到无穷维微分几何。他没有反对我学习微分几何,反倒向我推荐“Solid Shape”这本书,鼓励我从微分几何角度思考视觉问题。大师兄朱松纯多次和我深谈,他认为视觉的发展方向应该是和统计相互结合,用统计的方法来建立模型、发展算法。他说“我们可以把所有的图像构成一个空间,然后在这个空间中定义各种概率测度,用于描述我们感兴趣的图像。用这个理论框架,我们可以设计各种视觉的算法”。这一思想,其实就是机器学习的基本原则。机器学习的最终结果常常是某种概率分布。大师兄的好友,吴英年在哈佛统计系学习,他们经常在一起热烈地讨论如何用统计的思想来解决视觉问题。吴英年当年有句名言:“人生就是为了证明大定理”,现在回想依然令人血脉贲张。二十年之后再回首,计算机视觉领域的主流就是沿着Mumford和师兄设想的方向发展,在很大层面上,机器学习可以被视作规模宏大的统计计算。


第三节 初窥其径

丘先生的同学,瑟斯顿(William Thurston)先生也是菲尔茨奖得主,他致力于用拓扑和几何的方法证明庞加莱猜想。瑟斯顿的获奖工作是有关曲面自同胚同伦分类定理。Mumford研究的模空间的万有覆盖空间(universal covering space)被称为是泰希米勒空间(Teichmuller Space),泰希米勒空间是一个拓扑开球。瑟斯顿天才地构造了泰希米勒空间的边界,从而将开球变成了闭球。泰希米勒空间的边界点是曲面上叶状结构(foliation)的等价类。图3展示了曲面上的叶状结构。然后瑟斯顿气魄恢弘地应用了布劳威尔不动点(Brower's fixed point)理论,证明了曲面自同胚的不变叶状结构,实现了同伦分类。长期以来,我们团队一直致力于寻找叶状结构的系统性计算方法。直到2016年,我们终于夙愿得偿,发明了基于广义调和映照的曲面叶状结构算法。



图3:曲面上的叶状结构(foliation)。


瑟斯顿系统地提出了瑟斯顿猜想(Thurston's Conjecture),将庞加莱猜想变成其中的一个特例,瑟斯顿猜想是曲面的单值化定理在三维流形上的推广。给定两个封闭曲面,我们在每个曲面上挖掉一个拓扑圆盘,然后将两个曲面沿着拓扑圆盘的边界粘合,得到新的曲面,这一操作被称为是两个曲面的拓扑和。这一操作可以推广到三维流形。一个三流形,如果无法进一步分解成两个非平庸的三流形的拓扑和,则此三流形被称为是“素的三流形”。任意一个三维流形都可以被分解成一系列素的三流形之和,这种分解方式本质上是唯一的。瑟斯顿猜想所有的素三流形上可以配备八种标准几何。例如,图4展示了所谓的瑟斯顿苹果。给定一个苹果,有三条蛀虫,在苹果内部蚀刻出三条隧道,这三条隧道彼此交叉缠绕。这个带有虫洞的苹果是一个素的三流形,可以配有标准的双曲度量,如右帧所示。瑟斯顿的手法是将一个封闭三维流形分解成两个带边界的三流形,其边界是高亏格曲面,那么原来三流形的拓扑取决于边界曲面粘贴的方式,即曲面自同胚的拓扑性质。因此,他的方法拓扑、组合的意味比较浓厚。


图4:瑟斯顿的苹果

 

丘先生创立的几何分析学派应用偏微分方程的方法来研究几何问题。证明庞加莱猜想的核心工具是里奇流(Ricci flow)方法。里奇流的方法和视觉中的Active Contour方法非常相近。如图5所示,我们在图像中间画上一个圈,圈上每一个点依随时间演化,其移动速率和曲线的曲率、图像灰度的梯度有关。最后,Active Contour会自动停留在前景背景分界的地方,从而实现图像分割。曲面的曲率流方法比较类似,在视觉中被称为是active balloon 方法,常用于医学体数据的分割;在图形学中被称为是平均曲率流的方法,常用于曲面光滑去噪。如图6所示,曲面的每一点随时间演化,每点沿着曲面法向量移动,移动速率和曲面的平均曲率成正比。曲面会渐趋光滑,但是会在瓶颈处被掐断(pinch point)而出现奇异点。


图5:Active Contour方法。

 

图6:曲面的平均曲率流(mean curvature flow)。


在九十年代后期,几乎每个周末,都有一位哥伦比亚大学的数学教授从纽约飞来波士顿,与丘先生讨论。讨论经常从清晨到深夜,紧张而热烈。这位教授潇洒倜傥,双目炯炯有神。他就是鼎鼎大名的哈密尔顿(Richard Hamilton)。哈密尔顿酷爱冲浪,有一次他看到巨浪撞击礁石,浪花四溅,突然顿悟出里奇流的想法。曲面或者三流形的里奇流基本想法类似,但是不是直接演化流形上点的位置,而是演化流形的黎曼度量,使得黎曼度量的演化速率和里奇曲率成正比。在曲面情形,曲面的度量演化是保角的,面积元的变化速率正比于高斯曲率的负值。亏格非零的曲面里奇流不会出现如图6中的奇异点,性状良好;三流形的里奇流会出现奇异点。如果出现奇异点,我们在奇异点处将三流形一分为二,然后每一部分接着运行里奇流。如果奇异点出现的次数是有限的,那么,最后我们会得到有限个常曲率的流形,每个都是标准球面,因此原来流形也是拓扑球面,这样就给出庞加莱猜想的证明思路。问题的关键在于证明奇异点的出现是有限次。

 

丘先生深信里奇流是证明庞加莱猜想的正确方法,号召大家全力投入到这一研究方向,并把自己的学生Ben Chow送给哈密尔顿来培养。那时,庞家莱猜想、瑟斯顿猜想的绝大部分已经被证明出来,可能出现的奇异点也几乎全部厘清,只剩下几个复杂的情形。丘先生,哈密尔顿,和众位师兄殚精竭虑,夙夜劳作。作为副产品,哈密尔顿用里奇流证明了高亏格曲面的单值化定理,但是球面情形更为复杂。Ben后来用里奇流证明了拓扑球面的单值化定理。这实际上给出了计算曲面单值化的理论依据。

 

顺便提一下,那时数学界的另一个著名猜想费马猜想(Format's  last conjecture)终于被Andrew Wiles证明。Wiles在普林斯顿的阁楼中躲了七年,终于实现了突破。但是在同行复审的时候,人们发现了证明中的瑕疵。Wiles费尽心血力图弥补这个漏洞,几近崩溃。这时,他的学生Richard Taylor来到他身边,和他一同面对难关。Richard Taylor的太太是丘先生的学生,我的师姐,Elizabeth Taylor,一位温婉贤淑的台湾女孩。Taylor夫妇和Wiles一同经历了跌宕起伏的人生历程。最后,Wiles终于辉煌圆满地完善了证明。那时,Wiles的年龄已经超过了菲尔茨奖的年龄限制,菲尔茨奖委员会给他颁发了特别奖。Wiles用的是椭圆曲线模形式理论。一时间,在计算机科学领域,椭圆曲线加密变得炙手可热。


第四节 互联网狂潮

在90年代末,互联网、电子商务的狂飙席卷全球。出于好奇,我研读了Apache Web Server的源码,写了一段小程序,基本实现了现在微信的通讯功能。哈佛校园中到处是商业天才。一位犹太朋友Matt见了我的demo后如获至宝,立刻向我承诺一周之内拿到投资。我只当他在吹牛,根本没有放在心上。没有料想,一周之内Matt果然拿到了百万美元的投资。康涅狄格州有一个印第安保留地 Pequot,保留地中开设豪华赌场(Mohegan Sun Casinos),我们的投资就是来自Pequot Capital。大家异常亢奋,在麻省理工学院的雅典娜大楼地下室热火朝天地干了起来。

 

那时虽然有Windows,但是还没有Internet Explorer,只有Netscape,没有google,只有yahoo,没有Java,perl,python,只有C++。作为CTO,我负责全盘技术方案。为了促销,我们买了两台悍马吉普,奖励给使用我们网络服务最多的两名顾客。作为被包装的科技天才,我们在查理斯河畔骚首弄姿地拍摄了几幅广告。那时我整天被虚荣包围,心绪浮躁得无法思考深刻的数学。通宵达旦地编程之后,我感到了厌倦,工程问题千头万绪,管理问题纷繁杂乱,但是这些问题的深度难以达到曲率流的程度。

 

那时网络技术发展神速,Java铺天盖地而来,LAMP框架(Linux,Apache,MySQL,Perl or PhP)瞬间成了网络公司的标准配置。原来规模庞大,逻辑复杂的Web Server,刹那间成为了Java 豆的一句命令。这让我体会到资本对社会资源配置的神速和高效。

 

二十年后的今天,深度学习的Open Source铺天盖地,Tensor Flow,Caffee,Theano,Torch,宛如当年互联网狂潮的重演。很快,公司被当时最大的Internet phone公司Net2Phone买去,我得以回归校园,重新潜心于几何拓扑。


第五节 共形几何

经历了工业界的历练,我忽然觉得以前不以为然的几何偏微分方程是如此的美妙而亲切,以往的浮躁轻狂也逐渐平息下去。



图7:曲面的保角参数化

 

这时,我发现计算机图形学的硬件异军突起,ATI、Nvidia的GPU开始头角峥嵘。GPU硬件的发展使得图形学中纹理贴图(texture mapping)的技术日益成熟,而纹理贴图需要曲面的参数化。所谓曲面参数化(surface parameterization)就是将曲面映射到平面区域,映射带来的畸变尽量小。映射畸变一般有两个衡量准则,角度畸变(angle distortion)和面积元畸变(area element distortion)。角度畸变最小的映射就是保角变换,需要共形几何的理论支撑;面积元畸变最小的映射是保面元映射,需要最优传输映射。那时,我参加SIGGRAPH,看到法国学者用保角映射做曲面参数化,但是他们只能处理拓扑圆盘,一般曲面需要事先被切割成曲面片才能处理。作为陈省身的徒孙,我立刻意识到,他们的方法是局部微分几何,我们应该做出全局微分几何的方法。我回到哈佛后向丘先生汇报,当丘先生看到如图7的参数化效果时异常兴奋,连连说“真的是保角变换,真的是保角变换”。关于保角参数化的全局方法,丘先生立刻指出“这是共形几何”!一句话开启了我数十年的探索之旅!



图8:大脑皮层的共形映射。

 

图9:亏格为一的曲面的共形映射。

 

很快在丘先生的指导下,我用调和映照理论做出了拓扑球面的全局参数化(图8),也在SIGGRAPH发表。很快,我用霍奇理论(Hodge Theory)算出了曲面的全纯一次微分(holomorphic one-form),实现了亏格为一曲面的全局参数化(图9),和高亏格曲面的全局参数化。因为观念过于超前,当时图形学领域的学者无法理解,现在学界和工程界已经广泛接受。但是,当时我无法想象这种技术有何实用价值。

 

恰巧有一天,现在香港科技大学的陈繁昌校长来访问丘先生。他一见我们的球面参数化就立刻提议做大脑形态学的研究(Brain Morphology)。那时候,医学图像领域核磁共振成像(MRI)技术刚刚成熟,人们可以得到大脑皮层曲面的几何数据,但是没有办法求得两个曲面之间的配准、比较和分析。我们的共形几何方法刚好可以将大脑皮层映到单位球面上,然后在球面上进行几何运算(图8)。时至今日,这种共形脑图的方法在医学图像领域已被广泛使用。后来,亏格为一曲面的共形映射(图9)也导致了一项新技术的方明,虚拟肠镜技术,我们后面会另行介绍。

 

其实我内心非常清楚,曲面全局参数化的真正解决之道在于曲面单值化(图1),曲面单值化的构造性方法只有曲面里奇流。虽然多年来耳濡目染里奇流的理论,但是我对于如何将这种抽象的理论转化成计算机算法一筹莫展。同时,丘先生也希望我能够发明计算全纯二次微分的方法(holomorphic quadratic differential),我也决心继续探索。另外,那时保面元的参数化方法一片空白,我也在努力探求。十数年后,全纯二次微分的算法终于被发明出来,其核心是应用丘先生的弟子Richard Schoen的广义调和映照理论和瑟斯顿的曲面叶状结构理论。保面元参数化的算法也在过去的几年中被发明出来,发现过程非常具有戏剧性。我们通过给出亚历山大定理的构造证明解决了这一问题,其核心恰恰就是求解蒙日-安培方程。换句话说,问题的答案就在鼻子底下,我们十数年视而不见。因为我们思想的深度,精神的集中度不够,因此才蹉跎岁月。


第六节 孤独求索

从哈佛毕业之后,华尔街向我抛来了橄榄枝。另外,因为创业的成功,一位投资领域泰斗级的人物也希望将我招致旗下,他多次劝说我要入世而非出世。从波士顿直至洛杉矶,他为我讲了很多人生哲理。他曾经一手缔造了很多中国网络界的传奇人物。当时我非常犹豫:是去工业界叱咤风云,还是去名不见经传的小学校去完成计算共形几何的体系建立?

 

后来我终于想清楚了:时代的浪潮是个人无法阻挡的,关键技术成熟之后,必然会涌现大量的商业奇才。互联网的发展就处于那个关口,如果我不去做自然会有其他青年才俊去做。但是计算共形几何的建立和发展同时需要现代数学和计算机科学的背景知识,如果我不去做,其发展可能会被滞后。因此,我毅然决然地投身到学术界。十多年后,我有机会访问国内的大学,发现在中国几乎所有的大城市都有以这位投资者家族命名的现代商城,他也曾经为哈佛捐赠了数亿美元而名动天下。我深深钦佩他的商业才干,他当年的预言几乎都变成了现实。而这时,我手里也有了一本和丘成桐先生合著的《计算共形几何》。


图10:瑟斯顿的circle packing。

 

在2002年春季,我陪同丘先生访问加州一带的大学。我的师兄,UCLA的刘克峰教授在家里为丘先生庆祝生日。在生日派对上,我遇到了在UCSD任教的师兄Ben Chow。Ben知道我在做计算共形几何,居然为我准备了一篇尚未发表的论文。丘先生于2001年在台北举办了世界华人数学家大会(ICCM 2001),Ben和格罗斯大学的罗锋教授不期而遇。罗锋教授的导师是菲尔茨奖得主 Michael Freedman。Freedman证明了四维的庞加莱猜想。Freedman比较推崇瑟斯顿的途径,因此罗锋教授对瑟斯顿的理论理解非常深刻。


图10显示了瑟斯顿的一项著名工作,circle packing。给定平面区域的三角剖分,瑟斯顿在每个顶点上放置一个圆,每条边上的圆彼此相切,通过改变圆的半径,我们可以实现右图所示的circle packing模式,并且这种实现方式本质上唯一。瑟斯顿用这个定理证明双曲多面体,如果拓扑上同胚(homeomorphism)则几何上等距(isometric)。瑟斯顿猜测如果我们将三角剖分加细,那么从左侧三角剖分到右侧circle packing的分片线性映射将会收敛到经典的黎曼映照(Riemann Mapping)。这一猜测后来被石溪大学的Sullivan教授证明。罗锋是Circle Packing方面的顶级专家,Ben Chow是里奇流方面的顶级专家,他们在台北相遇,思想撞击出火花。他们立刻意识到Circle Packing是曲面里奇流的一种离散形式,然后一同撰写了论文来揭示这一真知灼见。以Ben Chow的功力,他深知我需要什么样的理论,他交给我的恰是这篇论文。



图11:纽约时报关于庞加莱猜想证明的插图。

 

后来,我来到纽约州立大学石溪分校求职,在求职演讲中,年迈的菲尔兹奖得主米尔诺(John Milnor)竟然亲自前来,并且问了问题。在石溪,我和罗锋教授开始了关于离散曲面里奇流方面的长期合作。在探索过程中遇到了大量的挑战,既有工程方面的问题,更有理论方面的问题。工程上,实际应用中曲面由三维扫描过程得到,具有本身自带的黎曼度量,如果用瑟斯顿的Circle Packing模式,很难准确表达原始度量,计算结果的保角性非常差。由此,我们发明了新型的曲率流:Yamabe flow。这种方法所得的结果保角性能非常高,但是实际应用中,Yamabe流并不稳定,经常会出现度量退化情形。这一工程障碍使得我们的研究严重停滞。

 

这时,俄罗斯数学家佩雷尔曼在庞加莱猜想的奇异点问题上取得了突破,他在arXiv上发表数篇文章,给出了其证明方法的概要。佩雷尔曼曾经在哈密尔顿门下做过博士后,对于里奇流有着深刻的见解。他看出里奇流是某个熵(entropy)能量的梯度流,同时他对久久困扰哈密尔顿的奇异点情形有着独到的洞察。他在最后一篇文章中声称证明了庞家来猜想(而非瑟斯顿猜想)。和Andrew Wiles证明费马定理不同,Wiles给出了所有的证明细节,并且为了填补一个瑕疵花费了又一年时间。佩雷尔曼的证明并没有给出细节。虽然如此,丘先生认为佩雷尔曼的工作值得获得菲尔茨奖。后来几组数学家补充了证明细节,包括朱熹平,曹怀东师兄,他们的方法有独到之处,并且他们证明的是全部瑟斯顿猜想,而非仅仅是庞家莱猜想。里奇流方法的成功再次证明了几何分析方法的威力。

 

这时,我们Yamabe流的研究取得了突破。我们意识到,曲面的三角剖分实际上是一种人为的限制,三角剖分应该以最自然的方式适应黎曼度量。原来在曲率流过程中,我们保持曲面的三角剖分不变,因而经常会遇到三角形退化的情形;现在我们动态变换三角剖分,保持三角剖分一直是Delaunay的。这种改进极大地增加了算法的稳定性,从而在工程方面走出了困境;但是,这种变动三角剖分的曲率流,极大地增加了理论分析的难度。

 

里奇流在理论上意义非凡,在工程上也具有根本的重要性。本质上,黎曼度量决定了曲面的曲率,反过来,给定曲率,我们能否找出相应的黎曼度量?里奇流就是用曲率来设计黎曼度量的强有力工具。工程上大量的基本问题,其几何实质是如何根据曲率来构造度量。在过去的十数年间,我和众多合作者们应用包括里奇流方法在内的计算共形几何方法,向许多工程领域的难题发起了攻击。下面略举几例。

 

流形样条:在几何建模领域(Geometric Modeling),如何在拓扑复杂的封闭曲面上建立至少二次光滑的样条曲面(Splines),一直是最为基本的问题。所有的方法都不可避免的带有奇异点,奇异点处光滑性变差。我和合作者对此给出了本质解释:经典的样条是建立在Polar form理论之上的,实际上是用仿射不变量来构造的基底函数。如果经典的polar form能够推广到流形上,那么要求流形本身容许仿射结构(affine structure),藉此流形上可以定义仿射几何。但是,绝大多数情形下,流形的拓扑妨碍了仿射结构的存在,经典的样条无法直接在流形上定义。如果曲面去掉一点,我们就可以在曲面上定义仿射结构。我们可以用里奇流构造一个平直度量,将所有的曲率集中在去掉的那一点上,这就给出了所需的仿射结构。

 

神圣网格:在计算机辅助设计(CAD)和计算机辅助工程(CAE)领域,设计出的机械部件需要物理模拟仿真,亦即求解物理偏微分方程。通常物理仿真使用有限元方法,这需要将机械部件进行剖分,生成网格。如何自动生成结构化的六面体网格一直是这个领域的基本问题,被称为是神圣网格(Holy grid)问题。我们团队用共形几何的叶状结构理论给出了自动算法,这种方法使得奇异点、奇异线的数目达到理论下界。

 

曲面配准:曲面配准(Surface Registration)是三维视觉的基本问题之一。图2显示了我们的算法框架:用里奇流得到曲面的平直度量,将三维人脸曲面映到二维平面圆盘,然后在平面上建立同胚映射。我们系统地研究了各种曲面间映射的计算方法,包括保角同胚(conformal mapping),保面元同胚(area-preserving mapping),调和映照(harmonic mapping),泰希米勒映射(Teichmuller mapping),以及更为广泛的拟共形映射(quasi-conformal mapping)。

 

虚拟肠镜:对于直肠癌的最好预防方法就是肠镜检查。传统肠镜检查需要对病人全身麻醉,操作具有侵犯性,并且有并发症的风险。虚拟肠镜用CT图像复建直肠曲面,用里奇流方法铺展于平面,便于医生诊断,并且在大形变的曲面之间建立同胚映射。这一技术专利以百万美元非独占性的授权给西门子和GE公司。虚拟肠镜技术已经被广泛应用于北美和日本。

 

我们也将里奇流方法应用于无线传感器网络,计算拓扑,可视化,人工智能等诸多工程领域。虽然,工程界对于里奇流的方法已经广泛接受,我一直对于其理论框架的不完备而耿耿于怀。现在回想,我们花了两三年就建立了成熟的算法,无数次的实验结果使得我们绝对相信依随曲面三角剖分的加细,离散里奇流会收敛到连续里奇流,但是解的存在性、唯一性、逼近误差,这些理论结果依然需要严格证明。我们后来,又花了六七年才从理论上证明了解的存在性。

 

在计算机科学领域,严格的理论证明一直处于吃力不讨好的境地。绝大多数的工程论文都是依赖于经验和直觉,如果用过深的数学,很多时候审阅者无法理解,反倒会给出负面评价。花费数倍的时间和精力,去做如此无现实意义的工作,这是否是一种迂腐


和年轻时的想法截然不同,我已经认识到只有理论严密的工作才能经得起时间的检验。迫于生存压力而追逐热点,为了现实的评价体系而放弃本心,实际上一种自欺欺人的浪费生命。在喧嚣中能够保持内心沉静,独立思考,享受孤独,这才是学者应尽的本分


第七节 任重道远

离散曲率流解的存在性证明非常艰辛,因为离散曲面的三角剖分在不停地变动,我们必须摒弃基于组合结构的论证方法,完全以黎曼度量为中心。所采用的数学工具是非常现代的双曲度量的泰希米勒空间理论。这一理论证明,给出了经典曲面单值化定理的离散化证明,其理论价值也不容低估。国际上,这方面的竞争非常白热化,我们与德国学派,其他美国学派艰难缠斗十数年,最近才率先给出了存在性定理。我们之所以能够领先国际同行,是因为我们对于双曲几何和泰希米勒空间的理解更为深刻。长期持之以恒的努力,专注于根本的目标,不为浮华所动,才能够洞察自然的玄机。

 

虽然,我们目前对于离散曲面的里奇流建立了相对完备的理论和算法,对于离散三流形的里奇流研究依然没有重大突破。如果我们能够建立稳定的算法,并且证明算法解的存在性,这等价于我们给出了瑟斯顿猜想、庞加莱猜想的离散证明。我目前无法预测这又需要多少年,很有可能是为之奋斗终生。同时,我们也在为基本的工程问题寻求理论基础,将理论和实践更加有机地结合。

 

回顾我的学术历程,每一次重大转折都是因为计算机硬件革命,带来新颖的重大工程问题;而这些问题的根本解决都不是工程技术层面,而是用到深刻的现代数学;这些现代数学的概念和方法都是为了解决古老猜想,特别是庞加莱猜想(和最优传输问题)而发展起来的;年轻时学到的数学方法,往往二十年之后才能真正用得上;另一方面,历史的发展往往出人意料,无论多么艰深抽象的理论,有可能很快就会被应用于实际之中。

 

目前,深度学习等AI技术的狂潮正在席卷整个人类社会,年轻一代对于机器学习的技术非常狂热。从理论上说,经典的物理定律用偏微分方程来描述,有意义的偏微分方程是泛函空间之间的同胚双射,可能是线性的,也可能是非线性的。神经元网络具有万有逼近能力(universal approximation),在训练数据充足的条件下,能够收敛到相应的物理规律。从统计角度而言,在一定程度上,在因果性尚未清楚的情形下,可以用相关性来指导,相关性由联合概率分布来刻画,根据大数定律,采样足够多的时候网络能够习得精确的相关性。那么,从根本的方法论上讲,机器学习所得的结果实际停留在经验科学的层面;要达到精密科学的层面,数据的相关性需要用进一步的理论模型解释机器学习的范式中,恰恰是去掉了人类思考建模这一最为体现人类灵性的步骤。年轻学子对于机器学习的狂热,将大量的时间和精力投入到调参和搭建模块这种相对简单低级的劳动之中,而没有学习真正深刻的理论知识,这对于年轻学子的长远发展来看是值得商榷的。

 

那么,是否目前计算机科学的发展到了量变质变的临界点,下一步机器学习能够自行总结出物理定律和数学原理?对此,我依然持保留观点。例如,单值化定理(图1),右帧高亏格曲面可以共形变换成双曲曲面,双曲曲面无法在三维空间中等距实现。换言之,我们无法制作出训练集,目前的机器学习框架无法学习出这一定理。目前符号主义的机器定理证明也没有发现人类尚未发现的重大定理,往往给出初级定理的新颖证明。另一方面,我也相信在不久的将来,机器学习的理论解释应该会被建立起来,神经网络的黑箱迟早会变得透明,而这一切依赖于深刻的数学理论。因此,我非常赞同年轻人应该多学些深刻的理论。

 

人生若只如初见或许一切都会不同,或许依然不解风情。


【全文完】



版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存