2021三维技术回顾
今天是2021年的除夕,又到了回顾身边一年来科技进展的时候。今年的主旋律依然是抗击疫情。病毒是最为原始的生命形态,只有一段信息,但却一次次颠覆了人类历史。人体细胞每7个月就会彻底更换,但是DNA信息不变,这足以表明人的本质是信息,因此信息科学具有根本的重要性。纵观过去一二十年间信息科学的发展,特别是三维技术的发展,笔者认为主要有三个根本的关键自然科学的因素:1. 新的物理思想、物理定律的引进,物理方法的突破;2. 新的数学思想的引进,数学定理的应用;3. 软件算法固化,芯片集成度的提高,算力的提升。其他的经济社会学因素自然也是本质的,缺一不可。
3D视觉
输入结构光图像。
计算机视觉的核心任务是由二维图像恢复三维几何信息。自从计算机视觉诞生之日起,双目立体视觉一直占据主要位置。双目立体视觉模拟人眼,基于几何光学原理(epipolar geometry)用三角法则重建三维信息。但是高精度,高速度的3维重建往往是基于波动光学的结构光方法,其中质量最高的是相位平移算法。这种方法来自基于激光干涉条纹的精密测量方法,对于工业检测,精密机器人而言是最为普适的方法。在机械工程领域,这种方法历史悠久,关键突破在于二十年前DMD芯片的出现。在DMD技术之前,数字投影技术精度达不到要求,无法得到精确的3维重建。德州仪器经过数十年不计成本的投入,终于将数百万门小镜子集成到一片DMD芯片之上,每个像素对应一个小镜子,通过迅速旋转震荡每门小镜子,可以精细调控反射角度和光强,这样基于相位平移干涉条纹的结构光方法成为现实。二十年前,笔者追随丘成桐先生和张教授、王教授等团队成员开发了高速、高分辨率的三维扫描技术。我们在siggraph,cvpr等国际图形学和计算机视觉大会上进行了演示。当时丘先生的一个关键的想法,使得我们的扫描速度提高了数倍。一家日本研究机构花费了数十万美元定制了一套系统,阿凡达剧组也主动找到我们进行合作。
相位反包裹。
2000年左右,丘先生在浙江大学组织了很多学术会议。我们邀请了以色列的应用数学家,也讲解了我们的高速3D扫描技术,他们非常激动,向我们索要了论文,询问了技术细节。很快以色列应用数学家成立了类似的公司,并且很快以一亿美元被Intel收购。Intel具有整合产业链的能力,很快推出了Real Sense这种3D扫描设备,在全世界大行其道。虽然华裔学者早期发展了关键技术,但是可能那时国家缺乏有眼光的投资人和完备的产业链,很多关键器件无法自主生产。早期的CCD数字相机比较昂贵,CMOS芯片成像质量非常差,只能应用于光学指纹识别这种低端设备。二十年后,CMOS光学传感器质量非常好,几乎完全可以取代CCD相机。但是DMD芯片依然被德州仪器所垄断,高质量的数字投影设备依然昂贵。所幸Mems技术(micro-electro-mechanical systems)日新月异,激光加上mems可以提供稳定的结构光源。目前,依随元宇宙的爆发,很多国际的3D视觉公司纷纷推出廉价3D相机,价钱降至500美元左右。在北美,也出现了外卖小哥,身背3D相机,为客户提供上门3D扫描和建模服务。
重建的3D点云加上了纹理信息。
3D几何重建的一个核心难点在于相机标定。传统的3D视觉模型中相机都是针孔相机,镜头都是球面透镜。但是因为加工工艺,镜头老化,这种模型经常会带来误差。经典的张正友标定算法是基于非线性优化来测量镜头畸变参数,复杂并且最优解不唯一。同时这种模型的畸变参数过少,畸变的数学模型适用范围狭窄,对于手机相机,鱼眼镜头,和近几年风靡一时的光场相机传统方法并不适用。如何提高标定的精度,适用于更加广泛的相机模型,这是目前学术界的一个研究方向。
基于相位结构光算法的另外一个难点在于相位反解算法(phase unwrap),如果用多波长方法可以减少相位歧义性,但是减缓了扫描速度。计算效果比较好的算法包括求解Poisson方程,或者用Markov随机场方法进行离散优化。求解Poisson方程需要FFT芯片,Markov随机场优化需要专用芯片来加速。或许依随元宇宙的浪潮,这种专用芯片会出现。
光场相机是传统相机的自然推广,犹如昆虫复眼一样,基于光场相机的无人机或者机器人有一些长处,景深范围较广,视角较为开阔,几何定位和重建精度较高。对于一般用户而言,光场相机可以“先按快门、再调焦”。光场相机的微镜头阵列加工工艺更加成熟,更加复杂的freeform 镜头可以用近期的3D打印技术加以实现。很多年前,微软推出了一款基于光场思想的游戏,没有引起太多反响。近年来,Lytro和Magic Leap都在商业上失败了。和很多业内的专家交流,大家都认为Lytro相机要求高解析度的CMOS传感器,有些超前。Magic Leap技术对于GPU的算力要求过高,市场上过于冒进。但是光场技术依然在稳步发展。笔者的朋友和哈佛的几个学弟们正在努力创业,将光场与网上购物相结合。目前有一些裸眼3D显示产品,对于光场显示支持力度依然有待提高。高速投影加上特殊光学器件的方法依然停留于实验室。
SLAM
依随自动驾驶的日益普及,SLAM技术得到空前发展。SLAM中的核心算法包括点云融合,与几何形状匹配等等。点云融合最为挑战性的问题是所谓的“loop close”条件,即全局一致性。假设机器人在一个场景内游走,从不同的位置和角度对环境进行扫描,从而得到很多点云。机器人需要将这些点云融合成整体的几何曲面,建立3D地图。我们将每个点云视做一个节点,如果两个点云有重叠则加上一条边,如此得到所谓的view graph。每条边上记录两个端点处相机的相对旋转与平移。对于view graph上的任意一个环路,所有边上的相对钢体变换依次复合,最终得到恒同映射,这被称为“loop close”条件。经典SLAM方法局部上应用iterative closest point (ICP)算法。从数学角度而言,Loop closedness是一个全局一致性问题,而非是一个局部问题,最为恰当的数学工具应该是Lie群上的某种上同调。据笔者来看,迄今为止,上同调的思想和方法还没有系统性地应用到SLAM技术之中,这应该是下一步的发展方向。
点云融合 | 初始网格生成 |
机器人定位和自动驾驶中,将扫描的点云与3D地图进行精确比对具有根本的重要性,目前的传统方法依然在6维钢体变换群中进行非线性优化,寻找近似解。这种方法对于大形变,柔性物体的几何形状匹配无能为力。如果机械手抓取的是柔性物体,几何形变是非刚性的。因此,笔者认为这种情形,需要引入更加精密的微分几何工具。这种形变一般而言是接近等距变换,即虽然空间变形比较大,但是曲面上面任意两点间的测地线变化较小。这时应该用曲面Ricci流,将曲面映射到标准常曲率空间进行比对。迄今为止,通过高斯曲率计算黎曼度量的算法只有Ricci流方法,我们花费十数年的时间建立严格的数学理论,开放了高效稳定的算法。这种算法需要动态三角剖分和共轭梯度法求解Poisson方程。对于拓扑复杂曲面,需要应用双曲几何,传统的双精度标准无法直接满足计算的精度要求,需要很多数学和工程技巧。我们也期待数字几何处理的专用硬件的出现。
曲面保角参数化。 | 曲面保面积参数化。 |
3D点云最终需要转化为三角网格,目前传统的方法是基于法向量估计和Poisson重建。如此得到的三角剖分过于稠密,需要压缩处理;更严重的是,这时得到的三角剖分质量很差,无法直接应用于计算力学和物理仿真。一种严密而高效的几何压缩和高质量网格生成算法依赖于曲面Ricci流算法。在3D相机大规模降价之后,点云处理、数字几何软件将成为行业发展的关键。
计算机图形学
2021年对于计算机图形学而言是一个具有里程碑意义的一年,主要是因为有两大核心技术的突破。
nVidia RTX实时光线追踪。
高质量3维渲染的核心算法自然是基于几何光学的光线追踪法。二十年前,光线追踪法只能在昂贵的Sun或者SGI工作站上计算。依随岁月的流逝,越来越多的物理定则被加入到算法流程之中,渲染效果愈发逼真。几乎所有的电影特效都是基于光学追踪法,一部电影往往需要数千台Linux服务器计算数年。长期以来,大家都将实时光线追踪计算作为一个梦想。终于,今年这一梦想成真,英伟达的GPU技术积累到达了这个临界点。
另一个技术突破是虚幻引擎5的Nanite虚拟几何技术,这个技术可以支持数十亿三角网格的实时渲染,极大地解放了数字艺术家的创作力,对于游戏业而言具有革命性的作用。虚拟几何技术的核心是基于笔者二十年前提出的几何图像思想。在英伟达横空出世的那一年,波士顿郊区也成立了一家GPU公司(ATI)与之分庭抗礼。笔者的几何图像论文发表后,ATI研究部门的技术总监找到笔者。当时GPU的结构设计并未完全成型,GPU内部有两条流水线,一条处理纹理图像,一条处理三角网格。几何图像的想法是用图像来表达曲面,从而取代三角网格,这样可以极大地简化GPU的硬件设计。当时ATI对于这一技术方法非常有兴趣。当然,现在ATI已经湮没于历史的尘埃之中,但是这一思想居然在虚幻引擎上得以重生。
Unreal5 ,nanite virtual micropolygon technique
游戏引擎的最为核心的问题是如何在渲染速度和几何质量之间取得平衡。过于复杂的几何形体需要大量的三角形,从而无法达到实时渲染,这主要是因为三角网格的数据结构过于庞大,无法放在GPU的内存之中,同时拓扑关系复杂,使得内存寻址困难。虚幻引擎以前的版本将虚拟内存技术与纹理贴图技术相结合,从而可以实时支持数据量巨大的纹理图像;现在的版本将几何曲面用几何图像来表示,每个像素的红绿蓝代表相应顶点的三维坐标,从而将几何与纹理相统一,将虚拟纹理技术推广为虚拟几何技术。这样将复杂3D游戏的质量提升了几个数量级。
基于代数几何原理的几何图像生成方法。
依随元宇宙的兴起,很多公司开始规划元宇宙渲染引擎。由于元宇宙将真实世界与虚拟世界相融合,几何数据量必然会空前庞大。这种情形下的实时渲染,很大程度上要依赖虚拟几何技术。将传统的三角网格转换成几何图像是一个非常具有挑战性的问题,本质上与曲面四边形剖分紧密相连。笔者团队经过多年的思考和研究,终于认清后者等价于黎曼面上全纯线丛的示性类理论。
在历史上,无数学者和工程师研究过这个问题,也存在各种经验性的算法,但是都停留在比较唯像的层次,经常限于头痛医头脚痛医脚的境地。我们用代数几何的深刻原理,应用在3D技术上,或许能够切实推进虚拟几何技术的发展。
3D打印
二十年前,波士顿市郊出现了第一家3D打印机公司,Z-Corp,每台售价四五万美元。二十年后,3D打印大规模进入一般家庭,而占据北美市场最大份额的公司基本上都来自于深圳,每台售价降至400美元左右。大量的3D打印材料也是来自国产。纵观一台3D打印机,核心器件是精密控制的步进电机和滚珠丝杠,由于国内产业链的优化整合,目前非常物美价廉,这的确显示了中国制造业的长足进步。
3D打印的用户已经不限于特殊的极客,而是早已普及到千家万户。AutoCAD 推出Fusion 360,非常方便大家自己设计3D物品,界面友好,运算稳定,便捷实用。专门的3D网站涌现,大家可以搜索下载所需的3D物品,例如水杯、鼠标、魔方等等,打印出来后直接使用。笔者需要经常设计一些光学实验器材,以前用铝合金材料通过数控机床加工,非常费时费力。有了3D打印设备之后,非常方便,极大地提高了科研速度。2021年,笔者将自己扫描、建模和3D打印的雕塑作为礼物送给远程而来的朋友们,改变了以往的社交方式。2021年笔者也和朋友们热烈讨论曲面上的3D打印,彩色3D打印的技术路径,相信很快能够成为现实。
当然,由于3D几何建模设计非常费时费力,人们对于NFT技术热情高涨。
传统的互联网公司,绝大多数内容都由普通用户构建,但是利益收归网络平台所有。这种分配方式自然是有欠公平的。通过NFT,区块链技术,每个发明者的发明权可以保证不被侵犯。NFT加密机制本质上是基于代数曲线的算术理论,特别是椭圆曲线加密,而这是黎曼面理论的又一个深刻应用。
十年前,笔者的一名博士生毕业后加入了一家数字牙医的公司。十年后,笔者前去种牙,从口扫到3D建模,到3D打印,技术已经相对完善。笔者的一对牙医夫妇朋友非常希望他们的小孩学习计算机技术,因为3D建模、3D打印技术正在势不可挡地改变了整个牙医领域。
目前,高精度的光学镜头,freeform设计的光学器件可以3D打印;金属配件也可以3D打印。3D打印的增材制造正在革新整个制造业。两三年前,笔者合作团队的一名博士生去了一家拓扑优化公司,目前公司身价已经翻了数翻。拓扑优化、计算力学成为制造业的生长点。市场上出现了大量拓扑优化技术制作的产品,例如各种座椅靠垫,汽车保险杠等等。
2021年,笔者朋友的孩子毕业后去了一家几何搜索引擎公司。依随3D技术的平民化,3D相机的大规模降价,互联网上会有大量的3D模型,如何搜索这些模型是非常具有挑战性的实际问题。笔者相信更加深刻的微分几何、代数拓扑理论将会日益渗透到这个行业之中,最为恰切的理论工具应该是Teichmuller拟共形几何理论。
展望
二十年前,科技界最为热门的关键词是“神经网络”;二十年后,科技界最为热门的关键词依然是“神经网络”,但是其深度和广度早已不可同日而语。历史一直在螺旋上升,工程技术的偏好和取舍一直遵循否定之否定的历史规律。
2021年是3D几何技术爆发的一年,实时光线追踪算法、虚拟几何技术、3D打印机几个数量级的降价、催生了3D设计网络交换平台、3D搜索引擎。由于mems器件的大规模普及,和CMOS传感器质量的提升,3D相机也开始几个数量级的降价,可以预见社会对于3D点云和数字几何处理的软件会有极大的需求;元宇宙、数字孪生会对进一步推动虚拟几何技术的发展;3D医疗技术,增材制造、拓扑优化会持续高速发展。
对于年轻人而言,3D几何技术所需要的知识结构和编程技巧与传统的网络技术和深度学习技术非常不同。理解抽象而深刻的几何拓扑概念,往往需要数年,比如人们常说的黎曼度量和层的上同调等等。而目前全世界计算机科学系的标准课程设置是非常欠缺的,而这些理论的掌握往往比单纯的工程技巧更加困难。任何一位高中生可以在两个星期之内学会3D视觉中的一个经典算法,但是无法在一年内参透黎曼度量的深邃意义。
从另一个角度而言,几何编程对于工程能力有很高的标准。过去几年中绝大多数学生都是经历了深度学习的系统训练,但是无法从头编写一个高效鲁棒的三维几何数据结构(比如volumetric dart library)。一般年轻人如果希望熟练掌握几何编程技巧,都需要数年来磨练。笔者认识很多数字几何领域的旷世高手,他们都是数十年如一日地精细打磨一门绝技。恰如全世界大型航空设计都是依赖法国的几何软件,3D几何技术需要多年的磨砺和培养,特别是持之以恒的积累。我们期待2022年,3D几何技术再次出现飞跃式突破,抽象的现代几何理论进一步深入融合到这一飞速发展的领域之中。
请长按下方二维码,选择 “识别图中二维码”,即可关注。
【老顾谈几何】邀请国内国际著名纯粹数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。