查看原文
其他

干货!用于学习三维隐式距离场的样条位置编码

爱国 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


多层感知器(MLP)可以通过将3D坐标映射到相应的有符号距离场(SDF)来表达3D形状。在本文中,我们提出了一种新的位置编码方案,称为样条位置编码,将输入坐标映射到高维空间,然后将它们传递给MLP,以帮助从MLP从输入的点云中恢复具有精细几何细节的有符号距离场。通过实验,我们验证了我们的方法在输入点云和形状空间学习的3D形状重建任务的优越性。


本期AI TIME PhD直播间,我们邀请到微软亚洲研究院高级研究员——王鹏帅,为我们带来报告分享《用于学习三维隐式距离场的样条位置编码》。



王鹏帅


现任微软亚洲研究院高级研究员,分别在2013年和2018年于清华大学获得学士学位和博士学位,研究兴趣主要包括计算机图形学和三维深度学习,曾在SIGGGRAPH(ASIA),CVPR, IJCAI等会议上发表多篇论文。根据谷歌学术的统计,他的基于八叉树的稀疏卷积神经网络的论文(O-CNN)在过去五年所有发表在SIGGRAPH (ASIA)和ACM Transcations on Graphics的论文中引用量排名前五。他曾担任SIGGRAPH(ASIA),TVCG, TPAMI等学术会议和期刊的审稿人,也曾担任3DV 2020和SMI 2021的会议程序委员。他在清华就读期间曾获得博士生国家奖学金和2018年北京市优秀博士毕业生。


个人主页: https://wang-ps.github.io。



01

背  景


(1)基于有符号距离场的三维扫描


三维扫描在生活中应用十分广泛,例如我们可以采用三维扫描仪将一些文物、雕像进行数字化,实现将现实世界的物体载入虚拟世界中。



在扫描的过程中,通常是给定两个扫描仪在不同的视角对一个三维物体扫描,然后将得到的点云集合通过配准算法拼接,然后通过曲面重建算法将拼接后的点云转化为连续的曲面。而在本文中我们需要解决的问题就是研究如何根据输入的点云来恢复出一个连续的曲面。



将点云恢复为连续曲面的其中一个做法就是通过函数拟合的方式,具体来讲,参照下图,给定一个点云,然后在三维空间中拟合一个有符号距离场函数,使得该函数在采样点的位置函数值为0,采样点外部函数值大于0,采样点内部函数值小于0,并且距离场离曲面越远,函数值越来越大。当我们拟合好距离场后,将距离场的零等值面抽出来就得到了三维重建的物体。


从数学的角度,我们的目标是优化一个距离场,这里有两个约束项,分别是数据项和正则项。数据项是点云输入,为了使求得的零等值面可以插值点云,故在输入的点云上函数值需等于0。正则项的目的是对不应在曲面的点进行约束,由于距离场中离曲面越远的点会使得距离场函数值会线性增加的性质,因此函数的梯度是单位长的,正则化项就令距离场函数的梯度等于单位长。



(2)相关工作


通过有符号距离场来将点云输入恢复为连续曲面的具体实现过程中,一个经典的方法是通过多层感知机(MLP)这样的全连接神经网络作为一个距离场函数,实现将点云输入的三维坐标映射到距离场函数输出。这样的做法由于全连接神经网络的结构会使得三维空间中相邻的点映射为相近的函数值,因此会使生成的连续曲面过于平滑,无法保持高频细节。



为了解决MLP拟合距离场过平滑的问题,有人提出了Fourier Positional Encodings方法,这个具体做法是在将点云坐标输入到MLP做映射之前,先通过将坐标转换的傅里叶空间,这样高频的正弦余弦函数会将相邻坐标点区分开,在这样一个高维空间,相邻坐标点就有机会放在不同的位置。然而,这种方法带来了另一个问题——低频分类不能被很好地拟合,从而会导致结果带有较多的噪声、瑕疵。因此我们希望能够提出一种距离场函数,既能拟合高频信息又能拟合低频信息。



02

方  法


基于上面的目标,我们提出了基于样条的位置编码,算法的核心是使用一组可训练的样条函数作为位置编码。


先前的工作是采用不同频率的正弦余弦函数作为位置编码,而我们选用了局部基函数迭代的方式来表达曲线。在这里是一个局部支撑的二次函数,表示基函数前面的系数,通过加权平均的形式就可以将这些支撑的函数组合起来形成复杂的形状。



从理论上讲,当基函数越来越密集,完全有能力逼近正弦余弦函数,因此可以将样条位置编码当作傅里叶位置编码的推广。我们可以把样条细分之后变得更密更灵活,基于这个性质,推出一个多尺度训练策略,在粗分辨率拟合低频细节,在训练良好时把样条细分之后拟合高频细节。


如下图的例子所示,在训练MLP的时候初始阶段,首先使用粗分辨率的样条位置编码,这个时候MLP很快能够拟合信号的低频分量。然后我们将粗分辨率的样条位置编码进行细分,增加其灵活性,这样MLP又能很好地拟合所需要的高频细节。



利用B样条编码,简单来说就是,将一个点,投影到三个不同的坐标轴上,用不同的坐标轴来进行每一个维度上的位置编码。



03

 实  验 


下面展示一下本文的实验结果,最左侧是真实值,IGR是没有位置编码的方法,SIREN是将MLP的ReLU激活函数替换为正弦函数,FPE是傅里叶编码的方法,SPE是样条位置编码的方法(本文方法)。


其中IGR方法生成的连续曲面会损失一些高频细节,SIREN方法对低频信息无法较好恢复,傅里叶会引发瑕疵噪声,本文方法的效果最优,对低频和高频信息都可较好恢复。




论文链接:

https://wang-ps.github.io/spe.html


点击“阅读原文”,即可观看本场回放

整理:爱国

审核:王鹏帅


直播预告

3月3日  14:00-17:40   NeurIPS专场五

10位华人学者带来分享

记得关注直播信息哦!

3月3日  19:30-20:30   青年科学家-22 

随机二部图奇异空间估算

香港城市大学管理科学系助理教授

——周至心


往期精彩文章推荐




记得关注我们呀!每天都有新知识!


 关于AI TIME 


2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存