NeurIPS 2021 | 基于SE(3) 等变性的自监督类别级物体姿态估计(代码已开源)
关键词:自监督学习,类别级物体位姿
导 读
本文是 NeurIPS 2021入选论文《基于SE(3) 等变性的自监督类别级物体姿态估计(Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object Pose Estimation)》的解读。该工作由北京大学前沿计算研究中心助理教授王鹤课题组与弗吉尼亚理工大学李小龙同学(第一作者)、斯坦福大学、清华大学、哥伦比亚大学等单位合作完成,王鹤为通讯作者。该工作的代码已开源,具体请见下面链接。
项目主页:https://dragonlong.github.io/equi-pose/
论文链接:http://arxiv.org/abs/2111.00190
代码链接:https://github.com/dragonlong/equi-pose
01
引 言
物体的六维位姿估计是重要的计算机视觉和机器人学课题,目标在于求取物体在三维空间中相对于物体自身坐标系的三维旋转和三维平移。由于六维位姿的定义依赖物体自身的参考系,经典的六维物体位姿估计算法主要处理训练中见过的物体而无法估计未见过物体的位姿。随着对视觉和机器人任务研究的不断深入,AR/VR 及机器人与物体的物理交互等任务都对位姿估计的可泛化性提出了新的要求。
2019年 CVPR oral 文章 NOCS [2] 通过定义类别级物体参考系,开类别级的物体六维位姿估计之先河。这样训练获得的模型不仅仅在见过的物体上有很好的预测性能,对于同一类上的物体也能够去估计,最近以来也产生了不少令人鼓舞的拓展研究。但是相比与其他的任务,类别级的位姿估计一般都需要大量的有标注的数据,而众所周知六维位姿标注繁琐且非常昂贵,使得这一方法很难在推广到数目繁多的物体类别上。
在这篇文章中,我们将探索如何在没有位姿标注的情况下,对物体点云输入进行类别级物体位姿估计,亦即自监督学习。我们的方法基于对 SE(3) 操作等变的点云网络,实现了无需位姿标注、无需物体 CAD 模型、无需多视角输入或监督的类别级物体位姿自监督学习。我们的方法既可以适用于完整点云,也可以适用于单目的深度图点云,并在多个数据集上有良好表现。
02
方法简介
等变性(equivariance)指当输入进行某种变化的时候,输出进行相应的变化。完美的物体六维位姿估计具有对输入物体刚性变换(旋转和平移)的等变性,亦即如果对输入物体进行一个刚性变换,输出的位姿应也乘以这个刚性变换矩阵。在有标注的情况下,深度神经网络将依靠标注的引导进行位姿的学习,在训练良好的情况下,该网络近似满足等变性。当没有标注的时候,我们仍然需要获得等变的预测结果,而我们拥有的只有输入数据集,这样我们就考虑使用一个具有等变性的深度神经网络。
我们文章中利用的等变性网络是拥有 等变性的点云网络 EPN [3]。我们知道三维空间中所有旋转和平移变换都属于 群,因此有如下定义:对于定义在3维空间里的几何变换:神经网络 (这里 属于任意维度的特征空间)可以称作是等变的如果对于每一个 ,存在一个等变的变换 ,使得: 注意到, (恒等变换)时,网络对任意输入变换 不改变其输出,亦即拥有不变性。因此,不变性一般看作为一种特殊的等变性。我们使用的骨干网络 EPN 就既可以选择使输出与输入的 变换狭义上等变的,或使输出在输入的 变换下不变,见图1。
图1. 等变(不变)特征示例
我们的思路是搭建一个对输入点云的 变换(狭义)等变的网络分支来预测物体的类别级位姿,同时搭建一个对 变换不变的网络分支来预测物体在类别级物体坐标系(normalized object coordinate space,见[2])中的完整几何形状。将 NOCS 中的几何形状乘以物体的类别级位姿,我们就得到可以与输入进行比较的自监督损失,以达到自监督训练的目的,参见图2。这里我们按照四个部分进行具体介绍。
图2. 系统框图
等变性点云神经网络
EPN (Equivariant Neural Network)
这里我们对 EPN 进行一个简单的介绍。EPN 网络具有以下性质:
对平移变换严格等变;
对旋转变换在 群的一个60阶有限子群(正二十面体群 )严格等变图;
因此对一般 变换近似等变。
具体来说,对于点云输入平移等变性很容易得到,只需将输入点云减去其中心值再送入点云网络,这样输出就是不变的,可以再将减去的中心值加回来,这样就变成等变的;而对旋转的等变性却比较复杂,对 严格等变的网络一般基于球谐函数的等变基构造(如 SE(3) transformer [4]),但是这类方法严格限制了网络的表达力,对复杂的视觉数据描述能力有限。
我们选取的 EPN 则对 进行了离散化,在近似对旋转等变的前提下甚至还提升了网络的表达能力。其具体的方法是将先 离散化,选取了 中的60个旋转作为其离散值。对每一个旋转模式,EPN 将其三维卷积核进行相应的旋转得到了60个卷积核(这里等价于逆向旋转物体点云),然后分别对每个旋转模式下的点云进行卷积,就得到了60个不同的点云特征。如果对这样的特征进行 average pooling,就可以得到一个对这些旋转不变的特征;而由于这60个旋转是有序的且构成一个 的子群,当输入乘以60个旋转中的一个时,60个旋转模式下的点云并没有出现新的点云而只是对点云进行了一个重排,因此输出特征也会进行相应重排,所以对输出特征的重排操作就是对输入 操作的 ,这就是 EPN 对旋转的等变性。
EPN 还引入了一个在 群上对特征的一个群卷积,这一卷积可进一步提升网络的表达能力,并且不影响网络的不变性和等变性。更详细的阐述可以参考 [3]。
图3. 等变性点云卷积
基于不变特征的正规形状重建
SE(3)-invariant Canonical Shape Reconstruction
把输出的等变特征同时在所有旋转子元以及输入点上进行最大值池化,我们就得到了相对于输入稳定不变的输出,这个输出经过 后可以直接输出正规空间里重建后的点云;由于 EPN 仅仅在离散的 空间里具有不变性,输入点云的旋转如果是在两个相邻旋转子元之间,则可以看作是在一个旋转子元的基础上叠加一个微小的扰动,网络只需要学会对这个微小的扰动相对稳定地输出对应的形体重建就行。在实验中我们很好地观测到了这个现象,并且在没有见过的测试数据集上表现一致,如图4。
图4. 测试集上不同输入下的正规形状重建
基于等变特征的位姿回归估计
SE(3)-equivariant 6D Pose Estimation
我们先把输入点云中心归零,然后用前文提到的EPN在所有旋转子元集上的等变特征都拿来做差量位姿 的估计。这里如图5,以差量旋转矩阵 的估计为例,差量 会叠加到各自所属的旋转子元所对应的固定旋转偏差上,从而形成一个覆盖全 空间的一系列等变位姿假设组合。这些组合中,只要有一个能把残余位姿预测准确,那么不管输入在离散化的旋转子元集合上怎样旋转,这个正确的差量位姿都可以随着特征的等变位置交换而移动到相应的旋转子元预测上,图中 。预测的差量位姿与对应的固定旋转偏差叠加就可以自动获得全局最优解。我们只需要持续不断地训练优化这个相对较小的差量值预测,那么网络对于不同的位姿输入,就自然而然地可以应对了!
图5. 变换输入下的等变差量旋转矩阵估计
训练策略
由于有输入点云做参考,我们可以通过比对算不变形状乘以等变位姿得到的输出与输入之间的 3D Chamfer Distance ,同时在训练网络时,也通过只对最小误差对应的一支进行梯度训练,从而尽可能专一高效地优化这个小差量预测。如果输入是不完整的点云(比如有遮挡的情况,深度图像点云等), 我们仅采用单方向的 3D Chamfer Distance。相比于直接在整个 空间中做位姿预测,我们的框架设计把在自由变换的输入等价到了一个相对小的位姿变换空间里,网络只需要在小空间里做好预测,就能够应对整个 空间中的输入。这样训练难度变得更小,精度也自然变得更高。
03
结果展示
我们的方法在 ModelNet40 的合成数据集以及类级别刚性物体位姿估计真实数据集 NOCS-REAL275 [2] 均进行了测试,效果均超过了作为对照的无监督方法,并且在部分类别上超越了有监督的方法。这里我们列出部分结果和可视化如下。
完整点云输入下自监督的正规重建与三维旋转估计:
表1. ModelNet40上的3D位姿估计结果。各指标上效果最好的为红色加粗,蓝色加下划线的为次好
图6. ModelNet40上的3D位姿估计可视化,以椅子为例
不完整点云输入下自监督的正规重建与六维位姿估计:
表2. ModelNet40-Depth上的6D位姿估计结果。各指标上效果最好的为红色加粗,蓝色加下划线的为次好
图7. ModelNet40-Depth上的6D位姿估计可视化,以椅子为例
真实数据集上的类别级6D位姿估计:我们在 NOCS-REAL275 真实世界数据集里物体点云上进行自监督的学习,相比于 ICP 方法 [5](同样为无监督),我们的方法极大地提高了估计准确度,旋转平均误差在好几类上可以达到5º5cm以下,或者靠近5º5cm。
图8. NOCS-REAL275上的类级别刚性物体位姿估计
04
讨 论
以上我们介绍了自监督回路的构成和令人振奋的实验结果,我们这里需要讨论为何这样的自监督信号可以带来类别级的六维物体位姿。 等变的位姿回归估计网络确实可以实现对一个物体的完整点云进行满足等变性的位姿估计,亦即隐含了每一个物体的位姿定义(预测为正规位姿的点云就给出了参考系),但仍旧有两大挑战:
类别级的物体位姿光靠一些输入数据仍是缺乏定义的,我们需要获得跨实例的、具有一致性的类别级位姿参考系;
对于深度图点云,输入物体进行刚性移动时,点云的可见性会发生变换,因此点云并不是简单进行了 的一个变换,还耦合上了可见性的变化,也就是说即使我们的网络是严格等变的,对于深度点云输入,输出也无法保证等变。
针对挑战1,我们的不变正规重建网络起了作用,对一个类别中的相似物体,受限于网络的表达能力和惰性,其正规重建将尽可能得相似,使得网络的输出空间可以变得很小很简单,这就无形中对齐了不同的物体实例。当然对于一些有很强对称性的物体类别,比如汽车,这样的方法仍会有不小的问题,有时一辆车的车头会对上另一辆车的车尾。
对于挑战2,我们只能惊叹于 EPN 的学习能力,由于对旋转是近似等变的,EPN 在需要同时应付小旋转的回归和可见性带来的数据差异仍然表现出众。事实上,我们也检验了满足严格等变性的 SE(3) transformer [4],其学习效果比 EPN 差很多。
05
结 语
我们结合点云等变性的设计可以实现自监督的类别级物体位姿学习,在没有大量标注的情况下仍然获得很好的位姿估计准确度。类别级的物体位姿估计需要有一致性对齐的规范空间中的参考位姿,我们在实验中观测到利用等变网络可以对不同位姿、不同形状的输入有一致对齐的正规重建。对于未来的拓展研究,我们期待有更多将这一自监督框架应用于比如 RGB-D 视频的无监督追踪的研究,或者解决有多个部分、有关节的物体上等等。
参考文献
[1] Xiaolong Li, Yijia Weng, Li Yi, Leonidas J Guibas, A Lynn Abbott, Shuran Song and He Wang. Leveraging SE (3) Equivariance for Self-Supervised Category-Level Object Pose Estimation. NeurIPS 2021.
[2] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, Leonidas J. Guibas. Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation. CVPR 2019.
[3] Haiwei Chen, Shichen Liu, Weikai Chen, Hao Li, Randall Hill. Equivariant Point Network for 3D Point Cloud Analysis. CVPR 2021.
[4] Fabian B. Fuchs, Daniel E. Worrall, Volker Fischer, Max Welling. SE(3)-Transformers: 3D Roto-TranslationEquivariant Attention Networks. NeurIPS 2020.
[5] Paul J Besl, and Neil D McKay. Method for registration of 3-D shapes. SPIE 1992.
图文 | 李小龙、王鹤
PKU EPIC Lab
具身感知与交互实验室
具身感知与交互实验室 EPIC Lab (Embodied Perception and InteraCtion Lab) 由王鹤博士于2021年创立。该实验室专注于研究三维计算机视觉和机器人学,研究目标是建立和学习面向通用智能体的、可泛化的机器人视觉系统和物体操控策略。
CFCS近期科研动态
FOCS 2021 | 针对Insdel距离的局部可解码编码的下界
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”转论文链接