查看原文
其他

【源头活水】CVPR2021 | Variational Relational Point Completion Network

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—PauL
地址:https://zhuanlan.zhihu.com/p/378458496
由于视角、遮挡和噪声的影响,实时扫描的点云通常是不完整的。现有的点云补全方法倾向于生成全局形状骨架,因此会缺乏精细的局部细节。此外,现有方法主要学习确定性的部分到完全的映射,但忽略了人造物体中的结构关系。SFFAI114期三维点云补全专题论坛我们邀请到了来自南洋理工大学的潘亮,他提出的变分关联点云补全网络成功应对了这些挑战。

点击【活动通知】SFFAI114×CRIPAC 三维点云补全专题 查看会议详细信息

《Variational Relational Point Completion Network》 这篇论文讨论的是基于现实采集到的残缺点云(Partial Observation)恢复其完整的3D形状(Complete Shape)的问题。

Arxiv: https://arxiv.org/abs/2104.10154
Project Page: https://paul007pl.github.io/projects/VRCNet

01

概述
3D形状重建是计算机视觉中一个长久存在的问题。随着3D感知传感器的高速发展,获得高质量的3D感知信息越来越方便。但是,由于遮挡和各种观测视角的局限,获取的3D形状往往都是残缺不全的,从而影响和限制了很多任务的性能。比如,无人车相关应用中,观察到其他车辆或行人的残缺点云影响了3D位姿检测和路径规划。本文试图从单一视角下观测得到的残缺点云,基于一定的先验和关联性结构,推测和恢复完整的3D点云形状。

Figure 1 VRCNet 点云补全方法框架和主要优点总览

如Fig. 1(a)所示,VRCNet首先预测出粗略形状框架(PMNet),再增强关联性形状细节生成(RENet)。对比之前方法,VRCNet生成的完整点云有显著的质量提升(见Fig. 1(b))。更进一步地,Fig. 1(c) 中的补全结果显示,VRCNet可以基于观测到的不同的残缺点云,结合关系性架构推测生成合理而不同的完整点云。

02

方法介绍
我们提出了一个新颖并且综合性的点云补全网络(VRCNet,如Fig. 2所示)。它由概率模型网络(PMNet)和关系增强网络(RENet)两个子网络级联构成。首先,PMNet基于残缺点云生成一个粗略的点云形状框架,然后再由RENet结合前阶段生成的粗略框架和残缺点云观测,推测具有相关性的结构,以实现最后生成点云细节特征的增强。

2.1 概率模型网络(PMNet)

Figure 2 VRCNet网络架构:PMNet(浅蓝色)和RENet(浅黄色,细节见Figure 4)

由于点云的形状残缺,也导致了其空间分布上的网格缺失,从而影响了全局意义上局部形状细节的生成。为了缓解这个问题,我们提出并设计了PMNet,旨在先从点云的全局特征和分布出发,先生成一个粗略的全局点云框架结构,再以此辅助其形状细节增强。
PMNet(如Fig. 2浅蓝色框所示) 是一个双通道的网络架构,包含一个重建通道和一个补全通道[1]。重建通道对完整的点云形状做自编码和解码以恢复完整形状,而补全通道通过相似的网络做编码和解码以补全完整形状。两个通道间有多个共享模块。在训练时,重建通道在网络梯度和形状分布两个层面上引导补全通道的学习和收敛。在测试时,重建通道不再使用,网络只输入残缺点云。
训练时使用到的损失函数如下:
其中表示重建通道的损失函数,而代表的是补全通道的损失函数。这里代表对应函数的期望,是对应数据的真实分布,是残缺点云,是完整点云,KL代表Kullback–Leibler散度。重建通道和补全通道的损失函数都包含有两个部分:1)分布之间的散度比较;2)生成的形状与真实数据形状的比较。不同的是,重建通道的编码分布向先验的高斯分布靠近,而补全通道的编码分布向重建通道的编码分布靠近。

2.2 关系增强网络(RENet)

通过PMNet,我们编码生成了粗略的点云形状框架,但是缺少了很多细节信息。理想的点云补全不仅应当能保留观测到的点云细节信息,还应当根据关联性的结构(比如,人造物体的对称,阵列,以及光滑表面)推测未知的点云的细部特征。于是,我们综合考虑生成的粗略点云形状框架和残缺点云,以进一步增强生成完整点云的细节特征。启发于2D图像中基于自注意力的操作可以有效学习图像特征的关联,我们也致力于探索各种基于自注意力的操作对于点云特征的学习。
Figure 3 RENet中使用到的各个基于关系的点云特征学习模块
基于提出的多个新颖且强力的点云学习模块,诸如PSA,PSK和R-PSK模块(见Fig. 3),我们构建了RENet(Fig. 4)网络架构。PSA模块利用点云的自注意力机制[2],自适应地学习点云局部邻近点之间的关联。PSK模块通过并联多个不同尺度的PSA模块,可以自适应地选取由不同尺度感受野编码得到的特征[3]。此外,通过额外添加的残差链接,我们得到最终的R-PSK模块,而它是RENet的基本运算块。
各个点云模块的具体运算:
PSA模块的具体运算展示于公式(3)和公式(4)中。其中,代表点i所有搜寻到的K-NN临近点的特征,β,γ,σ和ξ都代表了线性变换运算,而δ代表了特征向量的链接操作(concatenation)。
PSK模块的运算可以用公式(5)表述。其中是由两个不同尺度的PSA模块编码得到的点云特征;W,A和B,是预测的权重矩阵;η是全连接层;V是最后融合得到的点云特征。

Figure 4 RENet 的具体网络架构

基于我们构建的多种模块,我们沿用U-Net[4]的思路搭建起多层级的RENet网络。此外,RENet还使用了EFE[5]模块以支持多种分辨率的完整点云生成。

2.3 损失函数

损失函数主要有三个部分:重建通道损失函数,补全通道损失函数和关系增强网络的损失函数都包含两个损失函数项:公式(6)中的Kullback–Leibler(KL)散度项和公式(7)中的Chamfer Distance (CD)损失函数只包含CD损失函数。于是,整体的损失函数定义如公式(8)所示,其中是对应的权重参数。

03

MVP数据集
为了建立一个更统一并且综合性的残缺点云数据集,我们生成了MVP数据集。对比之前的残缺点云数据集,比如PCN[6]和C3D[7],MVP有很多吸引人的特性(见Table 1)。

Figure 5 MVP 数据集数据生成和质量对比

MVP主要的优点有:
1)均匀分布的虚拟相机视角产生了多样化的残缺点云;
2)更大数量和更高质量的点云数据;
3)丰富的点云种类。由Fig. 5(a) 和 Fig. 5(b) 可以看出,对于同一个完整CAD飞机模型,我们使用了26个均匀分布的虚拟相机,从而采集到丰富且各异的高质量残缺飞机点云。Fig. 5(c) 对比了不同分辨率下生成的残缺点云质量,MVP使用高分辨率也获得了更高质量的残缺点云。不同采样方法生成的完整点云质量对比展示在Fig. 5(d)中。相比较之前方法使用的均匀采样(US),MVP使用的泊松采样(PDS)生成了更高质量的完整点云。

04

实验结果

4.1 点云补全结果质量对比

Fig. 6是在MVP数据集上的不同方法点云补全的效果图对比。VRCNet的结果相比较之前的点云补全方法主要有两方面的优势:
1)可以生成更均匀和光滑分布的高质量完整点云;
2)可以有效地捕捉到关联性结构并对缺失部分实现合理的生成和补全。

Figure 6 不同方法在MVP数据集上的点云补全结果展示

4.2 真实点云补全结果展示

我们进一步在现实采集到的残缺点云上检验VRCNet的补全能力。在Fig. 7中,残缺的汽车点云源于Kitti数据集(激光雷达采集),而残缺的桌子和椅子点云源于ScanNet数据集(深度相机采集),它们都没有对应的完整的点云。VRCNet通过学习和预测多种对称性,可以较好地生成高质量的完整点云。
Figure 7 在实际采集的残缺点云的补全效果对比

4.3 点云补全结果数值对比

与之前提出的方法对比,VRCNet在MVP(见Table 4)和C3D(见Table 3)数据集上取得更优的表现,并有着明显的提升。不同的分辨率下的点云补全实验(见 Table 2)进一步彰显出VRCNet的优越性。

05

结语
在本文中,我们提出了VRCNet,一个变分关联性点云补全网络。VRCNet可以通过学习关联性结构来预测完整点云。此外,我们还提出了多个新颖并且强力的基于自注意力的点云学习模块,如PSA和PSK,它们也可以很便捷地被运用到其他的点云学习任务中。特别地,我们贡献了一个大规模的点云数据集MVP,可以应用于多个点云学习任务,比如残缺点云分类和配准。我们强烈推荐研究人员在后续的点云研究中尝试我们提出的点云学习模块和数据集。

Limitations & Future work

引入更多的先验知识,以实现并支持预测出多个合理的完整点云(multi-modal)
更多地关注生成点云的分布,以实现局部点云均匀排布和离群点的去除
MVP数据集可以支持很多其他残缺点云相关的任务,包括上采样、配准等等

References

【1】Zheng, C., Cham, T. J., & Cai, J. (2019). Pluralistic image completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 1438-1447).
【2】Zhao, H., Jia, J., & Koltun, V. (2020). Exploring self-attention for image recognition. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 10076-10085).
【3】Li, X., Wang, W., Hu, X., & Yang, J. (2019). Selective kernel networks. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 510-519).
【4】Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Springer, Cham.
【5】Pan, L. (2020). ECG: Edge-aware Point Cloud Completion with Graph Convolution. IEEE Robotics and Automation Letters, 5(3), 4392-4398.
【6】Yuan, W., Khot, T., Held, D., Mertz, C., & Hebert, M. (2018, September). Pcn: Point completion network. In 2018 International Conference on 3D Vision (3DV) (pp. 728-737). IEEE.
【7】Tchapmi, L. P., Kosaraju, V., Rezatofighi, H., Reid, I., & Savarese, S. (2019). Topnet: Structural point cloud decoder. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 383-392).

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存