CVPR 2019 | 旷视研究院提出Geo-CNN:建模3D点云的局部几何结构
全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)将于 6 月 16-20 在美国洛杉矶如期而至。届时,旷视研究院将远赴盛会,助力计算机视觉技术的交流与落地。在此之前,我们将逐一对旷视研究院被 CVPR 2019 接收的论文进行解读, 本文是第 7 篇,旷视研究院检测(Detection)组提出一种建模点之间几何结构的 GeoConv 和一种分层式特征提取框架 Geo-CNN。
全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)将于 6 月 16-20 在美国洛杉矶如期而至。届时,旷视研究院将远赴盛会,助力计算机视觉技术的交流与落地。在此之前,我们将逐一对旷视研究院被 CVPR 2019 接收的论文进行解读, 本文是第 7 篇,旷视研究院检测(Detection)组提出一种建模点之间几何结构的 GeoConv 和一种分层式特征提取框架 Geo-CNN。
导语
简介
方法
使用Geo-CNN的分层特征提取
GeoConv:基向量分解和聚合的局部几何建模
通过Geo-CNN在特征层面近似3D多视角增强
实现
实验
结果
结论
参考文献
往期解读
导语
随着深度卷积神经网络(CNN)应有领域不断延展,深度学习社区也开始探索 CNN 如何直接建模 3D 点云中的点。研究表明,建模局部结构的能力对卷积架构的成功而言至关重要,而且社区也已在特征提取层次结构中使用局部点集的建模了。但是,局部区域中点之间的几何结构的显式建模仍然受到较少关注。
针对这一问题,旷视研究院在本文中提出 Geo-CNN,它为每个点及其局部近邻点应用了一种称为 GeoConv 的类似于通用卷积的操作。当该模型在提取中心点及其近邻点之间的边特征(edge feature)时,会得到这些点之间的局部几何关系。
其具体做法是先将边特征提取过程分解成三个正交的基向量,然后再基于边向量与基向量的夹角聚合提取出的特征。这能让网络在整个特征提取层次中保留在欧几里得空间中的几何结构。
GeoConv 是一种通用且有效的运算,可轻松集成到多种应用的 3D 点云分析流程中。在 ModelNet40 和 KITTI 上的评估结果也表明 Geo-CNN 几何特征在点云特征提取的重要性。
简介
随着 RGBD 相机和 LIDAR 等传感器的发展,很多计算机视觉任务可轻松获取和直接处理 3D 点云。近年来卷积神经网络(CNN)的发展让深度学习社区看到了将其应用于点云的潜力。
由于大多数点云分析流程是在输入时给出点的 3D 坐标,也许可以合理假设直接通过坐标隐式学习几何信息的可能性,但当前方法在几何建模方面面临着两个难题:
3D 坐标的巨大方差可能使得确定点之间的几何关系非常困难,同时也使得模型难以直接学习数据;
当前方法会将 3D 坐标投射到某个高维空间,可能无法保留原欧几里得空间中点的几何结构,尤其当特征提取层次较深之时。
针对上述问题,旷视研究院提出 GeoConv,可在整个特征提取层次中显式地建模点之间的几何结构。GeoConv 应用于每个点及一个由半径确定的局部球形邻域。
如图 1 所示,p 点到 q 点的向量
这种向量分解方法可降低点云的绝对坐标的方差,并使模型独立地沿每个基础方向学习边特征;然后,根据边向量与基向量之间的几何关系进行聚合,模型即可显式地建模这些点之间的几何结构。
这种学习方式能将复杂的几何结构学习分解为更简单的学习任务,同时保留其中的几何信息。最后,为提取中心点的局部特征,可基于
Geo-CNN 通过堆叠邻域愈大的多层 GeoConv 而得到,进而通过愈大的感受野提取特征;然后,通过通道上的最大池化聚合所有点的特征,以维持置换不变性。Geo-CNN 是一种通用模块,可轻松地集成到不同的 3D 点云分析流程中,比如 3D 形状分类、分割和目标检测。
方法
使用 Geo-CNN 的分层特征提取
以 3D 点集为输入,通过在每个点及其局部邻域上应用 GeoConv 获取局部几何结构,通过堆叠邻域愈大的多层 GeoConv 获取 Geo-CNN,这种做法能逐步扩大卷积的感受野并抽象愈大的局部区域,从而分层提取特征并沿层级保留点的几何结构(见图 2(a))。
经过几层 GeoConv 之后,再应用通道上的最大池化来聚合各个点的特征,以构建点云的全局特征描述量。这种特征描述量可用于 3D 形状识别、分割或检测网络的分类器。GeoConv 是一种通用型算子,可轻松地集成到当前的 3D 点云分析流程中用于提取局部特征,同时保留欧几里得空间中的几何结构。
GeoConv 运算的一般公式如下:
GeoConv:使用基于基向量的分解和聚合的局部几何建模
GeoConv 的重要之处在于其建模边特征的方式。
本文提出的方法是使用三个正交的基向量来分解边特征的提取过程:先应用与方向相关的矩阵沿各个方向独立提取边特征;然后基于向量
在实践中,为了区分每个基向量的正负方向,将六个基向量表示为:
B = {(1, 0, 0),(−1, 0, 0),(0, 1, 0), (0,−1, 0),(0, 0, 1),(0, 0, −1)}
如图 2(c) 所示,六个基向量将空间分为 8 个象限,任何象限中的特定向量皆可表示成其中三个基向量的加权组合。给定一个邻点 q,首先定位其所在的象限(这里使用的相对坐标系,p 为原点)。然后将向量
在应用了与方向相关的权重矩阵提取边特征沿每个方向的分量之后,再按以下方式将其聚合起来:
通过使用基于基向量的分解来建模边的几何性质,网络模型可独立学习提取每个方向的表征。较于直接学习 3D 坐标,这可降低学习任务的复杂度。通过沿每个基向量聚合特征,可以显式地建模每个点与其邻点之间的边向量的几何结构。通过使用 GeoConv 学习几何建模,新提出的网络模型可在该分层式特征提取框架的每个层级建模和保留 3D 点云的几何结构。
通过Geo-CNN在特征层面近似3D多视角增强
本文也使用 GeoConv 在特征层面近似旋转情况。这可通过在沿不同方向的边特征上共享计算且仅改变聚合模型而实现。具体而言,即通过操作 GeoConv 的聚合步骤来近似多视角训练和测试:
实现
如图 3 所示,有填充的框是指点特征和它们的维度。黑框是运算。其中首先是使用分解-聚合方法来提取更低维度的边特征,然后再扩大维度以匹配从中心点提取的特征。最后再聚合每个点的边特征。
实验
本文通过基于 ModelNet40 的 3D 形状分类任务评估了 Geo-CNN 在 3D 点云建模上的有效性。此外,研究者还将其集成到了 Frustrum PointNet 框架中,并基于 KITTI 评估了其在 3D 目标检测上的效果。
结果
在 CAD 生成的 3D 点云上的 3D 形状分类
表 1 给出了 Geo-CNN 与之前方法的结果比较。Geo-CNN 在 ModelNet40 的两个指标上都取得了当前最佳的目标分类表现。只通过将建模局部点集中边特征上的操作从全连接层改成 GeoConv,就相对基准取得了 1.6% 的整体准确度提升,这证明了新提出的几何建模方法的有效性。
通过进一步在特征层面上近似 3D多视角,还实现了 0.5% 的进一步增益。可以看到,本文提出的新方法可媲美集成多个网络的方法(当前最佳是 93.8%);但带有特征层面的近似多视角学习的单模型 Geo-CNN 具有更好的扩展性和灵活性。
在 LIDAR 点上的 3D 目标检测
表 2 给出了在 KITTI 3D 目标检测上的评估结果。本文的检测流程的实现基于 Frustum PointNet V1。通过将该模型的分割网络中的 PointNet 特征提取模块替换成 GeoConv,得到的 Frustum Geo-CNN 的表现优于 Frustum PointNet V1 及其改进版 V2。
结论
本文针对点之间的局部几何结构建模问题提出了 GeoConv 以及一种称为 Geo-CNN 的分层式特征提取框架。
GeoConv 显式建模两个点的几何结构,其具体做法是首先将特征提取过程分解到三个正交的方向,然后再基于边向量和基向量之间的夹角来聚合这些特征。实验结果表明,使用 GeoConv 的 Geo-CNN 在 ModelNet40 和 KITTI 数据集上皆取得当前最佳表现。
参考文献
A. Geiger. Are we ready for autonomous driving? the kitti vision benchmark suite. In Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), CVPR ’12, pages 3354–3361, Washington, DC, USA, 2012. IEEE Computer Society.
A.Kanezaki,Y.Matsushita,andY.Nishida.Multi-viewcon- volutional neural networks for 3d shape recognition. In Proc. CVPR, 2018.
H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d shape recognition. In Proc. ICCV, 2015.
C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deephi- erarchical feature learning on point sets in a metric space. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neu- ral Information Processing Systems 30, pages 5099–5108. Curran Associates, Inc., 2017.
Y. Wang, Y. Sun, Z. Liu, S. E. Sarma, M. M. Bronstein, and J. M. Solomon. Dynamic graph cnn for learning on point clouds. arXiv preprint arXiv:1801.07829, 2018.
Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In CVPR, pages 1912–1920. IEEE Computer Society, 2015.
往期解读
1. CVPR 2019 | 旷视研究院提出GIF2Video:首个深度学习 GIF 质量提升方法
2. CVPR 2019 | 旷视研究院Oral论文提出GeoNet:基于测地距离的点云分析深度网络
3. CVPR 2019 | 旷视研究院提出Meta-SR:单一模型实现超分辨率任意缩放因子
4. CVPR 2019 | 旷视研究院提出实时语义分割技术DFANet:高清虚化无需双摄
5. CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型
6. CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题
传送门 1
欢迎各位同学关注旷视研究院检测(Detection)组(以及知乎专栏“旷视Detection组”:https://zhuanlan.zhihu.com/c_1065911842173468672),简历可以投递给 Detection 组负责人俞刚 博士(yugang@megvii.com)。
传送门 2
欢迎大家关注如下 旷视研究院 官方微信号👇