CVPR2020 | 旷视研究院提出PVN3D:基于3D关键点投票网络的单目6DoF位姿估计算法
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14-19 日在美国西雅图举行。近日,大会官方论文结果公布,旷视研究院 16 篇论文被收录,研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像等众多领域,取得多项领先的技术研究成果,这与即将开源的旷视AI平台Brain++密不可分。
本文是旷视CVPR2020论文系列解读第 1 篇,提出一种新颖的基于单张 RGBD 图像的物体6D位姿估计算法;不同于现有的直接回归位姿参数的方法,它开创性地提出用深度神经网络检测 3D 关键点来解决单目 6D 位姿估计这个问题。论文代码已开源。
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14-19 日在美国西雅图举行。近日,大会官方论文结果公布,旷视研究院 16 篇论文被收录,研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像等众多领域,取得多项领先的技术研究成果,这与即将开源的旷视AI平台Brain++密不可分。
本文是旷视CVPR2020论文系列解读第 1 篇,提出一种新颖的基于单张 RGBD 图像的物体6D位姿估计算法;不同于现有的直接回归位姿参数的方法,它开创性地提出用深度神经网络检测 3D 关键点来解决单目 6D 位姿估计这个问题。论文代码已开源。
论文名称:PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
论文链接:https://arxiv.org/abs/1911.04231
论文代码:https://github.com/ethnhe/PVN3D.git
目录
导语
简介
方法
概述
学习算法
3D关键点检测模块
实例语义分割模块
多任务学习
实验
在YCB-Video和LineMOD基准上的实验结果
消融实验
结论
参考文献
导语
简介
图 1:PVN3D位姿估计流程
方法
概述
图 2:PVN3D 图示
学习算法
3D关键点检测模块
实例语义分割模块
多任务学习
本文使用一个多任务损失函数联合监督 M_k、M_s、M_c 的学习:
实验
在YCB-Video和LineMOD基准上的实验结果
表 1:不同方法在YCB-Video数据集上的量化结果
表 2 给出使用 ground truth 分割的评估结果,PVN3D 依然取得最佳性能。
图 3 可视化了在YCB-Video数据集上的一些预测结果,PVN3D 比先前方法更准确。
图 3:在YCB-Video数据集上的定性结果
图 4:YCB-Video数据集上不同程度的遮挡下算法的性能曲线
表 3 给出了在 LineMOD 数据集上的量化结果,本文模型同样取得当前最佳性能。
消融实验
结论
欢迎加入旷视AI摄影技术交流群
或者添加微信farman7230 备注摄影
论文视频
参考文献
Peng, S., Liu, Y., Huang, Q., Zhou, X., & Bao, H. (2019). Pvnet: Pixel-wise voting network for 6dof pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4561-4570).
Xu, D., Anguelov, D., & Jain, A. (2018). Pointfusion: Deep sensor fusion for 3d bounding box estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 244-253).
Qi, C. R., Litany, O., He, K., & Guibas, L. J. (2019). Deep hough voting for 3d object detection in point clouds. In Proceedings of the IEEE International Conference on Computer Vision (pp. 9277-9286).
Qi, C. R., Liu, W., Wu, C., Su, H., & Guibas, L. J. (2018). Frustum pointnets for 3d object detection from rgb-d data. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 918-927).
Wang, C., Xu, D., Zhu, Y., Martín-Martín, R., Lu, C., Fei-Fei, L., & Savarese, S. (2019). Densefusion: 6d object pose estimation by iterative dense fusion. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3343-3352).
Comaniciu, D., & Meer, P. (2002). Mean shift: A robust approach toward feature space analysis. IEEE Transactions on pattern analysis and machine intelligence, 24(5), 603-619..
Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., & Tian, Q. (2019). Centernet: Keypoint triplets for object detection. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6569-6578).