CVPR 2023 | 从虚拟标记中估计三维人体网格
关键词:三维人体网格估计,虚拟标记
导 读
本文是对发表于计算机视觉领域顶级会议 CVPR 2023 的论文 3D Human Mesh Estimation from Virtual Markers 的解读。该论文由北京大学王亦洲课题组与微软亚洲研究院合作完成。
该工作提出了一种名为虚拟标记(Virtual Marker)的中间表示方法,可以在野外图像中准确检测64个关键点,并从中重建具有逼真人体形态和姿态的完整网格(3D mesh)。实验表明所提方法在三个数据集上优于现有最先进方法,在未见过的图像场景中具有强大的泛化能力。
论文链接:
https://arxiv.org/pdf/2303.11726.pdf
项目代码:
https://github.com/ShirleyMaxx/VirtualMarker
项目主页:
https://shirleymaxx.github.io/virtual_marker/
视频介绍:
https://www.youtube.com/watch?v=je2gNUiYl2c
01
背景介绍
单视角三维人体网格估计是一个具有挑战性的三维视觉任务,具有重要研究意义。先驱方法如 HMR[1]提出从图像直接回归 SMPL 模型的姿态和形态参数(图1)。
图1. 先驱方法 HMR[1]提出从图像直接回归 SMPL 模型的姿态和形态参数
虽然直接,但由于从图像特征到模型参数的映射高度非线性且存在图像-模型不匹配,其精度通常受限。为了缓解学习难度,一些方法提出先引入代理任务以获得中间表示,例如人体骨架(图2a)、物理标记(图2b)等,然后再从中间表示恢复完整的网格。然而,从简化的三维骨架中恢复准确的人体形态很难。物理标记可以解释为身体形态和姿态的简化表示。虽然非常精确,但昂贵且很少有数据集对其进行标记,这限制了它们在没有标记的野外图像中的应用。
图2a. 基于人体骨架表示回归人体网格[2]
图2b. 基于物理标记表示回归人体网格[3]
为此本文提出一种新颖的中间表示方法,称为虚拟标记,它基于大规模动作捕捉数据学习出身体表面上的64个关键点,模仿物理标记的效果。虚拟标记可以从野外图像中准确检测出来,并通过简单的插值重建具有逼真形态的完整网格。
02
方法概览
基于上述相关研究,是否可以在网格上定位一组虚拟标记,类似肘部和手腕,使得这些标记可以从野外图像中检测出来,并可以从中恢复准确的人体形态和姿态。此时该虚拟标记应满足几个要求。首先,标记数量应远小于网格顶点数量,以便可以有效地估计它们的 3D 位置。其次,标记应捕捉网格拓扑结构,以便可以从中准确地回归完整的网格。第三,虚拟标记具有可区分的视觉模式,使其可以从图像中检测出来。为此,本文提出了一种基于原型分析[4]的学习算法,以优化出一组网格顶点的子集作为虚拟标记,并尽可能满足上述要求。图3展示了学习到的虚拟标记,可以看到它们粗略地勾勒出身体形态和姿态。理想情况下,学习到的虚拟标记可以以足够准确的方式重建整个网格(误差在11mm 以内),为估计具有准确形态的网格铺平了道路。
图3. 从大规模动作捕捉数据中学习到的虚拟标记
基于虚拟标记表达,我们提出了一个简单而有效的框架(图4),用于从单个图像进行端到端 3D 人体网格估计。它由两个分支组成。第一个分支估计虚拟标记的 3D 位置,第二个分支通过预测系数矩阵重建全网格。然后通过简单地将两个矩阵相乘来重建网格。
因为在实际实践中,一些虚拟标记可能有很大的估计误差,因为它们可能在单目设置中被遮挡。请注意,这种情况经常发生。例如,当一个人面对相机时,后背的虚拟标记将被遮挡。因此,如果我们直接将估计的虚拟标记与固定矩阵 A 相乘,不准确的标记位置可能会给最终网格带来很大的误差。因此,我们的解决方案是更多地依赖那些准确检测到的虚拟标记。为此,我们建议根据虚拟标记的估计置信度分数更新系数矩阵 A。
图4. 模型整体框架,基于虚拟标记表达,动态更新矩阵A用于恢复完整网格
03
实验结论
本工作在三个基准数据集上评估了本文的方法,Virtual Marker 均达到了最佳水平并且具有强大的泛化能力。表1展示了在 H3.6M,3DPW 和 SURREAL 三个数据集上的表现,评价指标是预测网格与真实网格的平均格点误差值(MPVE,Mean Per Vertex Error),单位为毫米。
表1. 本工作的方法与现有工作在 H3.6M,3DPW 和 SURREAL 三个数据集上的定量误差结果(越小越好)
表2展示了在 H3.6M 和 SURREAL 数据集上的虚拟标记表示的消融研究。(a)“Skeleton”意味着使用骨架作为中间表示。(b)“Rand VM”是指虚拟标记是从所有顶点中随机选择的,无需学习。(c) 是本方法,使用了学习到的虚拟标记。结果证明了虚拟标记的有效性。
表2. 在 H3.6M 和 SURREAL 数据集上的虚拟标记表示的消融研究
图5展示了本方法的可视化结果,可以看到本工作的方法能准确地估计出人体的形态和姿态,对图像中的背景,遮挡都非常鲁棒。第二行展示了本方法在真实自然图像上的结果,可以看到本方法具有非常强的泛化能力。右上角展示了失败案例,由于严重遮挡,我们的方法对左腿的姿态估计错误,但得益于虚拟标记的数学性质,失败可以控制在局部范围。
图5. 上图:本方法对 3DPW 测试集的图像估计的网格。虚线框中最右边的案例显示了一个典型的失败案例。下图:本方法对挑战性输入(极端形态或长裙)的真实自然图像的方法估计的人体网格
下面展示了更多的本方法在真实自然场景下的可视化效果,验证了该方法的强大泛化能力。
04
总 结
本工作提出了一种新颖的中间表示,虚拟标记,它比流行的骨架表示更具表现力,并且比物理标记更易于获得。它可以更准确、更高效地重建 3D 网格,尤其是在处理各种体型方面。此外,虚拟标记表示中的系数矩阵对网格顶点之间的空间关系进行编码,这使得该方法可以隐式地探索人体的结构先验。它实现了比最先进的方法更好的网格估计结果,尽管它很简单,但显示出先进的泛化潜力。
参考文献
[1] Angjoo Kanazawa, Michael J Black, David W Jacobs, and Jitendra Malik. End-to-end recovery of human shape and pose. In CVPR, pages 7122–7131, 2018.
[2] Hongsuk Choi, Gyeongsik Moon, and Kyoung Mu Lee. Pose2mesh: Graph convolutional network for 3d human pose and mesh recovery from a 2d human pose. In ECCV, pages 769–787, 2020.
[3] Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T Freeman, Rahul Sukthankar, and Cristian Sminchis- escu. Thundr: Transformer-based 3d human reconstruction with markers. In ICCV, pages 12971–12980, 2021.
[4] Yuansi Chen, Julien Mairal, and Zaid Harchaoui. Fast and robust archetypal analysis for representation learning. In CVPR, pages 1478–1485, 2014.
图文 | 马霄璇
Computer Vision and Digital Art (CVDA)
About CVDA
The Computer Vision and Digital Art (CVDA) research group was founded in 2007 within the Institute of Digital Media at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.
CVDA近期科研动态
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”转论文地址