查看原文
其他

成像专题 | 实时多人无标记三维运动捕捉 (IEEE CVPR)

Evan Peng IntelligentOptics 2022-08-24

实时多人无标记三维运动捕捉

Realtime Multi-Person Motion Capture Using Multiple Video Cameras



本期导读


    近期,影院的逐步解封开放对影视产业的发展是利好消息。对于很多好莱坞大片而言,动作捕捉技术(motion capture)是核心之一,其在影视、体育、安防等领域得到了广泛的应用。光学动作捕捉方式在人体表面贴上光学标记点,通过多个视角的高速相机对标记点进行捕捉,从而还原出人体的姿态,从《猩球崛起》的凯撒、《指环王》的咕噜再到《复仇者联盟》的灭霸以及《战斗天使》的阿丽塔,动作捕捉技术给我们带来了一场又一场的视觉盛宴。本期分享清华大学脑与智能科学研究所与天津大学合作完成的研究工作4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras,发表于IEEE CVPR 2020并作口头报告。研究人员提出了一种实时多人体无标记三维运动捕捉系统,并且展示了五个相机部署环境下5人实时(30fps)交互运动捕捉结果(文末有诸多结果动画)

技术背景

    传统动作捕捉分为两大类,光学动捕包括Motion Analysis,Vicon,Optitrack等,惯性动捕系统有Xsens,诺亦腾等。光学动捕系统通过在采集环境部署多个红外摄像头,再在演员的动捕服上放置光学标记球来求解出采集者的姿态信息,从而实现对人体运动的捕捉与动画映射。惯性动捕系统通过惯性测量单元(IMU)来采集肢体的运动信息,采集设备相对更轻便,但采集精度不如光学动捕系统。

    然而,无论是光学动捕还是惯性动捕都需要演员穿上特定的设备(如下图动画所示),不可避免地会影响到人体运动的真实性和动捕的使用范围。同时,相应的专业动捕设备往往价格不菲,很多有需求的小型工作室也会望而却步。因此,学术界和工业界都在极力研究“无标记运动捕捉”技术,即不需要任何穿戴设备,仅由相机观测和算法分析,就实现对多人体运动的实时准确捕捉。这种技术有着更加广泛的应用场景,例如无人售货超市、VR/AR游戏、远程全息通讯、数字人创建、虚拟主播、人机交互、全天候医疗监护等。


  

     近几年,随着深度学习技术的广泛普及,无标记动捕领域也诞生了许多革命性技术,例如实时2D多人体关键点检测技术OpenPose等。然而,多目标实时3D运动捕捉仍然是一个极具挑战性的问题,主要挑战因素包括:如何实现实时计算,如何进行高效的多视角关联,如何解决紧密交互带来的观测失真等。举个例子,当两个人拥抱在一起的时候,当前大多数检测或重建算法都会失效。而理论上,多视角的观测信号能够在一定算法设计下互相补充,尽可能解决单视角运动重建的歧义性。如何充分利用多视角的视频信号,实现复杂、紧密交互场景下的多人体运动捕捉是当前无标记运动捕捉领域的核心问题之一。

技术路线


图1:无标记多人实时运动捕捉效果


    该研究工作提出的多视角人体运动捕捉系统包括相机采集模块,2D姿态检测模块,4D关联图求解模块,三维骨架求解模块及渲染模块。其主要算法贡献在于提出并实现了4D Association算法

    当前的多视角运动捕捉系统大多采用的是序贯地匹配策略,首先对每个视角进行独立的人体检测和连接(例如,OpenPose检测关键点和关键点相互连接的概率,从而对人体进行连接;Mask-RCNN、AlphaPose和HRNet都需要先检测每个人的BoundingBox,然后对每个人进行独立的人体检测),然后对人体进行多视角关联和姿态求解,最后进行时域跟踪。这种常规方法的缺陷在于,当单个视角检测失败以后,后续的算法难以对失败的检测结果进行修正,从而将错误的检测传递到下一个步骤,影响跟踪效果,对于紧密交互(例如前文提到的两人拥抱)的情形,单视角的往往很难给出令人满意的检测结果,因此基于序贯式的算法一般会失效。


图2:4D Association算法流程图

  

    相较而言,该研究工作的创新性在于充分利用单图连接(2D)、多视角连接(1D)、和时域连接(1D)之间的相互约束从而进行全局优化,用多视角信息和时域信息来避免单视角连接的歧义性,同时也通过单视角连接结果来优化多视角的匹配,从而使得关联结果更趋向于全局最优。

    具体而言,文中提出了一种4D Graph的图结构,将上一帧的三维人体关键点(在初始帧或者人进入动捕范围的时候可以缺失,不影响算法的运行)和当前每一视角的2D关键点建模在同一个图结构中,用单图连接、多视角连接、时域连接的概率作为边的权值,将人体多视角关联的问题看成提取有效边的过程。为了快速地求解这个问题,文章进一步提出了一种基于完全子图的近似求解算法,高效地完成了从4D图结构中提出正确的人体连接。


图3:完全子图提取算法


    最终,该研究工作实现了紧密交互下人体的三维姿态重建,并展示了实时系统效果。其算法在多个数据集上均表现出了良好的视觉效果,在Shelf数据集上也取得了当前最好的数值结果,相信在影视、体育、安防等产业具有广泛的应用前景。


图4:不同数据上的视觉效果呈现于此,该算法可以处理较为复杂的交互运动,并且兼容更多相机和更多人的场景。



图5:论文效果与当前最好效果的比较。在紧密交互的场景下,该论文能够避免传统流程因检测失真带来的动捕失真。

    

论文信息: Yuxiang Zhang, Liang An, Tao Yu, Xiu Li, Kun Li, Yebin Liu, 4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras, IEEE CVPR (2020).

https://www.liuyebin.com/4dassociation/(包含论文、数据集、代码、视频等)


Ref: [Dong 14] Junting Dong, Wen Jiang, Qixing Huang, Hujun Bao, and Xiaowei Zhou. Fast and robust multi-person 3d pose estimation from multiple views. CVPR (2019).


回顾与预告


上期回顾:计算专题 | 用于VRAR头显的动态多频率视角图像着色渲染 (IEEE TVCG)(欢迎点击查阅)

下期预告:我们将不定期持续推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。


p.s. 本公众号IntelligentOpticsSharing (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台,还望大家多多海涵支持,欢迎拍砖。





end





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存