SIGGRAPH | 2D人体动作迁移与特征分解(附论文及代码链接)
关键词:动作分析 动作迁移
编者按
计算机领域规模最大、参与人数最多的顶级会议SIGGRAPH 2019将在今夏火热举行。北京大学陈宝权课题组与北京电影学院和山东大学合作共有3篇论文获得接收,另有一篇ACM Transaction on Graphics录用论文,共4篇论文将在SIGGRAPH上宣读。本篇为其中的一篇:《Learning Character-Agnostic Motion for Motion Retargeting in 2D 》的解读。其他论文解读,敬请关注后续报道。
该论文由北京大学2016级图灵班大三学生吴润迪与北京电影学院Kfir Aberman合作,由北京大学前沿计算中心执行主任陈宝权教授和以色列希伯来大学Dani Lischinski教授、特拉维夫大学Daniel Cohen-Or教授共同指导。双盲评审中,5位评审人有3位给出最高分 strong accept!
获取论文和代码,请点文末“阅读原文”。
简介
人体动作迁移(motion retargeting),即将一个人的动作迁移到另一个人身上,对于计算机动画领域有着重要意义。不同的人有着不同的骨架比例,如何在保持其自身骨架的同时嫁接上他人的动作是这一问题的难点所在。尽管人是在三维空间中运动,但大量的人体动作都是通过2D的视频采集的。那么传统的3D动作迁移的方法应用到2D视频中时,就首先需要2D到3D的人体姿态和相机参数的估计。因此,我们提出了一种新的、针对视频播捉的2D人体动作的迁移方法,避免了3D人体姿态估计和相机参数恢复的过程。
Overview
方法概述
为了实现我们的目标,我们希望从视频中学习到一个与人体骨架(skeleton)和相机位姿(camera view)无关的高层的动作特征表示。方法的核心思想在于通过训练一个神经网络,将2D人体姿态序列分解成三个高层特征,分别表示人体动作、人体骨架和相机视角。特征分解之后,再重新组合,通过一个decoder解码成目标的2D人体姿态序列。
Representation
Decompose and Recompose
为简化描述,将人体骨架和相机位姿视为静态特征。训练时,每次取两个数据样本p_(i,j), p_(k,l),分别输入给两个encoder,得到各自的动作特征(m_i, m_k)和静态特征(s_j, s_l)。然后双方交换动作特征和静态特征,重新组合后再输入给decoder,得到预测的迁移结果(p_(i,l), p_(k,j)),再与ground truth做l2 loss。另外,训练过程中也在特征空间上加triplet loss用于动作特征和静态特征更好的分离,公式详见论文。 Ground truth是通过Adobe Mixamo 3D动画集投影到2D构建的。
Training Procedure
结果分析
通过聚类分析的方法,我们验证了所描述的框架起到了特征分离的效果,在三个特征空间上有着较好的聚类结构。应用我们的方法,可以从人体骨架和相机位姿两个角度进行动作迁移。
Skeleton Retargeting
View Angle Retargeting
我们将结果与简单的2D方法和先前的3D方法进行了比较,包括直接在Mixamo数据集与ground truth的对比和在真实视频上的整个迁移流程的对比。在真实视频的对比上,我们采用OpenPose来提取2D的人体姿态,用于比较的算法采用HMR/VNect 3D人体姿态估计。
Comparison on Mixamo Dataset
Comparison on Real Videos
应用
有了骨架上的动作迁移之后,我们可以基于此做图像生成,这就是performance cloning。之前的performance cloning方法大多使用简单的global scaling做骨架转换或者需要3D的先验知识,因此限制了其应用范围,而我们的方法不受此约束且能够产生更加合理的结果。
Performance Cloning
讨论
我们提出了一种分析视频捕捉动作的技术,能够直接在2D下做动作迁移,显式地绕开了2D到3D的姿态/相机估计过程。作为模型训练的副产物,特征隐空间显示出一定的聚类结构。尽管如此,动作特征和静态特征的分离尚未完全,动作特征空间依然包含部分静态特征的信息,如何更好地分离特征依然是值得研究的方向。此外,尽管我们显示的绕开3D重建的过程,与骨架和视角无关的动作特征空间隐式地暗含着3D信息,如何利用这样的动作空间辅助3D重建也是一个未来研究方向。
更多细节,请点“阅读原文”浏览项目主页,提供论文、视频及代码下载。
关于SIGGRAPH
SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) 是计算机领域规模最大的顶级会议、CCF A类会议,参加人数达2万余人,每年收录百余篇图形学相关的优秀论文,是计算机图形领域集技术、艺术与展览于一体的盛会。SIGGRAPH 2019将于2019年7月28日-8月1日在美国洛杉矶举行。
图文 | 吴润迪
Visual Computing and Learning
近 期 热 点
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”浏览项目主页