SIGGRAPH 2020 | 从视频到动画的无配对动作风格迁移
关键词:Style Transfer
编者按
生命在于运“动”,场景在于“动”态,摄影在于相机移“动”。“动”是常态,也是图形生成、理解与呈现的核心研究对象。
人体动作是否有最精简的表达?不同动作风格是否能够独立于动作的内容而描述,由此同一个动作能够被赋予不同的风格?磁流体的千姿百态能否通过物理建模来模拟呈现?移动相机的轨迹规划是一个专业性很强的操作,这一经验能否从已有专业视频中学习得到?李沛卓(图灵班17级)、翁伊嘉(图灵班17级)、倪星宇(图灵班16级)、蒋鸿达(博士19级)四位同学与国内外学者合作,分别针对这些问题进行研究,相关成果将发表在7月份的 SIGGRAPH 会议。
因为疫情,今年的 SIGGRAPH 会议改为在线,第一次“出道”的四位同学遗憾不能现场享受传统的视觉盛宴。基于 SIGGRAPH 的创意基因,这次虚拟会议更值得期待。
——陈宝权
于静园
论文地址:https://arxiv.org/abs/2005.05751
项目主页:
https://deepmotionediting.github.io/style_transfer
项目代码:
https://github.com/DeepMotionEditing/deep-motion-editing
* 为共同第一作者
01
引言
“风格”是人类动作的重要组成部分。通过观察一个人走路时的动作细节,我们往往能推测出走路者的情绪、年龄乃至性格。在制作角色动画时,我们也希望生成具有多样风格的动作,从而增强真实感与表现力。传统的动作捕捉技术成本高昂,基于已有动作进行风格迁移——从动作片段 S 中提取风格信息,应用到动作片段 C 的内容上——是更加经济可行的做法。
已有的动作风格迁移方法 [1] 大多依赖于成对训练数据,即内容(如脚步、运动轨迹)完全相同,仅风格不同的动作;此外,它们往往不能迁移训练中从未出现的风格。为了突破这些限制,我们提出了一种新的动作风格迁移框架,直接从无配对、仅含风格标签的训练数据中学习,能在测试阶段迁移从未见过的新风格。进一步地,它能绕过三维重建,直接从二维视频中提取风格,迁移到三维动作上,大大拓展了动作风格迁移的应用范围。
02
方法简介
网络结构示意图
我们的网络由生成器和判别器组成,使用包含风格标签的动作训练。生成器以内容动作片段 c、风格为 a 的风格动作片段 s 为输入,输出具有风格 a、但内容与 c 一致的动作 c'。判别器以单个动作片段为输入,对于每个训练风格类,判断输入动作是否是属于该类的真实动作。训练阶段,除生成器-判别器的对抗损失函数外,我们还使用“内容一致性损失”防止生成器直接忽略内容输入:以风格为 a 的内容动作片段 c,风格同样为 a 的另一个风格动作片段 s 为输入,强制生成器重建内容输入 c。
生成器具体包含内容编码器、风格编码器与解码器。内容编码器使用时序卷积将动作编码为包含时序信息的内容向量,并用实例归一化(Instance Normalization)处理中间阶段的特征,破坏其中的风格信息。
风格编码器使用时序卷积和池化操作,将动作编码为不含时序信息的固定长度风格向量。我们为二维、三维输入各训练了一个编码器,在训练阶段,将三维训练数据与它的二维投影分别作为输入,惩罚输出编码之间的距离,从而使两个风格编码器能把二维/三维的输入映射到同一个风格向量空间。
分别编码自二维、三维动画的风格向量的t-SNE可视化
在解码阶段,我们对内容向量进行卷积与上采样,并采用自适应实例归一化(Adaptive Instance Normalization)注入风格向量的信息:我们将风格向量映射为每个特征的目标均值与标准差,以此为依据逐通道地调整特征。这一调整具有时序不变性,在保留动作时序信息的同时改变其风格信息。
每张图对应一个特征通道,展示了相同时序信号以8种不同的风格向量为输入,经自适应实例归一化后的输出
03
结果展示
我们的方法能够基于内容、风格动作片段给出高质量的迁移结果。输入片段无需具有相似的动作内容。
以三维动画为风格输入的迁移结果
对于视频输入,我们使用 OpenPose [2] 提取骨架信息,将得到的二维动作作为网络的风格动作输入。
以视频为风格输入的迁移结果
从左到右依次是内容动作输入、风格动作输入、[3] 的结果和我们的结果
更多细节请参考以下视频:
参考
[1] Shihong Xia, Congyi Wang, Jinxiang Chai, and Jessica Hodgins. 2015. Realtime style transfer for unlabeled heterogeneous human motion. ACM Transactions on Graphics (TOG) 34, 4 (2015), 119.
[2] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).
[3] Daniel Holden, Jun Saito, and Taku Komura. 2016. A deep learning framework for character motion synthesis and editing. ACM Transactions on Graphics (TOG) 35, 4 (2016), 138.
SIGGRAPH
SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) 是计算机领域规模最大的顶级会议、CCF A类会议,参加人数达2万余人,每年收录百余篇图形学相关的优秀论文,是计算机图形领域集技术、艺术与展览于一体的盛会。因新冠疫情影响,SIGGRAPH 2020将首次以在线方式举行。
图文 | 翁伊嘉
Visual Computing and Learning (VCL)
可视计算与学习实验室
Visual Computing and Learning
可视计算与学习实验室隶属北京大学前沿计算研究中心,在陈宝权教授带领下,围绕图形学、三维视觉、可视化及机器人等领域展开科学研究,坚持跨学科前沿技术探索、视觉艺术和技术融合两条主线,长期与顶级国际团队深度合作,并积极进行产业化实践与推广。
扫码关注课题组最新动态
微信号:PKU_VCL_lab
VCL 近 期 科 研 成 果
— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。
点击“阅读原文”跳转项目主页