查看原文
其他

元来是你14|闻歌起舞,AI编舞师(舞王)来了!

AI闻歌起舞 元象XVERSE 2023-12-09

作为AI驱动的3D内容生产与消费一站式平台,元象持续拓展3D AIGC能力。今天将展开讲讲我们数字人的AIGC能力:歌曲生成舞蹈。

在大部分数字人“看脸”和“比谈吐”时,我们让AI“舞”力全开——输入歌曲,自动生成花式舞蹈,在动作个性化和表现力上更进一步,成为“闻歌起舞”的AI编舞师(舞王)。

元象 3D AIGC 能力
文本
语音
‍图片
3D场3D人3D物

对话生成

空间音频

文生图

大世界

视频动捕

物体生成


歌声合成

图生图

路网

AI编舞





NeRF

手势生成


 全文共计4200字,预计阅读14分钟。

话不多说,先上才艺。


元象AI编舞师综合能力展示

  本文将分为两部分

  1. 应用篇:5个问题轻松了解AI编舞师是什么及如何应用。

  2. 研发篇:详细介绍元象自研的 GTN-Bailando AI编舞算法是如何解决舞蹈流派与音乐节拍一致性问题。



  为什么让AI编舞或跳舞?


传统手K动画或动捕方法生成3D舞蹈动作,只要音乐一换,就得全部重做,时间和人力投入大。AI编舞从学习到制作的速度很快,可以降本增效,也能帮助普及舞蹈艺术。

  元象有什么黑科技?


元象持续攻克舞蹈流派一致性难点,让AI不会在跳嘻哈时混入芭蕾动作,编舞准确流畅,更富表现力。

  元象AI编舞师有哪些特点和优势?


学得多:能生成爵士、韩舞、芭蕾到跨流派(如芭蕾嘻哈)等十多种舞蹈。


AI编舞师生成多种舞蹈


学得快:根据舞蹈难度和所学视频质量,最快数小时学会一种新舞。

品质高:生成舞蹈种类多样,富有创造力和启发性;在音乐节拍对齐的主客观评测中表现出色,编舞更准确流畅,富有表现力。

高适配:支持单人到多人舞蹈的动作、节奏与风格编辑,并能实时看到效果。

AI编舞师可控编辑


  如何评估AI编舞好坏?


可以看舞蹈动作是否丰富多样,在空间上保证动作标准与美感,在时间上动作要与不同音乐风格节奏一致。


  应用场景有哪些?


在元宇宙、游戏、虚拟现实、影视演出场景中,提升人物、场景和故事表现力,包括但不限于:


表演:提高3D数字人的动作表现力、真实感和娱乐性,还可用于音乐会、演唱会等数实融合场景;


虚拟人舞台表演效果‍‍

创作:为编舞师和导演提供大量创意灵感,辅助复杂动作设计编排与呈现;


教育:为学生提供学习资源和辅助教学,更好理解舞蹈动作、姿态和步伐。


也欢迎与我们专家交流,定制您的数字人方案。






元象的“数字人多模态交互”规划,全面覆盖了3D数字人语音、语言、形象三个模态的相互作用和转换关系。我们与清华大学联合探索音乐智能和语音交互,此次研究就集中在前者,我们将介绍联合自研的GTN-Bailando算法,如何重点攻克“流派一致性”难题。

 研发背景 

舞蹈的流派(genre)信息是不同类型和风格舞蹈所产生的表现形式。不同流派的舞蹈常有不同的起源、特点和表现手段,丰富了舞蹈的多样性。现有的大多数舞蹈生成方案忽略了流派信息,导致所生成舞蹈不具备流派一致性(genre-consistency)。例如,一段以嘻哈音乐为条件所生成的舞蹈中,若混入了芭蕾的舞蹈动作,会严重影响这段舞蹈的视觉质量。


近期有少量方案关注到舞蹈流派信息,但这些方案在生成过程中需要手动确定流派。结合编舞专家知识,我们发现在编舞过程中,编舞师可根据背景音乐风格确定所编排的舞蹈流派,因此舞蹈流派信息与其音乐应当存在特定相关性。

 创新方法 


基于此,我们提出了GTN-B,一种流派一致的长序列舞蹈生成框架。


  流派令牌网络


我们提出了流派令牌网络(Genre Token Network,GTN)。GTN学习音乐与流派之间的相关性,以音乐作为输入,来推断流派信息。如图1所示,GTN主要由三个模块组成——参考编码器(Reference Encoder)、流派令牌层(Genre Token Layer)和流派嵌入(Genre Embedding)。


图1:流派令牌网络(Genre Token Network,GTN)


其中,参考编码器用于将音频信号压缩为设定长度的矢量。在所提出方案中,音乐片段的梅尔谱(Mel-spectrogram)被送到参考编码器,并被压缩到成学习的参考嵌入(Reference Embedding)。

流派令牌层包括一组流派令牌嵌入(Genre Token Embedding)和注意力模块(Attention Module),该注意力模块使用参考嵌入作为查询(Query)向量。注意力模块学习参考嵌入和一组随机初始化嵌入中的每个令牌之间的相似性度量。这组嵌入,也称为流派令牌,在所有音乐片段中共享。流派令牌层的输出是输入音乐属于每个流派的概率。为了提高流派令牌网络的鲁棒性,使用软嵌入方法来表示流派,即,令牌被概率加权相加,形成嵌入。

为了增强音乐和流派之间的相关性,令牌的数量被设置为与流派的数量一致。同时,流派标签被转换为一个一维嵌入,并被引入流派令牌层,作为令牌权重的目标。因此,流派令牌网络通过监督训练进行优化,流派标签和流派令牌权重之间的交叉熵损失如下:
其中  和  分别代表第t个时间片段的流派标签向量、流派令牌权重向量,T代表音乐总共的片段个数,CE代表交叉熵损失。舞蹈生成框架 所提出的舞蹈生成框架在Bailando所提出的舞蹈生成框架上进行修改。我们认为舞蹈动作的速度与音乐能量之间存在相关性。因此在舞蹈生成框架中,我们引入了能量特征,以提高生成的舞蹈的运动质量。

  舞蹈生成框架


所提出的舞蹈生成框架在Bailando所提出的舞蹈生成框架上进行修改。我们认为舞蹈动作的速度与音乐能量之间存在相关性。因此在舞蹈生成框架中,我们引入了能量特征,以提高生成的舞蹈的运动质量。


图2:舞蹈生成框架
如图2所示,给定音乐作为输入,所提出框架首先提取能量和音乐特征,并分别嵌入至可学习向量。同时,提取音乐的梅尔谱,将其送入到GTN以生成流派嵌入。然后,拼接,并与相加,形成m。
对于舞蹈,参考Bailando,首先将舞蹈片段的骨骼节点位置信息送入至VQ-VAE编码器,以生成上半身和下半身姿态编码,然后将其分别嵌入可学习向量u和l。
之后,我们拼接m、u、l,并添加一个位置嵌入,送入至GPT中。最后得到了GPT的输出,即上半身和下半身姿态编码的概率。我们依据此概率预测出上半身和下半身姿态编码,并将其送入VQ-VAE解码器以获得舞蹈动作。
在此,我们对GTN使用了teacher-forcing的方法,来提高舞蹈生成框架的整体流派一致性。GPT通过监督训练进行优化,预测动作概率a和ground-truth姿态代码p之间的交叉熵损失如下:
基于此,舞蹈生成框架的损失可以计算为:

  预训练与微调策略

由于AIST++数据集中的音乐数据不足,GTN很难从音乐中准确推断类型。因此,为了加强每个流派与其对应音乐之间的相关性,我们预先收集了大量带有流派标签的舞蹈背景音乐,以预训练流派令牌网络。之后,在训练舞蹈生成框架GPT的过程中,我们使用AIST++数据集来微调流派令牌网络,以使GTN可以更有效地推断音乐的类型,以进一步增强生成舞蹈的流派一致性。为了防止GTN在微调期间过拟合,在训练到达一定迭代次数后冻结GTN。
 实验结果 

实验结果表明,所提出的舞蹈生成框架和预训练策略在评估指标和可视化效果方面都有显著提升。我们所提出的方法与Bailando和FACT进行了比较。对于每种方法,本方案在AIST++测试集中生成20个舞蹈片段,并将生成的舞蹈剪成20秒的长度。

  流派一致性可视化

为了进一步评估生成的舞蹈的流派一致性,我们对于所提出框架和Bailando生成的舞蹈结果进行了可视化。我们从每个框架生成的“LO”(locking)流派舞蹈中随机选择一个20秒的片段,并以1FPS的频率对结果进行采样。如图3所示,给定一个音乐片段,由Bailando生成的舞蹈表演多种舞蹈类型。然而,所提出的框架可以推断流派,并生成与音乐旋律相匹配且与“LO”流派一致的舞蹈。


图3:流派一致性可视化


  流派嵌入可视化

我们通过t-SNE方法可视化的不同流派的流派嵌入,并使用AIST++测试集来验证舞蹈生成框架中的GTN。如图4所示,不同的流派嵌入彼此可以很好地分离,证明GTN可以合理地从音乐中推断流派。
图4:流派嵌入可视化

  主观评测

主观评测由24名参与者进行。参与者被要求评估舞蹈质量和流派的一致性,并在1-5分的范围内以1分的间隔对舞蹈进行评分(5分最高、1分最低)。表1的最后两列报告了舞蹈质量和流派一致性的MOS分数。所提出的模型优于所有baseline模型,表明GTN可以建立音乐和流派之间的相关性。此外,以推断的流派作为条件,所提出的舞蹈生成框架可以生成更高质量和流派一致的舞蹈。


表1:评估结果


  客观评测

参考Bailando,客观评测主要评估生成舞蹈的质量和多样性,以及与音乐节拍对齐情况。具体而言,对于质量,我们计算了动力学和几何学的弗雷歇距离(FID),FID越低,生成的舞蹈越接近ground-truth。同样,我们对于生成舞蹈的动作计算了动力学和几何学的多样性(DIV),DIV越高,生成的舞蹈动作越多样。对于节拍对齐程度,我们计算了音乐节拍和运动节拍之间的节拍对齐分数(BAS),BAS越高,生成的舞蹈越踩拍。
如表1所示,所提出的框架在各个方面都优于其他方案。表明,所提出的舞蹈生成框架通过考虑流派和能量,可以生成更高质量、更多样的舞蹈,并提升了舞蹈动作和音乐节拍之间的对齐程度。

  消融实验

如表1后4行所示,当在没有和不采取teacher-forcing时,生成的舞蹈将与ground-truth有一定的差异,并且多样性较低。如果不考虑舞蹈动作的速度和音乐能量之间的相关性,舞蹈的表现力就会降低。当不使用预训练和微调策略时,尽管可以生成与ground-truth相似的舞蹈,但由于GTN泛化能力差,其在流派一致性方面会受到限制。

  Demopage

更多的流派一致性可视化结果以及舞蹈视频结果可以访问demopage查看。
链接:https://im1eon.github.io/ICASSP23-GTNB-DG/

  其他影响因素 


除保持流派一致性,舞蹈可控性方面还有一些影响技术落地的关键因素因素,对于这些关键影响因素我们针对性给出了解决方案。


针对动作多样性可控方面,我们建立了大规模的精度舞蹈数据数据库,并引入生成扰动信号来解决多样性可控问题。


位置和朝向可控方面,我们根据舞蹈动作的特点,经过每帧位置变化、修正人物朝向/舞台朝向的方式来控制人物大部分时间可以在中心+面朝镜头方向跳舞。


在实际应用过程中,针对不同项目个性化的角色,我们在定义统一的骨骼标准基础上,用retargeting技术来解决。


舞蹈路径可控,我们借鉴语音识别中的viterbi搜索技术,通过多目标优化的损失函数,找到合适的舞蹈片段,对比网易baseline显著提升了路径移动速度,满足了高自由度多人舞蹈生成的需要。


目前现有数据集中,高质量且清晰的舞蹈和音乐数量还不多,未来随着数据集的扩大,“闻歌起舞”的生成效果会不断提升。



- 关于我们 -


- 推荐阅读 -

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存