查看原文
其他

Champ - 人体图像静态图片生成动画

renee创业狗 Renee 创业随笔
2024-10-09

今天分享一篇来自南京大学、复旦大学以及阿里的论文:《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》。

效果

项目介绍

Champ是一种利用3D人体参数模型在潜在扩散框架内进行人体图像动画的方法,以增强当前人体生成技术中的形状对齐和运动指导。该方法利用SMPL(Skinned Multi-Person Linear)模型作为3D人体参数模型,建立了身体形状和姿势的统一表示。这有助于从源视频准确捕捉复杂的人体几何和运动特征。具体而言,Champ结合了从SMPL序列获得的渲染深度图像、法线图和语义图,以及基于骨架的运动指导,将细致的3D形状和详细的姿势属性丰富到潜在扩散模型的条件中。Champ采用了一个多层运动融合模块,集成了自注意机制,用于在空间域中融合形状和运动潜在表示。通过将3D人体参数模型表示为运动指导,Champ可以在参考图像和源视频运动之间执行参数形状对齐。在基准数据集上进行的实验评估表明,该方法生成的高质量人体动画能够准确捕捉姿势和形状变化。此外,Champ在提出的wild数据集上还表现出优越的泛化能力。

Showcases

提出的方法展示了一种新颖的能力,通过利用参考图像和经过预设的动作序列,结合3D人体参数模型,生成时间连贯、视觉逼真的人体图像动画。此外,它还展示了在生成的视频中改善形状对齐和运动引导的增强能力。这种方法有助于动画化各种类型的角色,包括展示明显领域变化的肖像,例如:

(a) 一幅新古典主义油画,描绘了一位身穿白色连衣裙和毛皮大衣的女性。

(b) 一幅水彩画的女性肖像。 

(c) 一幅名为《亚美尼亚女王》的油画。

此外,它还能够动画化从文本到图像扩散模型中衍生出的角色,包括以下提示:

(d) 一幅穿着黄色连衣裙的女性画像,重金属漫画封面艺术,太空主题。 

(e) 一位穿着银色连衣裙摆姿势的女性,在CG Society上流行,未来主义,明亮的蓝色眼睛。 

(f) Aang的真实描绘,最后的气宗,展示了他在强大的化身状态下掌握了所有弯曲元素。

Framework

多层次动作条件及其相应的交叉注意力图。

每组图像(上方)包括了从相应的SMPL序列渲染出的深度图、法线图、语义图和DWpose骨架的表示。随后的图像(下方)展示了指导自注意力的输出。

对比

在基准数据集上我们与最先进方法的定性比较。

对未见领域图像进行动画化的定性比较。

在形状变化数据上的比较。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存