查看原文
其他

阿里的DreaMoving:基于扩散模型的人物视频生成框架

renee创业狗 Renee 创业随笔
2024-10-09

阿里巴巴上个月发表了一篇论文,《DreaMoving:基于扩散模型的人物视频生成框架》。

虽然没有提供代码,但论文和演示视频都已发布。https://dreamoving.github.io/dreamoving/

摘要

DreaMoving 是一个基于扩散模型的可控视频生成框架,用来生产高质量的定制人物视频。具体来说,给定目标身份和姿势序列,DreaMoving能够生成一个视频,展现目标身份在任意场景中按照这些姿势序列跳舞。为了实现这一点,DreaMoving提出了一个用于动作控制的“视频控制网(Video ControlNet)”和一个用于保持身份一致性的“内容引导器(Content Guider)”。DreaMoving所提出的模型使用简便,并且可以适配到大多数风格化的扩散模型中,以生成多样化的结果。

四种输入方式

  • 输入文本提示的DreaMoving结果。


  • 输入文本提示和面部图像的DreaMoving结果。 


  • 输入面部和服装图像的DreaMoving结果。 


  • 输入风格化图像的DreaMoving结果。


效果表现

DreaMoving能够在给定引导序列和简单内容描述(例如文本和参考图像)的输入情况下,生成高质量和高保真度的视频。具体来说,DreaMoving在身份控制方面展现了精确性,这是通过面部参考图像实现的;在运动操控方面通过姿势序列实现了精准操作;并且通过特定的文本提示,实现了对视频整体外观的全面控制。

DreaMoving展示了在现实生活中没有出现的情景上的泛化能力。

架构概述

DreaMoving的总览。视频控制网(Video ControlNet)是在每个U-Net块之后注入运动块的图像控制网。视频控制网处理控制序列(姿势或深度)以生成额外的时间残差。去噪U-Net是一个衍生的稳定扩散U-Net,增加了运动块以用于视频生成。内容引导器(Content Guider)将输入的文本提示和外观表达(如人脸,衣物是可选的)转换为内容嵌入,用于交叉注意力。

Demo

在 huggingface上 https://huggingface.co/spaces/jiayong/Dreamoving

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存