阿里的DreaMoving：基于扩散模型的人物视频生成框架

Original renee创业狗 Renee 创业随笔

2024-10-09

阿里巴巴上个月发表了一篇论文，《DreaMoving：基于扩散模型的人物视频生成框架》。

虽然没有提供代码，但论文和演示视频都已发布。https://dreamoving.github.io/dreamoving/

摘要

DreaMoving 是一个基于扩散模型的可控视频生成框架，用来生产高质量的定制人物视频。具体来说，给定目标身份和姿势序列，DreaMoving能够生成一个视频，展现目标身份在任意场景中按照这些姿势序列跳舞。为了实现这一点，DreaMoving提出了一个用于动作控制的“视频控制网（Video ControlNet）”和一个用于保持身份一致性的“内容引导器（Content Guider）”。DreaMoving所提出的模型使用简便，并且可以适配到大多数风格化的扩散模型中，以生成多样化的结果。

四种输入方式

输入文本提示的DreaMoving结果。
输入文本提示和面部图像的DreaMoving结果。
输入面部和服装图像的DreaMoving结果。
输入风格化图像的DreaMoving结果。

效果表现

DreaMoving能够在给定引导序列和简单内容描述（例如文本和参考图像）的输入情况下，生成高质量和高保真度的视频。具体来说，DreaMoving在身份控制方面展现了精确性，这是通过面部参考图像实现的；在运动操控方面通过姿势序列实现了精准操作；并且通过特定的文本提示，实现了对视频整体外观的全面控制。

DreaMoving展示了在现实生活中没有出现的情景上的泛化能力。

架构概述

DreaMoving的总览。视频控制网（Video ControlNet）是在每个U-Net块之后注入运动块的图像控制网。视频控制网处理控制序列（姿势或深度）以生成额外的时间残差。去噪U-Net是一个衍生的稳定扩散U-Net，增加了运动块以用于视频生成。内容引导器（Content Guider）将输入的文本提示和外观表达（如人脸，衣物是可选的）转换为内容嵌入，用于交叉注意力。

Demo

在 huggingface上 https://huggingface.co/spaces/jiayong/Dreamoving

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

阿里的DreaMoving：基于扩散模型的人物视频生成框架

摘要

四种输入方式

效果表现

架构概述

Demo

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

阿里的DreaMoving：基于扩散模型的人物视频生成框架

摘要

四种输入方式

效果表现

架构概述

Demo

您可能也对以下帖子感兴趣