Animate Anyone：静态图像生成动态视频，不是梦！

Original 小SOMO CGSOMO

2024-07-22

更高质量的CG模型网站

www.cgsomo.com

嗨！小伙伴们，我是你的好朋友小SOMO！

让静态图像动起来不是梦~

▼

一觉醒来，AI领域发生了什么？

只需要一张人物的图片（不管是真人还是卡通的、全身人物还是半身人物），结合骨骼动画，人体动画视频就可以轻松地生成！

是的！你没有听错！！也没有看错~预知后事，请往下看！

这个项目是由阿里巴巴智能计算研究院所开发，利用扩散模型的强大功能，制作了一个为角色动画定制的新框架，团队设计了ReferenceNet，可以结合参考图像的细节特征，同时又保留复杂的外观特征，通过空间注意力来实现这一点，来保持动画过程中视觉元素的一致性！甚至引入了高效的姿势引导器来指导角色的动作，确保可控性和连续性。并且采用有效的时间建模方法来确保视频帧间的平滑过渡。通过扩展训练数据，可以对任意角色进行制作动画，与其他图像到视频的方法相比呢，在角色动画方面取得了卓越的成果！

另外呢，项目团队在时尚视频合成方面，可以将时尚照片转换为真实的动画视频；还根据在真实世界的舞蹈场景中对图像进行动画化，将人物图像与舞蹈相结合，也取得了不错的成果~

这个项目还可以为各种角色制作动画！如：

人物

动漫卡通

人形

Animate Anybody这样的模型的工作原理是提取细节，例如图案、面部特征，甚至图像中人的姿势。基于这些细节，创建一系列图像，其中细节被映射到各种姿势。这些稍后被动态捕捉或从另一个视频中提取。

大家也肯定很好奇，这么高端的技术它的具体方法，请看！

1.姿势序列最初使用Pose Guider进行编码，并与多帧噪声融合。

2.由Denoising UNet进行视频生成的去噪过程。Denoising UNet的计算模块由Spatial-Attention、Cross-Attention和Temporal-Attention组成（如右侧虚线框所示）。参考图像的集成涉及两个方面：

通过ReferenceNet提取详细特征并用于空间注意力。
其次，通过CLIP图像编码器提取语义特征进行交叉注意力，时间注意力在时间维度上运作。

3.最后，VAE解码器将结果解码为视频剪辑。

时尚视频合成旨在使用驾驶姿势序列将时尚照片变成逼真的动画视频。使用相同的训练数据在UBC时尚视频数据集上进行实验。在时尚视频合成测试中，其结果明显优于其他方法，并且对服装的细节要求也十分严格，不管是在色彩上还是细节处的结构元素方面都可以保持一致性！

Human Dance Generation专注于在现实世界的舞蹈场景中制作动画图像，使用相同的训练数据在TikTok数据集上进行实验。这个方法在真实世界的舞蹈场景中对图像进行动画化。与其他方法相比，不需要先进行人体分割，就能够处理复杂的舞蹈动作和不同外观的角色。

从上面的示例中可以看得出来，不管是图片生成视频、时尚视频合成还是人类舞蹈生成测试中，Animate Anyone生成的视频质量很高，也十分流畅！且都展现了卓越的性能和稳定性。

但是这个方法也有一定的局限性，主要有三个方面：

1.与许多视觉生成模型类似，这个方法生成的模型可能难以在手部维持高度稳定，所以手部运动生成时，有时会导致变形和运动模糊。

2.由于图像只提供一个视角的信息，因此在角色运动过程中生成未见部分是一个难以解决的问题，会遇到潜在的不稳定性。

3.由于使用了DDPM，该模型的运算效率较低。这可能会影响动画的生成速度和实时性能。

总的来说，通过这种技术，就可以在不需要复杂动画技能和昂贵的软件情况下，创造出流畅的动画视频，“Animate Anyone”向大家提供了一种由图像到视频合成中角色动画创建的新方法，无疑为未来数字媒体领域注入更新鲜的血液，并且提供了一个新发展、新思路！

目前团队计划把一个学术原型变成一个用户友好的原型，他们收到了很多关于演示或在GitHub上获取源代码的询问，正在准备公开发布，但目前还没有具体的日期，咱们就静候佳音吧~

我的好朋友小SOMO，高质量CG模型哪里找？

当然是（cgsomo.com）啦！!点击文末“阅读全文”免费CG模型等你带走~

看了这么久设个星标，再走哦~

▼

- End -

“再续前缘”？知情人士爆料暴雪已和网易腾讯等谈判国服回归！

【模型分享】工具类3D模型！

用Xgen如何做好写实的辫子？超全流程！

招架不住蛇蝎美人的诱惑~A站高赞美女作品大盘点…

继续滑动看下一个

CGSOMO

向上滑动看下一个

利诱、警告、威胁、删文，以色列的经费，或许远超16亿美元

越洗越嫩滑，还能拉丝，战火中制作的叙利亚「橄榄古皂」，为何能流传千年？

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

Animate Anyone：静态图像生成动态视频，不是梦！

1.姿势序列最初使用Pose Guider进行编码，并与多帧噪声融合。

2.由Denoising UNet进行视频生成的去噪过程。Denoising UNet的计算模块由Spatial-Attention、Cross-Attention和Temporal-Attention组成（如右侧虚线框所示）。参考图像的集成涉及两个方面：

通过ReferenceNet提取详细特征并用于空间注意力。

其次，通过CLIP图像编码器提取语义特征进行交叉注意力，时间注意力在时间维度上运作。

您可能也对以下帖子感兴趣

利诱、警告、威胁、删文，以色列的经费，或许远超16亿美元

越洗越嫩滑，还能拉丝，战火中制作的叙利亚「橄榄古皂」，为何能流传千年？

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

生成图片，分享到微信朋友圈

Animate Anyone：静态图像生成动态视频，不是梦！

1.姿势序列最初使用Pose Guider进行编码，并与多帧噪声融合。

2.由Denoising UNet进行视频生成的去噪过程。Denoising UNet的计算模块由Spatial-Attention、Cross-Attention和Temporal-Attention组成（如右侧虚线框所示）。参考图像的集成涉及两个方面：

通过ReferenceNet提取详细特征并用于空间注意力。

其次，通过CLIP图像编码器提取语义特征进行交叉注意力，时间注意力在时间维度上运作。

您可能也对以下帖子感兴趣