腾讯的两个让 Avatar 说话的模型：V-Express 和 MuseTalk

Original renee创业狗 Renee 创业随笔

2024-10-09

关于让 Avatar 开始说话的技术，之前已经介绍过几个：

今天再分享2个腾讯的：

V-Express

简介：V-Express 旨在生成一个由参考图像、音频和一系列 V-Kps 图像控制的会说话的头部视频。

链接：https://github.com/tencent-ailab/V-Express

团队：腾讯

3种场景：

Scenario 1 (A 的照片和 A 的说话视频。) (最佳实践)
如果有 A 的照片和另一场景中 A 的说话视频，模型能够生成与给定视频一致的说话视频。
Scenario 2 (A 的照片和任意说话音频。)
如果只有一张照片和任意说话音频，模型可以为固定的面部生成生动的嘴部运动。
Scenario 3 (A 的照片和 B 的说话视频。)

fix_face
模型可以为固定的面部生成生动的嘴部运动。
offset_retarget
模型生成生动的嘴部运动，并伴有轻微的面部动作。
naive_retarget
模型生成与目标视频相同动作的视频，角色的唇形同步匹配目标音频。

模型架构：

V-Express 的主干是一个去噪 U-Net，它在特定条件下对输入的多帧噪声潜在变量进行去噪。该去噪 U-Net 的架构与 SDv1.5 非常相似，主要区别在于每个 Transformer 块中有四个注意力层，而不是两个。第一个注意力层是自注意力层，就像在 SDv1.5 中一样。第二和第三个注意力层是交叉注意力层。第二个注意力层被称为参考注意力层，用于编码与参考图像的关系。第三个注意力层被称为音频注意力层，用于编码与音频的关系。这三个注意力层都是空间注意力层。最后，第四个注意力层被称为运动注意力层，是一个时间自注意力层，用于捕捉视频帧之间的时间关系。

此外，V-Express 包含三个关键模块：ReferenceNet、V-Kps Guider 和 Audio Projection，分别用于编码参考图像、V-Kps 图像和音频。

MuseTalk

简介：MuseTalk 是一个实时高质量唇同步工具，通过潜空间修补实现。

链接：https://github.com/TMElyralab/MuseTalk

团队：腾讯

场景：

MuseV + MuseTalk 让人像照片动起来！
视频配音
一些有趣的视频！

模型架构：

MuseTalk 在潜空间中进行训练，图像由冻结的 VAE 编码，音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet，通过交叉注意力将音频嵌入融合到图像嵌入中。虽然 MuseTalk 使用的架构与 Stable Diffusion 非常相似，但 MuseTalk 的独特之处在于它不是一个扩散模型，而是在潜空间中通过单步修补来操作。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

腾讯的两个让 Avatar 说话的模型：V-Express 和 MuseTalk

V-Express

MuseTalk

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

腾讯的两个让 Avatar 说话的模型：V-Express 和 MuseTalk

V-Express

MuseTalk

您可能也对以下帖子感兴趣