查看原文
其他

腾讯的两个让 Avatar 说话的模型:V-Express 和 MuseTalk

renee创业狗 Renee 创业随笔
2024-10-09

关于让 Avatar 开始说话的技术,之前已经介绍过几个:

今天再分享2个腾讯的:

V-Express

简介:V-Express 旨在生成一个由参考图像、音频和一系列 V-Kps 图像控制的会说话的头部视频。

链接:https://github.com/tencent-ailab/V-Express

团队:腾讯

3种场景

  1. Scenario 1 (A 的照片和 A 的说话视频。) (最佳实践)
    如果有 A 的照片和另一场景中 A 的说话视频,模型能够生成与给定视频一致的说话视频。

  2. Scenario 2 (A 的照片和任意说话音频。)
    如果只有一张照片和任意说话音频,模型可以为固定的面部生成生动的嘴部运动。

  3. Scenario 3 (A 的照片和 B 的说话视频。)

  • fix_face
    模型可以为固定的面部生成生动的嘴部运动。

  • offset_retarget
    模型生成生动的嘴部运动,并伴有轻微的面部动作。

  • naive_retarget
    模型生成与目标视频相同动作的视频,角色的唇形同步匹配目标音频。

模型架构

V-Express 的主干是一个去噪 U-Net,它在特定条件下对输入的多帧噪声潜在变量进行去噪。该去噪 U-Net 的架构与 SDv1.5 非常相似,主要区别在于每个 Transformer 块中有四个注意力层,而不是两个。第一个注意力层是自注意力层,就像在 SDv1.5 中一样。第二和第三个注意力层是交叉注意力层。第二个注意力层被称为参考注意力层,用于编码与参考图像的关系。第三个注意力层被称为音频注意力层,用于编码与音频的关系。这三个注意力层都是空间注意力层。最后,第四个注意力层被称为运动注意力层,是一个时间自注意力层,用于捕捉视频帧之间的时间关系。

此外,V-Express 包含三个关键模块:ReferenceNet、V-Kps Guider 和 Audio Projection,分别用于编码参考图像、V-Kps 图像和音频。

MuseTalk

简介:MuseTalk 是一个实时高质量唇同步工具,通过潜空间修补实现。

链接:https://github.com/TMElyralab/MuseTalk

团队:腾讯

场景

  • MuseV + MuseTalk 让人像照片动起来!
  • 视频配音
  • 一些有趣的视频!

模型架构

MuseTalk 在潜空间中进行训练,图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,通过交叉注意力将音频嵌入融合到图像嵌入中。虽然 MuseTalk 使用的架构与 Stable Diffusion 非常相似,但 MuseTalk 的独特之处在于它不是一个扩散模型,而是在潜空间中通过单步修补来操作。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存