查看原文
其他

阿里的 Tora vs 腾讯的 MotionCtrl - 生成视频中控制物品轨迹

renee创业狗 Renee 创业随笔
2024-10-09

对比阿里的 Tora 和腾讯的 MotionCtrl,两者都是用于生成视频中控制物品轨迹。

  • MotionCtrl:腾讯的 MotionCtrl 于去年年底开源。
  • Tora:阿里的 Tora 相关论文上周刚刚发布,目前尚未开源。

效果对比:

Tora

MotionCtrl

方法对比:

Tora架构概述

  • 为了实现基于DiT的视频生成的轨迹控制,Tora引入了两个新模块:轨迹提取器(Trajectory Extractor)和运动引导融合器(Motion-guidance Fuser)。
  • 轨迹提取器:使用3D运动VAE将轨迹向量嵌入到与视频片段相同的潜在空间中,有效地在连续帧之间保持运动信息。随后,通过堆叠卷积层提取分层运动特征。
  • 运动引导融合器:利用自适应归一化层将这些多层次的运动条件无缝注入相应的DiT模块,确保生成的视频能够一致地遵循定义的轨迹。
  • Tora的方法与DiT的可扩展性保持一致,能够创建高分辨率、运动可控的长时间视频。

MotionCtrl架构

  • MotionCtrl扩展了LVDM的去噪U-Net结构,添加了摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM)。
  • CMCM:将摄像机姿态序列(RT)与LVDM的时间变压器集成,通过将RT附加到第二自注意力模块的输入,并应用定制的轻量级全连接层提取摄像机姿态特征以供后续处理。
  • OMCM:利用卷积层和降采样从Trajs中导出多尺度特征,这些特征在空间上被整合到LVDM的卷积层中以引导物体运动。进一步地,给定文本提示,LVDM从噪声中生成与提示对应的视频,背景和物体运动反映指定的摄像机姿态和轨迹。
继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存