其他
阿里的 Tora vs 腾讯的 MotionCtrl - 生成视频中控制物品轨迹
对比阿里的 Tora 和腾讯的 MotionCtrl,两者都是用于生成视频中控制物品轨迹。
MotionCtrl:腾讯的 MotionCtrl 于去年年底开源。 Tora:阿里的 Tora 相关论文上周刚刚发布,目前尚未开源。
效果对比:
Tora
MotionCtrl
方法对比:
Tora架构概述:
为了实现基于DiT的视频生成的轨迹控制,Tora引入了两个新模块:轨迹提取器(Trajectory Extractor)和运动引导融合器(Motion-guidance Fuser)。 轨迹提取器:使用3D运动VAE将轨迹向量嵌入到与视频片段相同的潜在空间中,有效地在连续帧之间保持运动信息。随后,通过堆叠卷积层提取分层运动特征。 运动引导融合器:利用自适应归一化层将这些多层次的运动条件无缝注入相应的DiT模块,确保生成的视频能够一致地遵循定义的轨迹。 Tora的方法与DiT的可扩展性保持一致,能够创建高分辨率、运动可控的长时间视频。
MotionCtrl架构:
MotionCtrl扩展了LVDM的去噪U-Net结构,添加了摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM)。 CMCM:将摄像机姿态序列(RT)与LVDM的时间变压器集成,通过将RT附加到第二自注意力模块的输入,并应用定制的轻量级全连接层提取摄像机姿态特征以供后续处理。 OMCM:利用卷积层和降采样从Trajs中导出多尺度特征,这些特征在空间上被整合到LVDM的卷积层中以引导物体运动。进一步地,给定文本提示,LVDM从噪声中生成与提示对应的视频,背景和物体运动反映指定的摄像机姿态和轨迹。