继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

阿里的 Tora vs 腾讯的 MotionCtrl - 生成视频中控制物品轨迹

Original renee创业狗 Renee 创业随笔

2024-10-09

对比阿里的 Tora 和腾讯的 MotionCtrl，两者都是用于生成视频中控制物品轨迹。

MotionCtrl：腾讯的 MotionCtrl 于去年年底开源。
Tora：阿里的 Tora 相关论文上周刚刚发布，目前尚未开源。

效果对比：

Tora

MotionCtrl

方法对比：

Tora架构概述：

为了实现基于DiT的视频生成的轨迹控制，Tora引入了两个新模块：轨迹提取器（Trajectory Extractor）和运动引导融合器（Motion-guidance Fuser）。
轨迹提取器：使用3D运动VAE将轨迹向量嵌入到与视频片段相同的潜在空间中，有效地在连续帧之间保持运动信息。随后，通过堆叠卷积层提取分层运动特征。
运动引导融合器：利用自适应归一化层将这些多层次的运动条件无缝注入相应的DiT模块，确保生成的视频能够一致地遵循定义的轨迹。
Tora的方法与DiT的可扩展性保持一致，能够创建高分辨率、运动可控的长时间视频。

MotionCtrl架构：

MotionCtrl扩展了LVDM的去噪U-Net结构，添加了摄像机运动控制模块（CMCM）和物体运动控制模块（OMCM）。
CMCM：将摄像机姿态序列（RT）与LVDM的时间变压器集成，通过将RT附加到第二自注意力模块的输入，并应用定制的轻量级全连接层提取摄像机姿态特征以供后续处理。
OMCM：利用卷积层和降采样从Trajs中导出多尺度特征，这些特征在空间上被整合到LVDM的卷积层中以引导物体运动。进一步地，给定文本提示，LVDM从噪声中生成与提示对应的视频，背景和物体运动反映指定的摄像机姿态和轨迹。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存