Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

黎昆昌书生 OpenGVLab 2024-02-06

已有的视频基模型训练方式有2种：最流行的方式是基于图像基础模型二次开发，比如MTV[1]和VideoCoCa[2]，以及我们之前探究的UniFormerV2[3]，其次是为VideoMAE引入的视频掩码预训练，但这两种方法都存在一定问题，正文将详细分析。基于此，我们提出高效的视频基模型训练方法Unmasked Teacher，方法结合了以往视频基模型设计的优点，倡议充分利用图像基模型作为教师，通过掩码学习的方式节省视频训练开销。最终仅用32张80G A100从头训练6天，我们的ViT-L/16在流行单模态和多模态benchmark上取得了12项SOTA，共20项优异结果。

Paper：

https://arxiv.org/abs/2303.16058

Code：（点击文末“阅读原文”直达开源链接）

https://github.com/OpenGVLab/unmasked_teacher

paperwithcode 2023/3/30

Part1. 两种视频基模型训练方法的缺陷和我们的研究动机

二次开发的缺陷

二次开发的方法在图像基础模型上额外插入时序建模模块，引入二次视频预训练，以此提升下游能力，但这种方法有三大缺陷：

1.由于视频数据的相对稀缺，简单的二次视频预训练（post-pretraining）会破坏从图像基模型继承的泛化性。在我们之前做InternVideo[4]的实验里，模型的zero-shot性能会在二次预训练过程中不断变差，我们当时的考虑是视频文本太稀缺，干脆锁住text encoder，利用wise-ft的思想保持模型的泛化性

2.再者，图像预训练会带来过强的空间初始化，这导致视频模型非常“短视”——更偏向从单帧场景中感知行为（场景相关），比如“骑马”中的“草地”。反倒忽视了建立全局时空关系，很难去处理和定位时序相关行为，比如“开”和“关”（时序相反行为也会相反）。一个直观的数据就是，UniFormerV2在something-something数据集，相对VideoMAE较差，迁移到AVA时空检测效果也不理想

3.最后，二次开发的方式限制了模型进一步scale up，在没有更大的图像基模型之前，要放大视频模型几乎不可能

为VideoMAE引入的视频掩码的弊端

VideoMAE最强大的能力在于，利用有限的训练数据从头训练强时序模型，在something-something和AVA上结果十分惊艳。但这种方式也存在弊端：

高效的数据效率和时序建模能力需要经过漫长的预训练，比如something-something上需要2400轮迭代

低层的pixel-level重建任务，与高层的跨模态对齐任务（图文对比、图文匹配等）存在冲突，导致掩码预训练模型在多模态任务较差，meta的论文FLIP[6]中也有相似的发现。

VideoMAE依赖额外的decoder处理所有token，当模型放大时，训练开销会急剧变大。（PS. VideoMAE V2[7]采取的一个解决方案是double mask，在解码器中也引入mask）

Unmasked Teacher 非掩码教师的优势

在这个工作里，我们结合了现有方法的优点，探究了一种高效训练强时序模型的方案。我们不直接迁移图像基模型（如CLIP），而是将其当做非掩码教师，从头训练简单的ViT模型。为了降低训练开销，我们掩码处理了大部分低语义token，仅对剩下的非掩码token进行处理，并通过线性映射层与教师对齐。这种方法具有三大优点：

1.具备了掩码训练的高效数据利用率，同时对多模态任务友好；

2.仅线性层对齐非掩码token，大大降低了显存开销（仅占VideoMAE的36%）；

3.对场景相关行为和时序相关行为，均具备优异的处理能力

paperwithcode 2023/3/30

针对繁杂的视频任务，我们提出了一套渐进式的预训练框架（如上图）。在第一阶段，我们仅利用少量视频数据进行掩码训练，得到的模型用于处理纯视频任务，如识别和检测。在第二阶段，我们结合开源的文本编码器（BERT），利用图文数据进行多模态训练，得到的模型可以处理复杂的视频-语言任务。在两个阶段，我们都引入了非掩码教师，加快收敛的同时大大节省了训练开销。随着越来越多图像和自然语言基模型的开源，我们简单的框架可以很容易地放缩模型规模。最终仅利用开源的资源训练，我们的ViT-L/16在多个任务取得了优异性能，包括行为识别（K400 90.6% top-1 acc），时空定位（AVA 39.8 mAP），视频检索（MSRVTT 58.8% R@1）和视频问答（MSRVTT-QA 47.1% acc）。相比CoCa使用2048块CloudTPUv4训练5天，我们的模型节省了近70倍碳排放。

Part.2 训练方法

学生结构

结构

·对于教师，在本论文实验里，考虑到CLIP图文训练得到的丰富语义信息，我们采用CLIP的视觉编码器，有利于我们后续的多模态训练。为了充分传承教师的知识，我们保持了它的空间结构，逐帧处理视频信息。

·对于学生，我们采用简单的ViT模型，为了促使非掩码token之间的交流，我们使用时空联合注意力机制。为了更好地和教师模型对齐，我们在patch embedding种不对时序维度下采样，保证可以逐token对齐信息。

掩码

·与VideoMAE类似地，我们采样较高的掩码比例（如80%）来减小视频冗余

·但考虑到过于激进的随机掩码可能只保留背景token，无意义的信息会干扰教师信息蒸馏，我们借鉴了MaskAlign中的语义掩码策略，逐帧进行语义掩码，这样包含重要信息的token会更大概率地被保留。具体地，我们使用CLIP-ViT最后一层的class token对空间token的affinity matri作为重要性分数，使用多项式分布生成掩码概率

·再者，我们采用稀疏采样策略，增大帧间间隔，保证更复杂的上下文信息，从而促使模型对非掩码对象建立更长时的时空关联

目标

·对于教师，我们逐帧输入所有token，得到的输出，送入CLIP预训练时对齐不同模态的projection层，得到最终对齐的目标。对于学生，我们仅输入非掩码token，并通过简单的线性projection层对齐。在实验里，我们使用MSE loss，对齐L2正则化的后六层特征

渐进式训练

在第一阶段，我们仅使用高质量的视频数据进行掩码预训练。在第二阶段我们引入文本编码器和跨模态解码器，使用开源语言大模型进行初始化，并引入额外三种多模态预训练任务。值得一体的是，目前开源的语言模型比图像模型更多样且规模更大。如最大的OPT模型有175B参数，而ViT-G只有1.8B参数

·Unmasked Token Alignment: 两阶段均引入前述的非掩码token对齐；

·Video-Text Contrastive Learning: 使用symmetric contrastive loss，最大化视觉和文本编码器输出之间互信息；

·Video-Text Matching: 对跨模态解码器输出进行分类，判断视觉文本是否匹配，采用binary cross-entropy loss，额外引入hard negative mining；

·Masked Language Modeling: 使用视觉信息辅助，基于可见文本恢复掩码文本token。我们采用了BERT的掩码策略，但mask了50%的文本token

Part.3 Traning Setting

数据集

·在第一阶段，我们采用UniFormerV2中提出Kinetics-710数据集进行预训练

·在第二阶段，我们引入图文数据作为补充，采用了如下5M，17M和25M三种训练设置

多模态训练数据

·对于下游任务，我们使用版本的数据统计如下图所示：

下游微调数据

在本论文中，我们考虑两种模型设置：(1) UMT-B: ViT-B/16 + BERT-base；(2) UMT-L: ViT-L/16 + BERT-large。分别采用CLIP-ViT-B/16和CLIP-ViT-L/14作为教师。在第一阶段，我们采用了VideoMAE的大部分超参，但稀疏采样8帧，batch 2048训200 epoch。在Kinetics-710上训练，Base和Large分别花费60和90小时。在第二阶段，我们稀疏采样4帧，batch 4096训练10 epoch，25M训练数据分别花费24和40小时

训练超参具体可以见论文的附录B，详细列举了两阶段训练，以及下游微调的超参

Ablation Studies

在消融实验中，对于单模态实验，我们使用something-something或者Kinetics-400进行预训练；而对于多模态实验，我们使用Kinetics-710预训练的模型。在单模态和多模态实验中，我们均在场景相关和时序相关数据集上验证了结果

·单模态：K400 (场景) + SSV2 (时序)，比较top-1 acc

·多模态：MSRVTT (场景) + SSV2-label (时序)，比较平均召回率 (R@1, R@5, R@10)

训练目标

训练目标

我们比较了三种训练目标：[U] 非掩码对齐，[M] 掩码恢复（额外引入decoder），MAE 即VIdeoMAE中的pixel重建（额外引入decoder）。与VideoMAE的pixel重建相比，我们的非掩码token对齐仅增加了36％的内存成本，却显著增强了视频识别和多模态检索性能。然而，在K400和MSRVTT上将两个目标结合效果并不理想，表明低级重建和高级对齐之间存在一定的冲突。此外，掩码恢复会产生有害影响，可能是由于高掩码比例使得高层语义恢复过于困难。上述结果证明，我们的方法能有效地学习时序敏感且多模态友好的表征

掩码方式、采样方式和时序下采

掩码方式、采样方式和时序下采样

实验表明，语义掩码对于K400效果提升明显，与VideoMAE中不同，随机掩码较Tube掩码在我们的实验中更有效。稀疏采样增加任务难度带来明显收益，去除时序下采样保证token对齐关系，同样必要

对齐层数

对齐层数

实验表明，对齐层数对结果有微弱影响，考虑到对齐的显存开销并不大（只需要一层线性层），我们直接对齐后六层来达到最佳性能

掩码比例

掩码比例

对于K400，掩码比例在75%效果最好。对于SSV2，则是80%掩码最有效。我们最终采用80%掩码作为默认设置

训练轮次

训练轮次

与VideoMAE类似，掩码训练轮次越多，微调后的性能越高，并且我们的方法相较VideoMAE收敛更快

Why work？Better than teacher.

原因分析

我们进一步探究了Unmask Teacher有效的原因，绿色部分为我们精调CLIP teacher的结果：

这个结果经过了细致的参数调整，比大多数论文中报的结果都要好，也希望后面的论文能够严谨地给出baseline比较，得到正确的结论

1.时空注意力：在第2和第3部分中，我们在微调期间对学生使用空间注意力和时空注意力。结果表明，利用联合时空注意力显著提升性能。此外，在预训练期间使用时空注意力进一步提高了性能（第4部分），验证了我们的假设，即时空注意力促使所有非掩码token之间的交互

2.掩码建模：在第4部分中，我们观察到掩码建模发挥着至关重要的作用。然而，在预训练期间使用空间注意力时，掩码建模变得有害。可能的原因是，在逐帧单独处理且使用80％的高掩码比例时，非掩码token对齐任务变得过于困难

3.教师注意力机制：第5部分显示尽管CLIP-ST经过微调能得到更好的性能，但直接将其应用为教师模型会导致学生性能下降。我们认为，没有经过视频数据的二次训练, CLIP-ST可能会干扰图像基模型所学习到表征

值得一提的是，在图像领域，经过微调的CLIP本身，就能超越了现有的以CLIP为目标的掩码预训练[8]。但我们的结果表明，在视频领域中，学生模型（第4部分）显然优于教师即我们精心调整后的CLIP-ST。我们将其归功于具有时空注意力的掩码视频建模，这鼓励模型捕捉对象之间长时依赖关系

不同输入掩码比例

不同输入掩码比例

在多模态训练时，我们对图像数据和视频数据采用相同batch，因此显存开销上限主要在于视频输入。实验表明，图像mask 50%，视频mask 80%，文本mask 50%效果性能最好，显存开销也较小

多模态训练目标

多模态训练目标

实验表明，VTM相较VTC效果更显著，而VTC+VTM+MLM结合效果最佳，结合UTA能在降低显存的同时，提升下游性能

不同教师

不同教师

对于不同的教师，我们的学生模型均能取得更优异的性能，但教师能力越强学生能力也相对越强

Part 4. SOTA comparison

行为识别: Kinetics 和 Moments in Time

行为识别: something-something V2

时空检测: AVA v2.2

Zero-shot视频检索

视频检索

SSV2视频检索

视频问答

Part.5 Conclusion

限制视频基模型发展的最大挑战，在于训练和数据开销。Unmasked Teacher借鉴了现有方法的长处，提出了一种可扩展易放缩的高效训练策略——非掩码教师对齐。一来教师可以引进更新的图像基模型，二来可以利用更大的开源LLM模态对齐，理想情况下能不断放缩ViT模型。

Paper：

https://arxiv.org/abs/2303.16058

Code：（点击文末“阅读原文”直达开源链接）

https://github.com/OpenGVLab/unmasked_teacher

参考文献

[1]^Yan, Shen et al. “Multiview Transformers for Video Recognition.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 3323-3333.

[2]^Yan, Shen et al. “Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners.” ArXiv abs/2212.04979 (2022): n. pag.

[3]^Li, Kunchang et al. “UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer.” ArXiv abs/2211.09552 (2022): n. pag.

[4]^Wang, Yi et al. “InternVideo: General Video Foundation Models via Generative and Discriminative Learning.” ArXiv abs/2212.03191 (2022): n. pag.

[5]^Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.

[6]^Li, Yanghao et al. “Scaling Language-Image Pre-training via Masking.” ArXiv abs/2212.00794 (2022): n. pag.

[7]^“VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking.” (2023).

[8]^Dong, Xiaoyi et al. “CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet.” ArXiv abs/2212.06138 (2022): n. pag.

上下滑动查看参考文献

继续滑动看下一个

Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

黎昆昌书生 OpenGVLab

书生 OpenGVLab

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

生成图片，分享到微信朋友圈

Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

Unmasked Teacher 非掩码教师: 高效训练视频基模型，代码模型已开源 | ICCV2023

您可能也对以下帖子感兴趣