查看原文
其他

Unmasked Teacher 非掩码教师: 高效训练视频基模型,代码模型已开源 | ICCV2023

黎昆昌 书生 OpenGVLab 2024-02-06


已有的视频基模型训练方式有2种:最流行的方式是基于图像基础模型二次开发,比如MTV[1]和VideoCoCa[2],以及我们之前探究的UniFormerV2[3],其次是为VideoMAE引入的视频掩码预训练,但这两种方法都存在一定问题,正文将详细分析。基于此,我们提出高效的视频基模型训练方法Unmasked Teacher,方法结合了以往视频基模型设计的优点,倡议充分利用图像基模型作为教师,通过掩码学习的方式节省视频训练开销。最终仅用32张80G A100从头训练6天,我们的ViT-L/16在流行单模态和多模态benchmark上取得了12项SOTA,共20项优异结果


Paper:

https://arxiv.org/abs/2303.16058

Code:(点击文末“阅读原文”直达开源链接)

https://github.com/OpenGVLab/unmasked_teacher


paperwithcode 2023/3/30

Part1. 两种视频基模型训练方法的缺陷和我们的研究动机

二次开发的缺陷

二次开发的方法在图像基础模型上额外插入时序建模模块,引入二次视频预训练,以此提升下游能力,但这种方法有三大缺陷

1.由于视频数据的相对稀缺,简单的二次视频预训练(post-pretraining)会破坏从图像基模型继承的泛化性。在我们之前做InternVideo[4]的实验里,模型的zero-shot性能会在二次预训练过程中不断变差,我们当时的考虑是视频文本太稀缺,干脆锁住text encoder,利用wise-ft的思想保持模型的泛化性

2.再者,图像预训练会带来过强的空间初始化,这导致视频模型非常“短视”——更偏向从单帧场景中感知行为(场景相关),比如“骑马”中的“草地”。反倒忽视了建立全局时空关系,很难去处理和定位时序相关行为,比如“开”和“关”(时序相反行为也会相反)。一个直观的数据就是,UniFormerV2在something-something数据集,相对VideoMAE较差,迁移到AVA时空检测效果也不理想

3.最后,二次开发的方式限制了模型进一步scale up,在没有更大的图像基模型之前,要放大视频模型几乎不可能

为VideoMAE引入的视频掩码的弊端

VideoMAE最强大的能力在于,利用有限的训练数据从头训练强时序模型,在something-something和AVA上结果十分惊艳。但这种方式也存在弊端:

高效的数据效率和时序建模能力需要经过漫长的预训练,比如something-something上需要2400轮迭代

低层的pixel-level重建任务,与高层的跨模态对齐任务(图文对比、图文匹配等)存在冲突,导致掩码预训练模型在多模态任务较差,meta的论文FLIP[6]中也有相似的发现。

VideoMAE依赖额外的decoder处理所有token,当模型放大时,训练开销会急剧变大。(PS. VideoMAE V2[7]采取的一个解决方案是double mask,在解码器中也引入mask)

Unmasked Teacher 非掩码教师的优势

在这个工作里,我们结合了现有方法的优点,探究了一种高效训练强时序模型的方案。我们不直接迁移图像基模型(如CLIP),而是将其当做非掩码教师,从头训练简单的ViT模型。为了降低训练开销,我们掩码处理了大部分低语义token,仅对剩下的非掩码token进行处理,并通过线性映射层与教师对齐。这种方法具有三大优点:

1.具备了掩码训练的高效数据利用率,同时对多模态任务友好

2.仅线性层对齐非掩码token,大大降低了显存开销(仅占VideoMAE的36%);

3.对场景相关行为和时序相关行为,均具备优异的处理能力

paperwithcode 2023/3/30

针对繁杂的视频任务,我们提出了一套渐进式的预训练框架(如上图)。在第一阶段,我们仅利用少量视频数据进行掩码训练,得到的模型用于处理纯视频任务,如识别和检测。在第二阶段,我们结合开源的文本编码器(BERT),利用图文数据进行多模态训练,得到的模型可以处理复杂的视频-语言任务。在两个阶段,我们都引入了非掩码教师,加快收敛的同时大大节省了训练开销。随着越来越多图像和自然语言基模型的开源,我们简单的框架可以很容易地放缩模型规模。最终仅利用开源的资源训练,我们的ViT-L/16在多个任务取得了优异性能,包括行为识别(K400 90.6% top-1 acc),时空定位(AVA 39.8 mAP),视频检索(MSRVTT 58.8% R@1)和视频问答(MSRVTT-QA 47.1% acc)。相比CoCa使用2048块CloudTPUv4训练5天,我们的模型节省了近70倍碳排放。


Part.2  训练方法

学生结构

结构

·对于教师,在本论文实验里,考虑到CLIP图文训练得到的丰富语义信息,我们采用CLIP的视觉编码器,有利于我们后续的多模态训练。为了充分传承教师的知识,我们保持了它的空间结构,逐帧处理视频信息。

·对于学生,我们采用简单的ViT模型,为了促使非掩码token之间的交流,我们使用时空联合注意力机制。为了更好地和教师模型对齐,我们在patch embedding种不对时序维度下采样,保证可以逐token对齐信息。

掩码

·与VideoMAE类似地,我们采样较高的掩码比例(如80%)来减小视频冗余

·但考虑到过于激进的随机掩码可能只保留背景token,无意义的信息会干扰教师信息蒸馏,我们借鉴了MaskAlign中的语义掩码策略,逐帧进行语义掩码,这样包含重要信息的token会更大概率地被保留。具体地,我们使用CLIP-ViT最后一层的class token对空间token的affinity matri作为重要性分数,使用多项式分布生成掩码概率

·再者,我们采用稀疏采样策略,增大帧间间隔,保证更复杂的上下文信息,从而促使模型对非掩码对象建立更长时的时空关联

目标

·对于教师,我们逐帧输入所有token,得到的输出,送入CLIP预训练时对齐不同模态的projection层,得到最终对齐的目标。对于学生,我们仅输入非掩码token,并通过简单的线性projection层对齐。在实验里,我们使用MSE loss,对齐L2正则化的后六层特征

渐进式训练

在第一阶段,我们仅使用高质量的视频数据进行掩码预训练。在第二阶段我们引入文本编码器和跨模态解码器,使用开源语言大模型进行初始化,并引入额外三种多模态预训练任务。值得一体的是,目前开源的语言模型比图像模型更多样且规模更大。如最大的OPT模型有175B参数,而ViT-G只有1.8B参数

·Unmasked Token Alignment: 两阶段均引入前述的非掩码token对齐;

·Video-Text Contrastive Learning: 使用symmetric contrastive loss,最大化视觉和文本编码器输出之间互信息;

·Video-Text Matching: 对跨模态解码器输出进行分类,判断视觉文本是否匹配,采用binary cross-entropy loss,额外引入hard negative mining;

·Masked Language Modeling: 使用视觉信息辅助,基于可见文本恢复掩码文本token。我们采用了BERT的掩码策略,但mask了50%的文本token


Part.3 Traning Setting

数据集

·在第一阶段我们采用UniFormerV2中提出Kinetics-710数据集进行预训练

·在第二阶段,我们引入图文数据作为补充,采用了如下5M,17M和25M三种训练设置



多模态训练数据

·对于下游任务,我们使用版本的数据统计如下图所示:

下游微调数据

在本论文中,我们考虑两种模型设置:(1) UMT-B: ViT-B/16 + BERT-base;(2) UMT-L: ViT-L/16 + BERT-large。分别采用CLIP-ViT-B/16和CLIP-ViT-L/14作为教师。在第一阶段,我们采用了VideoMAE的大部分超参,但稀疏采样8帧,batch 2048训200 epoch。在Kinetics-710上训练,Base和Large分别花费60和90小时。在第二阶段,我们稀疏采样4帧,batch 4096训练10 epoch,25M训练数据分别花费24和40小时

训练超参具体可以见论文的附录B,详细列举了两阶段训练,以及下游微调的超参


Ablation Studies

在消融实验中,对于单模态实验,我们使用something-something或者Kinetics-400进行预训练;而对于多模态实验,我们使用Kinetics-710预训练的模型。在单模态和多模态实验中,我们均在场景相关和时序相关数据集上验证了结果

·单模态:K400 (场景) + SSV2 (时序),比较top-1 acc

·多模态:MSRVTT (场景) + SSV2-label (时序),比较平均召回率 (R@1, R@5, R@10)


训练目标

训练目标

我们比较了三种训练目标:[U] 非掩码对齐,[M] 掩码恢复(额外引入decoder),MAE 即VIdeoMAE中的pixel重建(额外引入decoder)。与VideoMAE的pixel重建相比,我们的非掩码token对齐仅增加了36%的内存成本,却显著增强了视频识别和多模态检索性能。然而,在K400和MSRVTT上将两个目标结合效果并不理想,表明低级重建和高级对齐之间存在一定的冲突。此外,掩码恢复会产生有害影响,可能是由于高掩码比例使得高层语义恢复过于困难。上述结果证明,我们的方法能有效地学习时序敏感且多模态友好的表征 


掩码方式、采样方式和时序下采

掩码方式、采样方式和时序下采样

实验表明,语义掩码对于K400效果提升明显,与VideoMAE中不同,随机掩码较Tube掩码在我们的实验中更有效。稀疏采样增加任务难度带来明显收益,去除时序下采样保证token对齐关系,同样必要


对齐层数

对齐层数

实验表明,对齐层数对结果有微弱影响,考虑到对齐的显存开销并不大(只需要一层线性层),我们直接对齐后六层来达到最佳性能


掩码比例

掩码比例

对于K400,掩码比例在75%效果最好。对于SSV2,则是80%掩码最有效。我们最终采用80%掩码作为默认设置


训练轮次

训练轮次

与VideoMAE类似,掩码训练轮次越多,微调后的性能越高,并且我们的方法相较VideoMAE收敛更快

Why work?Better than teacher.

原因分析

我们进一步探究了Unmask Teacher有效的原因,绿色部分为我们精调CLIP teacher的结果:

这个结果经过了细致的参数调整,比大多数论文中报的结果都要好,也希望后面的论文能够严谨地给出baseline比较,得到正确的结论

1.时空注意力:在第2和第3部分中,我们在微调期间对学生使用空间注意力和时空注意力。结果表明,利用联合时空注意力显著提升性能。此外,在预训练期间使用时空注意力进一步提高了性能(第4部分),验证了我们的假设,即时空注意力促使所有非掩码token之间的交互

2.掩码建模:在第4部分中,我们观察到掩码建模发挥着至关重要的作用。然而,在预训练期间使用空间注意力时,掩码建模变得有害。可能的原因是,在逐帧单独处理且使用80%的高掩码比例时,非掩码token对齐任务变得过于困难

3.教师注意力机制:第5部分显示尽管CLIP-ST经过微调能得到更好的性能,但直接将其应用为教师模型会导致学生性能下降。我们认为,没有经过视频数据的二次训练, CLIP-ST可能会干扰图像基模型所学习到表征

值得一提的是,在图像领域,经过微调的CLIP本身,就能超越了现有的以CLIP为目标的掩码预训练[8]但我们的结果表明,在视频领域中,学生模型(第4部分)显然优于教师即我们精心调整后的CLIP-ST。我们将其归功于具有时空注意力的掩码视频建模,这鼓励模型捕捉对象之间长时依赖关系


不同输入掩码比例

不同输入掩码比例

在多模态训练时,我们对图像数据和视频数据采用相同batch,因此显存开销上限主要在于视频输入。实验表明,图像mask 50%,视频mask 80%,文本mask 50%效果性能最好,显存开销也较小


多模态训练目标

多模态训练目标

实验表明,VTM相较VTC效果更显著,而VTC+VTM+MLM结合效果最佳,结合UTA能在降低显存的同时,提升下游性能


不同教师

不同教师

对于不同的教师,我们的学生模型均能取得更优异的性能,但教师能力越强学生能力也相对越强


Part 4. SOTA comparison


行为识别: Kinetics 和 Moments in Time

行为识别: something-something V2

时空检测: AVA v2.2

Zero-shot视频检索

视频检索

SSV2视频检索


视频问答

Part.5 Conclusion


限制视频基模型发展的最大挑战,在于训练和数据开销。Unmasked Teacher借鉴了现有方法的长处,提出了一种可扩展易放缩的高效训练策略——非掩码教师对齐。一来教师可以引进更新的图像基模型,二来可以利用更大的开源LLM模态对齐,理想情况下能不断放缩ViT模型。


Paper:

https://arxiv.org/abs/2303.16058

Code:(点击文末“阅读原文”直达开源链接)

https://github.com/OpenGVLab/unmasked_teacher

参考文献

[1]^Yan, Shen et al. “Multiview Transformers for Video Recognition.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 3323-3333.


[2]^Yan, Shen et al. “Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners.” ArXiv abs/2212.04979 (2022): n. pag.


[3]^Li, Kunchang et al. “UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer.” ArXiv abs/2211.09552 (2022): n. pag.


[4]^Wang, Yi et al. “InternVideo: General Video Foundation Models via Generative and Discriminative Learning.” ArXiv abs/2212.03191 (2022): n. pag.


[5]^Tong, Zhan et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” ArXiv abs/2203.12602 (2022): n. pag.


[6]^Li, Yanghao et al. “Scaling Language-Image Pre-training via Masking.” ArXiv abs/2212.00794 (2022): n. pag.


[7]^“VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking.” (2023).


[8]^Dong, Xiaoyi et al. “CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet.” ArXiv abs/2212.06138 (2022): n. pag.

上下滑动查看参考文献



继续滑动看下一个

Unmasked Teacher 非掩码教师: 高效训练视频基模型,代码模型已开源 | ICCV2023

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存