CLIP还能做视频字幕任务!腾讯&清华提出CLIP4Caption,ACM MM2021挑战赛第二名!
关注公众号,发现CV技术之美
▊ 写在前面
视频字幕(Video captioning)是一项具有挑战性的任务,因为它需要生成描述各种不同复杂视频的句子。现有的视频字幕模型由于忽略了视频和文本之间的差异,缺乏足够的视觉表现力。
为了弥补这一差距,在本文中,作者提出了一个基于CLIP的增强视频文本匹配网络(VTM)来改进视频字幕的CLIP4Caption框架。该框架充分利用了来自视觉和语言的信息,以学习与文本生成密切相关的视频特征。
此外,与大多数使用LSTM或GRU作为句子解码器的现有模型不同,作者采用Transformer结构的解码器网络来有效地学习远程视觉和语言依赖性。此外,作者还提出了一种新的字幕任务集成策略。
实验结果证明了本文的方法在两个数据集上的有效性:
1) 在MSR-VTT数据集上,本文的方法获得了SOTA的结果,在CIDEr中的显著增益高达10%;
2) 根据私有测试数据中,本文的方法在2021年ACM MM multimedia grand challenge:Pre-training for Video Understanding Challenge中排名第二。
▊ 1. 论文和代码地址
CLIP4Caption: CLIP for Video Caption
论文地址:https://arxiv.org/abs/2110.06615
代码地址:未开源
▊ 2. Motivation
描述视频内容对人类来说是一项劳动密集型任务。因此,计算机科学家们投入了大量精力将人类语言与视觉信息联系起来,开发出一种使用自然语言句子自动描述视频的系统。视频字幕技术的进步增强了各种实际应用,例如自动视频字幕、帮助视力受损者、人机交互以及改进在线视频搜索或检索。
早期的视频字幕研究使用了基于模板的方法,将预测的单词与预定义的模板对齐。S2VT提出了一种基于LSTM的序列间视频字幕模型。此后,许多序列学习方法被引入,它们采用编码器-解码器结构来灵活地生成字幕。
RecNet提出了一种重建网络,该网络利用视频到文本和文本到句子流进行视频字幕。在最近几年的研究中,一些研究人员还成功地将视觉语言(VL)预训练用于VL理解,这在图像字幕的下游任务中取得了重大进展。
上述所有方法都使用基于CNN的网络构建视频编码器,由于它们仅利用视觉模态的信息,因此缺乏足够的视觉表示。在本文中,作者提出了一个视频文本匹配网络,该网络通过一个良好的预训练CLIP模型来学习视频嵌入,充分利用视觉和语言模态。
作者首先对视频-文本匹配模型进行预训练,得到文本相关的视频嵌入,然后将这些增强的视频嵌入作为输入,在经过良好训练的transformer解码器网络中进行微调。
值得注意的是,本文的Transofrmer解码器是由预训练Uni-VL模型的部分权重初始化的。大量实验表明,在MSR-VTT数据集上,本文的方法优于SOTA的视频字幕方法。
此外,本文的方法在《ACM MM multimedia grand challenge2021:Pre-training for Video Understanding Challenge》中排名第二,在视频字幕预训练赛道中排名第一。
▊ 3. 方法
上图展示了本文提出的用于视频字幕的CLIP4Caption的框架。作者分两个阶段训练本文的模型。
3.1 Video-text matching pre-training
基于CLIP的CLIP4Clip模型在视频文本检索任务中表现出出色的性能。首先,作者在CLIP4Clip上对视频文本匹配网络(VTM)进行了预训练。CLIP4Clip以1fps的帧率从视频中提取图像帧,每个epoch的输入视频帧来自视频的固定位置。
视频文本匹配采用自监督的方式进行训练。给定一个batch的N个视频文本对,VTM生成N×N个相似度,优化目标是最大化成对视频文本之间的相似度和最小化未成对文本的相似度。因此,损失函数定义如下:
其中和分别表示视频到文本和文本到视频的损失函数。
3.2 Fine-tune on video captioning
在微调阶段,作者利用经过预训练的Uni-VL模型,在MSR-VTT数据集的视频字幕上微调Uni-VL的编解码器结构。Uni-VL是一种双流视频和语言预训练模型。在Uni-VL的预训练期间,文本和视频分别输入到文本编码器和视频编码器,交叉编码器将文本嵌入和视频嵌入对齐。
3.3 Ensemble strategy
单个的模型不够强大,无法产生很好的预测结果。为了获得更强大的captioning效果,作者设计了一种新的基于度量的caption投票策略。作者使用字幕评价指标,如BLEU4, CIDEr, SPICE,等,作为生成句子的“重要性分数”,并选择分数最高的句子组成最终结果。
其中和是captioning指标。得分最高的预测字幕𝑆 被选为最终输出。由于字幕任务通常使用多个度量,并且每个度量的值范围不一致,因此作者使用每个度量的最大值对其进行归一化。考虑到有多个指标,总体指标可计算为:
其中,M表示用于计算的度量数量,表示特定度量的最佳数值。多个指标的重要性得分为:
▊ 4.实验
4.1 Pre-training result
上表展示了MSR-VTT上预训练的文本到视频和视频到文本的检索结果。
4.2 Fine-tuning result
4.3 Ensemble result
上表展示了用本文的方法进行多个模型集成的结果。
▊ 5. 总结
在这项工作中,作者专注于学习更好的用于文本生成的视觉表示,并通过视频和语言预训练模型改进视频字幕的性能。作者提出了CLIP4Caption ,一种基于两阶段语言和视频预训练的视频字幕解决方案。
▊ 作者简介
知乎/公众号:FightingCV
END
欢迎加入「视频字幕」交流群👇备注:字幕