我们的出发点现有的行为识别算法多采用如下图(a)所示的单模态框架,即预测一组固定的预定义类别,完全忽略了标签所包含的语义信息,直接将标签映射到一个固定数量的类别索引(数字)中,其不但限制了模型的通用性,不具备zero-shot(零学习样本)的迁移/预测能力,需要额外的标记数据方能将模型应用迁移到新的场景中,而且视频本身的表征缺乏语义性,无法与标签的语义信息进行对齐。可以思考下人类是如何进行行为识别的,当看到一段视频的时候,我们是能将视频特征(不管是见过还是没见过的),跟我们脑海中的自然语言的特征进行关联和对应的,而不是与数字/索引进行对应。因此,我们打破常规的单模态框架,不再聚焦在时空网络的设计,而是提出了从多模态框架(下图(b))的角度来做行为识别这个问题,该框架训练旨在挖掘标签文本的语义信息,并与对应的视频特征进行关联。不仅增强了视频表征的语义性,同时能够具备很强的zero-shot的迁移能力。另外,因为现有的行为识别数据集的标签文本相对丰富的视频内容显得过于单薄和稀缺,直接用新框架去学习的话,很难学到我们想要的语义特征,达不到语义特征监督的目的。针对这一问题,最直接的方法是用包含丰富文本标签的成对的视频-文本数据(比如HowTo100M,光下载按照咱的资源目测都需要半年)进行模型的训练,但这并不是咱普通高校人均(<=)两块卡的硬件条件能做的事情(心里那个苦啊,羡慕大厂的显卡资源)。脑洞一开,那能不能用大厂训练好的多模态模型,直接跳过这一步呢?答案是可以的!针对这一问题,我们提出了一个行为识别新范式“pre-train, prompt, and fine-tune”,使得我们可以利用现有的已经用丰富的互联网数据训练好的pre-trained模型,对我们的行为识别任务进行prompt,使其更像pre-trained模型训练的过程,那就能最好的维持这个pre-trained模型的表征能力啦!然后再来一把fine-tune,效果蹭蹭的上去。请注意,像通常做法那样,直接拿预训练的视觉表征来加个fc也没毛病,只不过,那不还是单模态吗?pre-trained强悍的文本表征不是一点也没上吗?
02
我们的Contributions不同于以往所有的模型,我们提出一个多模态的视频分类框架,将文本特征进行充分的利用,将以往的单模态视频分类问题建模为多模态的视频-文本对的匹配问题;我们提供了一种动作识别的新范式:"pre-train, prompt, and fine-tune",能够利用海量互联网数据预训练的多模态模型,避免难以达到和满足的pre-train资源,通过prompt保持住pre-trained模型的强大表征性能;在新框架和新范式的基础上,我们的模型不仅在通用视频分类达到了最优性能,且具备很强的zero-shot/few-shot的迁移能力。
总结我们将动作识别问题视为video-text多模态学习问题,为动作视频提供了一个新的视角。我们制定了一个新范式pre-train, prompt, and fine-tune使我们的框架能够直接使用强大的pre-trained model,大大降低了预训练成本。通过新范式的实例ActionCLIP,我们验证了我们的方法在常规动作识别、zero-shot/few-shot情境下都有很强的性能。希望能给行为识别的领域带来一个新的出发点。多模态相比单模态,可以说是降维打击了,兄弟姐妹们,别卷网络结构设计了,多模态冲啊!
参考文献[1] Wang, L.; Xiong, Y.; Wang, Z.; Qiao, Y.; Lin, D.; Tang, X.; and Van Gool, L. 2016. Temporal segment networks: Towards good practices for deep action recognition. In European conference on computer vision, 20–36. Springer. [2]Feichtenhofer, C.; Pinz, A.; and Zisserman, A. 2016. Convolutional two-stream network fusion for video action recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 1933–1941. [3]Jiang, B.;Wang, M.; Gan,W.;Wu,W.; and Yan, J. 2019. Stm: Spatiotemporal and motion encoding for action recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2000–2009. [4]Arnab, A.; Dehghani, M.; Heigold, G.; Sun, C.; Luˇci´c, M.; and Schmid, C. 2021. Vivit: A video vision transformer. arXiv preprint arXiv:2103.15691. [5]Lin, J.; Gan, C.; and Han, S. 2019. Tsm: Temporal shift module for efficient video understanding. InProceedings of the IEEE/CVF International Conference on Computer Vision, 7083–7093.