查看原文
其他

通过未标记视频进行跨模态时间表征学习

Google TensorFlow 2021-07-27

文 /  Chen Sun 和 Cordelia Schmid,Google Research 研究员 

类可以轻松识别视频中正在进行的活动,并能预判接下来可能要发生的事,但这对机器来说要困难得多。然而,对于各类应用而言,让机器理解视频内容与动态变得愈加重要,如无人驾驶汽车中需要实现的时间定位行为检测和导航等。


为了训练神经网络执行这些任务,我们一般会采用监督式训练。在这种训练模式下,人们会预先对所用的视频逐帧作详细标记,通常情况下我们的训练数据就是由此而来。但是想要大规模获取此类注释,成本极高。因此,自监督式学习便博得了更多关注。这种学习模式能够基于各种代理任务训练模型,因此对这些任务的监督自然在数据本身进行


我们在《VideoBERT:用于视频和语言表征学习的联合模型》(VideoBERT: A Joint Model for Video and Language Representation Learning,VideoBERT)和《用于时间表征学习的双向对比转换器》(Contrastive Bidirectional Transformer for Temporal Representation Learning,CBT)中,建议使用 未标记的视频 来学习时间表征。


我们的目标是针对较长时间段内发生的 行为 和 事件,找寻与之对应的高级别的语义特征。为实现该目标,我们使用了如下重要观点:人类语言会通过演变出的词语来描述高级别的对象与事件


在视频中,语音往往会与视觉信号保持同步,并可由现成的自动语音识别 (Automatic Speech Recognition, ASR) 系统提取出来,从而为自监督模式提供自然来源。我们的模型在训练过程中结合使用了视觉和音频(语音)模态中的信号,因此可视作跨模态学习示例。

左侧示例中,ASR 输出为“继续将它裹紧,并将空气挤出来,您还可以轻轻挤压一下”。我们可以通过该语音来捕获该行为,但视觉上却并不一致。右侧示例中,ASR 输出为“此时您一定要保持万分的耐心”。该语音与视频中的动作毫不相关。


一般情况下,处于视频同一位置的图像帧与人类语音通常具有相同的语义。但这种一致性并不绝对,有时还会伴有噪音。基于此,我们希望使用更大规模的数据集开展预训练,以便缓解这种情况。



面向视频的 BERT 模型

表征学习的第一步即为定义代理任务,此类任务将引导模型从未标记的长视频中学习实时动态,以及对应的跨模态语义内容。


为此,我们需要泛化 Bidirectional Encoder Representations from Transformers (BERT) 模型。BERT 模型可使用转换器结构对长序列进行编码,并基于包含大量文本的语料库开展预训练,从而能在处理各类自然语言处理任务时展现出顶级性能 (SOTA)。在此测试中,BERT 将填空测试作为代理任务。我们强制 BERT 模型从上下文中双向预测缺失的词语,而不是仅预测序列中的下一个词语。


为此,我们需要泛化 BERT 的训练目标,通过结合使用图像帧与同一位置的 ASR 语句输出构成的跨模态的“语句”。模型会根据视觉特征的相似点,将图像帧转换成时长 1.5 秒的视觉标记,然后再将其与 ASR 词条进行串联。我们训练 VideoBERT 模型填写可视化文本语句中缺失的词条。我们假设(并且实验支持此假设):通过使用此代理任务进行预训练,模型将学会推理更长跨度内的时间动态(可视化填空)与高级语义内容(可视化文本填空)。

上图展现了 VideoBERT 模型预测视频和文本的屏蔽词条或执行完形填空等任务时的具体情形。底部:将来自视频同一位置的视觉标记与文本 (ASR) 词条进行串联,进而构成 VideoBERT 的输入内容。部分视觉标记和文本词条已被屏蔽。中间部分:VideoBERT 应用转换器 架构对双向可视化文本的上下文进行联合编码。黄框和粉框分别对应于输入和输出嵌入。顶部:训练目标是正确恢复被屏蔽位置的词条。



检查 VideoBERT 模型

我们用 100 多万部教学视频训练了 VideoBERT 模型,其中包括烹饪、园艺与汽修等视频。训练后,我们通过检查 VideoBERT 模型自大量任务中学到的内容,从而验证输出是否能准确反映视频内容。例如,文本到视频的预测可用于自动生成视频中的说明(如食谱),进而生成可反映每步所述内容的视频片段(词条)。此外,视频到视频的预测还可根据初始视频片段,预测后续可能出现的内容。

用烹饪视频对 VideoBERT 开展预训练后得出的结果进行定性。顶部:根据给定的食谱文本生成的一系列视觉片段。底部:给定视觉片段后,我们展示了 VideoBERT 在不同时间尺度下预测出的三个最有可能的片段。在这种情况下,模型会作出如下预测:有人可能会在烤箱中烘烤一碗面粉和可可粉,并可能将其烘烤成布朗尼蛋糕或纸杯蛋糕。我们会在训练集中选用在特征空间中与该视觉词条最为相似的图像,从而对其进行可视化。


为验证 VideoBERT 有否学到视频和文本语义间的对应关系,我们使用烹饪视频数据集测试其“零次”分类 (“zero-shot” classification ) 的准确率(该数据集所含的视频和注释均未曾用于预训练过程)。为进行分类,我们将视频片段与模板语句“现在让我向您展示如何 _____(动词)____(名词)”进行串联,然后提取所预测的动词和名词片段。VideoBERT 模型可以达到全监督式基线排名前五的准确率,这说明该模型在“零次”分类设定下能够发挥较大的竞争优势。



使用双向对比转换器进行迁移学习

虽然 VideoBERT 在学习如何自动标记和预测视频内容方面展示了颇为显著的成果,但我们也注意到,VideoBERT 使用的视觉片段可能会丢失视觉信息,如较小的物体和细微动作。为探究此问题,我们提出了双向对比转换器(Contrastive Bidirectional Transformer,CBT)模型。该模型可移除此取样步骤,并可通过下游任务中的迁移学习进一步评估学习到表征的质量。


CBT 会采用一个损失函数(即对比损失函数),以充分利用屏蔽位置与跨模态语句其他部分之间的共通信息。我们已针对各类不同任务(如动作分割、动作预测和视频字幕制作)以及多种视频数据集,对已习得的表征进行了评估。


在大多数基准测试中,CBT 模型的表现都要远远优于之前最先进的模型 (SOTA)。我们发现:

  1. 跨模态目标对迁移学习表现十分重要;

  2. 使用规模更大且更加多样的预训练数据集能够产生更好的表征;

  3. 与平均池化或 LSTM 等基线法相比,CBT 模型更善于利用时间跨度较大的情境。

使用 CBT 模型从包含 200 个活动类的原始视频中得出的动作预测准确率。我们将 CBT 与 AvgPool 和 LSTM 进行比较,并展示在 15、30、45 和 72 秒时观察到的表现。



结论与后续工作

研究结果证明,BERT 模型在使用未标记的视频学习视觉语言和视觉表征方面展示出了强大能力。我们发现该模型不仅适用于“零次”动作分类和食谱生成任务,还可将习得的时间表征完好迁移至各类下游任务中(如动作预测)。


在后续工作中,我们将结合学习底层级视觉特征和长期时间表征,以便更好地适应视频情境。此外,我们计划扩增预训练视频的数量,使其规模更大、种类更丰富。



致谢

核心团队成员包括 Chen Sun、Fabien Baradel、Austin Myers、Carl Vondrick、Kevin Murphy 和 Cordelia Schmid。我们在此感谢 Jack Hessel、Bo Pang、Radu Soricut、Baris Sumengen、Zhenhai Zhu 和 BERT 团队分享的绝妙工具,这为我们的实验提供了极大便利。同时还要感谢 Justin Gilmer、Abhishek Kumar、Ben Poole、David Ross 和 Rahul Sukthankar 提供的有益讨论。



如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:

  • 无人驾驶汽车
    (https://waymo.com/)

  • 时间定位

    (https://ai.googleblog.com/2019/04/capturing-special-video-moments-with.html)

  • 行为检测

    (https://ai.googleblog.com/2017/10/announcing-ava-finely-labeled-video.html)

  • 基于视频色彩化的自监督追踪

    (https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html)

  • VideoBERT:用于视频和语言表征学习的联合模型

    (https://arxiv.org/abs/1904.01766)

  • 用于时间表征学习的双向对比转换器

    (https://arxiv.org/abs/1906.05743)

  • 自动语音识别

    (https://ai.googleblog.com/2017/12/improving-end-to-end-models-for-speech.html)

  • 跨模态学习

    (https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html)

  • Bidirectional Encoder Representations from Transformers (BERT) 模型

    (https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html)

  • 自然语言处理

    (https://en.wikipedia.org/wiki/Natural_language_processing)

  • 填空测试

    (https://psycnet.apa.org/record/1955-00850-001)

  • 视觉标记

    (https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization)

  • “零次”分类

    (http://openaccess.thecvf.com/content_cvpr_2014/html/Mensink_COSTA_Co-Occurrence_Statistics_2014_CVPR_paper.html)

  • 对比损失函数

    (https://arxiv.org/abs/1807.03748)

  • 共通信息

    (https://en.wikipedia.org/wiki/Mutual_information)




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存