最新|李飞飞团队新成果：提出视频字幕密集型事件描述新模型（附资源）

2017-05-09 全球人工智能

全球人工智能：专注为AI开发者提供全球最新AI技术动态和社群交流。用户来源包括：北大、清华、中科院、复旦、麻省理工、卡内基梅隆、斯坦福、哈佛、牛津、剑桥等世界名校的AI技术硕士、博士和教授；以及谷歌、腾讯、百度、脸谱、微软、华为、阿里、海康威视、滴滴、英伟达等全球名企的AI开发者和AI科学家。

文章参考：arXiv 编译：马卓奇博士

视频密集事件描述

本文介绍了论文《Dense-captioning events in videos》，文章提出了密集事件描述任务，包括视频中的事件检测和描述。作者提出了一个新模型，在视频的一个单通道能够识别所有的事件，同时用自然语言描述事件。李飞飞团队的模型，可以利用过去和未来的上下文内容信息，来识别视频中这些事件之间的关系，并把所有事件描述出来。作者还介绍了ActivityNet Captions，一个大规模的密集事件描述的数据库。最后，展示了模型用于密集事件描述的性能。下面是李飞飞视频描述新模型的相关视频介绍：

https://v.qq.com/txp/iframe/player.html?vid=b0501w97d6n&width=500&height=375&auto=0

问题描述：之前的视频描述研究首先会通过用一个预定义的类别来对视频进行标注。或者对一段视频只用一句话来进行描述。但是这些工作都忽略的重要的一点：细节。

例如该图中，之前的模型会产生“一个老人在人群前弹钢琴”这样的描述。尽管这句话给我们提供了很多细节，是谁在弹钢琴，并且还提到了观众，但是这样简单的一句话不能识别视频中的其他事件。例如，视频中某一时刻，“一个女人开始配合钢琴家唱歌”，过一会儿，“另外一个男人在跟着音乐跳舞”。为了识别视频中的所有事件，并对其用自然语言进行描述，我们提出了密集事件描述任务，要求模型能够生成一系列对于视频中出现的多个事件的描述，并且在时间上对他们进行定位。这些事件在视频中都有独立的起始和结束时间，有的时间也会同时出现，或在时域上互相覆盖。

描述视频密集事件的算法模型

概览：

视频密集事件描述的完整框图

我们首先从输入视频中提取C3D特征。这些特征随后输入我们提出的获取模块，可以预测短的以及长的事件。每个事件，都由一个独一的开始和结束时间，以及一个隐层表示组成，然后这些信息会作为描述模块的输入。最后，描述模型结合考虑临近事件的情景，来产生每个事件的描述。

事件获取模块（Proposal Module）：获取模块负责应对在长短视频序列中检测事件的挑战，同时防止语言模型在推断的滑动窗口中的密集应用。模块的输入是从视频帧中获取的带有语义信息的特征。然后我们将这些特征输入到一个DAPs的变种形式中，对视频的特征进行不同步长的采样（实验中采用1，2，4，8），然后将它们输入到LSTM单元。步长越长，能捕捉到的事件就越长。LSTM随着视频特征的前进会慢慢积累数据。我们没有修改DAPs的训练阶段，而是修改了模型的推测阶段，通过每时间间隔输出K个获取的事件，每个检测到的事件都带有偏移。LSTM能够产生不同覆盖时间间隔的事件，并且由于所有的步长都是并行计算的，我们只需要将视频整体迭代一次。LSTM每检测到一个事件时，我们使用LSTM在那个时间间隔上的隐态作为视觉事件的特征表示。

结合上下文的描述模块（CaptioningModule）：在检测到事件之后，算法的下一步是描述每个事件。传统的加入描述的方法会独立对待每条描述语句。然而视频中的大部分事件是互相关联的，甚至一个事件会引起另一个事件的出现。为了捕捉到这样的关联，我们设计的描述模型可以整合周围事件的上下文信息。

整合上下文信息：为了捕捉到所有临近事件的上下文信息，我们将所有事件根据当前要描述的事件分为已发生的（过去的）和该事件结束后才发生的（未来的）。对于从获取模块得到的一个视频事件，我们根据隐层表示，以及开始和结束时间，来计算过去和未来事件的上下文表示。

语言模型：每个LSTM初始化为2层，512维隐层表示。我们随机初始化所有的嵌入标准差为0.01的高斯分布词向量。我们使用大小为5的定向搜索，从模型中采样预测语句。

ActivityNet Captions数据库介绍

ActivityNet Captions数据库将视频和一系列时序标注的语句联系在一起。每个语句覆盖了视频的某一特定片段，描述了出现的事件。这些事件持续的时间或长或短，对事件本身也没有限制，并且可以同时出现。ActivityNet Captions包含20000个视频，每个视频平均含有3.65个时序定位的描述语句，一共有100000条描述。我们发现每个视频的语句数量相对服从正态分布。除此之外，随着视频的持续时间增加，描述语句的数量也在增加。句子的平均长度为13.48个词，也符合正态分布。平均每个句子描述了36秒的事件，大约是相应视频的31%的内容。然而每个视频的完整语句描述了大概视频94.6%的内容，这一点说明每一段标注基本都能覆盖视频内的主要活动。我们还发现描述内容有10%的重叠，说明同时出现的事件会互相覆盖。

实验结果

在该实验中，我们测试模型检测以及描述视频中多个事件的能力。我们在ActivityNetCaptions数据库上进行测试。

该表格是上下文信息对于描述第一个，第二个和第三个视频事件的影响。我们可以看出，由于online模型加入了过去的信息，full模型加入了未来的信息，他们的表现都有所提高。

（a）加入上下文信息可以生成连续描述

（b）Online模型与full模型对比

（c）上下文信息会对少数事件产生更多噪声

图（a）中可以看出，没有上下文的模型给出的描述语句偏离了主题，而完整模型使用上下文信息可以产生更为合理的描述文字。在图（b）中，我们可以看出我们的完整上下文模型能够使用蔬菜随后在碗里搅拌的先验知识，所以在第三和第四条语句中也提到了碗，将上下文信息反向传播到了过去的事件中。然而，上下文信息也不是一直能产生更好的描述。在图（c）中，当提出的事件片段重叠度很高时，我们的模型不能分辨两个事件，导致了重复的描述。

论文简介
http://cs.stanford.edu/people/ranjaykrishna/densevid/
数据集下载链接
http://cs.stanford.edu/people/ranjaykrishna/densevid/captions.zip
C3D Features：http://activity-net.org/challenges/2016/download.html#c3d
论文地址
https://arxiv.org/pdf/1705.00754.pdf