【源头活水】松弛Transformer：实现直接出框的时序动作检测

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—王利民

地址：https://zhuanlan.zhihu.com/p/363133304

本文介绍我们组在2021年初公开在arxiv上的时序动作候选框生成工作RTD (Relaxed Transformer Decoders for Direct Action Proposal Generation)。

论文链接：https://arxiv.org/abs/2102.01894

代码地址：https://github.com/MCG-NJU/RTD-Action

任务背景

伴随在不同社交平台上视频数量的大幅度增加，视频理解任务成为计算机视觉领域的比较重要的问题之一。现实环境中的视频往往动作区域和背景区域交杂，同一个视频包含多个动作实例。时序动作候选框生成任务(Temporal Action Proposal Generation) 基于未经剪辑的长视频，定位其中人类动作的边界。目前两种主流方法包括anchor-based方法和boundary-based方法。anchor-based方法基于预先定义的密集多尺度动作锚框预测动作，其缺点在于，由于视频中动作的时长变化范围较大，anchor-based方法难以在合理的复杂度下覆盖全部动作实例。boundary-based方法首先对于视频的每个时序位置预测boundary confidence，而后采用bottom-up的grouping策略匹配预测的开始位置和结束位置。boundary based方法利用local特征预测boundary信息，因此对local噪声敏感并且容易产生不完整的预测框。这两种主流方法都依赖于繁琐而冗余的anchor生成模块或者边界点匹配模块，需要先验知识和大量的手工调参。

研究动机

我们认为在时序候选框生成任务中，对于长时序依赖的建模是非常重要的。我们在这篇工作中将视频看作是一维的时间序列，利用Transformer结构对于视频中的全局依赖建模以增强我们的定位精度。我们结合Transformer结构，提出了一个直接得出时序候选框的候选框生成模型RTD-Net。相比过往工作对范围有限的时序邻域依赖的建模，Transformer中平行解码的结构可以使我们从全局的角度对于候选框query之间的依赖建模，从而得到更加完整和精确的边界预测结果。此外，我们的时序候选框生成模型因为结合了简洁的集合预测范式，不再需要之前工作中冗余繁琐的手工设计模块，比如密集的anchor生成或者边界点匹配；同时预测结果也不需要耗时的NMS后处理，大大提升了inference的速度。

在将Transformer-based detection方法从图像检测领域迁移到视频分析领域的过程中，我们做出了以下三个重要的改进：

1. 我们观察到视频特征存在slowness问题，即视频的特征沿时序维度的变化速度较慢，导致直接在时序特征上运用self-attention模块会带来over-smoothing的问题，降低动作边界在时序特征中的区分度。我们提出了一个自定义的boundary-attentive模块，代替Transformer encoder来减轻over-smoothing问题，提高了时序维度中边界的区分度。

2. 时序动作候选框生成任务中的动作定义较为抽象，导致其边界不如物体边界的定义明确，因此受到标定人员标准不一致的影响，动作标注中的边界定义也存在噪声。过于严格的集合元素配对策略可能会影响Transformer结构的收敛，也会影响模型训练和其泛化性，因此我们提出了一个松弛匹配策略来放松预测-真值之间较为严格的一一对应匹配策略。

3. 我们提出了一个三分支检测头结构，增加了completeness head对于生成的时序候选框完整度进行预测，提高候选框打分的鲁棒性。

方法介绍

我们提出RTD-Net，将时序候选框生成的过程看成一个集合预测问题，从输入特征直接回归出时序候选框。我们的模型主要包括了3个模块：边界注意力模块、松弛Transformer解码器和三分支的检测头结构。我们首先利用backbone网络对原始视频提取特征，然后边界注意力模块利用边界分数来增强上述特征中边界对应特征的区分度，生成更加紧凑的边界注意特征送入松弛Transformer解码器。实验表明，边界注意特征对于后续的候选框解码流程非常重要。而后，Transformer解码器利用一系列候选框query结合边界注意特征，在平行解码过程中建模候选框之间成对的约束，并从全局角度捕捉候选框之间的依赖信息。最后，一个三分支结构的检测头将解码器输出转化为最终的预测结果。边界预测分支直接生成时序候选框的边界，动作-背景二分类分支和完整度分支对于每个时序候选框给出可靠的打分。在训练过程中，我们在集合元素配对时采用了一种松弛配对法则，缓和了时序边界定义模糊带来的影响，将更多预测较好的候选框也分配成为正样本。

边界注意模块（Boundary-attentive module）

该模块主要目的在于增加特征表示中动作边界的区分度，为后续解码提供更好的特征表示。Slowness是视频特征的普遍先验，在backbone网络有重叠地提取特征后其slowness会更加明显，导致在一个局部区域中相邻时序位置对应的特征相似度很高。因此，模块的核心思想在于，在特征中突出动作的边界位置，方便后续候选框生成模块回归得到精确的边界位置。具体来说，我们对于输入特征的每个时序位置，通过一个时序评估网络预测其为一个动作开始或者结束位置的概率。而后，我们将输入特征和每个时序位置对应的动作开始和结束预测分数相乘，得到边界注意特征。在消融实验中，我们发现由于边界注意特征对于时序边界信息进行了显式编码，后续的Transformer解码器可以生成更加准确的动作候选框。

松弛Transformer解码器（Relaxed Transformer Decoder）

该模块利用Transformer Decoder结构直接出框，在平行解码的过程中全局地对query之间的依赖建模，得到更加精确的动作候选框。解码器基于边界注意特征和一系列候选框query，通过堆叠的多头自注意力和编码器-解码器注意力层，直接生成对应每个候选框query的特征表示。自注意力层对于候选框之间的时序依赖建模，并不断调整query的表示。在编码器-解码器层中，候选框query处理每个时序位置，并从输入特征中提取出动作信息结合到query的特征表示中。在训练过程中，解码器结合了匈牙利匹配算法，将和动作真值匹配上的候选框记为正样本，并利用集合预测的损失函数训练。

时序动作候选框任务中，时序动作有着边界定义模糊、标注稀疏的特点，即时序动作的边界定义不像图片中的物体边界那么清晰，且每个训练样本的平均真值较少。因此，一个动作真值只匹配一个动作候选框的严格匹配方法不一定能得到最优的预测结果。我们在结果中发现，预测同一个动作真值的多个候选框往往定位精度类似，很难区分优劣，严格的匹配方法可能会使模型难以收敛到一个比较稳定的结果。

我们提出了一个松弛匹配策略，一个动作真值可以匹配多个检测结果。我们利用候选框和动作真值之间的最大tIoU值来区分正负样本，和真值的tIoU大于阈值的候选框被定义为正样本。在实验中，我们发现松弛策略可以降低模型训练的难度，并且有效地提高最终的定位指标。

三分支检测头结构（Three-branch Detection Head）

我们设计了三分支的检测头结构，基于解码器输出的query特征表示直接输出候选框的边界和打分。其中，边界分支对候选框的时序边界解码，得到开始帧和结束帧的位置，动作-背景二分类分支对候选框是否为前景预测了置信度分数。此外，我们提出了一个完整度分支，用来预测候选框相对于其对应动作真值的完整程度。

一个高质量的候选框不仅需要有高的前景置信度分数，也需要有准确的边界。动作-背景二分类分支有时会将一些特征表示中包括了关键动作特征，但却没有准确定位的候选框打出高分，因此不能作为可靠的候选框打分手段。我们引入完整度分支，对于每个候选框预测其和动作真值的重叠程度，即完整度分数。完整度分数可以显式地将时序定位质量引入候选框的打分依据内，结合二分类分数形成可靠的候选框置信度估计，使检测结果更加稳定和可靠。

模型训练

1. 训练标签分配

针对时序动作边界定义模糊、标注稀疏的特点，我们采用了松弛的训练标签分配策略。松弛的训练标签分配策略旨在优化稀疏出框范式（预测的候选框数量远小于传统的密集出框范式）下的训练标签分配过程，在显著减少inference时间的情况下，提升模型对于正样本的召回率。除了严格匹配方法中得到的正样本外，和真值的tIoU大于阈值的候选框也会被定义为正样本。在实验中，我们发现松弛的训练标签分配策略对于松弛规则（基于什么规则来松弛正样本，如阈值、topK）较为鲁棒，不同的松弛规则下，模型均可以收敛到相对稳定的结果。

2. 损失函数

损失函数主要由三个部分组成，分别对应于检测头中的三个分支（二分类、边界及完整度分支）。

实验结果

1. 时序动作候选框生成任务

在不采用任何后处理方法（如：NMS）的情况下，RTD-Net仍能够在THUMOS14数据集上取得最佳的性能，且对于较小AN下的AR提升较为显著。

2. 时序动作检测任务

RTD-Net生成的时序动作候选框能够提升时序动作检测任务的表现。在分别和video-level的分类器UntrimmedNet，以及proposal-level的分类器P-GCN组合的情况下，RTD-Net的性能都在THUMOS14数据集上超过了之前的SOTA方法。

讨论

1. 时序动作候选框生成任务中，直接出框范式的意义？

现有的anchor-based以及boundary-based方法，基本都采用了密集出框（dense predictions）的方式，因而生成的候选框中有较大的冗余，需要通过NMS进行后处理操作。而RTD-Net基于松弛Transformer解码器（平行解码方式、松弛的训练标签分配策略）实现了稀疏出框（sparse predictions），不通过预测结果的冗余来保证召回率，也就无需进行NMS，即实现了直接出框。直接出框范式下，RTD-Net能够做到“出更少的框，具有更快的inference速度，取得优越的性能”，更适合应用在实际场景之中。

2. RTD-Net是怎么利用long-range的时序上下文信息的？

Transformer decoder中平行解码的注意力结构，可以使RTD-Net从全局的角度对于候选框query之间的依赖建模，从而得到更加完整和精确的边界预测结果。具体来说，自注意力层对query之间的时序依赖进行建模，计算出不同候选框之间的特征关系（proposal-proposal relation），并调整候选框的特征表示；编码器-解码器注意力层中，query处理每一个时刻的特征，并将响应较高（具有动作信息）位置的特征聚合起来。而作为对比，boundary-based方法只利用了边界附近的本地上下文信息。

3. RTD-Net生成的时序动作候选框结果，好在哪里？

更完整：下图第一行中，RTD-Net预测了一个完整的候选框，而boundary-based的方法预测了两个不完整的候选框。Boundary-based的方法感受野较小，只利用了边界附近的本地上下文特征，而无法感知一定范围外的相似特征。因而，该类方法对于本地噪声不够鲁棒，容易预测不完整的候选框。作为对比，RTD-Net利用了long-range的时序上下文信息，从而产生更加完整的时序动作候选框结果。

更精确：第二行中，当一段视频中出现多个动作真值时，RTD-Net预测的候选框更为精准。得益于long-range的时序上下文信息，RTD-Net能够更好地感知到候选框之间的特征关系（自注意力层中，特征相似的query能够相互增强特征的显著性）和前景背景间的特征差异（编码器-解码器注意力层中，前景特征具有较高的响应，而背景特征的响应较低），从而产生更加精确的时序动作候选框结果。

结语

本文提出了一种直接出框的范式，以用于时序动作候选框生成任务。考虑到图像和视频的本质差异，我们的RTD-Net对于原始的DETR框架，做出了三个重要的改进：边界注意模块、松弛Transformer解码器以及三分支检测头结构。由于进行了显式的时序上下文信息建模，RTD-Net在时序动作候选框生成任务及时序动作检测任务上都取得了优越的性能。此外，直接出框的RTD-Net无需进行NMS后处理操作，在inference速度上具有显著的提升，因而比先前的方法更加高效。更多方法中的细节、方法间的比较与分析，Ablation study 和实验可视化请参考我们的论文 :)

感谢大家的观看！

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

【源头活水】松弛Transformer：实现直接出框的时序动作检测

本文介绍我们组在2021年初公开在arxiv上的时序动作候选框生成工作RTD (Relaxed Transformer Decoders for Direct Action Proposal Generation)。

边界注意模块（Boundary-attentive module）

松弛Transformer解码器（Relaxed Transformer Decoder）

三分支检测头结构（Three-branch Detection Head）

Synthesizer-其实我们还不够了解Self-Attention

预训练卷积超越预训练Transformer？

SegFormer: 简单有效的语义分割新思路

ACL2021 | 把关键词生成看成集合预测问题

将预训练BERT用于Task-Oriented对话系统

文本相似：Sentence-BERT 原理与实践

代码层面解读3D点云目标检测算法TANet

BERT Attack: 基于BERT的文本对抗技术

ConTNet：在视觉任务中同时使用Transformer和Convolution

热点讨论：MLP，RepMLP，全连接与“内卷”

CVPR2021｜如何估计代表性的原型是少样本学习的关键挑战-利用原语知识补全原型

SphereFace（A-softmax）论文解读：人脸识别的深度超球嵌入

ICLR 2021 | 如何减少深度学习模型的偏见？

深度循环优化器，从视频流估计深度和相机轨迹

CVPR 2021 | 无需风格图片的图像风格迁移

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

生成图片，分享到微信朋友圈

【源头活水】松弛Transformer：实现直接出框的时序动作检测

本文介绍我们组在2021年初公开在arxiv上的时序动作候选框生成工作RTD (Relaxed Transformer Decoders for Direct Action Proposal Generation)。

边界注意模块（Boundary-attentive module）

松弛Transformer解码器（Relaxed Transformer Decoder）

三分支检测头结构（Three-branch Detection Head）

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣