查看原文
其他

【源头活水】CVPR2021:Spatial在左,Temporal在右,如何缓解视频动作理解中的隐式偏见之殇?

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—老大
地址:https://zhuanlan.zhihu.com/p/355232006

代码链接:

https://github.com/FingerRec/BE

Project Website:
https://fingerrec.github.io/index_files/jinpeng/papers/CVPR2021/project_website.html

01

动机
在介绍这篇文章之前,先让我们从识别这两张图在做什么运动开始:

踢足球?
跑步 ?
而当我们把镜头时间拉长,看整个视频的时候, 就会发现实际对应的类别是"翻跟头"和"跳舞"
对于这种样本而言,如果一个模型过多关注空间信息,则很容易产生误判。
Background是双刃剑,过多或者过少关注都不好~
目前常用的数据集中含有大量类别其动作语义和物体及场景强相关,比如通过是否看到吉他来判断是否为“弹吉他”动作,通过是否看到足球场地来判断是否为 "踢足球"动作,这种运动类别和静态物体以及静态场景强相关的现象称之为Implicit Bias[4]。由于用户收集习惯和与场景关联的自然属性,现有的视频数据集中(eg. Kinetics, AVA)中存在大量implicit bias。
当用CNN在这些具有明显bias的数据集上进行训练时,CNN通常是lazy的,更倾向于使用简单的cues。这样带来的好处是在见过的对object/background有强依赖类别上可能会有个很好的分类效果,但是很难generalize到novel classes上以及一些hard cases(只能靠temporal information才能区分)上[1,2]。
对于这个问题,传统的two-stream (rgb + flow)有奇效, 通过把视频解耦编码场景信息的RGB流和编码运动信息的Flow流两部分可以很好的同时利用spatial和temporal信息(顺带一提,我们AAAI21的工作[9]也尝试了如何通过无监督学习decouple scene和motion),但现在主流方法更多的使用end-to-end的3D网络,网络很容易陷入到implict bias中。为了缓解这个问题,之前工作的探索主要分为两个流派:
(1). 额外训练一个human detector, 在识别action的时候逐帧去掉actor区域,通过对抗学习与正常分类任务co-training,强迫网络更多关注temporal信息,参考NIPS19的Debiasing[1] ;
(2). 合成或者收集一些less bias的数据集,如ECCV20的Resound[2], ICLR20的CATER[4]等;
以上两种方法各有千秋, 在本文我们提出一种通过self-supervised learning来缓解implicit bias的新思路:

02

方法:通过添加background noise来去掉background
受到semi-supervised learning中关于denoise和consistency regularization的启发[3],我们的思路是合成一些background当作噪声,想办法让网络能弱化对background的依赖。
Consistency Regularization:对于同一个样本,添加微小扰动后,网络的预测结果应该保持不变;公式如下所示:

图片来源于[7]

而Data Augmentation的一种特殊形式是加噪:

其中    通常为Gaussian噪声,我们的目标是生成和背景相似的图片作为噪声,在尝试了大量基于GAN以及VAE的方法之后,效果虽然有所提升但计算复杂度极高且很容易陷入模式坍塌(mode collapse)。我们转而在视频上开始尝试Mixup[5]中在RGB空间内插值的做法。
想到视频本身的静态帧的background和我们想要去掉的noise相似后,我们提出了Background Erasing(BE) 的,表示如下:

其中    是任意一个视频,    表示视频中帧的index;    表示新生成的视频,我们假设数据集内所有样本都是Independent and identically distributed(IID)的,   表示和原始视频内图像帧IID的噪声。这样做的优点是生成视频的时间微分(离散空间上的差分)是在原来视频差分图像的基础上线性变化的,而此前的一些方法[6]佐证了只使用图像差分(img diff)也能达到和RGB类似的分类效果。

而接下来的问题就是:   怎么选?我们探索了五种形式,如下:
这五种方法对应的特点如下:
当我们采用Intra-video Frame 作为Noise的时候,我们保留了运动模式并且得到的图像和视频中其它图像的背景有相同的像素分布。最终生成的视频效果如下,我们称之为Distracting Video,直观来看,在appearance上有比较明显的区别,对应的光流梯度却比较类似。
而接下来的问题就是,怎么样把Distracting Video参与到模型的学习过程中?此外,有一些类别确实更依赖与Background, 怎么权衡 Spatial 和 Temporal的信息?
我们的方法是在self-supervised的框架之下,如下图所示:(1) 首先通过pretrain的形式来抑制Background/Object的干扰。(2) 再对模型进行微调,不再限制spatial信息的学习。
我们的方法Background Erasing(BE)在pretrain阶段使用, 详细PPL如下所示:
对于一个输入视频,通过random crop操作得到两个不同pixel-distribution的video clip之后,我们对经过distracting 的视频和原始视频编码通过自洽正则化进行约束。

03

实验
最终的实验结果如下,在只使用RGB作为输入的情况下能达到较好的性能,值得一提的是,我们的方法很容易集成到其它方法里,在Contrastive Learning和普通的Pretext两种范式下都work,在moco的框架下,我们的方法达到了sota。
我们对五种生成方式进行了消融实验,对应的实验结果如下:
其中Intra-Video Frame 相比于baseline效果最好,在UCF和HMDB上分别有9.7和10.8的增益。之后我们进行了一系列分析来验证我们的结果:
对于不同类别,我们发现相对性能提升(MoCo+BE相比于MoCo baseline)和静态视频分类结果之间有很强的皮尔森相关性,说明我们的方法对越依赖于时序分类的类别效果越好。
另一个有趣的实验是当我们移除掉视频里的部分背景以后,我们方法的效果相对稳定。具体而言,我们在HMDB51数据集的基础上采用Faster-rcnn [8] 进行detection+crop的形式生成Actor-HMDB51数据集,在比较相对性能的时候,我们的方法和Kinetics数据集监督学习之间的相对性能差异从HMDB51数据集上的19. 1缩小到了Actor-HMDB51数据集上的2.9。
此外,为了验证我们的方法的鲁棒性以及是不是只是学到了关注actor region,我们刻意构造了一些对抗样本。有意思的是,对于贴图攻击和static noise, 我们的方法都具有很强的鲁棒性。


04

总结
怎么平衡Spatial和Temporal一直以来是video understanding里至关重要的一个任务。我们想通过自监督学习的方法来弥补主流3D CNN容易受场景干扰的问题,在尝试接近1年之后,最终提出的方法非常简单且只用几行代码就可以扩展到任意视频自监督的方法,欢迎大家尝试~ 之前写了一篇简单的草稿介绍,这次算是一个完整的的介绍。
参考文献:

[1]. Choi J, Gao C, Messou J C E, et al. Why Can't I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition[J]. NIPS, 2019.

[2]. Li Y, Li Y, Vasconcelos N. Resound: Towards action recognition without representation bias[C]//ECCV, 2018.

[3]. Laine S, Aila T. Temporal ensembling for semi-supervised learning[J]. ICLR, 2017.

[4]. Girdhar R, Ramanan D. Cater: A diagnostic dataset for compositional actions and temporal reasoning[J]. ICLR, 2020.

[5]. Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.

[6]. Wang L, Xiong Y, Wang Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//ECCV, 2016.

[7]. miro.medium.com/max/269.

[8]. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. arXiv preprint arXiv:1506.01497, 2015.

[9].Wang J, Gao Y, Li K, et al. Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion[J]. AAAI, 2021.


本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存