基于RGB视频数据的深度行为分类模型发展综述二
摘 要
理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活的几百类行为。上篇官微文章详细介绍了基于RGB视频数据的两种深度行为分类模型,本文将介绍第三种深度行为分类模型——基于3D卷积神经网络的,并对三种模型进行分析和对比。
基于 3D卷积网络深度行为分类模型
图 1 2D与3D卷积示意图
图 2 C3D模型示意图
图 3 3D卷积分解成(2+1)D卷积
表 1 在UCF101和kinetics数据集上比较3D卷积模型
UCF 101数据集虽然是流行的视频行为分类标准,但研究者们都有的共识是其有限的视频数据量无法支持从头开始训练较深的CNN网络。上述3D CNN研究工作都关注对3D卷积核的分解,主要动机之一是将3D卷积核分解为2D卷积核和1D卷积核之后,其中的2D卷积核可以使用图像数据进行预训练,对于已标注视频数据的需求也会大大减少。Kinetics大规模视频数据集的出现给3D CNN的发展提供了新的前景。Hara等人[12]应用Kinetics数据集训练了基于残差网络及其扩展版本的不同深度的3D CNN网络,发现Kinetics的数据量已经足够支持训练152层的深度Resnet 3D网络,并且这样训练出来的简单的3D CNN结构的分类精度已经可以和I3D相比。Wang等人[13]则是在I3D三维网络的基础上,使用ResNet-101骨干网络,通过加入非局部模块来获得视频中更长距离的空时依赖关系,这样使得模型NL-I3D在仅输入RGB视频帧的情况下,行为分类的性能已经十分优越。
先进方法的比较分析
a)Two-Stream b)LSTM c)3D ConvNet
图 4 基于RGB视频数据的三种深度行为分类模型示意图
为了进一步提升模型的性能,研究者们在各个方面不断努力,包括使用多种输入数据形式(RGB图像,RGB差,光流图像,扭曲光流,运动矢量等等),探究时序上的融合方法,将2D卷积核扩展为3D卷积核,提取关键视频帧,增加注意力机制等等。概括来讲,对于这三种深度行为分类模型的研究,重点在于如何更有效地挖掘更具有判别力的空域外观信息和更长期的时序运动信息。三种深度行为分类模型在UCF 101和Kinetics数据集上的性能如表2所示。表 2 深度行为分类模型在UCF 101和Kinetics数据集上的性能对比
参考文献:
[1] M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt. Sequential Deep Learning for Human Action Recognition, pages 29–39. Springer Berlin Heidelberg, Berlin, Heidelberg, 2011. 2
[2] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 1, 2, 3
[3] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 1, 2, 5, 7
[4] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015. 1, 2, 3, 7
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 1, 2, 3, 5, 7
[6] Tran, D., Ray, J., Shou, Z., Chang, S.F., Paluri, M.: Convnet architecture search
for spatiotemporal feature learning. arXiv preprint arXiv:1708.05038 (2017)
[7] Z. Qiu, T. Yao, , and T. Mei. Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV, 2017.1, 2, 4, 7, 8
[8] J. Carreira and A. Zisserman. Quo vadis, action recognition?a new model and the kinetics dataset. In CVPR, 2017. 1, 3, 5, 7, 8
[9] Tran D, Wang H, Torresani L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 6450-6459.
[10] Xie S, Sun C, Huang J, et al. Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 305-321.
[11]Tran, D., Wang, H., Torresani, L., Feiszli, M.: Video classification with channelseparated convolutional networks. arXiv preprint arXiv:1904.02811 (2019)
[12]Hara K, Kataoka H, Satoh Y. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 6546-6555.
[13] Wang, X., Girshick, R., Gupta, A., He, K.: Non-local neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
pp. 7794-7803 (2018)
中国保密协会
科学技术分会
长按扫码关注我们
作者:白入文 李敏
责编:郝璐萌
往期精彩文章TOP5回顾
近期精彩文章回顾