查看原文
其他

基于深度学习的视频中人体行为识别研究简介

白入文 李 敏 中国保密协会科学技术分会 2022-10-02

摘要:

基于机器视觉的人体行为识别是将包含人体动作的视频添加上动作类型的标签。近年来, 随着视频采集传感器及信息科学技术的不断发展, 这方面的研究在视频监控、 人机交互、 基于内容的视频检索等方面逐渐成为一个具有广泛应用前景的研究课题。自动化监控对生产生活产生很大的影响, 可以应用在商场、 广场以及工业生产的监控中; 作为人机交互的关键技术, 可以将其作为智能家居的一部分应用在家庭中, 如监护小孩或者老人的危险行为等; 传统的视频检索方法都是人工对其进行标定, 其中有很多主观因素, 如果能够将人体行为识别方法应用到该领域, 将大大提高建立索引的效率及搜索效果。

当深度学习遇到视频大数据

人工智能(AI)是当今科技世界最炙手可热的词语。人工智能技术已经全面进入了以深度学习为核心的黄金时代。计算机视觉是计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,一直以来都是人工智能技术领域的热点之一。研究结果表明:人的感知、学习、认知和活动有80%~85%是通过视觉介导的。如果不能获取并处理视觉信息,就没法研究真实世界的人工智能,由此可见计算机视觉对人工智能发展的重要性。视频信号在大数据中占很大比重,现在网络上 70%~80%的流量是由视频信号所组成的,可以说它是大数据中的大数据。这些数据可能在几年前还不太容易得到,但是随着各种摄像头的普及,视频数据得以更详细的记录物理世界发生的一切。由此产生了海量的大视频数据,这种大数据给我们带来了存储、传输、处理、管理等方面的挑战,同时也提供了很大的机会。数据显示,人们在视频上花费的时间是图片的2.6倍,越来越多的人正在主动成为视频内容的消费者。让机器帮助分析理解视频大数据就成了我们观察了解物理世界的一条捷径。

深度学习方法以其强大的表示学习的能力,使得机器视觉在图像识别任务上能比人类视觉完成的更优秀,即机器与人眼相比已经能从图像上获得更多的信息。2016年ILSVRC的图像识别错误率已经达到约2.9%, 远远超越人类的5.1%。计算机视觉技术的突飞猛进和深度学习的发展不仅拓宽了图像领域的应用,同时也给互联网视频内容带来了新的可能性。

视频中人体行为识别的应用前景

视频中的人体行为识别是通过计算机对一系列的视频图像帧序列进行视觉信息的处理和分析,从而自动识别视频中人的行为。在移动互联网的时代,公众的日常生活已经被大楼门禁、 交通摄像头、银行安保摄像头等包围, 无处不在的摄像头使得每个人的行为都能被监控,因此视频中的人体识别在安防领域大有可为。除此以外,分析和理解视频中的人体行为涉及目标检测,语义分割,运动分析以及姿态识别等多个研究课题,在智能视频监控,自动驾驶,人机交互以及智能看护等领域有着广泛的应用前景。那么行为识别系统会在这些应用场景中产生什么样的影响呢?网络视频检索与分析手机、数码摄像机、平板电脑等便携视频设备即拍即传,方便快捷,也使得互联网上的视频数据以指数级速度不断增长。2015年底,Google旗下影像分享网站Youtube视频上传量达到每分钟500小时。这些海量视频目前主要由上传者用文本进行标注,然而人工标注方式存在明显不足:不同人对某段视频的理解和描述可能不同,甚至同一个人在不同环境下对同一视频的描述也可能不同。人工标注信息的主观性导致视频分类结果准确度低,影响视频检索结果精确性。因此,引入智能行为识别系统对视频内容进行分析,自动调整视频标注信息,可有效降低人的主观性对标注信息的不利影响,提升视频检索精度。另外,行为识别系统还可以自动清除不适合在互联网上传播的不良视频。智能监控视频分析全球各地室内及街头监控摄像头在监控、保障人身安全的同时,也不断产生着海量监控视频数据。2003年以来我国就开展了大规模“城市视频监控与报警示范工程”建设,己建成的城市联网监控系统每天产生PB级监控视频数据单纯地依靠人工判别,从这海量视频中发现实时监控异常和可疑动作(如“有人丢下了一个手提袋”或者“有人把钱包丢进了垃圾箱”等)已变得极为困难:一是监控人员过多会导致人力成本过高,监控人员过少又无法及时监控到人们的异常行为;二是当监控视频工作人员注意力不集中时,无法及时发现一些危险行为并采取有效措施,危及公共安全。因此,使用异常行为识别系统来辅助或取代工作人员完成实时监控,可以解决成本与有效监控之间的矛盾。智能视频监护2015年国民经济和社会发展统计公报显示,我国60周岁及以上人口为2.22亿,比2014年增长了0.6%。对比分析近年统计公报中老年人口增长情况可知,我国人口老龄化程度越来越严重。另外,最早响应国家计划生育政策号召的家长已经步入中老年,使得我国空巢老人问题日益突出。如何更好地照顾和监护老人引起了社会的广泛关注。基于行为识别的智能监护系统可以对老年人的一些异常、高危动作(如跌倒、摔伤等)进行无人监控,及时、准确地发出报警信号,减少救治不及时等系列问题。同样,智能监护系统还能实现对患者、儿童以及残疾人的实时监护,对保护人们的生命安全有着十分重要的应用意义。

基于深度学习的人体行为识别研究概述

人体行为从简单到复杂可以分为四层含义:(1)人体部位运动形成的简单动作,如挥手,抬脚等;(2)有简单动作组成的单人行为,如走路,跑步,跳;(3)交互行为,如梳头发,看书等;(4)群体行为,如小组会议,打群架等等。当前人体行为识别的研究主要分为两个子任务:行为分类和时序行为检测。行为分类一般是对分割好的视频片段给出一个行为的类别标签,每一个视频片段仅包含一个行为实例。然而,现实生活中大部分视频都是未分割的长视频,因此时序行为检测是从未分割的长视频中检测出行为的开始、结束时间以及行为类别,一段长视频中一般包含一个或多个行为实例。要明确的是,时序行为检测是比行为分类更复杂一级的研究任务,正如图像识别任务中目标检测与图像分类的关系一样。行为分类是时序行为检测的基础,行为分类的经典模型(如TSN,C3D,I3D等)也被广泛用于时序行为检测任务当中。在早期的研究中,研究者们更多地关注人体行为识别中的行为分类问题,随着机器学习、目标检测、人体姿态估计等相关研究课题的发展,近年来对更具挑战性的时序行为检测的研究越来越多。随着Kinect深度摄像机成本的降低,人体行为识别的研究工作也逐渐从传统的RGB单模态视频数据,扩展到了RGB-D(RGB,深度和骨骼三种模态)多模态视频数据。RGB视频帧中包含了丰富的形状、颜色以及纹理信息,使用卷积神经网络从这样的2D图像视频帧中很容易提取出丰富的图像外观信息。与RGB视频数据相比,多模态的RGB-D视频数据对环境变化、光照变化、人体外貌变化等与行为无关的外界因素是鲁棒的。深度数据包含了深度信息的3D空间平面投影图,提供了3D的空间结构信息。虽然深度数据包含了丰富的场景信息,但基于深度模态数据的行为识别模型效果并不理想,原因主要有三点:(1)深度图中缺少了颜色纹理以及人体姿态信息,这削弱了卷积神经网络(CNN)模型的判别式表达能力;(2)深度数据中包含了大量的噪声;(3)现有的深度数据仍是小规模的,这对数据驱动来学习表达的CNN模型来说,容易过拟合。受益于微软开发的三维骨架实时捕捉工具库以及近两年可靠且有效的实时人体姿态估计检测算法的提出,实时从RGB视频和深度视频数据中获得每一帧的人的三维骨骼信息变得更加容易。骨骼数据是由人体关键点的位置组成的,人体关键点有2D和3D两种位置坐标表示方式,是更抽象的人体表达。近两年来,也有越来越多的研究者们应用骨骼数据进行视频中的人体行为分类任务。

挑战及下一步发展方向

视频与2D图像相比多了一个时间维度,包含了更复杂多样的内容,加之视频数据的标注费时,费力且成本高昂,因此基于视频的分类和表示学习架构与静态图像相比进展相对缓慢。深度学习在人体行为分类、交互识别和动作检测等方面的表现已经在一定的环境下得到了验证。然而,在智能视频监控等真实的复杂场景中,多模态数据下的特征学习、交互识别、时空动作定位等都存在很多问题。基于深度学习的人体行为识别在智能视频监控中的研究现状,需要解决以下几个问题:(1)基于多模态融合的多模态视觉感知与动作表征问题。在目前的研究中,基于精确的深度信息和骨骼数据,可以有效地研究人体动作特征。然而,在大多数真实场景中,数据采集平台只能提供RGB数据。虽然深度传感器可以应用在户外,但准确性和成本方面的问题意味着它们不适合监控场景。从已有的RGB数据中获取准确的模态数据,如深度信息和骨架数据,不仅是有效的动作识别的基础,而且在许多视觉分析任务中都有重要的应用。基于RGB数据、深度数据和骨架数据的多模态数据集成是行为识别研究的关键问题。(2)交互识别问题。识别人与对象之间的交互具有高级语义信息,比如携带危险物品、遗留物品和挥动设备。基于多模态数据对人和文章之间的交互进行建模,并快速分析交互,目前还不可能达到适当的精确度。这将是未来人类目前还不能达到理想的精确度。(3)时空维度中的快速动作检测。人类动作识别的研究更多的是对分割后的视频内容进行分类。虽然有人尝试讨论动作在时间和空间维度上是如何定位的,但效果和速度都低于当前的应用要求。分析基于多模态数据感知的不同信息特征,实现快速准确的动作检测,是人体动作识别成功应用的关键。近年来,提出了几种方法,但这是另一个尚未解决的挑战。

参考文献:

[1]胡建芳, 王熊辉, 郑伟诗, 等. RGB-D 行为识别研究进展及展望[J]. 自动化学报, 2019, 45(5): 829-840.

[2]Wang L, Huynh D Q, Koniusz P. A Comparative Review of Recent Kinect-based Action Recognition Algorithms[J]. arXiv preprint arXiv:1906.09955, 2019.

[3]Asadi-Aghbolaghi M, Clapes A, Bellantonio M, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences[C]//2017 12th IEEE international conference on automatic face & gesture recognition (FG 2017). IEEE, 2017: 476-483.

[4] Kang S M, Wildes R P. Review of action recognition and detection methods[J]. arXiv preprint arXiv:1610.06906, 2016.

[5] Han, F., Reily, B., Hoff, W., Zhang, H., 2017. Space-time representation of people based on 3D skeletal data:A review. Computer Vision and Image Understanding

[6] Presti, L.L., La Cascia, M., 2016. 3D skeleton-based human action classification: A survey. Pattern Recognition 53, 130–147.

[7] Guo, G.; Lai, A. A survey on still image based human action recognition. Pattern Recognit. 2014, 47, 3343–3361.

[8]Wang P , Li W , Ogunbona P , et al. RGB-D-based Human Motion Recognition with Deep Learning: A Survey[J]. Computer Vision and Image Understanding, 2018, PP(1):1-22.

中国保密协会

科学技术分会

长按扫码关注我们

作者:白入文  李  敏

责编:丁   昶

往期精彩文章TOP5回顾

美国攻击窃密能力背后的顶层架构

美国网络安全体系架构简介

起底突破物理隔离的USB设备攻击窃密技术

通过电力线“搞定”物理隔离计算机

请注意:扬声器、耳机也能窃密了!——Mosquito攻击技术

近期精彩文章回顾

智能复合纤维简介

半导体工艺和晶圆缺陷检测技术的发展

私有云环境下的安全管理

美国积极主动网络空间安全体系建设介绍

不同类型制造企业的工控安全问题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存