查看原文
其他

构建人体骨骼拓扑图识别人体行为

白入文 中国保密协会科学技术分会 2022-10-02

     近些年来,随着深度传感器的成本降低以及人体骨骼估计算法实时性和鲁棒性的不断提高,从RGB视频流中获取人体骨骼数据已经成为计算机视觉领域中容易解决的一个问题。人体骨骼数据能很好地克服与行为无关的环境因素并在表达人体行为方面具有潜在优势。骨骼数据是由人体关键点的位置组成的,人体关键点有2D和3D两种位置坐标表示方式,是更抽象的人体表达。处理人体行为识别任务时使用人体骨骼数据有以下几个优点。首先,骨骼是人体的高级表现形式,抽象了人体的姿态和动作。从生物学上讲,人类可以不使用外观信息,仅通过观察身体关节运动来识别动作类别;其次,性价比高的深度摄像机和位姿估计技术的发展使骨骼关键点信息获取更加容易;第三,与RGB视频相比,骨架表示对视点和外观的变化具有较好的鲁棒性;第四,从人体骨骼数据中获得的特征维数相比于RGB图像帧来说低得多,因此计算效率更高。

     目前基于骨骼数据进行人体行为识别的深度学习方法按照骨骼关键点表达方式的不同大致可以分为三类:基于LSTM的循环神经网络的、基于卷积神经网络的和基于图卷积神经网络(Graph Convolutional Network,GCN)的(如图1所示)。基于LSTM方法将人体骨骼关键点表示成时间序列的形式;基于CNN的方法则将人体骨骼关键点表示成伪图像;基于图卷积的方法直接根据人体骨骼关键点的自然连接将其表示成图的形式。针对人体行为识别任务,图卷积神经网络是基于骨骼数据的主流深度学习方法,从 2018 年开始,绝大部分骨架行为识别相关工作都是基于图卷积网络的。

图 1 利用骨骼数据进行人体行为识别的深度学习方法分类


     本文由浅入深,以图卷积神经网络入手,阐述了构建人体拓扑图识别人体行为的优势与目前的研究进展,并介绍了三个主流的人体骨骼数据集。


 图卷积神经网络

在深度学习的模型中,卷积神经网络CNN、循环神经网络RNN一直占据主导地位,并在图像、自然语言处理领域有优异的表现。我们知道自然界存在着两种基本空间,欧氏空间和非欧空间。欧式空间是对现实空间的规则抽象和推广,欧式空间中的面都是平面,在欧式空间中平行线任何位置的间距相等,而非欧式空间中平行线只在局部存在。图像或者语言均属于欧式空间的数据,有着十分规则的结构;但是在现实生活中,其实有很多不规则的数据结构,如社交网络、化学分子结构、知识图谱等等。图卷积神经网络实际上是一个特征提取器,可处理属于非欧式空间的图数据。

1.1  卷积到图卷积的扩展

CNN 在处理图像数据时具有很强的特征抽取能力和整合能力,这得益于卷积核(kernel ,or filter)的参数共享机制和加权平均机制。卷积本质上就是一种加权求和的过程,而卷积核的参数就是不同像素点对应的权重,并且不同的图片都共享同一个卷积核,这使得CNN能够通过对卷积核参数的迭代更新来隐式的学习图像中具有的像素排列规律,进而学习到不同的形状特征和空间特征。

既然卷积操作的本质意义就是对一个范围内的像素点进行加权求平均,这能有助于提取空间特征,那么如何将这种思想应用到拓扑图上呢?我们可以换一种方式来理解卷积操作,如图2(a),对于特征图(蓝色部分)中的一个点(红色),其特征值实际上是周围所有像素点将特征值传播到中心点后进行加权平均,这种操作等效于传统的卷积操作,只不过我们人为地为特征添加了一个传播方向(边),将每个像素点当成顶点,从而在图结构上再次定义了卷积操作。

我们对于广义拓扑图结构的数据,也可以进一步按照这种思想来定义卷积操作,如图2(b)所示,将每个节点的邻居节点的特征传播到该节点,再进行加权平均,就可以得到该点的聚合特征值,只不过在 CNN 中,我们将这个聚合特征值当做了特征图中的一个点,而在图卷积神经网络中没有特征图的概念,我们直接将这个聚合特征值作为传播到下一层的特征值。蓝色部分就是图卷积操作对应的卷积核。


图 2 卷积到图卷积操作的扩展

现有关于图卷积的研究可分为两类:第一种是空域图卷积。对每个结点,根据其与其他结点的连接构造子图;然后聚合子图中每个结点的值来进行卷积;这种方法的挑战性在于正确选择结点的排序和处理子图间的基数差异。第二种是频域图卷积,该方法的关键是计算图的傅里叶变换。

1.2  人体拓扑图的构建

人体骨骼本来是以图的形式存在的,骨骼关键点是顶点,骨骼是边,因此将图卷积神经网络运用到行为识别上是一个非常合理的想法。LSTM与CNN在处理人体骨骼数据时首先要对其进行网格化处理,无法避免三维空时信息的丢失,并且利用深度模型直接从这样的网格数据中获得的骨骼关键点间长期的时序依赖与空间关系显然是不准确的。

鉴于深度学习从欧氏空间数据中提取潜在特征的有效性,GCN逐渐成为新的研究热点,它能够泛化卷积神经网络到非欧结构的数据上。利用图卷积网络进行人体骨骼行为识别时能够充分利用人体骨骼数据的拓扑结构,不再需要依赖任何手动的部分或者事先设定某种规则来分析数据的空间模式。人体行为不仅与空间上的人体结构有关,更与时序上的人体运动变化有关。因此一般讲人体行为表示为人体骨骼序列的形式(如图3)。


图 3 人体骨骼序列图

 图卷积行为识别研究进展

香港中文大学Yan等[1]根据人体骨骼关键点序列构建空时图,然后送入到ST-GCN模型中通过空时图卷积运算进行行为识别。这是首次将GCN用于人体骨骼行为识别的研究工作。由于人体骨骼本来是以图的形式存在,ST-GCN提供了一个使用GCN直接从人体骨骼序列图中获得空间特征以及时序动态的新方法,验证了图卷积建模人体运动模式的有效性。

Tang等[2]采用深度渐进强化学习方法从输入人体骨骼序列中提取一定数量的关键帧,并使用频域图卷积获得骨骼关键点间的依赖关系。考虑到ST-GCN仅能从骨骼图中获得直接相连的身体关键点的局部特征,Li等[3]构建行为链式推理模块(AIM)来获得身体关键点间更丰富的依赖关系,实验证明在行为识别任务前端并行增加姿态预测模块有助于保留更细节的动作信息,实现更好的行为识别性能。Li等[4]19年进一步提出了共生模型Sym-GNN,在多任务学习的框架下 同时进行行为识别与行为预测任务,并采用多分支多尺度的图卷积神经网络提取空间和时间特征,该模型在两个任务上都获得了较好的性能。

Li等[5]则是考虑利用骨骼关键点的位置和运动信息学习动态的图拓扑结构,从而能够自适应地学习骨骼关键点间的高阶连通性。类似地,Shi等[6]为构造自适应的图卷积网络,对可表示数据共同模式的全局图以及表示单个数据模式的单个图进行参数化,这两类图结构随模型的卷积参数一起训练并更新,同时采用将骨骼关键点间的一阶信息和二阶信息融合的双流框架。同年,Shi等[7]也尝试充分利用关键点和骨骼间的关系,将人体骨骼表示为有向无环图,并且在训练过程中通过学习图的拓扑结构来构造自适应图。Gao等[8]提出了基于图回归的图卷积网络(GR-GCN),通过学习数据的底层图结构增强图的表达能力。GR-GCN考虑每个身体关键点与同一坐标系中的相邻关键点、前后坐标系中的相关关键点的相关性。

由于人体运动模式的复杂性,从骨骼数据中识别人体行为具有很大的挑战。为进一步增强模型的泛化能力,获得更具判别的空时特征,近些年来研究者们不断地将图卷积进行扩展。Si等[9]提出注意力增强的图卷积LSTM网络模型AGC-LSTM,该模型可从人体骨骼序列中学习具有判别力的空时特征以及骨骼关键点间在空间和时间上的共现关系,在预测行为标签时考虑了骨骼关键点的全局和局部特征。

实际上,不同的人做同一个动作,姿态也会很不相同。因此同种动作的类内差异性大,这样显著的类内差异使类间差异变的模糊。Zhao等[10]利用图卷积获得身体关键点间的相互依赖关系,利用长短期记忆网络(LSTM)获得身体姿态的时序变化,最后将该神经网络遵循贝叶斯框架进一步扩展为概率模型,将模型参数视为随机变量,这种扩展使模型更好地处理数据变化。最近,Zhang等[11]首次尝试将骨骼关键点的高级语义,如帧索引和关键点类型,用于骨骼行为识别;提出了轻量级的模型SGN。该模型将图卷积层和卷积层结合,可分层次地利用关键点级和帧级的时空相关性。Liu等[12]提出了统一的多尺度空时卷积网络MS-G3D,采用多路由的方式同时建模复杂的空时域间骨骼关键点的依赖关系并进行长期、多尺度的特征聚合,从而从人体骨骼序列中获得鲁棒的运动特征。


 小    结

近两年,有大量的研究工作使用GCN从骨骼空时图中学习人体运动模式。从人体骨骼关键点的空间布局来讲,有局部连接的骨骼关键点,即骨骼相连的人体关节(例如左肩膀和左手肘);也有空间分离的骨骼关键点(例如左手和右脚),大部分人体行为都需要不同部位的关节协作完成。因此为获得鲁棒的人体运动特征,理想情况是可从骨骼空时图中获得局部连接和空间分离的骨骼关键点间的局部与全局相关性,以及不同时间尺度上的时序依赖关系。仅从原始的人体骨骼图中学习到的高级特征表达可能包含的判别信息有限。为充分利用图的拓扑信息,获得更丰富的骨骼关键点间的相关性,现有的大多基于图卷积的方法主要采用两种方式:(1)添加额外的信息,如骨骼信息、骨骼关键点运动信息、骨骼关键点的语义信息、增加帧间的骨骼关键点连接等;(2)改变图卷积的邻接矩阵,如自适应学习邻接矩阵参数,利用高阶多项式的邻接矩阵等。

由于人体行为的持续时间不同,获得短期与长期的时序依赖关系是另一个研究重点。目前大多数图卷积采用的时序建模方式是采用1D时序卷积模块建模时间动态,并采用空域时域交错的模块。这样的方式没有办法建立骨骼关键点的跨时空联系。在最近的方法中[5][12],研究者们开始关注利用跨时空的关键点间的相关性。

● 参考文献 ●

[1].S. Yan, Y. Xiong, and D. Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In AAAI, 2018.

[2].Y. Tang, Y. Tian, J. Lu, P. Li, and J. Zhou. Deep progressive reinforcement learning for skeleton-based action recognition. In CVPR, 2018

[3].Li M, Chen S, Chen X, et al. Actional-structural graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 3595-3603.

[4].Li M, Chen S, Chen X, et al. Symbiotic graph neural networks for 3d skeleton-based human action recognition and motion prediction[J]. arXiv preprint arXiv:1910.02212, 2019.

[5].Li B, Li X, Zhang Z, et al. Spatio-temporal graph routing for skeleton-based action recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8561-8568

[6].Shi L, Zhang Y, Cheng J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12026-12035.

[7].Shi L, Zhang Y, Cheng J, et al. Skeleton-based action recognition with directed graph neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 7912-7921.

[8].Gao X, Hu W, Tang J, et al. Optimized skeleton-based action recognition via sparsified graph regression[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 601-610.

[9].Si C, Chen W, Wang W, et al. An attention enhanced graph convolutional lstm network for skeleton-based action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 1227-1236.

[10].Zhao R, Wang K, Su H, et al. Bayesian graph convolution LSTM for skeleton based action recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6882-6892.

[11].Zhang P, Lan C, Zeng W, et al. Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1112-1121.

Liu Z, Zhang H, Chen Z, et al. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 143-152.


中国保密协会

科学技术分会

长按扫码关注我们

作者:白入文

责编:向灵孜

2020年精彩文章

TOP5回顾

往期精彩文章TOP5回顾

从使馆焚烧文件说说碎纸及复原技术从一场全球关注的涉密会议谈起光纤窃听与防护美国应对新冠病毒在关键基础设施安全方面的建议信息产业自主生态建设综述

近期精彩

文章回顾

近期精彩文章回顾

无线网热点使用中的安全威胁——伪AP攻击原理与检测方法综述

带你了解频谱预测技术
浅谈计算机键盘电磁泄漏防护
使网络实现自动驾驶——意图网络
5G新漏洞!用户隐私不再安全

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存