查看原文
其他

封面故事 | 多模态数据的行为识别综述

黄倩,等 中国图象图形学报 2023-02-12

482篇原创,您的关注是对图图最大的鼓励!


人体行为识别是计算机视觉、深度学习、视频处理和模式识别等学科交叉的研究课题,是当前计算机视觉的一个研究热点。

《中国图象图形学报》2022年第11期封面“多模态行为识别”,封面文章来自河海大学黄倩研究团队的最新论文——多模态数据的行为识别综述


论文从数据驱动的角度出发,列举了主流的数据集,全面介绍了行为识别技术的前世今生和一些代表性研究,对不同数据模态下的行为识别技术作了对比分析,总结了当前面临的问题和未来发展的方向,希望能为初学者提供一个快速进入行为识别领域的通道,也为研究开发人员提供创新的思路和启发,助力相关领域的智能化发展。



论文信息






引用格式:Wang S C, Huang Q, Zhang Y F, Li X, Nie Y Q, Luo G C . 2022. Review of action recognition based on multimodal data. Journal of Image and Graphics, 27(11): 3139-3159. (王帅琛, 黄倩, 张云飞, 李兴, 聂云清, 雒国萃. 2022. 多模态数据的行为识别综述. 中国图象图形学报, 27(11): 3139-3159.) [DOI: 10.11834/jig.210786]


➯➯点击阅读全文




综述框架



1.行为识别数据集
2.基于RGB数据的行为识别方法

2.1 基于手工特征的方法

2.2 基于深度学习的方法


3.基于深度数据的行为识别方法

3.1 基于运动变化和外观信息的方法

3.2 基于深度学习的方法


4.基于骨骼数据的行为识别方法

4.1 基于骨骼特征提取的方法

4.2 基于深度学习的方法


5.基于数据融合的行为识别方法

5.1 基于RGB模态与深度模态的融合方法

5.2 其他模态的融合方法


6.行为识别方法对比

6.1 RGB模态的方法对比

6.2 深度模态的方法对比

6.3 骨骼模态的方法对比

6.4 多模态融合的方法对比


关键结果


表1 当前主流的行为识别数据集


表2 各模态的优缺点和适用场景


表3 HMDB-51和UCF101数据集上的RGB模态算法准确率对比


表4 MSR-Action3D深度数据集上的深度模态算法准确率对比


表5 NTU RGB+D 60骨骼数据集上的骨骼模态算法准确率对比


其他数据集上以及多模态融合算法的实验结果

见论文全文:

http://www.cjig.cn/html/jig/2022/11/20221101.htm



挑战与展望

1)数据集的规模越来越大,环境越来越复杂,愈发符合现实场景。物体遮挡、视频的像素值和帧数、交互运动以及图像的多尺寸等因素,都会极大地影响识别过程。


2)尽管目前有许多模态的数据,但并非所有模态的数据都易采集。RGB模态是能够利用一般相机直接获得,深度模态需要深度传感器(如Kinect相机)获得,而骨骼模态是从前两者模态中抽象得到的一种描述人体行为的模态数据。


3)特殊动作的识别包括相似动作的识别、多人动作的识别以及高速动作的识别。对于这些挑战,研究者还需不断探索,寻找解决问题的方案。


未来研究方向


1)多模态融合是一个具有前景的研究方向。无论是在特征层的特征融合,或者在预测阶段的决策融合,都已经被证明是一个可行的方案。除了上述所提的主流模态外,一些模态(如红外线、声音)等信息也能够融合其中,实现信息补充,提高识别性能。


2) 深度学习网络已经成为主流,符合数据集规模增加的趋势。手工制作的特征并非完全舍弃。研究人员依然可以借鉴制作特征的思想,从视频中提取去除无关信息的手工特征后再输入深度学习的网络中,减少了网络参数,也提高了识别效果。


3)设计和移植新型网络,增加注意力模块。自从2D卷积神经网络应用在行为识别领域,识别效果大幅提升。然后,3D卷积神经网络、图卷积网络的应用使识别效果又提升了一个层次。所以,设计新型的网络或者移植其他领域的网络是有参考价值的。同时,注意力模块在网络中愈发广泛应用。注意力模块能够较好地去除时间和空间特征中的无关信息,将重点放在显著区域,进而提升识别准确率。


作者简介


王帅琛,水利部水利大数据重点实验室(河海大学),硕士研究生,主要研究方向为计算机视觉、行为识别。

E-mail: wsc543079267@gmail.com   


通信作者:黄倩,河海大学计算机与信息学院副研究员,主要研究方向为多媒体数据处理、云计算、机器学习。

E-mail:huangqian@hhu.edu.cn


张云飞,河海大学计算机与信息学院博士,主要研究方向为数据挖掘、知识工程。

E-mail: zhangyunfei@hhu.edu.cn


李兴,水利部水利大数据重点实验室(河海大学)博士研究生,主要研究方向为行为识别和机器视觉。

E-mail: 340299042@qq.com


聂云清,水利部水利大数据重点实验室(河海大学)硕士研究生,研究方向为行为识别。

E-mail: 15161663997@163.com


雒国萃,水利部水利大数据重点实验室(河海大学)硕士研究生,主要研究方向为行为识别。

E-mail: 993499805@qq.com



END

扩展阅读

《中国图象图形学报》2022年第11期

《中国图象图形学报》2022年第10期

《中国图象图形学报》2022年第9期【多媒体智能专刊】

《中国图象图形学报》2022年第8期

《中国图象图形学报》2022年第7期

《中国图象图形学报》2022年第6期【图像图形学年度报告专刊】

《中国图象图形学报》2022年第5期【低质图像增强专刊】

《中国图象图形学报》2022年第4期

《中国图象图形学报》2022年第3期【医学图像及临床应用专刊】

《中国图象图形学报》2022年第2期【三维视觉和智能图形专刊】

《中国图象图形学报》2022年第1期【数字图像视频内容安全专刊】


本文是中国图象图形学报原创稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发!

编辑:秀   秀

审核:梧桐君

总编辑:肖   亮

     




声  明


欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。

       

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存