复旦提出GaitSet算法，步态识别的重大突破！

查看原文

其他

复旦提出GaitSet算法，步态识别的重大突破！

Original: 52CV君我爱计算机视觉 2019-06-22

点击我爱计算机视觉标星，更快获取CVML新技术

这两天专注介绍计算机视觉黑科技的52CV君发现一篇被AAAI2019录用的非常棒的复旦大学的文章！性能强悍到爆！

而且，论文作者经把代码也开源了！（文末附下载）

文章的题目是《GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition 》，下面是作者信息：

该文研究的问题是步态识别，提出的新算法GaitSet精度大幅超越目前的state-of-the-art，可谓步态识别领域的重大突破！

一、什么是步态识别？

步态是指人们行走时的方式，这是一种复杂的行为特征。尤其在刑事侦查中，具有反侦察意识的罪犯或许会给自己化装，不让自己身上的哪怕一根毛发掉在作案现场，但有样东西他们是很难控制的，这就是走路的姿势。

步态识别是一种新兴的生物特征识别技术，旨在通过人们走路的姿态进行身份识别，与其他的生物识别技术相比，步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域，其更具优势。

步态识别时将视频预处理行人与背景分离，形成黑白轮廓图silhouette。下图展示了在该领域研究中被广泛应用的数据库CASIA-B的部分silhouette图像样例，所谓silhouette即去除背景的行人黑色轮廓图。

二、一般的步态识别方法

文中指出，在以往文献中，步态识别主要有两大类方法：

2.1 将步态看作图像

将所有的步态轮廓图压缩成一幅图像，将步态识别看成一个图像匹配问题。很显然这种方法忽略了步态中的时序信息，也无法建模精细的空域信息。

2.2 将步态看作视频序列

考虑直接从silhouette提取特征，使用LSTM方法或者3D-CNN方法，可以很好的建模步态中的时、空域信息，但其计算代价高昂也不易于训练

三、该文提出的GaitSet算法

该文的主要思想来自于人类对步态的视觉感知上，作者发现，步态中的silhouette从视觉上看前后关系很容易辨认。

所以受此启发，作者不再刻意建模步态silhouette的时序关系，而将步态silhouette当作没有时序关系的图像集，让深度神经网络自身优化去提取并利用这种关系。

作者通过三个步骤提取步态序列的特征，分别记为下图公式中F、G、H。

F 为提取单幅步态轮廓图像的CNN特征；

G 为将各幅图像的CNN特征聚合成一个特征向量；

H 为考虑提取多尺度特征，并通过全连接网络提高特征的鉴别性。

作者提出的算法框架流程图如下：（请点击图片查看大图）

3.1 提取多幅图像CNN特征

由以上算法框架流程图可知，将步态序列的黑白轮廓图每幅图像分别输入CNN网络提取特征。

此时图像集的图像个数可为不同，每幅图像单独处理。

3.2 多特征集合池化（Set Pooling）

该部分作用即将多幅图像通过CNN网络提取的特征聚合为一个特征向量。

该部分体现在以上算法框架流程图中SP部分。

作者使用的方法是集合了多种池化方法，其主要算法流程如下。该结构可集成到网络中实现端到端训练。

3.3 使用Horizontal Pyramid Pooling汇集多尺度鉴别特征

为使得特征提取兼具局部和全局性，作者引入Horizontal Pyramid Pooling (HPP)提取4个尺度的特征，为使得特征更具鉴别性，作者在网络最后使用全连接层优化特征整体鉴别性。

3.4 利用多层执行全流程管线Multilayer Global Pipeline

CNN网络中越浅层网络提取的特征感受野越小，越深层的网络感受野越大。

作者将多个“浅”和“深”网络层提取的特征均输入后续集合特征聚合流程中。

四、实验结果

该文在CASIA-B和OU-MVLP两数据库上进行了实验。

数据集和实验设置不再赘述，欲细读此文的朋友可于文末自行下载查看。

只能说，结果异常彪悍，从数值上看与目前的state-of-the-art算法相比，简直不属于同一个时代！所有结果全部大幅超越！

CASIA-B数据库上的实验结果

OU-MVLP数据库上实验结果

作者做了一个实验，在CASIA-B数据集上随着给定图像帧数增加测试算法精度的变化。

甚至在仅有7帧黑白轮廓图的情况下，GaitSet算法的精度即可达到82%。

这是什么概念呢？以25帧为监控视频常设帧率计算，仅需要0.28秒的行人视频即能达到一个较好的步态识别精度了！

五、结论

该文提供了一个新的思路，即作者将步态识别视频序列看为图像集，据此设计了GaitSet算法，实验验证该算法精度提升异常明显，在该领域研究中可谓之重大突破！

前段时间，52CV曾经报道了DeepMind与VGG组的基于图像集的人脸识别算法：DeepMind&VGG提出基于集合的人脸识别算法GhostVLAD,精度远超IJB-B数据集state-of-the-art 性能提升同样惊人，看来基于图像集提取特征再进行特征聚合的方法的确值得大家关注！

该文思路即忽略视频序列时序关系而看为图像集，在视频分析的其他任务比如行人重识别中是否也能大展拳脚，让我们拭目以待~

论文代码下载

https://github.com/AbnerHqC/GaitSet

在“我爱计算机视觉”微信公众号对话界面回复“gaitset”，即可收到论文及代码的百度云下载地址。

加群交流

加入52CV-行人方向专业群（包含步态识别、行人检测、ReID等），扫码微信Your-Word拉你入群，请务必注明:行人。

喜欢在QQ交流的童鞋可以加52CV官方QQ群：928997753。

（不会时时在线，如果没能及时通过还请见谅）

长按关注我爱计算机视觉

【点赞与转发】就是一种鼓励

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！