姿态估计相比Mask-RCNN提高8.2%，上海交大卢策吾团队开源AlphaPose

Original 卢策吾新智元 2018-12-28

新智元专栏

作者：卢策吾

【新智元导读】上海交通大学卢策吾团队，今日开源AlphaPose系统。该系统在姿态估计（pose estimation）的标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%，较另一个常用开源系统OpenPose（CMU）相对提高17%。同时，卢策吾团队也开源了两个基于AlphaPose的工作：（1）一个高效率的视频姿态跟踪器（pose tracker），目前姿态跟踪准确率第一。（2）一个新的应用“视觉副词识别“（Visual Adverb Recognition）。

https://v.qq.com/txp/iframe/player.html?vid=w0545s9kg3q&width=500&height=375&auto=0

视频：AlphaPose Demo

AlphaPose

由上海交通大学卢策吾团队发布的开源系统AlphaPose近日上线，该开源系统在标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%。Mask-RCNN是2017年以来计算机视觉领域的一个突破，获得了ICCV 2017最佳论文（马尔奖），涵盖了物体检测，分割，姿态估计。该系统比较的是其姿态估计部分。该系统是基于卢策吾团队ICCV 2017发表的RMPE算法[1]开发。以下为具体数据:

开源系统	检测准确率
Ours (ICCV 2017) [1]	72.5 mAP
Mask-RCNN [2]	67 mAP (相对提高8.2%)
OpenPose [3]	61.8 mAP (相对提高17.3%)

表格1：现有姿态估计开源系统在COCO数据集[4]上的结果比较。

人体关键点检测对于描述人体姿态，预测人体行为至关重要。因此人体关键点检测是诸多计算机视觉任务的基础。其在动作分类，异常行为检测，以及人机交互等领域有着很广阔的应用前景，是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。针对这一问题，上海交大MVIG组提出RMPE的两步法框架（ICCV 2017论文），并基于此开发了AlphaPose这一人体关键点检测系统。

RMPE框架采用自顶向下的方法，先检测人，再去做姿态估计。该框架有三个主要组成部分，首先是对称空间变换网络（Symmetric STN），用于解决传统两步法中的主要问题，即imperfect proposal的问题。对于质量较差的人体检测结果，symmetric STN能够自动调整proposal的位置，将refine过后的结果输入单人姿态估计网络，并将输出映射回原空间，从而使得在人体检测框不准确的情况下，姿态估计网络依然能够有良好的效果。

第二个组成部件为由姿态引导的样本生成器（Pose-guided Proposals Generator），该部件能够根据不同人体姿态生成额外的detection proposal用于训练姿态估计网络，从而获得大量符合真实测试场景数据分布的训练数据。

第三个组成部件为参数化的姿态非极大值抑制器（Parametric Pose NMS）。传统的两步法中，人体定位框会有较多的冗余检测。作者通过使用新的姿态距离度量来比较姿态相似性，来消除冗余姿态。

目前，该系统所有的训练和检测代码，以及模型均已开源，项目链接为：https://github.com/MVIG-SJTU/AlphaPose

应用一：视频姿态跟踪（Pose Tracking）

复杂场景下的多人人体姿态跟踪是2017年CVPR上刚提出的一个很有挑战性的研究课题，能从视频中高效且稳定地提取人体姿态轨迹，可以帮助我们更好地理解视频中人的行为以及人与周边环境的交互。针对这一问题，在前文AlphaPose的基础上，卢策吾团队提出了Pose Flow Building 以及Pose Flow NMS两个人体姿态跟踪模块，充分综合空间域和时间域的信息来提升复杂场景下人体姿态跟踪的准确性[6]。

目前，该算法在PoseTrack dataset [7]的测试集上达到53.6 MOTA的跟踪精度，大幅度超过该数据集上最好结果（28.2 MOTA），而在PoseTrack Challenge dataset[8]的验证集上达到58.3 MOTA 66.5 mAP，跟踪精度超过Facebook最好结果55.2 MOTA （5.6个百分点），人体姿态估计精度超过Facebook之前的最好结果[9] 60.6 mAP （9.7个百分点）。更重要的是我们视频姿态跟踪器（pose tracker），是基于AlphaPose在每一帧上结果的一个扩展模块，该模块能达到100帧每秒。

论文及代码：http://mvig.sjtu.edu.cn/research/alphapose.html

应用二：视觉副词识别（Visual Adverb Recognition）

计算机视觉学科在努力挖掘图像视频中的语义信息，对应到自然语义系统，是名词识别对应object detection，动词识别对应action recognition。但我们忽略了一类重要语义-副词，这是相对于名词，动词有更为深刻的语义的描述。比如我们动作识别可以识别出一个视频中的人物在拥抱，但是不知道是离别的伤感还是重逢的喜悦。因此卢策吾团队推出了一个新的研究方向。而这一问题正是需要姿态估计（AlphaPose）的帮助，他们提出了一个Three-Stream Hybrid Model。三个 stream 分别是：利用了姿势（pose）信息的，使用表情信息， RGB 和光流信息。同时，他们构建了对应的数据集：ADHA，这一数据集标注了视频中人物的位置、动作和可以描述这一动作的副词，我们还为数据用户提供了人物的 tracking 结果。卢策吾团队也表示，目前该题目刚刚开始所以，准确率还是很低，需要做的事情还很多。

数据集中的32个动作及51个副词基本覆盖了人们表达中常见的描述。项目和数据集链接如下：

主页（包括代码）：http://mvig.sjtu.edu.cn/research/adha.html

数据：http://mvig.sjtu.edu.cn/research/adha/adha.html

作者介绍

Prof. Cewu Lu is a research Professor at Shanghai Jiao Tong University, leading Machine Vision and Intelligence Group. He was Postdoc at Stanford AI lab (under Fei-Fei Li and Leonidas Guibas) and selected as the 1000 Overseas Talent Plan (Young Talent) (中组部青年千人计划). He is also one of MIT TR35 -"MIT Technology Review, 35 Innovators Under 35 (China)" and co-chair of CVM 2018.

Reference:

[1] RMPE: Regional multi-person pose estimation

Haoshu Fang, Shuqin Xie, Yuwing Tai, Cewu Lu

ICCV 2017

[2] Mask R-CNN

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick

ICCV2017

[3]Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh

CVPR 2017

[4] http://cocodataset.org/#keypoints-challenge2017

[5] http://human-pose.mpi-inf.mpg.de/

[6] Pose Flow: Efficient Online Pose Tracking

Yuling Xiu, Jiefeng Li, Haoyu Wang, Cewu Lu

arXiv 2018

[7] PoseTrack Joint Multi-Person Pose Estimation and Tracking

Umar Iqbal, Anton Milan, Juergen Gall

arXiv 1611.07727, 2017

[8]PoseTrack: A Benchmark for Human Pose Estimation and Tracking

Mykhaylo Andriluka, Umar Iqbal, Anton Milan, Eldar Insafutdinov, Leonid Pishchulin, Juergen Gall, Bernt Schiele

arXiv 1710.10000, 2017

[9] Detect-and-Track: Efficient Pose Estimation in Videos

Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, Du Tran

arXiv 1712.09184, 2017

[10] Human Action Adverb Recognition: ADHA Dataset and Four-Stream Hybrid Model

Bo Pang, Kaiwen Cha, Cewu Lu

arXiv 2018

加入社群

新智元AI技术+产业社群招募中，欢迎对AI技术+产业落地感兴趣的同学，加小助手微信号: aiera2015_1 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名-公司-职位；专业群审核较严，敬请谅解）。

此外，新智元AI技术+产业领域社群(智能汽车、机器学习、深度学习、神经网络等)正在面向正在从事相关领域的工程师及研究人员进行招募。

加入新智元技术社群共享AI+开放平台

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍