目标检测+姿态识别:AI助力奥运公平公正打分,不再给日本奥运黑哨的机会(附源代码)
点击上方蓝字关注我们
计算机视觉研究院专栏
作者:Edison_G
最近东京奥运会在火热进行,舆论场也热闹非凡。7月28日中国体操选手肖若腾憾失金牌,日本体操选手桥本大辉在出现失误动作的情况下依然夺金,引起了国内网友的强烈不满。 如果这种体操、跳水以及游泳项目,有AI技术协助检测识别,辅助裁判给出最终打分,应该会让本届奥运会更加公平公正!
学习群|扫码在主页获取加入方式
关注并星标
从此不迷路
1
背景
日本人多次犯规,裁判却视而不见,这是对所有参赛选手的不公。在日本举行奥运会就要护着日本?
日本人为了得到金牌,把乒乓球场地比国际场地还要缩小,又限制我国的一些乒乓球的操作,自己国家吹球的时候他没有判决,一切都是为了自己的利益。
2
AI怎么去辅助?
对于这种注重于运动员姿势的比赛,完全可以将AI应用于比赛评判当中,起码辅助裁判打分也是可以的!因为我们人类有时候还是会有情感、开小差之类的错误,但是机器是冰冷的,他们只会根据之前设定好的规则实施,所以日本你再是东道主也别想着收买全球的AI技术!
在这类比赛中,可以运行目标检测、目标跟踪、人体姿态检测、人体姿态识别等技术!今天“计算机视觉研究院”就以人体姿态识别来主要说,看看他是怎么个原因?又是怎么可以辅助裁判打分?
人体姿态识别,是计算机视觉中一个相对基础的任务,是人体动作识别、行为分析、人机交互等的前置任务。一般情况下可以将人体关键点检测细分为单人/多人关键点检测、2D/3D关键点检测,同时有算法在完成关键点检测之后还会进行关键点的跟踪,也被称为人体姿态跟踪。
目前的人体关键点检测算法按照是否包含3维深度信息可以分为2D关键点检测和3D关键点检测,2D关键点检测开始地更早,研究地也更成熟,但近年来3D关键点的检测开始受到大家的广泛关注(一方面是2D的研究达到一定程度,另一方面是3D更酷炫、用途也更广泛)。
不区分2D、3D的情况下,人体关键点检测可以分为单人关键点检测和多人关键点检测两类,其中多人关键点检测的研究更广泛(但不代表单人关键点检测就不好,只是任务不同罢了,且很多多人关键点检测算法中会用到单人的关键点检测算法)。总的来说,人体关键点检测算法可以简单地分类为下图所示:
Github开源人体姿态识别项目OpenPose
为了便于中国开发者学习CMU开源人体姿态识别项目,将README文档翻译成了中文。向卡耐基梅隆大学大学的开发者以及本项目其他贡献者致敬。
本项目理论基础来自Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ,是CVPR 2017的一篇论文,作者是来自CMU感知计算实验室的曹哲,Tomas Simon,Shih-En Wei,Yaser Sheikh 。
特点
功能:
二维多人关键点实时识别:
15、18或 25个身体/脚部的关键点识别,运算时间与检测出的人数无关。
2*21个手部关键点识别。目前,运算时间取决于检测出的人数。
70个面部关键点的识别。目前,运算时间取决于检测出的人数
三维单关键点实时识别:
通过多个单一角度的视频进行三角测量。
菲力尔品牌摄像机的视频同步处理。
与Flir摄像机和Point Grey摄像机兼容,提供了C++语言的代码样本,用户可以自定义输入。
校准工具:
能够对摄像机拍摄中出现的扭曲等内外参数进行简易评估。
针对未来的加速优化和视觉流畅,增加了单人位置追踪 。
输入: 图片、视频、网络摄像头的视频流、Flir或Point Grey和IP摄像机。项目提供了C++语言的代码样本,用户可以自定义输入。
输出: 原有图片+关键点展示(PNG、JPG、AVI等格式),关键点数据存储文件((JSON, XML, YML等格式)。
操作系统: Ubuntu (14, 16), Windows (8, 10), Mac OSX, Nvidia TX2.
项目提供: 命令行测试、C++封装、C++ API接口。
CUDA (Nvidia GPU), OpenCL (AMD GPU), and CPU 版本。
所以,将这些技术用于一整套的体操、跳马、跳水等项目中,只要之前有大量的数据集训练,都可以在正式比赛中辅助裁判给出更准确的打分结果!
CVPR 2021会议中,微软提出"解构式关键点回归", 刷新COCO自底向上多人姿态检测记录!
代码:https://github.com/HRNet/DEKR
相比单人姿态检测,由于不知道图像中每个人的位置和总人数,多人姿态检测技术在预测图片中每个人的不同关键点所在的位置时更加困难。其困难在于:不仅要定位不同种类的关键点,还要确定哪些关键点属于同一个人。
针对这一困难,学术界有两种解决方案,一种是自顶向下的方法,先检测出人体目标框,再对框内的人体完成单人姿态检测,这种方法的优点是更准确,但开销花费也更大;另一种则是自底向上的方法,常常先用热度图检测关键点,然后再进行组合,该方法的优点是其运行效率比较高,但需要繁琐的后处理过程。
最近,也有学者采用了基于密集关键点坐标回归的框架(CenterNet)对图片中的多人姿态进行检测。此方法要求对于图中的每个像素点都要直接回归 K 个关键点的位置,虽然简洁,但在位置的准确度方面却一直都显著低于先检测再组合的方法。
而微软亚洲研究院的研究员们认为,回归关键点坐标的特征必须集中注意到关键点周围的区域,才能够精确回归出关键点坐标。基于此,微软亚洲研究院提出了一种基于密集关键点坐标回归的方法:解构式关键点回归(Disentangled Keypoint Regression, DEKR)。这种直接回归坐标的方法超过了以前的关键点热度图检测并组合的方法,并且在 COCO 和 CrowdPose 两个数据集上达到了目前自底向上姿态检测的最好结果。
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗