查看原文
其他

行为识别(action recognition)目前的难点在哪?

水哥 极市平台 2021-09-20

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


作者 | 水哥

来源 | 知乎话题“行为识别(action recognition)目前的难点在哪?”

链接 | https://www.zhihu.com/question/264575930/answer/283518590


在Object tracking领域,特征是关键,而且受光照等影响严重。在行为识别领域,主流的趋势是双流网络,行为识别的困难在哪,还有哪些需要但未被解决的问题呢?以下是作者对这个问题的见解,值得思考。


“还有哪些需要被解决的问题”描述其实不准确。


因为我觉得需要被解决的问题远大于已经被解决的问题。


action recognition大概有基于静态图片的,基于视频的,基于skeleton的,我对最后一个不熟,说一说前两个面临的问题和挑战。


下面列举action recognition几宗“罪”:


1 严重依赖物体和场景

在早期的时候物体分类还做的不太好的时候动作火过一段时间,现在我们所用的数据集大多数是在那个时候建立的。里面或多或少会对当时的技术有些妥协,大多数类别是类似跑步,骑马,遛狗滑雪这种。这种数据对于算法也带来了一些导向,一看是这么几个类,跑步和骑马的区别是什么?就是有一匹马呀,好,搞一个horse的detector来区分,遛狗和滑雪呢,看背景是什么场景就ok了呀。因为你这么做了,你涨点就容易。也有一些工作就要基于人体本身来做,但是提升的都不明显,所以算法就越来越偏向用物体和场景来识别。这块的研究就变得很诡异,始终没有切入到“动作”这个东西本身,始终是绕开人的bounding box做事情。这个问题不仅是图片的,在视频中也有。


所以现在的这些成果,看起来很繁荣,实际上差得还挺多,试想加入我们希望action recognition最后成功用在安防上,场景也不会变,也没什么物体来给线索的时候怎么办?有兴趣的同学可以对比一下文献里面像stanford40和MPII这样的库现在精度的区别。


2 光流的问题:长度和语义

光流现在是视频动作里面不可或缺的信息了,计算的问题就不说。它也有一些问题,第一是很难去描述长时间的动作,twostream现在取前后10帧。UCF101里面射箭那个动作,拔箭速度快的一笔,要是你思考一会人生这20帧足够描述吗?这是现在研究的一个着力点。但是还是和上面的数据问题一样,数据里面都是一个动作重复做的话,长时间短时间也每太大区别,没有足够的导向让人们去研究长时间的好处。


光流本身的意义也不是完全明确,大家一直说的都是它能capture motion信息啊什么的,然后前两天有个大姐就提出质疑:光流不会只是掩盖了appearance吧?(On the Integration of Optical Flow and Action Recognition)这篇文章个人觉得很好,观点让人眼前一亮,而且对一个大家都用惯了的东西想得很深。我还没仔细看完,但是感觉她说的真的很有可能是真的,就和你一做你就发现动作识别靠场景,场景识别靠物体一样233333


3 CNN擅长“有什么”,不擅长“做什么”

这个展开说就扯的比较远了。从2012年起,CNN在“有什么”这个问题上一直都很强,这类问题就是例如分类,检测这样的。但是这个架构,这个模型不太适合描述“做什么”,也很难capture类似情感这样的东西。比如你现在给个视频让它判断是不是搞笑视频马上就尿了。类似地,动作里面包含很多“意图”这样的东西目前还是比较难的。好比你只看见兵线上有个鲁班,不看小地图也很难猜到里面有四个小兄弟嘛。其实这一点一定程度上造成了上面的第一点问题,它很擅长获取物体和场景的信息,它自己也会突出自己擅长的部分,投机取巧,把动作识别往物体和场景上压的。


整体来说,这个领域和大多数CV课题一样,做的人很多,想得人很少,是真的还有很长的路要走。


有空补一补参考文献,欢迎持续关注本话题。





*延伸阅读

ECCV 2018|行为识别论文笔记之多纤维网络

AAAI 2018 行为识别论文概览


每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~


觉得有用麻烦给个好看啦~  


视频 小程序 ,轻点两下取消赞 在看 ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存