查看原文
其他

如何让时序动作检测技术最精准?丨智能视频小讲堂



导言

AI 技术正与千行百业深度融合,带动产业智能化升级。从本期开始,百度智能云增设“智能视频小讲堂”系列专栏,通过将百度智能云在智能视频领域深耕多年的技术和用户实践,深入浅出地阐释,展现智能视频领域某个技术点如何提升产业效率,帮助客户实现降本增效。

此系列文章从智能化生产、智能化审核、智能化分发、智能化应用等媒体全链条角度展示视频领域的技术应用,本期介绍时序动作检测技术在媒体内容审核与分析方面的作用。


竞技体育的赛场总是瞬息万变,激动人心。梅西的每一次精准射门,詹姆斯的每一次帅气的灌篮和三分球......这些高能的、让你过目难忘的精彩瞬间,常常被不断重复播放。短短十几秒的场景,是如何从庞大的直播视频中被快速筛选出来的?


这背后时序动作检测发挥着巨大作用。


何为时序动作检测?


从技术层面来说,时序动作检测技术属于媒体内容理解的一大类。

一般而言,媒体内容分析是利用视觉、语音、知识图谱等 AI 技术,对视频和图片进行结构化分析,输出内容的泛标签,帮助平台实现个性化内容推荐,提升用户检索体验。

通常媒体内容分析有如下几种技术:

抓取视频中的图像,如人脸、特定标志等,通过图形图像的分析达到视频人物识别。优点是速度快,识别技术成熟。不足是不能动态识别;


截取一段时间的视频(比如10秒或者15秒),给视频打标签的方式提取媒体内容。不足是速度慢,考验的是标签的精准度。


此外,业内还有通过视频语音识别、视频 OCR 等方式为视频分类。虽然这些都是比较常用的视频分析维度,但它们只是借助文本信息侧面描绘视频内容。同时,随着视频平台内舞蹈、动作等动态化的流行元素出现,语音识别和 OCR 识别已经不能满足视频分析的新需求。

而时序动作检测技术则更进一步,在一段未分割的视频中找到感兴趣动作的起止时间,以及该动作的具体类别。

例如,该技术能够动态检测出某些特定的动作行为,如影视电影中的打斗、体育赛事的扣篮射门等动作、直播的一些不雅动作等,帮助媒体平台更好的分类、管理和输出视频,也能帮助直播平台提高监管效率,适用于大型媒体平台或者直播平台等场景。

四部分技术难点


要开发适用不同场景的时序动作检测技术存在不少难点。

业内也没有较为成熟并且已经被大型商用验证过的开源项目。因为动作检测的难点在于,由于视频的拍摄角度、光线、动作幅度等干扰因素较多,起止时间不清楚,时间跨度大,很难使用一般的开源模型调优后得出结果,核心技术必须要自研。

百度智能云的技术团队将时序动作检测技术任务分解成四部分。

第一部分,定位视频。提取视频的基础特征,使用的是图像特征 PPTSM 和音频特征的模型。这部分技术业内较为成熟,也多为开源项目。

第二部分,Proposal 候选框提取。基于视频的基础特征,为视频动作定位问题中 Proposal 的生成提供高效的解决方案,底层是 BMN。这部分技术是百度智能云自研,也是2019年 ActivityNet 的夺冠方案。

第三部分,动作识别。结合图特征+音频特征,使用 bi-LSTM+Attention 的 sequence 模型结构对视频序列进行分类,这部分关键点是模型训练和输入数据质量。

第四部分,完成视频调优和分割,输出任务结果。

有了这样的思路之后,时序动作检测技术的难点就被“攻克”了,为日后不断优化提供了基础。

业内最强的1:30速度比


如果单纯从计算能力看,相比传统的视频动作检测速度,百度智能云的时序动作检测技术能达到1:30的速度比。如果按照成型的解决方案对比,也能达到1:20的速度比。

这些都离不开高质量的输入数据和数据标注。

以足球射门这个动作来说,某大型媒体平台和百度智能云合作,提供了1000个小时有版权的、各大赛事的射门视频。百度智能云通过专项的视频标注团队,花了数个月不断调优,极大提高了检测的精准度。

经过多方测试和实践结果,百度智能云的时序动作检测技术已经达到商用的级别,目前应用在一些大型媒体平台和 YY 直播等媒体平台,百度智能云也能提供基于公有云和私有云的快速部署。

适用于视频等多场景 


该技术适用于视频内容分析和视频直播审核等视频场景。

视频内容分析:帮助媒体平台快速准确的找到某些特定动作的片段,如影视片的打斗动作、体育赛事的射门、扣篮等动作,时序动作检测有助于这些平台快速输出和剪辑视频,帮助媒体平台提高工作效率,节约时间。

视频直播审核:帮助直播平台提高视频审核的质量和速度。只要出现违规动作(如抖胸、抖胯等),平台立马巡视该房间或者屏蔽该视频。常用于秀场直播或者 PK 直播等具体的场景。而过去,通常是平台工作人员巡查或者接到举报后才能采取行动。

为了推动整个行业的发展,目前体育动作检测技术在百度飞桨中开源,已经有不同行业的需求者针对该项目试用和开发,逐步应用到业务领域。

未来,百度智能云时序动作检测技术还将持续推动,朝着识别速度更快、覆盖范围更广、精准度更高的方向发展。百度智能云希望借助深入浅出的文章形式,以飨读者,能够为视频行业发展带来新的思考和参考。

助力视频行业智能化,你有什么想法,来评论区说说吧,下一期我们将带来知识图谱对视频智能化的影响。

点击“阅读原文”进入官网,了解更多产品信息。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存