查看原文
其他

ECCV官方称赞的“超级队伍” 上海人工智能实验室通用视觉团队获Ego4D 七个赛道冠军

不断进步的 书生 OpenGVLab 2024-02-06

引言


2022年,上海人工智能实验室通用视觉团队在Ego4D, MICCAI, TinyAction,MIPI 2022 UDC等近30项国内外竞赛和评测中取得冠军,累计超越5000余支队伍。我们对部分国内外竞赛冠军技术方案进行了归纳整理,分享给大家,欢迎读者们在公众号/知乎上与我们留言讨论。

本次介绍的ECCV 2022 Workshop Ego4D比赛,通用视觉团队获得了7个赛道冠军,其中2项与南京大学进行合作。参加人:陈果、邢森、陈喆、王毅等;指导老师:乔宇、路通等。

ECCV 2022 Workshop Ego4D 比赛有来自全球的18个队伍参加,其中包含英特尔 AIMeta AI,浙江大学,北京大学,威斯康星大学等国内外企业或学术机构。截止到比赛结束,有16个赛道获得了总共43次提交。上海人工智能实验室通用智能团队联合南京大学获得7个赛道的冠军,成为获得最多冠军的团队。夺得冠军的7个赛道分别为时刻查询(Moment Queries),自然语言查询(Natural Language Queries),未来手部预测(Future Hand Prediction),状态改变目标检测(State Change Object Detection),短期目标交互(Short-term object interaction anticipation),目标状态改变识别(Object State Change Classification),不可挽回帧定位(PNR Temporal Localization)。其中目标状态改变识别赛道和不可挽回帧定位赛道与南京大学进行合作。

现在就和我们一起看看冠军方案介绍吧!  

       


00

 Ego4D介绍

       Ego4d是世界上最大的第一人称视角的视频数据集,其中包含了长达3600小时的密集叙述类视频并涵盖五个新基准任务的注释。视频内容涵盖了来自全球9个国家74个不同地点的926位拍摄者拍摄的多种日常生活活动场景。视频某些部分还伴随音频、环境3d网格合眼动视频等。
Ego4d的视频均为第一视角拍摄,这与传统的Kineticssth2sth等数据集有所不同,同时视频内容也更加贴近生活,覆盖的范围也较广,对视频理解的实际应用有较大作用。

01 赛道1: 时刻查询(Moment Queries

对于一个输入的视频,模型需要定位出查询关注的时刻段,需要输出检测到的时刻段的类别,开始位置以及结束位置。

难点动作具有高度抽象性,场景复杂,以及类别粒度差异大,时序尺度多样化。

解决方案:

为了解决动作事件的高度复杂性和类别粒度的问题,我们使用在kinetics700 数据集上预训练过的InternVideo中的VideoMAE模型。Kinetics700 数据集包含了700个人类日常的动作类别。这些类别包含了非常丰富的场景与动作语义。因此使用该模型对我们在第一视角中人类的快速运动中蕴含的语义具有很强的捕捉能力。

具体来说,我们首先从Ego4D时间戳标注全集中提取训练集标注,采用语义帧膨胀的方式提取时间戳标注附近的语义片段。接着我们将标注分为两种类型,动词与名词,这种方式可以在数据集层面实现模型的知识域分离,使得模型的互补性更强更有效。最后我们使用标准的视频分类训练方式训练VideoMAE,进而得到分别在Ego4D动词域以及名词域中的两个模型。

对于Moment Queries赛道,我们观察到他的事件类别更偏向于运动。因此我们采用动词域模型对其进行微调,同时我们手动筛选出不包含任何事件类别的片段,使得模型具有正负样本的识别能力。由此我们得到了能够直接服务于该赛道的VideoMAE模型。由于该赛道的任务目标与时序动作检测的任务一致,我们采用时序动作检测的方式完成这一任务。

我们首先使用该模型使用滑动窗口的方式提取时序特征,具体的我采样30FPS下的跨度的16,长度的16的片段输入到VideoMAE模型,并将最终的3D时空特征池化到一维特征。最终将整个视频提取为一个一维的时序特征。我们采用时序动作检测模型基于图卷积和锚框的动作检测器进行初步的验证,并得到以下结果。

为了进一步释放VideoMAE特征的潜能,我们采用最新的基于无锚框的动作检测器,可以更灵活的检测时序动作,解决上述的时序尺度多样化的问题。最终得到的结果如下:

02 赛道2: 自然语言查询(Natural Language Queries)

对于一个输入的视频,模型需要根据文本提示定位出与之对应的时刻段,需要输出检测到的时刻段的开始位置以及结束位置。

难点:动作具有高度抽象性,场景复杂,以及类别粒度差异大,时序尺度多样化。需要同时考虑视觉特征与文本特征,并只取一个预测结果进行评估。

解决方案:

得益于VideoMAE在MQ中的优秀表现,我们继续使用MQ中的两个模型作为视觉特征提取器,并将其用于Natural Language Queries 任务。由于该赛道的任务目标与视频时序指定检测的任务一致,我们采用视频时序指定检测的方式完成这一任务。

与MQ赛道不同,由于缺少足够的数据量进行片段级的微调,我们直接采用Ego4D动词域和名词域的两个模型进行特征提取。具体的我采样30FPS下的跨度的16,长度的16的片段输入到VideoMAE模型,并将最终的3D时空特征池化到一维特征。最终将整个视频提取为一个一维的时序特征。对于文本,我们沿用了上一届的EGOVLP模型中的文本编码器所以文本特征提取器。最后我们采用时序动作检测模型基于文本条检测时序边界检测器进行了一系列的验证,并得到以下结果。

03 赛道3:未来手部预测(Future Hand Prediction

对于一个1.5秒的第一视角片段,需要从其中的挖掘信息并预测未来5双手在未来的空间绝对位置,即输出在未来帧上的10个点(20个值,对应10个横坐标,10个纵坐标),对应10个手的位置。 

难点:如何挖掘当前的信息,如何建立当前与未来的联系。

解决方案:

在官方给出的基准线中,采用了I3D网络进行未来手部预测。我们直接采用了与其一致的设定。并替换了提取历史信息的骨干网络。我们尝试了将骨干网络替换为VideoIntern中的VideoMAE和UniFormer。我们发现使用VideoMAE收敛较慢,且最后取得了较弱的结果,我们分析是由于VideoMAE中缺少了空间的先验知识。而官方基准线中的I3D使用卷积作为基础算子,能够很好的捕获空间的局部关系,以及挖掘历史相邻帧中的空间变换关系。因此,我们采用了VideoIntern中的UniFormer,该模型在网络中穿插了多个深度可分离卷积模块,可以有效的对空间位置进行动态编码,进而能够有效捕获历史信息中的空间关联,并能够迁移到对未来的预测中。进一步,我们采用了更大尺寸的分辨率,进行了不同帧的实验。最终的结果如下。

04赛道4: 状态改变目标检测(State Change Object Detection)

对于一个第一视角片段,需要检测其中正在进行的状态改变。具体来说,给定片段中的状态前置条件帧,状态不可挽回帧,状态以及后置条件帧,模型需要预测出不可挽回帧的正在进行状态改变的二维框。

难点:状态改变定义模糊,难以精确捕获。状态改变的目标尺度差异大。

解决方案:

官方给出的基准线中,采用了基于状态不可挽回帧直接检测目标的方法,但他们使用了较弱的骨干网络。基于这种设定,我们采用了VideoIntern作为更强的骨干网络。具体来说,我们使用了 InternVideo中的Uniformer大模型作为骨干网络,使用基于query-based的检测头进行状态改变的目标检测。最终结果如下:

05赛道5: 短时目标交互预期(Short-term object interaction anticipation

赛题与传统视频理解任务中的时空定位十分相似,对于一个给定的视频我们首先需要对关键帧中的人和活跃物体(即在未来会与人发生交互的物体)进行空间位置的检测,然后需要预测未来发生的交互动作和发生交互动作的时间点。

难点: 不同于传统的动作识别,该任务中的动作的预测是未来发生的动作。而且对于未来发生交互的时间仍然鲜有探索,是一个非常大的挑战。

解决方案:

预测未来发生的动作十分依赖视频中物体的语义信息的交互,主办方给出的基准线使用的传统的卷积神经网络,感受野较小,难以有效的捕捉物体之间的交互信息,导致对动作的预测效果十分有限。在比赛中,我们采用了动词域的VideoMAE模型作为预测动词类别的骨干网络。

我们仍然遵照基准线给出的两阶段方法,第一阶段预测交互物体框和物体的名词类别,第二阶段使用ROI采样操作获得ROI特征,并根据ROI特征对动作类别和动作发生时间进行预测。使用VideoMAE模型作为骨干网络后,动词预测效果有十分明显的提升,但是对于动作发生时间的预测却效果变差了。经过分析,我们发现动作发生时间是与物体空间位置十分相关的量,而Transformer对于空间信息的建模通常是根据位置编码,这种位置编码对像素级位置的概括是不够准确的。为了对Transformer引入更多的位置信息,我们为box单独加入了位置编码并与得到的ROI特征进行相加,最终得到了较好的动作发生时间的预测结果。

为了进一步提升效果,我们使用最新的query-based目标检测方法训练出了更加准确的交互物体框,并进行了细致的后处理,这大大减少了冗余、不准确的交互物体框带来的噪声。最终结果如下:


06赛道6:目标状态改变识别(Object State Change Classification)

赛题与传统视频理解任务中的时空定位十分相似,对于一个给定的视频我们首先需要对关键帧中的人和活跃物体(即在未来会与人发生交互的物体)进行空间位置的检测,然后需要预测未来发生的交互动作和发生交互动作的时间点。

     难点:不同于传统的动作识别,该任务中的动作的预测是未来发生的动作。而且对于未来发生交互的时间仍然鲜有探索,是一个非常大的挑战。

解决方案:

官方给出了i3D ResNet-50和以浅层卷积网络作为骨干的双向LSTM网络作为基线,这两种网络都是对视频均匀采样16帧作为输入。状态改变分类本质上还是一个动作分类任务,但相比具体动作,其语义更高阶,时序性更强,因此需要探索更强的时序建模骨干网络;同时,状态改变动作往往持续时间较短,稀疏采样未必能捕捉到关键帧,因此需要更密集的帧采样输入。

对于骨干网络,我们分别选择以卷积作为算子的ir-CSN-152和以Transformer作为算子的经过无监督预训练的VideoMAE-L。卷积算子擅长的局部语义捕捉与3D语义建模,Transformer算子擅长全局关系提取和建模。对于ir-CSN-152,我们采样更密集的帧作为输入,分别采样32,64和128帧,对于VideoMAE-L,由于其计算量较大,我们使用与基线相同的16帧作为输入。对于这两种不同的骨干网络和帧采样密度,我们分别进行了实验并进行了部分模型集成,实验结果如下:

07

赛道7:不可挽回帧定位(PNR Temporal Localization)


PNR帧全称为point-of-no-return(不可挽回帧),该赛道任务即检测出包含状态改变的视频中PNR帧的具体时序位置,并以预测值与真实值之间的秒数差作为评价指标。

难点:视频段中包含多个动作,不同动作之间会产生干扰和混淆,且不可挽回帧仅为一帧,精确定位难度较大。

解决方案:

官方使用与状态改变分类相同的16帧稀疏采样作为输入,并利用SlowFast+Perceiver作为骨干网络,对输入的每一帧计算置信度,并输出置信度最高的帧。该方法在验证集和测试集上相较于始终输出中间帧,有了0.4秒左右的提升。我们分析认为,对于一个8秒240帧的视频,仅对稀疏的16帧进行单帧置信度计算并不合适。单帧所含的语义信息完全不足以区分该帧附近是否存在不可挽回帧,因此相较于基线方法,我们将其单帧输入扩展为连续32帧的小剪辑作为骨干网络的输入,并分别以ir-CSN-152和经过无监督预训练的VideoMAE-L作为骨干网络,对每个小剪辑进行置信度计算。对于ir-CSN-152,每个视频我们均匀采样32个小剪辑,对于VideoMAE-L,每个视频采样16个小剪辑。我们对两种骨干分别进行了实验,并进行了结果融合,相较于基线方法,有超过0.1秒的提升。

方案报告:https://arxiv.org/pdf/2211.09529.pdf
方案代码:https://github.com/OpenGVLab/ego4d-eccv2022-solutions

END获知更多通用视觉团队研究成果动态,请关注我们( ̄▽ ̄)
继续滑动看下一个

ECCV官方称赞的“超级队伍” 上海人工智能实验室通用视觉团队获Ego4D 七个赛道冠军

不断进步的 书生 OpenGVLab
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存