查看原文
其他

CVPR2020 论文系列一: VSGNet

晟沚 机器学习算法工程师 2021-12-31


   作者:晟沚         

 

论文名称:VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

论文地址:https://arxiv.org/abs/2003.05541

        

简 述


 human object interaction (HOI)任务主要是检测人与对象对之间的交互并将其定位,可以被认为是visual scene understanding, visual question answering, activity recognition in videos的一部分。

HOI检测目前仍然有各种挑战。例如,交互通常以微妙的方式发生,不同类型的环境中相同类型的关系存在显着差异,多个人可以与同一个对象进行交互,反之亦然,并且不同的关系可能在视觉上存在细微的差异。

目前已经提出的方法主要使用对象检测框架,提取人和对象特征。这些特征与其他特征(例如姿势,相对几何位置)进行配对,然后输入多分支深度神经网络以检测人与物体之间的关系。存在的问题主要是没有明确利用交互信息或他们之间的空间关系。

视觉理解一般要求检测框架能够在单独分析对象时有效地学习和利用对象之间的相互交互。这是Human-Object Interaction(HOI)检测任务的主要目标。尤其是,对象之间的相对空间推理和object之间的结构连接是分析交互的基本线索。VSGNet从人和对象对中提取视觉特征,使用对象对的空间配置对特征进行细化,并通过图卷积利用对象对之间的结构连接。如下图所示,VSGNet使用spatial attention分支,该分支明确使用pairs的空间关系来完善视觉特征; 为了对交互进行建模,可以将图像定义为graph, 节点是人和对象,在这种情况下,edges定义了交互,因此作者的模型将交互proposal 分数用作图形中edges的强度。


01

网络结构

如下图所示,作者在网络中利用了预先训练的Faster-RCNN模型来检测人和物体。此外,利用Faster-RCNN的区域提议网络构想,并将其扩展到可预测人对之间是否相互交互的交互proposals。

具体来说,VSGNet由视觉分支组成,该视觉分支从人,物体和周围环境中分别提取视觉特征;空间注意分支,它调节人和对象之间的空间关系;图卷积分支将场景视为以人和物体为节点的图,并对结构相互交互进行建模。

Visual Branch

该分支专注于提取人对对象的视觉特征。遵循对象检测方法,在人/对象区域上使用region of interest(RoI)池来提取特征。此操作之后是残差块(Res)和全局平均池(GAP)操作,以提取对象和人类的视觉特征向量。

Spatial Attention Branch

该分支致力于学习人与物体之间的空间相互交互模式。主要任务是生成注意力特征,这些注意力特征通过放大具有高空间相关性的对来用于完善视觉特征。该分支如下图所示。

Graph Convolutional Interaction Branch

该分支使用图卷积网络为人类和物体生成有效特征。图卷积网络提取对节点之间的结构关系建模的特征。通过使用它们的edges,遍历和更新图中的节点来完成的。在这种情况下,我们建议使用人类和物体作为节点,并将它们的关系作为edges,如下图。



02

实验结果

作者使用COCO中的Verbs数据集(V-COCO)和HICO-DET数据集全面评估了VSGNet的性能。实验结果表明,VSGNet在V-COCO中的性能比最新解决方案高出8%或4 mAP,在HICO-DET中优于16%或3 mAP,如下表。

下图显示了定性结果,并将VSGNet与基本模型进行了比较(仅Visual),可以看到正确动作的交互预测概率。图像显示了对象大小,人员大小和不同交互类别的差异。VS-GNet的性能优于基本模型。即使在对象不完全可见(图9)或交互作用非常微妙(图2)的情况下,VSGNet也可以很好地执行并改进基本模型。




 

END




机器学习算法工程师


                                            一个用心的公众号


 







: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存