科研速递 | 理工学院黄锐教授团队论文被IEEE计算机视觉与模式识别会议收录
近日,香港中文大学(深圳)理工学院黄锐教授团队题为“Learning to Generate Language-supervised and Open-vocabulary Scene Graph using Pre-trained Visual-Semantic Space”的研究工作被IEEE计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)录用。
会议介绍
CVPR是由美国电气及电子工程师学会(IEEE)组织的计算机视觉领域最权威的国际会议之一,每年一届,与ICCV(计算机视觉国际会议)和ECCV(欧洲计算机视觉会议)并列为计算视觉领域最顶级的三大国际会议。国际计算机视觉领域普遍认为,CVPR/ICCV/ECCV三大会议代表了计算机视觉领域的旗舰和风向标。本届CVPR大会将于2023年6月在加拿大温哥华召开,共收到有效投稿论文9155篇,最终录用2360篇,录用率为25.8%。
论文介绍
场景图(Scene graph)是一种描述图像语义的结构化表示方式,图像中的目标被抽象为图节点,目标间的关系则表示为带标签的边。本研究工作专注于图像场景图生成(Scene graph generation,SGG)任务,即根据输入图像生成场景图表示。该任务对于诸多下游应用(如图像-文本检索、跨媒体知识图谱、机器人规划等)都具有重要支撑作用。
尽管前人已经付出了诸多努力,当前SGG方法仍然面临两个棘手的问题,严重限制其在现实场景下的实用性。
1)训练SGG模型需要大量人工标注的场景图。这个标注过程非常昂贵且乏味:标注者需要框出图像中的所有目标,再为存在交互关系的目标对逐一分配关系标签,并且可能还需要额外的验证、清洗等后处理来减少标注的模糊性。
2)几乎所有现存SGG方法都只涉及预定义的封闭目标类别,这使得 SGG 模型在识别训练语料库以外目标类别能力有限。然而,现实场景涵盖的类别是开放的,总是比预定义的目标类别集合更广。当遇到新颖/未见过类别的目标时,已有SGG模型要么把这些目标错误地识别为一个已知类别,要么不能识别而当作背景,进而这些目标与其他目标的关系识别也将受到负面影响。这可能引发问题,比如基于此类封闭类别场景图的机器人可能采取不当的动作。
近来,通过大规模的语言-图像预训练,从而利用自由形式的语言监督来促进视觉识别任务的趋势正在兴起。这些工作(如CLIP)基于大规模易获得的图像-文本对进行预训练,以学习视觉-语义空间(Visual-semantic space, VSS),并且已经验证其具有出色的零样本迁移能力。特别是最近的GLIP训练得到了目标级别且语义丰富的VSS。基于学得的VSS,GLIP在短语图像定位和零样本目标检测等任务上取得了优异的效果。这表明预训练的VSS具有强大的多模态对齐能力(Multi-modal alignment ability,即具有相似语义的图像区域和文本短语会得到相似的嵌入),以及开放类别泛化能力(Open-vocabulary generalization ability,即覆盖预训练图像-文本语料库中的几乎所有概念)。这正好启发我们使用预训练的VSS来解决前述SGG任务中的两个障碍。一方面,利用其多模态对齐能力,我们可以廉价地将图像描述转换为场景图监督。另一方面,通过开放类别泛化能力,有望在SGG中实现新颖类别的识别。
图表 1 利用预训练的视觉-语义空间(VSS)来实现语言监督的和开放类别的场景图生成(SGG)的示意图。(a)我们通过图像描述的语义解析,并利用VSS在图像区域上定位名词短语来廉价获取弱场景图监督。(b)在SGG推理时,由于VSS的开放类别泛化能力,新颖类别名称(例如,player)也可以很好地与对应图像区域对齐,该区域被视为新颖类别的检测结果。
在此项研究工作中,我们探索如何充分利用语言-图像预训练学得的VSS来触发语言监督的和开放类别的SGG。具体来说,我们通过将图像描述根据语法解析成语义图,然后通过在预训练的VSS中进行词语-图像区域对齐,将名词短语定位到图像区域,从而获得弱场景图监督(如上图a所示)。此外,我们提出了一种新颖的SGG模型,即基于视觉语义空间的场景图生成,简称VS³。它将原始图像和包含目标类别名称的文本提示作为输入,并将它们投影到VSS得到嵌入。接下来,VS³通过对齐类别名称和图像区域的嵌入来执行目标检测。基于检测到的目标,VS³使用一个设计好的关系嵌入模块为目标对构建特征表示,该模块从视觉外观和空间角度充分挖掘交互模式。最后,关系预测模块根据其特征表示推断关系标签。最终,场景图通过组合目标检测和关系推断的结果而得到。在训练阶段,从图像描述中解析出的语义图可以用作弱场景图监督,从而实现语言监督的SGG。在SGG推理阶段,当使用包含新颖类别的文本提示输入时,由于VSS中天然的开放类别泛化能力,VS³能够检测到新颖目标,从而实现开放类别的SGG(如上图b所示)。
主要贡献
(1)通过利用预训练的VSS,为处理SGG面临的障碍(即实现语言监督的和开放类别的SGG)提供了一种优雅的解决思路,进而为SGG在现实场景下的应用推进了坚实的一步。
(2)我们设计的VS³模型是一个灵活的新框架,它有效地迁移了语言-图像预训练知识来帮助SGG任务。
(3)我们在Visual Genome 基准数据集进行了大量实验,在各种实验设置下获取了当前最优秀的场景图生成效果,充分验证了我们方法的有效性。
作者简介
本文通讯作者是港中大(深圳)黄锐教授。
黄锐,香港中文大学(深圳)理工学院副教授,计算机视觉实验室主任,中国图象图形学学会学工委委员、青工委委员。黄教授在Subspace Analysis、Deformable Models、Probabilistic Graphical Models等方法和模型以及它们在计算机视觉、模式识别、图像处理中的应用等方向做过大量研究工作。目前研究兴趣集中在计算机视觉在视频监控和机器人领域的应用。黄教授已发表相关领域学术论文80余篇,主持过包括国家自然科学基金在内的多项科研课题,曾获2018年中国计算机学会科学技术奖自然科学二等奖。
本文第一作者是理工学院在读博士章勇。
章勇是香港中文大学 (深圳) – 京东集团人工智能联合培养博士生,导师是黄锐教授。他的研究兴趣集中于计算机视觉、机器学习,尤其专注于视觉数据的结构化表示与应用,目前已发表多篇国际期刊和会议论文。
本文的作者还包括京东集团的潘滢炜博士、姚霆博士,以及理工学院的梅涛客座教授与陈长汶客座教授。
点击以下链接,进入理工时刻:
SSE WEEKLY COLLOQUIUM活动回顾 | 2023理工学院系列研讨会第三十一讲
喜讯 | 理工学院潘兴斌教授和博士生张天健荣获港中大(深圳)2022年度奖项
喜讯 | 2023 Biomaterials奖项获奖名单揭晓!
科研速递 | 理工学院潘文安教授团队在遥感领域顶刊ISPRS Journal Ph & RS和IEEE TGRS发表文章
科研速递 | 理工学院黄建伟教授团队在IEEE计算机通信国际会议INFOCOM发表论文
相遇在未来・访谈录|理工校友在密歇根大学安娜堡分校(下)