查看原文
其他

天津大学韩亚洪等 | 面向视觉常识推理的有向视觉连接

韩亚洪,武阿明等 信息与电子工程前沿FITEE 2022-10-01

内容介绍


中文摘要:为推动认知层面视觉内容理解的研究,即基于视觉细节的深入理解做出精确推理,视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答,视觉常识推理不仅需要模型正确地回答问题,还需给出相应解释。最近关于人类认知的研究指出大脑认知可以看作局部神经元连接的全局动态集成,有助于解决特定的认知任务。受其启发,本文提出有向连接网络。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接,以及借助方向信息增强推理能力,所提方法能有效实现视觉常识推理。具体地,首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。最后,基于情景化连接的输出设计有向连接来推断答案及对应解释,其中包含了ReasonVLAD模块。实验结果和可视化分析证明了所提方法的有效性。

关键词:

视觉常识推理;有向连接网络;视觉神经元连接;情景化连接;有向连接


作者:

韩亚洪1,2,武阿明1,朱霖潮3,杨易3

单位:
1天津大学智能与计算学部,中国天津市,300350
2天津市机器学习重点实验室,天津大学,中国天津市,300350
3悉尼科技大学计算机学院,澳大利亚悉尼市,2007

本文引用格式:
Yahong HAN, Aming WU, Linchao ZHU, Yi YANG, 2021. Visual commonsense reasoning with directional visual connections. Frontiers  of Information Technology & Electronic Engineering, 22(5):625-637.
https://doi.org/10.1631/FITEE.2000722


本文精要导读:

点击下方“阅读全文”,下载全文PDF


相关阅读:潘云鹤院士 | 论视觉知识FITEE 2021年第5期摘要(首期“视觉知识专栏”)潘云鹤院士|视觉知识的五个基本问题浙江大学庄越挺教授|视觉知识:智能创意初探




关于本刊

Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子1.604,进入JCR Q2分区。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城。实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。

2019年,荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(梯队期刊)。


官网http://www.jzus.zju.edu.cn

期刊Springer主页

http://www.springer.com/computer/journal/11714

在线投稿

http://www.editorialmanager.com/zusc


更多信息,请见:FITEE影响因子提升55%,首次跨入Q2区

微信加群
为方便广大科研人员交流讨论,本平台建有以下学科微信群。有需要加群的用户,请加小编个人微信号fitee_xb,并留言想要加入的群,小编会拉您进群。营销广告人员请勿扰。

计算机科学与技术学术群

光学工程与技术学术群

控制科学与技术学术群

信息与通信学术群

电力电子学术群

人工智能学术


加关注  ID: fitee_cae

本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存