TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理
近日,中山大学人机物智能融合实验室(HCP-Lab)团队的论文Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering(基于跨模态因果关系发现的事件级问答推理)被人工智能领域的国际顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)接收。
论文链接:
https://arxiv.org/abs/2207.12647
代码链接:
https://github.com/HCPLab-SYSU/CMCIR
因果驱动的视觉-语言推理开源框架Causal-VLReasoning
https://github.com/HCPLab-SYSU/Causal-VLReasoning
跨模态事件级问答推理建立在基于视频的事件理解基础上,要求推理模型需要同时具备多模态视觉语义理解、时空表征学习、自然语言理解与生成和因果关系发现能力,实现对真实事件的深度理解,达到人机协同的自然交互,具有广泛的应用前景:包括聊天机器人ChatGPT、智慧教育机器人、人机交互系统、医疗问诊系统等。
图1:事件级反事实问答推理任务示例
其次,现有的跨模态问答推理方法通常捕捉的是混淆因子(confounders)带来的浅层(spurious)的语言或者视觉关联,而不是真正的因果结构和因果驱动的跨模态表征,这会导致不鲁棒且不可信赖的推理过程,无法捕捉视频中跨事件的时间性、因果性和动态性,如图2所示。
图灵奖得主 Judea Pearl 提出因果学习的三个层次(即关联,干预和反事实),并指出现有基于深度学习的大数据模型倾向于基于关联性去刻画数据背后的信息,学到的只是低层次的关联关系,这种建模方式难以得到数据背后的因果关系,其可解释性和鲁棒性在复杂应用场景下无法得到保证。
因此,本工作关注的重点是:
1)如何设计有效的跨模态因果干预方法,对视觉和语言样本的共通推理路径进行聚类、归纳,来缩小视觉和语言模态的数据偏误?
2)如何设计事件级因果发现方法,在时空层面挖掘复杂事件的潜在因果逻辑链条和关系变量,并建立基于多层因果推理结构的跨模态因果关系?
为了实现上述两个目标,我们提出了一个跨模态因果关系推理的框架(CMCIR)。具体而言,我们基于因果关系图对问答推理过程进行了建模,如图3所示,并引入了一系列因果干预操作,来发现视觉和语言模态之间的潜在因果结构。
我们的跨模态因果关系推理框架(CMCIR)包括三个模块:
i)因果感知的视觉-语言推理(CVLR)模块,通过因果前门和因果后门干预的协同来减弱视觉和语言的虚假相关性;
ii)时空Transformer(STT)模块,用于捕捉视觉和语言语义之间的细粒度交互;
iii)视觉-语言特征融合(VLFF)模块,自适应地学习全局语义感知的视觉-语言表征。
我们在四个事件级问答推理数据集SUTD-TrafficQA, TGIF-QA, MSVD-QA, 和MSRVTT-QA上进行了的大量实验,证明了我们的CMCIR在发现视觉-语言因果结构和实现鲁棒问答推理方面的优越性。
该工作的主要贡献是:
该工作首次在事件级问答推理任务中实现了跨模态因果结构发现。提出了一种因果驱动的事件级视觉问答框架CMCIR,通过对视觉和语言模态的因果干预,来发现真实的因果结构,并实现鲁棒的的事件级问答推理。 提出了一个由语言语义关系引导的语言后门因果干预模块,以减弱语言偏误并挖掘语言模态内部的因果关系。为了减弱视觉的虚假相关性,我们提出了一个局部-全局因果注意力模块(LGCAM),通过前门因果干预来聚合局部和全局的视觉表示。 构建了一个时空Transformer模块(STT),用于建模视觉和语言知识之间的多模态交互关系,挖掘语义、空间和时间表征之间的细粒度交互关系。
图3:所提出的视觉-语言因果干预的因果结构图。绿色路径表示无偏的视觉问答,即真实的因果效应。红色路径显示由混淆因子引起的有偏视觉问答,也被称为后门路径。图的底部部分通过视觉-语言因果干预对一个真实的VideoQA样本进行直观解释。
3.1 语言后门因果干预
3.2 视觉前门因果干预
四、时空 Transformer 模块
为了挖掘语言和时空表征之间的细粒度关联,我们构建了一种时空Transformer模块,该模块包含四个子模块,分别是问题-外观(Question-Appearance, QA),问题-运动(Question-Motion, QM),外观-语义(Appearance-Semantics, AS),和运动-语义(Motion-Semantics,MS)模块,如图5(a)所示。
QA和QM模块各自包含R-层多模态(Multi-modal)Transformer Block (MTB),如图5(b)所示,MTB的目的是建立问题和外观(运动)特征之间的多模态交互关系。类似的,AS和MS模块同样采用MTB来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。
结合视觉表征学习模块、多模态语言和视觉时空结构多层次关系建模模MCIR,该框架能够对时空视觉关联、语言语义关联和视觉-语言因果关系进行细粒度的理解,并高效融合跨模态视觉语言语义关联和因果关联关系,实现鲁棒可信赖的细粒度事件级视觉问答,如图6所示。
五、总结
该工作首次在事件级问答推理任务中探索了跨模态因果关系发现的可能性,在结构因果图(Structural Causal Model, SCM)的视角下,创新性地引入了视觉因果前门干预和语言后门因果干预模型,以增强事件级问答推理模型的鲁棒性和可信性。该研究的重要意义在于为未来探索如何利用因果范式提升多模态大模型的鲁棒性、可解释性和可信性提供了思路和启发。
中山大学 HCP 团队长期致力于鲁棒、可信、可解释人工智能的研究,基于多模态大模型的认知推理任务,以一种因果驱动的方式来实现鲁棒可信的高阶语义推理,在人机对话、视觉导航、图像/视频生成、图像/视频标注、医学影像报告生成等任务上开展了持续而深入的研究工作,并建立了因果驱动的视觉-语言推理开源框架Causal-VLReasoning:
https://github.com/HCPLab-SYSU/Causal-VLReasoning
作者:刘阳
本文来源:公众号【PaperWeekly】
Illustration by unDraw
-The End-本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球