中山大学林倞团队 | 综述:当因果推理遇上视觉表征学习
Machine Intelligence Research
本工作由中山大学人机物智能融合实验室()负责人林倞教授指导完成,第一作者为中山大学计算机学院副研究员刘阳,本研究工作受科技部"科技创新2030-'新一代人工智能'重大项目"资助。该综述针对因果推理在多模态视觉表征学习领域的应用,分析了多模态表征学习常见的一些任务(如目标检测、场景图生成、视觉推理、视觉常识推理、视觉问答等)所面临的表征鲁棒性差、泛化能力不足的特点,充分讨论并分析了因果推理在视觉表征学习领域的发展现状和应用场景,并进一步归纳了多模态因果推理所面临的一些潜在挑战、机遇和未来研究方向。
视觉表征学习在现实世界中的应用无处不在,包括视觉理解、视频理解、多模态分析、人机交互和城市计算。大数据时代出现了大量的多模态异构空间/时间/时空数据,可解释性缺乏、鲁棒性以及分布外泛化能力不足正成为现有视觉模型的挑战。现有的大多数方法倾向于拟合原始数据/变量分布,并忽略了多模态知识背后的本质因果关系,同时缺乏对以下问题的统一指导和分析,即现代视觉表征学习方法为何容易被数据偏误影响,并具有有限的泛化和认知能力。鉴于此,近年来,受与人类认知水平相当的智能体的强大推理能力的启发,研究者们在开发因果推理范式以实现具有良好认知能力的鲁棒表征和模型学习方面做出了巨大努力。
中山大学林倞教授团队充分阐述并分析了现有因果推理、多模态表征学习的研究工作,针对因果推理在多模态表征学习领域的应用进行了全面的综述,其中包括基本理论、模型和数据集。同时,进一步分析了多模态表征学习常见的一些任务(如目标检测、场景图生成、视觉推理、视觉常识推理、视觉问答等)所面临的表征鲁棒性差、泛化能力不足的特点,讨论和分析了因果推理在视觉表征学习领域的发展现状和应用场景,还讨论了当前方法和数据集存在的局限性。
此外,本文对标因果推理算法,归纳了基于因果推理的多模态视觉表征学习面临的一些潜在挑战、机遇和未来研究方向: 1)如何泛化到不同任务; 2)如何与大规模预训练模型的结合; 3)构建更多基准的因果数据集; 4)如何深入分析因果推理的内在机理,并与多模态表征学习紧密结合。本文旨在对这一新兴领域进行全面概述,并加紧推动开发新的因果推理方法、公开可用的基准数据集和基于共识所建立的评测标准,以便更有效地开展可信赖的视觉表征学习及其在现实世界的相关应用。
图片来自Springer
随着海量多模态异构数据的产生,如图像、视频、文本/语言、音频以及多传感器数据,基于深度学习的方法在各种计算机视觉和机器学习任务中表现出了良好的性能,例如视觉理解,视频理解,视觉语言分析和多模态融合。然而,现有方法严重依赖于拟合数据分布,并倾向于从不同模态中捕捉虚假相关性,因此无法学习具有良好泛化和认知能力的多模态知识背后的本质因果关系。
由于计算机视觉领域的大多数数据都是独立同分布的(i.i.d.),受此启发,现有的大部分工作采用了数据增强、预训练、自监督和新型架构,以提升最先进的深度神经网络架构的鲁棒性。然而,这种策略只从数据中学习基于相关性的模式(统计相关性),如果没有i.i.d的保障,可能无法具备很好的泛化能力。
由于能够揭示数据生成过程的潜在结构知识,从而能够在不同的任务和环境中进行较好的干预和泛化,因果推理为相关性学习提供了一个十分有前景的替代方案。
最近,在计算机视觉和机器学习的众多影响深远的领域中,因果推理引起了越来越多的关注,例如可解释的深度学习、因果特征选择、视觉理解,视觉鲁棒性、视觉问答和视频理解。这些因果方法遭遇的一个共同挑战是如何构建一个能够充分发现因果关系和时空关系的强大认知模型。
本文旨在全面概述因果推理,以推动视觉表征学习的发展、吸引目光、鼓励讨论,并将开发新型因果引导视觉表征学习方法的紧迫性提到最前沿。尽管当前有一些关于因果推理的研究,但这些工作旨在完成一般表征学习任务,如去混淆、分布外泛化和去偏误。不同的是,本文侧重于对与因果推理、视觉表征学习及两者的融合相关的研究、数据集、观点、未来挑战和机遇做一个系统全面的综述。为了更简洁清晰地完成综述,本文基于成果来源、出版时间、影响力及同一话题的不同涉及面,筛选并引用了相关研究。全文的整体结构请见图1。
总体而言,本文的贡献如下:
首先,本文介绍了因果关系的基本概念、结构因果模型(SCM)、独立因果机制(ICM)原理、因果推断和因果干预。然后,在上述分析的基础上,本文进一步给出了对视觉表征学习任务进行因果推理的一些方向。本文是第一篇提出因果视觉表征学习潜在研究方向的论文。
第二,具有前瞻性地进行回顾,在以上所提方向上系统地、结构性地回顾现有研究成果,以更有效地进行因果视觉表征学习研究。本文专注于视觉表征学习和因果推理之间的关系,以帮助更好地理解现有因果推理方法在视觉表征学习中的作用,并为未来的研究提供启发。
第三,本文探索并讨论了使用因果推理方法解决视觉表征学习相关的未来研究领域和开放性问题。这可以鼓励和支持相关领域研究的扩大和深化。
本文其余部分组织如下:第2部分提供了一些前言性内容,包括因果关系的基本概念、SCM、ICM原理、因果推断和因果干预。第3部分讨论了使用因果推理学习鲁棒特征的方法,这是视觉表征学习的关键技术。第4部分回顾了一些最近的视觉学习任务,包括视觉理解、动作检测和识别,以及视觉问答,并讨论了关于这些视觉学习方法现有的挑战。第5部分系统地回顾了相关的基于因果关系的视觉表征学习工作。第6部分归纳了现有的用于视觉学习的因果数据集。第7部分提出并讨论了未来的研究方向,最后第8部分给出了结论。
该综述介绍了因果推理的基本理论、方法、模型和数据集,如表1所示。
表1:因果推理在视觉表征学习领域的应用情况
此外,该综述还讨论和分析了因果推理在视觉表征学习领域的发展现状和应用场景,并进一步归纳了多模态因果推理面临的挑战及其未来发展思路; 1) 泛化到不同任务; 2) 和大规模预训练模型的结合; 3) 更多基准的因果数据集; 4) 深入分析因果推理的内在机理,并与多模态视觉表征学习紧密结合,如图2所示。
图2:因果推理在多模态视觉表征学习领域的发展历程
全文下载:
Causal Reasoning Meets Visual Representation Learning: A Prospective Study
Yang Liu, Yu-Shen Wei, Hong Yan, Guan-Bin Li, Liang Lin
https://link.springer.com/article/10.1007/s11633-022-1362-z
https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1362-z
【本文作者】
魏宇燊
严鸿
李冠彬
林倞
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接或扫描下方二维码填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如因疫情原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/rfQWEKc.aspx
特别感谢本文第一作者、中山大学刘阳副研究员对以上内容的审阅和修改!
∨
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。
专题综述 | 高效的视觉识别: 最新进展及类脑方法综述北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题
Top综述集锦 | 进化计算、知识挖掘、自然语言处理、人脸素描合成、机器人辅助手术...
戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战综述:从远程操作到自动机器人辅助显微手术华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
北科大殷绪成团队 | 弱相关知识集成的小样本图像分类
东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法联想CTO芮勇团队 | 知识挖掘:跨领域的综述中科院自动化所何晖光团队 | 一种基于RGEC的新型网络最新好文 | 基于因果推断的可解释对抗防御
复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换
精选综述 | 用于白内障分级/分类的机器学习技术
喜报 | MIR被 ESCI 收录!喜报 | MIR 被 EI 与 Scopus 数据库收录喜报!MIR入选“中国科技核心期刊
点击"阅读原文"免费下载全文