“暗”,不止于“深”——迈向认知智能与类人常识的范式转换 | 中国工程院院刊
The following article is from 中国工程院院刊 Author Engineering
关注风云之声
提升思维层次
导读
加利福尼亚大学和麻省理工大学研究人员最近在中国工程院院刊《Engineering》发文提出,要填补现代计算机视觉和人类视觉之间的空白,对缺失的维度(即类人常识)进行建模和推理,必须要推动当前计算机视觉与人工智能领域中的“以大数据驱动小任务”传统研究范式,转换为“以小数据驱动大任务”的新型研究范式。
本文选自中国工程院院刊《Engineering》2020年第3期
作者:朱毅鑫,高涛,范丽凤,黄思远,Mark Edmonds,刘航欣,高枫,张驰,Siyuan Qi,吴英年,Joshua B. Tenenbaum,朱松纯
来源:Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense[J].Engineering,2020,6(3):310-345.
计算机视觉的一个难题
加利福尼亚大学和麻省理工大学研究人员最近在中国工程院院刊《Engineering》发文提出,解决上述难题,必须要推动当前计算机视觉与人工智能领域中的“以大数据驱动小任务”传统研究范式,转换为“以小数据驱动大任务”的新型研究范式。
传统范式:以大数据驱动小任务
图1 一个通过联合解译和认知推理深入理解场景或事件的示例。从单一图像中,计算机视觉系统应该能够同时进行以下工作:①重建3D场景;②估算相机参数、材料和照明条件;③以属性、流态和关系对场景进行层次分析;④推理智能体(如本例中的人和狗)的意图和信念;⑤预测它们在时序上的行为;⑥恢复不可见的元素,如水和不可观测的物体状态等。作为人类,我们可以毫不费力地做到:①预测水壶中将会有水流出;②推理出番茄酱瓶倒置背后的意图——为了利用重力、方便使用;③看到狗下有一个用现有计算机视觉方法很难检测到的玻璃桌;如果看不到这个玻璃桌,视觉解析结果将因为狗看上去漂浮在空中而违反物理定律。这些知觉加工只能通过推理场景中没有以像素表示的不可观察因素来得到。这要求我们构建具有类人核心知识和常识的人工智能系统,而当前的计算机视觉研究严重缺失这些知识。L:长;W:宽;H:高。1 in = 2.54 cm
新型范式:以小数据驱动大任务
研究人员认为,“暗”这个概念与视觉和概率模型中常用的“隐”是正交的,并且含义更加丰富。“暗”是对于除可见外观或几何形状之外还需要多少不可见常识来分类物体或推断关系的相对难度的度量。实体可以落在连续的“暗”频谱上:从普通人脸等根据外观相对容易识别(因而被认为是“可见的”)的物体,到椅子等因为类内差异较大而难以识别的功能性物体,再到各种无法通过像素识别的实体或关系。在上文提到的例子中,智能体的性别是“隐”的,因为不需要利用意图、因果或者其他不可见因素的理解来揭示它。对比之下,水壶的功能是“暗”的;通过常识,人可以轻松推断出倾斜的水壶内部有液体。倒置的番茄酱瓶也可以被认为是“暗”的,因为对人类意图的理解使我们得知番茄酱瓶的颠倒放置是在利用重力作用以便于倒出。
人工智能未来认知体系的五个关键维度
FPICU的5个维度尽管看上去有明显的不同,但是它们之间有理论上的重要联结。这些相互联结具有以下特征:①5个认知维度通常不容易投射到明确清晰的视觉特征上;②大多数现有的计算机视觉和人工智能算法都对这些域无能为力,(在大多数情况下)也根本不适用;③人类视觉在这些域中仍然非常高效,而且人类水平的推理往往基于FPICU的先验知识和能力。如果将这5个关键要素结合在一起,将至少可以在3个方面推动视觉或人工智能系统的发展。
(1)泛化。作为更高阶的表征,FPICU的概念在整体的人类生活空间中基本上是全局不变的。因此,在一个场景中学习到的知识可以迁移到新的情境中。
(2)小样本学习。为了理解环境、事件和智能体的行为,FPICU对必要的先验知识进行编码。由于FPICU比外观或几何特征更加稳定,即使没有大数据,FPICU也可以跨领域和数据源进行更一致且不受噪声困扰的学习。
(3)双向推断。使用FPICU进行推理需要将基于抽象知识的自上而下的推理,与基于视觉模式检测的自下而上的推理结合起来。这意味着系统不仅会继续像现在一样,通过观察以像素表示的可见场景进行数据驱动推理,还要基于FPICU的理解进行推理。这两个过程可以互相促进,从而提高系统的整体表现。
总之,“暗实体”和“暗关系”的5个关键维度支持了包括分类在内的各种视觉任务。人工智能的未来发展不应只是提高数据驱动方法的性能和复杂性,掌握这些不可见的本质成分才是至关重要的。
改编丨朱毅鑫
注:本文内容呈现形式略有调整,若需可查看原文。
改编原文:
Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum, Song-Chun Zhu.Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense[J].Engineering,2020,6(3):310-345.
扩展阅读:
背景简介:文章于2020年6月18日发表于微信公众号 中国工程院院刊(前沿研究丨“暗”,不止于“深”——迈向认知智能与类人常识的范式转换),风云之声获授权转载。
责任编辑:祝阳