前沿研究丨“暗”，不止于“深”——迈向认知智能与类人常识的范式转换

Original Engineering 中国工程院院刊 2021-06-17

本文选自中国工程院院刊《Engineering》2020年第3期

作者：朱毅鑫，高涛，范丽凤，黄思远，Mark Edmonds，刘航欣，高枫，张驰，Siyuan Qi，吴英年，Joshua B. Tenenbaum，朱松纯

来源：Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense[J].Engineering,2020,6(3):310-345.

计算机视觉的一个难题

人类之所以既可以从稀疏而高维的数据中得出丰富的推论，又可以从一张图片中获取深刻的理解，都是因为人类拥有普遍但是无法用视觉感知的知识，这些永远无法通过简单询问“什么”和“何处”来理解。当前的计算机视觉系统的推理能力范围狭窄且高度特异化，需要针对专门任务设计大型标注数据集。同时，这样的视觉系统缺乏对物理世界与社交世界运作常识的理解，而这些常识对于普通成年人是显而易见的。如何填补现代计算机视觉和人类视觉之间的空白，并对缺失的维度（即类人常识）进行建模和推理，是计算机视觉研究的一个经典难题。

加利福尼亚大学和麻省理工大学研究人员最近在中国工程院院刊《Engineering》发文提出，解决上述难题，必须要推动当前计算机视觉与人工智能领域中的“以大数据驱动小任务”传统研究范式，转换为“以小数据驱动大任务”的新型研究范式。

传统范式：以大数据驱动小任务

人类活动，特别是社会活动，是由因果、物理、功能、社会意图、个人喜好和效用支配的。在图像和视频中，许多潜在的、未以像素表示的实体（比如功能性物体、流体、物体流态，意图）和关系（比如因果效应、物理支撑、意向和目标）无法通过大多数现有的仅考虑外观的方法进行检测。然而，它们无处不在，并且支配着当前方法相对容易检测的可见实体的位置和运动。由于这些不可直接观测的因素在最新的计算机视觉研究中严重缺失，大多数的视觉任务被转换为分类问题，并通过大规模的标注数据和端到端的神经网络训练来解决。这就是计算机视觉研究中“以大数据驱动小任务”的传统范式。

图1 一个通过联合解译和认知推理深入理解场景或事件的示例。从单一图像中，计算机视觉系统应该能够同时进行以下工作：①重建3D场景；②估算相机参数、材料和照明条件；③以属性、流态和关系对场景进行层次分析；④推理智能体（如本例中的人和狗）的意图和信念；⑤预测它们在时序上的行为；⑥恢复不可见的元素，如水和不可观测的物体状态等。作为人类，我们可以毫不费力地做到：①预测水壶中将会有水流出；②推理出番茄酱瓶倒置背后的意图——为了利用重力、方便使用；③看到狗下有一个用现有计算机视觉方法很难检测到的玻璃桌；如果看不到这个玻璃桌，视觉解析结果将因为狗看上去漂浮在空中而违反物理定律。这些知觉加工只能通过推理场景中没有以像素表示的不可观察因素来得到。这要求我们构建具有类人核心知识和常识的人工智能系统，而当前的计算机视觉研究严重缺失这些知识。L：长；W：宽；H：高。1 in = 2.54 cm

新型范式：以小数据驱动大任务

本文研究人员建议，借用物理学中的“暗物质”概念，可以提升视觉界及其他领域对于缺失维度以及其联合表征和联合推理的潜在优势的认知。具体而言，就是将“暗”实体和关系整合到视觉与人工智能研究中，通过推理可见像素以外的不可见因素，近似人类的常识，使用有限的数据来实现各种任务的范化。这些任务包括并融合了经典的“什么”和“何处”问题（即分类、定位和重建）和“为什么、如何以及如果”问题（包括但不限于因果推理、直觉物理、学习功能性和可供性、意图预测，以及效用学习）。这种范式被认为是“以小数据驱动大任务”的新型范式。

研究人员认为，“暗”这个概念与视觉和概率模型中常用的“隐”是正交的，并且含义更加丰富。“暗”是对于除可见外观或几何形状之外还需要多少不可见常识来分类物体或推断关系的相对难度的度量。实体可以落在连续的“暗”频谱上：从普通人脸等根据外观相对容易识别（因而被认为是“可见的”）的物体，到椅子等因为类内差异较大而难以识别的功能性物体，再到各种无法通过像素识别的实体或关系。在上文提到的例子中，智能体的性别是“隐”的，因为不需要利用意图、因果或者其他不可见因素的理解来揭示它。对比之下，水壶的功能是“暗”的；通过常识，人可以轻松推断出倾斜的水壶内部有液体。倒置的番茄酱瓶也可以被认为是“暗”的，因为对人类意图的理解使我们得知番茄酱瓶的颠倒放置是在利用重力作用以便于倒出。

人工智能未来认知体系的五个关键维度

研究人员分析了人类视觉常识的五个关键维度：功能性（functionality）、物理（physics）、意图（intent）、因果（causality）和效用（utility），其中，因果是智能理解的基础。因果关系的运用（直觉物理）使人类拥有理解我们身处的物理世界的能力。功能性则是人类为达成特定目的而与物理环境互动时所必须拥有的对环境的深入理解。在考虑物理世界之上的社交互动时，人类需要进一步推断意图以了解其他人的行为。最终，随着对物质世界和社交世界的知识积累，理性智能体的决策是由效用驱动的。研究人员认为，这五个认识维度已显出成为认知人工智能基石的潜力，应该成为未来构建人工智能认知体系的基础。

FPICU的5个维度尽管看上去有明显的不同，但是它们之间有理论上的重要联结。这些相互联结具有以下特征：①5个认知维度通常不容易投射到明确清晰的视觉特征上；②大多数现有的计算机视觉和人工智能算法都对这些域无能为力，（在大多数情况下）也根本不适用；③人类视觉在这些域中仍然非常高效，而且人类水平的推理往往基于FPICU的先验知识和能力。如果将这5个关键要素结合在一起，将至少可以在3个方面推动视觉或人工智能系统的发展。

（1）泛化。作为更高阶的表征，FPICU的概念在整体的人类生活空间中基本上是全局不变的。因此，在一个场景中学习到的知识可以迁移到新的情境中。

（2）小样本学习。为了理解环境、事件和智能体的行为，FPICU对必要的先验知识进行编码。由于FPICU比外观或几何特征更加稳定，即使没有大数据，FPICU也可以跨领域和数据源进行更一致且不受噪声困扰的学习。

（3）双向推断。使用FPICU进行推理需要将基于抽象知识的自上而下的推理，与基于视觉模式检测的自下而上的推理结合起来。这意味着系统不仅会继续像现在一样，通过观察以像素表示的可见场景进行数据驱动推理，还要基于FPICU的理解进行推理。这两个过程可以互相促进，从而提高系统的整体表现。

总之，“暗实体”和“暗关系”的5个关键维度支持了包括分类在内的各种视觉任务。人工智能的未来发展不应只是提高数据驱动方法的性能和复杂性，掌握这些不可见的本质成分才是至关重要的。

改编丨朱毅鑫

注：本文内容呈现形式略有调整，若需可查看原文。

改编原文：

Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum, Song-Chun Zhu.Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense[J].Engineering,2020,6(3):310-345.

☟ 如需阅读全文，请点击文末“阅读原文”

☟ 更多相关阅读，点击以下链接查看

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=e3079ia62n2

视频介绍丨人工智能专题

视频来源：吴飞

点击图片阅读丨陈杰院士谈多个无人系统的智能协同是人工智能的发展趋势

点击图片阅读丨前沿研究：人工智能的多重知识表达

点击图片阅读丨从脑科学到人工智能

点击图片阅读丨前瞻规划：人工智能+医药健康

点击图片阅读丨战略研究：人工智能+智能产品与装备

点击图片阅读丨战略研究：人工智能+制造业新模式与新业态

中国工程院院刊

工程造福人类

科技开创未来

微信公众号ID ：CAE-Engineering

注：论文反映的是研究成果进展，不代表《中国工程科学》杂志社的观点。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）