【源头活水】Inductive Biases for Deep Learning By Bengio

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

作者：知乎—Nacht

地址：https://www.zhihu.com/people/isika

Introduction

这篇文章的全称是Inductive Biases for Deep Learning of Higher-Level Cognition，文章为deep learning做认知科学角度的理解，并指明了未来研究方向。

题目中的两个关键词：inductive biases，higher-level cognition，对于理解全文非常重要。

1.1 inductive biases

归纳偏差，也就是人观察世界的偏好，例如：对于一张图片，我们倾向于将其相邻的一些像素点作整体理解，而非观察逐像素点。

归纳偏差无处不在，既然AI的目标是模拟人类智能，模拟归纳偏差也就成了必经之路。

1.2 higher-level cognition

在过去的8年，深度学习取得了巨大成功，换句话说，AI越来越像人。

从cognitive的角度来看，这得益于AI对inductive bias的深入掌握，文章中介绍了多种引入inductive bias的方法：

模型架构
算法
数据增强

另一方面，AI的成功来源于海量数据+细致化任务+算力，这导致它只能拟合一个相当固定的分布，却没有泛化能力，即使是相同任务，如果数据分布发生变化，性能也会急剧下降。

反观人类智能，拥有强大的泛化能力，这种泛化能力表现为：人能够解决不同种类的问题，即使是从来没有见过的问题。

认知科学将思考分为“系统1”，“快思考”和“系统2”，“慢思考”，“可述的思考”，“语言辅助的思考”。

现在的机器能够做到快速的，特定于任务的思考，就像系统1，但是，如果涉及到多个系统的结合，例如迁移学习，就需要依赖系统2，例如推理，往往需要调动多个部分，并且以语言辅助。

*需要注意的是，快慢思考的提出者Daniel Kahneman，在今年的AI Debate上提出，将系统2与“可述的思考”等价，是对这一概念的曲解。在认知科学里，系统2更倾向于“非正常状态下的思考”，“我之外的思考”，我觉得他更倾向于将其表达为人的“自省式思考”。

需*要系统2参与的一些任务：

多系统结合
迁移学习
抽象能力（组合泛化）
推理

bengio认为，这些任务可以通过进一步adopt高层归纳偏置受益。在文章后半部分，他列出了一些很重要，并且还没被AI妥善利用的归纳偏置。

关键词

世界
因果
模拟反直觉世界
生成模型
高层变量
verbalizable knowledge
OOD （out of distribution）
因子图（factor graph）

Helpful Inductive Biases

3.1 人的注意力机制

人在面对变化的环境时，会下意识集中注意力，因为环境本身就是非静止的，剧烈变化的分布。

系统1，系统2是关于这一现象的经典表述：系统1不需要attention，快，系统2需要，慢。

3.2 语义变量表示可述概念

high-level variables (manipulated consciously) are generally verbalizable

这是一个很强的偏见，会导致一系列其他偏见，然而，需要注意，这并不意味着我们的内部模型可以由其概括，相反，大部分依然是系统1的。

我们假设，可述概念可以用语义变量表示。

3.3 语义变量导致因果，语义变量的知识是模块化的

3.4 世界变化的局部性与语义变量变化的局部性

标题的意思是：学习者所处环境（世界）的变化必然能够以一句话解释。

对于学习者来说，世界有两种变化形式，一是环境自发的，二是由学习者导致的。

对于第一种来说，有归纳假设：绝大多数变化能够以一个句子解释。

对于第二种来说，因为学习者受限于时空局部性，他造成的影响必然能够以一个句子解释。

3.5 世界整体的稳定性

如果将世界的状态分为两方面，不变的方面，例如物理学定律，是不着急学习的，人甚至可以通过几代人的传承来学习，但面对变化的方面，人必须快速学习，这就引出的新的归纳偏差：

学习应该有多种速度。

3.6 高层变量的联合分布可以表示为稀疏因子图（factor graph）

因子图是二分图，一面是变量，另一方面是关系，可以理解为关系边抽象成关系节点的知识图谱。

稀疏的意思是，变量与变量之间并非紧密连接，举例来说，"如果我扔球，球就会掉到地上“只涉及了少数几个变量，但能够精确建模球的运动。

这种稀疏性让人联想起GWT和冯诺依曼结构的处理瓶颈：稀疏联系。

为什么不用有向图表示？

3.7 高层变量是抽象化的

不是”约翰饿了，所以约翰吃饭“，而是“x饿了，x（有概率）吃饭”。

3.8 因果链往往很短

因果链往往分解为一些短因果链，通过稀疏因子图相连。

3.9 自上而下与自下而上信号处理

先验的，期望的，通用的感知，与实际的，细节的感知，动态组合成上下文感知系统。

3.10 编程之启示

随机依赖

上一节从多个角度说明了高层语义变量与归纳偏差，这一节详细说明了高层语义变量之间的关系，即casual dependency，随机依赖。

4.1 独立的随机机制

一个复杂的随机过程，可以分解为多个独立的机制，不同的机制不会彼此通信。

建模这种机制，随机因果图胜过有向图。

4.2 不要shuffle

不应该shuffle数据，那破坏了本身的变化。

在SE Research中，这一点体现的很明显：不同的项目往往具有不同的分布，在project A训练的模型未必适用于project B。

4.3 对于深度学习的挑战

略

4.4 元学习，OOD，随机性

bengio（2019）：模型能够鉴别对于两个相关变量，是A（下雨）->B（打伞），还是B->A。他们认为，学习正确因果方向的模型，能够在OOD问题上有更好的表现（收敛更快）。

具体来说，学习通过A，预测B的模型（正确的模型），当A和B的分布发生变化时，收敛更快。

Conclusion

Hinton和Bengio近期都在考虑人类认知和AI的结合，前者侧重硬的，结构化的突破（胶囊网络），后者侧重于软的，规则化的突破（inductive bias），如果他们取得成功的话，AI或许能够迈出新的一步。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

【源头活水】Inductive Biases for Deep Learning By Bengio

OneNet: End-to-End One-Stage Object Detection

基于认知图谱实现多跳阅读

A Little Introduction of Neural ODE

PDE遇见深度学习

Seesaw Loss：一种面向长尾目标检测的平衡损失函数

预测未来-随机视频生成

从Thinker到Evolver：对可演化AI芯片的探索

探讨旋转目标检测中anchor匹配机制问题

从频域角度重新思考注意力机制——FcaNet

NeurIPS 2020：一叶知秋 —— 基于“单目标域样本”的领域自适应方法

关于attention机制的一些细节的思考

Subgraph Neural Networks

Sparse R-CNN：简化版fast rcnn

宽度学习：原理与实现

图神经网络预训练模型

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

【源头活水】Inductive Biases for Deep Learning By Bengio

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣