查看原文
其他

【源头活水】Inductive Biases for Deep Learning By Bengio

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

作者:知乎—Nacht

地址:https://www.zhihu.com/people/isika


01

Introduction
这篇文章的全称是Inductive Biases for Deep Learning of Higher-Level Cognition,文章为deep learning做认知科学角度的理解,并指明了未来研究方向。
题目中的两个关键词:inductive biases,higher-level cognition,对于理解全文非常重要。
1.1 inductive biases
归纳偏差,也就是人观察世界的偏好,例如:对于一张图片,我们倾向于将其相邻的一些像素点作整体理解,而非观察逐像素点。
归纳偏差无处不在,既然AI的目标是模拟人类智能,模拟归纳偏差也就成了必经之路。
1.2 higher-level cognition
在过去的8年,深度学习取得了巨大成功,换句话说,AI越来越像人。
从cognitive的角度来看,这得益于AI对inductive bias的深入掌握,文章中介绍了多种引入inductive bias的方法:
  • 模型架构
  • 算法
  • 数据增强
另一方面,AI的成功来源于海量数据+细致化任务+算力,这导致它只能拟合一个相当固定的分布,却没有泛化能力,即使是相同任务,如果数据分布发生变化,性能也会急剧下降。
反观人类智能,拥有强大的泛化能力,这种泛化能力表现为:人能够解决不同种类的问题,即使是从来没有见过的问题。
认知科学将思考分为“系统1”,“快思考”和“系统2”,“慢思考”,“可述的思考”,“语言辅助的思考”。
现在的机器能够做到快速的,特定于任务的思考,就像系统1,但是,如果涉及到多个系统的结合,例如迁移学习,就需要依赖系统2,例如推理,往往需要调动多个部分,并且以语言辅助。
*需要注意的是,快慢思考的提出者Daniel Kahneman,在今年的AI Debate上提出,将系统2与“可述的思考”等价,是对这一概念的曲解。在认知科学里,系统2更倾向于“非正常状态下的思考”,“我之外的思考”,我觉得他更倾向于将其表达为人的“自省式思考”。
需*要系统2参与的一些任务:
  • 多系统结合
  • 迁移学习
  • 抽象能力(组合泛化)
  • 推理
bengio认为,这些任务可以通过进一步adopt高层归纳偏置受益。在文章后半部分,他列出了一些很重要,并且还没被AI妥善利用的归纳偏置。

02

关键词
  • 世界
  • 因果
  • 模拟反直觉世界
  • 生成模型
  • 高层变量
  • verbalizable knowledge
  • OOD (out of distribution)
  • 因子图(factor graph)

03

Helpful Inductive Biases
3.1 人的注意力机制
人在面对变化的环境时,会下意识集中注意力,因为环境本身就是非静止的,剧烈变化的分布。
系统1,系统2是关于这一现象的经典表述:系统1不需要attention,快,系统2需要,慢。
3.2 语义变量表示可述概念
high-level variables (manipulated consciously) are generally verbalizable
这是一个很强的偏见,会导致一系列其他偏见,然而,需要注意,这并不意味着我们的内部模型可以由其概括,相反,大部分依然是系统1的。
我们假设,可述概念可以用语义变量表示。
3.3 语义变量导致因果,语义变量的知识是模块化的
3.4 世界变化的局部性与语义变量变化的局部性
标题的意思是:学习者所处环境(世界)的变化必然能够以一句话解释。
对于学习者来说,世界有两种变化形式,一是环境自发的,二是由学习者导致的。
对于第一种来说,有归纳假设:绝大多数变化能够以一个句子解释。
对于第二种来说,因为学习者受限于时空局部性,他造成的影响必然能够以一个句子解释。
3.5 世界整体的稳定性
如果将世界的状态分为两方面,不变的方面,例如物理学定律,是不着急学习的,人甚至可以通过几代人的传承来学习,但面对变化的方面,人必须快速学习,这就引出的新的归纳偏差:
学习应该有多种速度。
3.6 高层变量的联合分布可以表示为稀疏因子图(factor graph)
因子图是二分图,一面是变量,另一方面是关系,可以理解为关系边抽象成关系节点的知识图谱。
稀疏的意思是,变量与变量之间并非紧密连接,举例来说,"如果我扔球,球就会掉到地上“只涉及了少数几个变量,但能够精确建模球的运动。
这种稀疏性让人联想起GWT和冯诺依曼结构的处理瓶颈:稀疏联系。
为什么不用有向图表示?
3.7 高层变量是抽象化的
不是”约翰饿了,所以约翰吃饭“,而是“x饿了,x(有概率)吃饭”。
3.8 因果链往往很短
因果链往往分解为一些短因果链,通过稀疏因子图相连。
3.9 自上而下与自下而上信号处理
先验的,期望的,通用的感知,与实际的,细节的感知,动态组合成上下文感知系统。
3.10 编程之启示


04

随机依赖
上一节从多个角度说明了高层语义变量与归纳偏差,这一节详细说明了高层语义变量之间的关系,即casual dependency,随机依赖。
4.1 独立的随机机制
一个复杂的随机过程,可以分解为多个独立的机制,不同的机制不会彼此通信。
建模这种机制,随机因果图胜过有向图。
4.2 不要shuffle
不应该shuffle数据,那破坏了本身的变化。
在SE Research中,这一点体现的很明显:不同的项目往往具有不同的分布,在project A训练的模型未必适用于project B。
4.3 对于深度学习的挑战
4.4 元学习,OOD,随机性
bengio(2019):模型能够鉴别对于两个相关变量,是A(下雨)->B(打伞),还是B->A。他们认为,学习正确因果方向的模型,能够在OOD问题上有更好的表现(收敛更快)。
具体来说,学习通过A,预测B的模型(正确的模型),当A和B的分布发生变化时,收敛更快。


05

Conclusion
Hinton和Bengio近期都在考虑人类认知和AI的结合,前者侧重硬的,结构化的突破(胶囊网络),后者侧重于软的,规则化的突破(inductive bias),如果他们取得成功的话,AI或许能够迈出新的一步。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存