“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://www.zhihu.com/people/isika
01
这篇文章的全称是Inductive Biases for Deep Learning of Higher-Level Cognition,文章为deep learning做认知科学角度的理解,并指明了未来研究方向。题目中的两个关键词:inductive biases,higher-level cognition,对于理解全文非常重要。归纳偏差,也就是人观察世界的偏好,例如:对于一张图片,我们倾向于将其相邻的一些像素点作整体理解,而非观察逐像素点。归纳偏差无处不在,既然AI的目标是模拟人类智能,模拟归纳偏差也就成了必经之路。1.2 higher-level cognition在过去的8年,深度学习取得了巨大成功,换句话说,AI越来越像人。从cognitive的角度来看,这得益于AI对inductive bias的深入掌握,文章中介绍了多种引入inductive bias的方法:另一方面,AI的成功来源于海量数据+细致化任务+算力,这导致它只能拟合一个相当固定的分布,却没有泛化能力,即使是相同任务,如果数据分布发生变化,性能也会急剧下降。反观人类智能,拥有强大的泛化能力,这种泛化能力表现为:人能够解决不同种类的问题,即使是从来没有见过的问题。认知科学将思考分为“系统1”,“快思考”和“系统2”,“慢思考”,“可述的思考”,“语言辅助的思考”。现在的机器能够做到快速的,特定于任务的思考,就像系统1,但是,如果涉及到多个系统的结合,例如迁移学习,就需要依赖系统2,例如推理,往往需要调动多个部分,并且以语言辅助。*需要注意的是,快慢思考的提出者Daniel Kahneman,在今年的AI Debate上提出,将系统2与“可述的思考”等价,是对这一概念的曲解。在认知科学里,系统2更倾向于“非正常状态下的思考”,“我之外的思考”,我觉得他更倾向于将其表达为人的“自省式思考”。bengio认为,这些任务可以通过进一步adopt高层归纳偏置受益。在文章后半部分,他列出了一些很重要,并且还没被AI妥善利用的归纳偏置。02
- OOD (out of distribution)
03
人在面对变化的环境时,会下意识集中注意力,因为环境本身就是非静止的,剧烈变化的分布。系统1,系统2是关于这一现象的经典表述:系统1不需要attention,快,系统2需要,慢。high-level variables (manipulated consciously) are generally verbalizable这是一个很强的偏见,会导致一系列其他偏见,然而,需要注意,这并不意味着我们的内部模型可以由其概括,相反,大部分依然是系统1的。3.3 语义变量导致因果,语义变量的知识是模块化的标题的意思是:学习者所处环境(世界)的变化必然能够以一句话解释。对于学习者来说,世界有两种变化形式,一是环境自发的,二是由学习者导致的。对于第一种来说,有归纳假设:绝大多数变化能够以一个句子解释。对于第二种来说,因为学习者受限于时空局部性,他造成的影响必然能够以一个句子解释。如果将世界的状态分为两方面,不变的方面,例如物理学定律,是不着急学习的,人甚至可以通过几代人的传承来学习,但面对变化的方面,人必须快速学习,这就引出的新的归纳偏差:3.6 高层变量的联合分布可以表示为稀疏因子图(factor graph)因子图是二分图,一面是变量,另一方面是关系,可以理解为关系边抽象成关系节点的知识图谱。稀疏的意思是,变量与变量之间并非紧密连接,举例来说,"如果我扔球,球就会掉到地上“只涉及了少数几个变量,但能够精确建模球的运动。这种稀疏性让人联想起GWT和冯诺依曼结构的处理瓶颈:稀疏联系。不是”约翰饿了,所以约翰吃饭“,而是“x饿了,x(有概率)吃饭”。因果链往往分解为一些短因果链,通过稀疏因子图相连。先验的,期望的,通用的感知,与实际的,细节的感知,动态组合成上下文感知系统。
04
上一节从多个角度说明了高层语义变量与归纳偏差,这一节详细说明了高层语义变量之间的关系,即casual dependency,随机依赖。一个复杂的随机过程,可以分解为多个独立的机制,不同的机制不会彼此通信。在SE Research中,这一点体现的很明显:不同的项目往往具有不同的分布,在project A训练的模型未必适用于project B。bengio(2019):模型能够鉴别对于两个相关变量,是A(下雨)->B(打伞),还是B->A。他们认为,学习正确因果方向的模型,能够在OOD问题上有更好的表现(收敛更快)。具体来说,学习通过A,预测B的模型(正确的模型),当A和B的分布发生变化时,收敛更快。
05
Hinton和Bengio近期都在考虑人类认知和AI的结合,前者侧重硬的,结构化的突破(胶囊网络),后者侧重于软的,规则化的突破(inductive bias),如果他们取得成功的话,AI或许能够迈出新的一步。本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!