DeepMind两篇新论文研究用神经网络做关系推理,探索人类智慧核心
陈桦 编译自 DeepMind官方博客
作者 Adam Santoro, David Raposo, Nick Watters
量子位 报道 | 公众号 QbitAI
关系推理是什么?DeepMind举了这么几个例子:
阿加莎·克里斯蒂小说的读者一点点地拼凑证据猜测犯人;小朋友追到球的前边防止它滚进河里;在市场上买东西的人做各方面的比较,挑选猕猴桃或者芒果。
最近,这家公司发表了两篇论文,探讨了神经网络如何用非结构化数据进行复杂关系推理,并在官方博客上对这个研究课题和两篇论文进行了介绍。
以下是DeepMind官方博客上的文章,量子位编译:
我们会将世界分割成事物之间的关系。通过对不同事物,例如实体对象、语句,甚至抽象概念之间的关系得出逻辑结论,我们就可以理解世界的运转方式。这种能力被称作关系推理,是人类智慧的核心。
通过每天获得的非结构化感官信息,我们建立起这样的关系。例如,我们的眼睛接受了大量光子,而大脑则将这些混乱的信息组成为我们需要关联在一起的特定实体。
如果希望人工智能系统具备类似人类认知能力的灵活性和效率,那么关键挑战在于,从非结构化数据中推断出实体及其之间的关系。这个问题的解决将使系统可以生成新的实体组合,基于有限的方法获得无限的用途。
当代深度学习方法已经在处理非结构化数据方面取得了巨大进展。然而,这些方法往往没有明确考虑对象之间的关系。
在两篇新论文中,DeepMind探讨了深度神经网络利用非结构化数据进行复杂关系推理的能力。在第一篇论文,《用于简单关系推理的神经网络模块》中,我们描述了一种关系网络(RN),并证明其可以在具有挑战性的任务中实现超人的水平。在第二篇论文,《视觉交互网络》中,我们描述了一种通用模型,可基于视觉观察来预测实体对象的未来状态。
用于简单关系推理的神经网络模块
为了更深入地探索关系推理的概念,并测试能否以简单的方式将其集成至现有系统中,我们创建了一个简单的、即插即用的RN模块,并将其添加到现有神经网络体系结构中。一个经过RN增强的网络可以接受非结构化的数据输入,例如图片或语句,并推断其中所包含对象的关系。
例如,一个带RN的网络可能会看到包含不同形状的场景,例如球体和立方体。为了研究它们之间的关系(例如球体比立方体更大),网络必须从图像中获取非结构化的像素流,并指出在场景中哪些像素构成了对象。神经网络并没有被告知对象的定义,必须自己得出结论。随后,这些对象的展示经过了分组(例如球体和立方体),并由RN模块进行处理。RN模块比较这些对象,建立“关系”(例如球体比立方体更大)。这些关系并不是硬编码的,必须由RN来学习,RN对所有可能的配对进行了比较。最终,RN将这些关系综合在一起,为场景中的所有图形对生成输出。
我们在几种任务中测试了这个模型,包括CLEVR,一个视觉问答任务。CLEVR设计用于研究模型完成不同类型推理,例如计数、比较和查询的能力。CLEVR由以下这样的图片构成:
每张图片都有其关联的问题,专注于场景中对象的关系。例如,关于上图的问题或许是:“这里有个小橡胶品,和大圆柱体的颜色一样,它是什么形状?”
基于标准视觉问答架构,CLEVR取得的最佳成绩是正确率68.5%,而人类的成绩为92.5%。然而,通过由RN增强的网络,我们取得了超人的水平:95.5%。
为了检查RN的普适性,我们还在不同的语言任务中测试了RN。具体来说,我们使用了bAbI套件,即一系列基于文字的问答任务。bAbI由许多故事组成,这些故事包含许多不同语句,最后引出一个问题。例如,句子可能是“桑德拉拿起足球”和“桑德拉去办公室”,问题可能是“足球在哪里?”答案当然是:办公室。
在20个bAbI任务中的18个中,经过RN增强的网络得分超过95%,类似于当前最强大的模型。值得注意的是,在某些特定任务,例如归纳方面,这种网络的得分更高。而这是那些成熟模型所无法做到的。
完整的测试结果和更多信息可以参阅这篇论文。
视觉交互网络
关系推理的另一个关键部分涉及到在现实场景中预测未来。简单来说,人类不仅可以推断出对象在哪里,还能判断接下来几秒钟、几分钟、甚至更长时间里会发生什么。举个例子,如果你对着墙踢足球,那么大脑会预测,当球撞到墙之后,将会有什么样的运动方式(球的反弹速度和你踢的力度成正比,而在大部分情况下,墙都会纹丝不动)。
这样的预测由复杂的认知系统来指导,可以实现对象及其互动过程的推理。
在这方面,我们开发了视觉交互网络(VIN),这种模型模仿了人类的这一能力。VIN能从几帧视频中推断出多个实体对象的状态,随后预测这些对象接下来的变化。这与生成模型不同,后者可以直观地“想象”视频接下来的几帧。相反,VIN关于对象的预测基于状态如何演化。
VIN包含两种机制:视觉模块和物理推理模块。它们可以将可视场景处理为一系列离散的对象,并学习其中的物理规则系统,从而预测这些对象未来会发生什么。
我们测试了VIN在各种系统上的能力,包括球的弹跳、连接至弹簧的重物,以及存在重力作用的行星系统。结果表明,VIN能准确预测,未来数百步之后对象将会发生什么。
与此前公开发表的模型,以及关系推理机制被移除的VIN相比,可以看到完整的VIN有明显更好的表现。
这两篇论文都展示了有前景的方式,来理解关系推理的挑战。它们展示了神经网络如何将世界分解成对象,判断其关系,从而获得强大的推理能力。这使得神经网络可以生成新的对象组合,对表面上看起来不同,但实际有着潜在共同关系的场景进行推理。
我们认为,这些方法是可扩展的,可应用于更多任务,有助于建立更复杂的推理模型,使我们更好地理解通用人类智力的关键组成部分,尽管我们认为这些能力是理所当然的。
相关链接
DeepMind博客原文:
https://deepmind.com/blog/neural-approach-relational-reasoning/
用于简单关系推理的神经网络模块:
https://arxiv.org/abs/1706.01427
视觉交互网络:
https://arxiv.org/abs/1706.01433
CLEVR:
http://cs.stanford.edu/people/jcjohns/clevr/
bAbl:
https://research.fb.com/downloads/babi/
【完】
招聘
量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。
One More Thing…
今天AI界还有哪些事值得关注?在量子位(QbitAI)公众号对话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯~
另外,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。
△ 扫码强行关注『量子位』
追踪人工智能领域最劲内容