查看原文
其他

李飞飞最新论文解读:构建婴儿学习能力的计算模型

2018-02-26 刘小芹 新智元







  新智元专栏  

作者:张浩(云南大学)

编辑:刘小芹


【新智元导读】斯坦福大学李飞飞等发表最新论文,试图通过实现好奇心驱动的内在动机的神经网络来复制婴儿的一些能力。研究者设计了一个简单的模拟环境,agent在其中学习预测其行为结果的世界模型,这可能解释婴儿学习的关键特征。



对于玩耍,婴儿是专家。在缺乏明确的外部奖励信号的非结构化环境中,婴儿具有产生新的结构化行为的惊人能力。近日,李飞飞等发表的最新论文,试图通过实现好奇心驱动的内在动机的神经网络来复制婴儿的一些能力。


通过使用一个简单但生态自然的模拟环境,agent可以移动并与它所看到的物体互动,agent将学习一个预测其行为的动态结果的世界模型(world model)。同时,agent还学会了对发展中的世界模型采取对抗地挑战它的行动,这促进了该agent探索环境,并与之进行新的、更丰富的交互。文章证明这种策略导致了一系列复杂的自我监督行为的出现,包括自我运动预测、对象注意(object attention)和对象聚集(object gathering)。


此外,agent学习的世界模型支持提高对象动态预测和本地化任务的性能。该模型的内在动机计算模型可能解释婴儿发展性视觉运动学习的关键特征。


由好奇心驱动的内在动机的计算模型


在婴儿时期,人类表现出一系列有趣的、自发的视觉运动行为,包括在环境中进行导航、寻找和注视物体等等,在游戏方面尤其表现出色。他们对环境的理解和(重新)构造的能力使他们与最先进的自主机器人不同。这个时期的游戏能力可能与婴儿强大的理解和模拟环境的能力相互作用。


好奇心的内在动机本身可以推动世界模型的发展。这个想法依赖于一个良性循环,在这个循环中,通过寻求新颖但可复制的相互作用,这个婴儿推动了他的世界模型预测系统能够实现的界限,为改进和开发这些系统提供了有用的数据。


基于最近在人工智能方面的工作,文章建立了一个由好奇心驱动的内在动机(curiosity-based intrinsic motivation)的计算模型。我们提出了一个简单的模拟交互式环境,在这个环境中,一个agent可以在它看到的物体上移动和进行物理操作(图1)。



文章接着描述了一个神经网络架构,通过这个架构,agent学习一个旨在预测其行为后果的世界模型。另外,当agent优化其世界模型的准确性时,一个单独的神经网络同时学习agent的行动策略,该策略旨在采取行动来对抗挑战其世界模型当前的状态。


文章证明,这个架构稳定地参与了上述的良性强化学习循环,自发地学习理解自我生成的自我运动,并有选择地关注、定位对象和与之交互,而不需要内置任何这些概念。


agent架构与环境


文章将agent放置在Unity 3D仿真框架中构建的物理逼真模拟环境中。agent由世界模型和损失模型组成。世界模型的任务是学会动态的视觉输入。损失模型试图估计世界模型的损失,在接下来的几个步骤中选择行为对抗世界模型。自我监督好奇心系统如图2所示,模型没有用预训练的权重初始化,这样以便探索模型在物理体现的环境中的真实体现。


交互环境


环境是一个简单的方形房间,包含一个agent和几个对象,开始都是随机放置的。agent被建模为一个不可见的球体,可以四处移动,并以离散的时间步长从前方接收RGB图像。为了方便对需要一些注意力和接近度的对象进行交互建模,agent可以将所有三维空间中的力和力矩应用于既在视图中的对象。


定义状态空间中的一个状态,由agent在t-1到t时刻捕获的图像组成。在状态中,agent在处发出一个动作,这个动作将影响下一个状态。动作空间是连续的。前2个维度指定自我运动,限制agent向前/向后运动的运动和水平平面旋转。剩余的6N维度指定施加到相对于agent的视野从较低的最左边到最右边的对象排序的N个对象的力和转矩。


World model


给定一段历史,用输入映射ξ:H→X和真值映射η:H→Y来描述广义动力学问题,并且要求世界模型(图2中的蓝色部分)映射ξ(h)到η(h)。令ω表示这个世界模型,使得。对于每个预测,产生损失为。理论上,预测会产生一个有吸引力的动力学问题,其中,


在实践中,我们发现逆动力学预测很有用,可以填补一个缺失的行为。文章采用随机梯度下降训练卷积神经网络,随机初始化参数φ。模型使用12个卷积层,每隔一层使用stride=2的最大池。


Loss model


agent的目标是对抗世界模式,所以如果它能够预测下一步选择所带来的损失,就可以制定一项策略。在实践中采用预测损失离散化以方便训练。给定和拟议的下一个动作a,损失模型Λ(图2中的红色)预测世界模型损失概率分布。它受到softmax交叉熵损失的约束。我们使用一个单独的带参数ψ的卷积神经网络,包含12个卷积层每隔一层带有stride=2的最大池层,一个隐含层用于编码状态,然后与动作进行级联。


值得注意的是,损失不仅取决于世界模型的状态,还取决于未来采取的行动,因此损失模型需要预测未来策略。如图4所示,在给定当前状态的情况下,损失预测有效地解释为行动空间上的损失预测图



Action policy


基于于损失预测模型,agent可以使用简单的机制来选择其行为。根据损失模型,给定状态和拟议的下一个动作a,T的概率分布。基于T概率分布,可以将策略定义为分布 ,β为超参数,实际上,我们通过对A中的K个均匀随机样本评估σ来执行策略。一个概率与方程(1)成正比的K-中离散分布,在选择这个策略机制时,我们选择从一个简单的方法开始,使用更复杂的强化学习标准来着重研究自我监督信号。这个阶段可以明确地预测未来几个时间段的损失,实验结果容易实现可视化,并做出合理的解释。


观察和结论


我们观察到,基于对抗动态构建的世界模型的损失的一种简单、普遍的内在动机机制允许agent稳定地产生一系列自然的行为。通过在主动学习过程中进行自我课程设置,该agent在学习“玩耍”时实现了几个适当增加复杂性的“发展里程碑”。


从随机动作开始,它很快地学习了自我运动的动态。然后,在没有给出关于对象的存在或位置的明确的监督信号的情况下,它就会抛弃自我运动预测,并开始将注意力集中在更有趣的对象上。最后,当有多个对象可用时,它会收集这些对象以便将它们带入彼此的交互范围。在整个过程中,agent找到了一种更具挑战性的数据分发方式,在每个时刻都很难使agent暴露在新的情况下,但该方式仍可以被该agent所理解和利用。这种内在的动机策略导致了对对象动态的理解、以及系统未明确学习的其他任务的性能提升。


这是在没有任何预训练的visual backbone的情况下发生的——视觉系统世界模型故意没有在(例如)ImageNet分类上预训练的滤波器权重进行初始化。


从机器学习的角度来看,这种自发行为的结合引向了一种改进的世界模型,这很适合于设计必须在真实的强化学习场景中有效地行动的agent,在这些场景中,奖励是稀疏的,或者可能是未知的。在这里,我们最终寻求开发能够控制自主机器人的算法,这些机器人可以学习在复杂的不可预测的环境中工作。从认知科学的角度来看,这些结果表明了一种利用内在动机的学习系统来模拟婴儿自发行为的途径。在这个领域,我们试图建立能够描述婴儿学习的关键方面的计算模型。


论文地址:https://arxiv.org/pdf/1802.07461.pdf




【2018新智元AI技术峰会重磅开启,疯狂抢票中!】早鸟票3折抢票倒计时5天开抢


2017年,作为人工智能领域最具影响力的产业服务平台——新智元成功举办了「新智元开源·生态技术峰会」和「2017AIWORLD 世界人工智能大会」。凭借超高活动人气及行业影响力,获得2017年度活动行“年度最具影响力主办方”奖项。


其中「2017AIWORLD 世界人工智能大会」创人工智能领域活动先河,参会人次超5000;开场视频在腾讯视频点播量超100万;新华网图文直播超1200万;


2018年的3月29日,新智元再汇AI之力,共筑产业跃迁之路。 在北京举办2018年中国AI开年盛典——2018新智元AI技术峰会,本次峰会以“产业·跃迁”为主题,特邀诺贝尔奖评委\德国人工智能研究中心创始人兼CEO Wolfgang Wahlster 亲临现场与谷歌、微软、亚马逊、BAT、科大讯飞、京东和华为等企业重量级嘉宾,共同研讨技术变革,助力领域融合发展。


新智元诚挚邀请关心人工智能行业发展的各界人士 3 月 29 日亲临峰会现场,共同参与这一跨领域的思维碰撞。


关于大会,请关注新智元微信公众号或访问活动行页面(阅读原文)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存