David Ha, Yujin Tang | 作者
陈斯信 | 译者
梁金 | 审校
邓一雪 | 编辑
Collective Intelligence for Deep Learning: A Survey of Recent Developments论文链接:https://arxiv.org/abs/2111.14377
图1. GPU硬件的近期发展使我们能对数以千计的机器人进行现实三维模拟,就像本图所展现的Rudin等人所做的一样[53]。这样的进步使我们能对大规模、可以进行互动并协同发展智能行为的的人工智能体进行三维模拟。
图2. Randazzo等人创建的用于识别MNIST数字的神经元胞自动机[50]还有一个在线的可互动的演示程序。每个元胞只允许看到一个像素的内容,并与它的邻居交流。随着时间推移,这些元胞将就哪个数字是最有可能的形成共识。但有趣的是,分歧还是会因为像素位置而产生,特别是在图像故意糅合了不同数字的时候。
图4. 在二维和三维空间里模拟软体机器人的例子。每个细胞代表一个独立的神经网络,具有局部感知功能,能产生局部的动作,包括与相邻细胞进行交流。训练这些系统来完成各种任务,不仅涉及到训练神经网络,还涉及到对形成智能体形态的软体细胞的设计和布置。图片来自Horibe等人的研究[28]。
图5. 对特定具有固定形态的机器人,传统强化学习方法训练的是一个特定的策略。但最近的工作,比如本图展现的Huang等人的研究[29],试图训练一个单一的模块神经网络,负责控制机器人的一个部分。因此,每个机器人的全局策略是这些相同的模块化神经网络协调的结果。他们表明,这样的系统可以在各种不同的骨架结构中通用,从跳虫到四足步行类,甚至是一些未见过的形态。
图6. 自组织也使得强化学习训练环境中的系统能够在给定任务时进行自配置(自设计)。Pathak等人[44]探讨了这种动态和模块化的智能体,并标明它们不仅可以泛化到未见过的环境,还可以泛化到由额外模块组成的未见过的形态。
图7. Tang和Ha[65]探讨了利用了自组织和注意力特性的强化学习智能体,这种智能体将它们的观测视为一个包含了感官输入的,任意排序的、长度可变的列表。他们将视觉任务(如CarRacing何Atari Pong[4,66])中的输入划分为一个二维网格,并打乱了顺序(左图)。他们还在连续控制任务[18]中,以乱序增加了许多额外的噪音输入通道(右图);智能体必须学会识别哪些输入是有用的。系统中的每个感觉神经元都收到各自的输入流,并通过协调来完成手头的任务。
图8. MAgent[74]是一套环境,在网格世界中,大量的像素级智能体在战斗或其他竞争场景中互动。与大多数专注于单一智能体或只有少数智能体的强化学习研究平台不同,MAgent旨在为扩展到数百万智能体的强化学习研究提供支持。这个平台的环境现在作为PettingZoo[67]开源库的一部分进行维护,用于多智能体强化学习的研究。
图9. Neural MMO[63]是一个在程序化生成的虚拟世界中模拟智能体群体的平台,旨在为多智能体研究提供支持,并将其对计算资源的要求限制在一定范围内。用户可以从一组平台提供的游戏系统中选择,为他们具体的研究问题创造环境——平台支持多达一千种智能体、一平方公里的地图以及几千个时间步长。该项目正在积极开发中,有大量的文档和工具,为研究人员提供记录和可视化工具。在发稿时,这个平台即将在2021年的NeurIPS会议上进行演示。
图10. Sandler等人[55]和Kirsch等人[33]的最近研究工作,试图泛化人工神经网络的公认概念,使每个神经元可以有多个状态,而不是一个标量值,也使每个突触的功能是双向的,来促进学习和推理。如本图所示,Kirsch等人[33]提出用一个简单的循环神经网络(具有不同的内部隐藏状态)来模拟每个突触,并标明网络可以通过简单地运行循环神经网络单元来训练,而不是使用反向传播。
图11. 深度学习方法已经被用来在连续的元胞自动机系统(如Lenia[6])中自动发现人工生命体[16,51]。最近的研究[16]不仅能自动发现有趣的模式,而且还能将用户对特定类型的有趣性的偏好纳入其搜索过程。这样,它就可以在Lenia中寻找局部空间里的模式,或类图灵的生命形式。
