动物为什么会集群?强化学习揭示“动物生存压力在集群形成中的关键作用”
The following article is from 西湖大学智能无人系统课题组 Author JL.
导语
近日发表于 New Journal of Physics 的一项最新研究中,西湖大学智能无人系统实验室与德国马普所动物行为研究所使用强化学习方法揭示了“动物生存压力在集群形成中的关键作用”。
研究领域:集群行为,强化学习,群体依赖,涌现
动图1 神奇的集群行为-椋鸟群 (© Marco Valk)
动图2 神奇的集群行为-羊群 (© CatersTV)
现有基于强化学习的研究存在的一个局限性是:它们的奖励机制直接鼓励群体聚集或保持同向性。例如,如果一个智能体靠近同类,它会获得奖励;相反,如果它在感知范围内丢失同伴,就会受到惩罚。我们称这样的奖励机制为“群体依赖” (swarm-dependent)。
在我们的研究中,首先我们创建了一个仿真环境,用来模拟捕食者和猎物之间的互动。在这个环境中,橙色代表捕食者,蓝色代表猎物。这些智能体可以前进并改变方向,且具有碰撞动力学。
动图3 捕食者和猎物之间的互动
捕食者-猎物协同进化的框架基于合作竞争的多智能体强化学习之上。同一物种的智能体被视为同构,并且我们采用了分布式的执行者-评价者架构。与现有的其它研究不同,我们提出的奖励机制完全基于智能体的生存本能,而与群体行为特征无关。具体而言,如果捕食者成功捕获到猎物,猎物会受到-1的奖励,而捕食者则会受到+1的奖励。我们称这样的奖励机制为“群体非依赖 (swarm-independent) ”。
图1 奖励机制完全基于智能体的生存本能
通过使用上述框架,我们观察到了集群行为的涌现。左图显示了协同进化之前的一个典型情景:我们可以看到,猎物在各个方向上随机移动。右图则显示了进化之后的典型情景:可以看到,猎物形成多个群体,并展现出协同运动模式和高度同向性。
图2 协同进化前后猎物运动模拟对比
通过定量分析,我们发现随着进化的迭代次数的增加,群体的稀疏度(DoS)逐渐减小(即密度逐渐增大),同时群体的同向性(DoA)逐渐增大,这些特征暗示着集群行为的涌现。
除了观察到猎物的群体行为之外,我们还注意到了捕食者的困惑效应 (confusion effect) 。当猎物融入群体中时,捕食者会放弃追捕,短暂停顿,表现出困惑和不确定,不知道应该选择哪个猎物进行追捕。
动图4 捕食者的困惑效应
此外,我们还观察到了捕食者的冲散策略 (dispersion tactic) 和边缘捕食 (edge effect) 效应。这些行为表明,当捕食者试图选择最佳的攻击目标时,追捕那些远离群体的猎物可能会减轻困惑效应,突显了捕食者在从一群猎物中选择最佳目标时所面临的挑战。
图4 捕食者采用分散策略和边缘捕食现象
在有限空间内,我们还观察到了群体转圈 (swirling) 行为。我们认为这种转圈行为是猎物为了逗留在原地,而同时避开潜在捕食者的最佳行动策略。
最后,我们发现提高运动速度差异或感知范围会促进集群行为的涌现。
图6 提高运动速度差异或感知范围对DoS和DoA的影响
总的来说,这个进化框架和相关发现,有助于我们理解群体智能,并在集群机器人技术中具有潜在应用价值。
本工作的详细介绍请参见以下视频。
因果涌现读书会第三季启动
由北京师范大学教授、集智俱乐部创始人张江等人发起的「因果涌现」系列读书会第三季,将组织对本话题感兴趣的朋友,深入探讨因果涌现的核心理论,详细梳理领域发展脉络,并发掘因果涌现在生物网络和脑网络、涌现探测等方面的应用。读书会自7月11日开始,每周二晚19:00-21:00,预计持续时间8~10周。欢迎感兴趣的朋友报名参与。
详情请见:
因果涌现读书会第三季启动:深入多尺度复杂系统核心,探索因果涌现理论应用
推荐阅读