学术前沿 | JMLR: 异构多智能体强化学习

Original 钟伊凡北京大学人工智能研究院

2024-09-16

导读

本文是对发表于机器学习领域顶级期刊 JMLR 2023 的论文 Heterogeneous-Agent Reinforcement Learning 的解读。该论文由北京大学人工智能研究院助理教授杨耀东课题组完成。

研究论文介绍了一种适用于通用异构多智能体合作场景下的多智能体强化学习算法，该算法具有策略回报单调提升性和纳什均衡收敛性。研究团队提出的多智能体优势分解引理，为多智能体信用分配问题提供了深刻洞察。在此基础上，团队创新性地引入了多智能体顺序更新范式，建立并证明了统一的理论框架。通过这一框架推导出一系列有理论保证的算法，解决了此前的研究工作应用场景受限、缺乏理论支撑的挑战。通过全面的实验验证，该算法展现了显著的有效性与优越性。目前该工作已被JMLR 2023接收。

此项工作是北京大学杨耀东课题组在异构智能体合作上的又一项连续性成果，前期研究成果包括：多智能体策略梯度最小方差估计基线（NeurIPS 2021）、异构多智能体置信域学习（ICLR 2022）、最大熵异构多智能体镜像学习、带安全约束的多智能体策略优化（AIJ）、多智能体transformer（NeurIPS 2022）等工作。

论文链接：（点击下方阅读原文）

https://arxiv.org/abs/2304.09870

Github：

https://github.com/PKU-MARL/HARL

引言

合作型多智能体强化学习（MARL）是多智能体系统学习的自然模型，例如机器人群、自动驾驶汽车和交通信号控制。为了解决合作型MARL问题，一种简单的方法是直接将单智能体强化学习算法应用于每个智能体，并将其他智能体视为环境的一部分，这种方法通常被称为独立学习。尽管在某些任务中有效，但独立学习在更复杂的场景中会失败，这是直观明了的：一旦一个学习智能体更新了其策略，其队友也会这样做，这导致每个智能体有效环境的变化，而单智能体算法并未为此做好准备。为了解决这个问题，研究人员提出一种名为中心化训练与分散执行（CTDE）的学习范式。CTDE框架学习了一个联合价值函数，该函数在训练期间可以访问全局状态和队友的行动。在中心化价值函数的帮助下，该函数考虑到了由他人引起的非平稳性，每个智能体相应地调整其策略参数。因此，它有效地利用了全局信息，同时仍然保持了分散的智能体以供执行。CTDE范式允许将单智能体策略梯度定理直接扩展到多智能体场景，产生了众多多智能体策略梯度算法。

尽管现有方法在常见基准测试上取得了合理的性能，但仍存在一些限制。首先，一些算法依赖于参数共享，这要求智能体是同构的（即共享相同的观察空间和行动空间，并在合作任务中扮演类似的角色），这大大限制了它们在异构智能体环境中的应用，并可能损害性能。虽然已有工作将参数共享扩展到异构智能体，但它们的方法依赖于填充，既不优雅也不通用。其次，现有算法采取同时更新策略。如下图所示，智能体在这种更新方案下不知道伙伴的更新方向，这可能导致潜在的冲突更新，从而导致训练不稳定和收敛失败。最后，一些算法，如IPPO和MAPPO，是基于直觉和经验结果开发的。缺乏理论基础损害了它们在重要用途中的可信度。

图表 1 智能体同时更新（红色）可能会相互冲突，我们提出的顺序更新（蓝色）能更好地协调智能体的学习。

为了解决这些挑战，我们在这项工作中提出了异构多智能体强化学习（HARL）算法系列，这是为通用的异构多智能体环境设计的，通过一种新颖的顺序更新方案实现有效的协调，并在理论上有所依据。

特别地，我们利用多智能体优势分解引理，推导出异构智能体置信域学习理论，并证明它享有单调改进性能和收敛到纳什均衡（NE）的保证。基于此，我们提出异构智能体置信域策略优化（HATRPO）和异构智能体近端策略优化（HAPPO）算法作为该理论的可行近似。

此外，受到镜像学习的启发，该学习为TRPO和PPO的有效性提供了理论解释，我们发现了一种名为异构智能体镜像学习（HAML）的新框架，它加强了HATRPO和HAPPO的理论保证，并为合作型MARL算法设计提供了一个通用模板。我们证明了从HAML派生的所有算法本质上满足联合回报单调增加和收敛到纳什均衡的期望属性。因此，HAML显著扩展了理论上健全的算法空间，并可能为更实际的场景提供合作型MARL解决方案。我们探索了HAML类别，并推导出了更多理论支持且实用的异构智能体算法，包括HAA2C、HADDPG和HATD3。

为了促进HARL算法的使用，我们开源了基于PyTorch的集成实现。基于此，我们在多智能体粒子环境（MPE）、多智能体MuJoCo（MAMuJoCo）、星际争霸多智能体挑战（SMAC）、SMACv2、谷歌足球环境（GRF）和双灵巧手（Bi-DexterousHands）等上全面测试了HARL算法。实验结果证实了这些算法在实践中的有效性。在MPE、MAMuJoCo、GRF和Bi-Dexteroushands中包含的异构智能体基准测试上，HARL算法通常优于现有的MA对应算法，且随着智能体异构性的增加，它们的性能差距变得更大，表明HARL算法在通用异构智能体环境中更加鲁棒和适用。虽然所有HARL算法都表现出有竞争力的性能，HAPPO和HATD3表现最好，确立了新的最优性能。作为一种离线策略算法，HATD3还提高了样本效率，从而实现了更高效的学习和更快的收敛。在智能体大多同构的任务中，如SMAC和SMACv2，HAPPO和HATRPO在收敛时达到了可比或更高的胜率，同时不依赖于参数共享技巧，证明了它们的通用适用性。通过消融实验，我们展示了HARL理论和算法引入的创新点对于学习最佳合作策略很关键，从而标志着它们的重要性。最后，我们系统地分析了顺序更新的计算开销，说明了计算开销不是需要担心的问题。

异构智能体置信域学习

直观地讲，如果我们分别对所有智能体进行参数化，并让它们一个接一个地学习，那么我们将打破同构性约束，并允许智能体协调它们的更新，从而避免了前述的两个挑战。这种协调可以通过在当前智能体的优化目标中考虑之前智能体的更新来实现。幸运的是，这个想法体现在多智能体优势函数中，它评估了在给定前序智能体的动作的时候当前智能体动作的优势，并且它具有下述重要分解性质：

这个性质告诉我们顺序更新是一个有效的方案。考虑任意一个智能体顺序，每个智能体只需选择动作使得它的多智能体优势函数大于0，那么累加起来，联合动作的优势就会大于0，从而选择了一个比较好的联合动作。这引出了下述的联合策略改进误差限：

这个bound告诉了我们怎样优化联合策略。选取一个智能体更新顺序，对任意一个智能体来说，如果保持原有策略不变，则它的更新目标为0；如果它能够优化使得更新目标大于0，则最终的加和也会提升。如果n个智能体都通过优化使得更新目标大于0，那么累计的优化量就会比较显著。该算法思想的示意图如下所示：

图表 2 多智能体优势分解引理和顺序更新示意图。

我们在理论上证明了提出的异构智能体置信域学习理论具有单调提升保证和纳什均衡收敛保证，从而成功地将单智能体的置信域学习理论拓展到了多智能体场景下。

为了得到有实际意义的算法，我们首先对KL散度项做近似。前述数学式中要对每个状态s评估KL散度，这是不现实的。我们参考TRPO中的方法，将它近似为期望KL小于一个特定阈值，从而将每个智能体的优化目标转化为下式：

该式可以使用与TRPO论文类似的计算方法得到更新规则的闭式解：

其中H是期望KL的Hessian矩阵，g是7式中目标的梯度。目前尚未解决的是如何计算7式中的目标，因为它当前的形式过于灵活，要求能对当前顺序下每个智能体都计算一个优势函数，很不方便。我们发现该式可以通过恒等变换转化为同一个联合优势函数，大大降低了问题的复杂性，并且可以和顺序更新策略天然结合。

这样，在HATRPO算法中，每一项就都是可以计算的了，使算法变得有实际意义。

进一步地，我们参考PPO算法的思想去缓解HATRPO中计算Hessian的负担，只考虑一阶梯度。其优化目标转化为计算一个带clip的一阶目标：

这样算法实现起来更加容易，从实验效果上看在很多测试环境中也表现更好。

异构智能体镜像学习

最近，镜像学习（Mirror Learning）为TRPO和PPO的有效性提供了理论解释，并统一了一类策略优化算法。受他们工作的启发，我们进一步发现了一种新的合作型多智能体强化学习（MARL）理论框架，称为异构智能体镜像学习（Heterogeneous-Agent Mirror Learning，简称HAML），它增强了HATRPO和HAPPO的理论保证。作为一个经过验证的算法设计模板，HAML将单调改进和NE收敛保证扩展至一系列算法，并自然地包含了HATRPO和HAPPO作为其实例，进一步解释了它们的强健性能。

该理论框架的核心是定义了漂移泛函（drift functional）、邻域算子（neighborhood operator）和采样分布（sampling distribution），它们是对具体算法设计组成部分的抽象。漂移泛函在思想上刻画了在给定前序智能体已更新策略的前提下一个智能体的两个策略之间的距离，从而使得同一个更新可能会有不同的大小，允许智能体协调地控制它们的更新步幅；邻域算子则是一种策略在更新时的硬限制条件；采样分布是关于联合策略连续的正的状态分布。有了以上定义，我们将异构智能体镜像算子定义如下：

优化这个HAMO算子的HAML算法模版如下：

在理论上，我们证明了这个算法模版具有单调改进性质和纳什均衡收敛性质。一方面，我们经过推导证明前述的HATRPO和HAPPO的更新目标都满足HAML模版，从而加强了对它们的理论支撑；另一方面，可以通过实例化漂移泛函、邻域算子和采样分布来得到有效的算法，这也说明了HAML框架的灵活性和丰富性。我们将推导的算法简要总结如下：

图表 3 HARL算法的HAML算子形式简要概览图。

实验验证

我们在六个合作型多智能体基准测试上评估和分析了HARL算法——多智能体粒子环境（MPE）、多智能体MuJoCo（MAMuJoCo）、星际争霸多智能体挑战（SMAC）、SMACv2、谷歌足球环境（GRF）和双灵巧手（Bi-DexterousHands），如下图所示，并将它们的性能与现有的最先进方法进行比较。这些基准测试在任务难度、智能体数量、行动类型、观察空间和行动空间的维度，以及所需的合作策略等方面各不相同，因此提供了对我们方法的有效性、稳定性、健壮性和通用性的全面评估。实验结果表明，HAPPO、HADDPG和HATD3通常在异构智能体合作任务上胜过它们的对应MA算法。此外，HARL算法在HAPPO和HATD3中达到顶峰，它们在异构智能体合作任务上的有效性和稳定性优于现有的强基线，如MAPPO、QMIX、MADDPG和MATD3，刷新了最先进的成果。我们的消融实验还揭示了HATRL和HAML理论中引入的新颖细节，即参数非共享和顺序更新中的随机顺序，对于获得强大性能至关重要。最后，我们从实证上展示了顺序更新并不会引入显著的额外计算开销。

图表 4 用于测试HARL算法的基准环境。

由于HARL算法遵循一致的学习范式，我们将这些算法实现到了统一的代码库中，增强了模块化和可扩展性。同时，也自然地提供了多个基线算法的重新实现。算法库的地址为 https://github.com/PKU-MARL/HARL 。

多智能体粒子环境

我们考虑了MPE中的三个完全合作任务：Spread、Reference和Speaker Listener。这些任务要求智能体探索并学习最佳合作策略，例如尽快分散到目标位置而不发生碰撞、指导同伴等。特别是Speaker Listener情景，明确设计了不同的角色，并使得同构智能体方法失败。实验结果如下。

图表 5 多智能体粒子环境上算法性能比较。

虽然MPE任务相对简单，但它足以识别出一些规律。HAPPO解决了所有六种任务组合，其性能与MAPPO相当或更好。使用一套单一的超参数，HATRPO也轻松解决了五种组合，并由于明确指定的距离约束和策略更新之间的奖励改进，实现了稳定的学习曲线。应该注意的是，收敛后观察到的波动是由测试环境的随机性导致的，这影响了算法能够获得的最大奖励。另一方面，HAA2C在离散任务版本上同样具有竞争力，但在连续版本上表现出更高的方差，并且难以达到相同级别的回报，这是这种方法的一个局限性，因为其更新规则无法在实践中精确实现，同时它不施加任何约束。尽管如此，它仍然构成了一个潜在的有竞争力的解决方案。

此外，两种离线策略的HARL方法，HADDPG和HATD3，在三项任务中表现出极快的掌握能力和小的方差，展示了它们在高样本效率方面的优势。它们在这些简单任务上的表现与对应MA算法类似，基于TD3的方法实现了更快的收敛速率和更高的总奖励，树立了新的离线策略最优性能。离线策略的HARL方法在所有任务中始终以比在线策略方法少得多的样本收敛，具有缓解在MARL实验中常见的高样本复杂性和训练缓慢问题的潜力。

这些观察表明，尽管HARL算法在理论上具有相同的改进和收敛保证，但由于不同的算法设计，它们在学习行为上有所不同。总的来说，它们相互补充，共同解决了所有任务。

多智能体MuJoCo

多智能体MuJoCo（MAMuJoCo）环境是MuJoCo的多智能体扩展。MuJoCo任务要求机器人学习运动的最佳方式，而MAMuJoCo则将机器人的每个部分建模为一个独立的智能体——例如，蜘蛛的一条腿或游泳者的一只胳膊——并要求这些智能体共同执行高效的运动。随着机体部分的多样性增加，建模异构策略变得必要。因此，我们认为MAMuJoCo是评估我们异构智能体方法有效性的合适任务套件。我们首先选取了5个有代表性的任务来验证算法。

图表 6 MAMuJoCo上on-policy算法性能比较。HAPPO通常比MAPPO表现更好，刷新了on-policy算法的最优性能。

图表 7 MAMuJoCo上off-policy算法性能比较。HADDPG和HATD3通常优于MADDPG和MATD3，HATD3刷新了off-policy算法的最优性能。

在所有五个任务中，我们观察到HAPPO、HADDPG和HATD3通常比它们的多智能体对应算法获得更好的平均总回报。HATRPO和HAA2C在大多数任务上也展现出强劲而稳定的学习行为。训练出来的策略的实际效果进一步验证了HARL算法对协调智能体的有效性。HATD3的表现甚至通常比HAPPO更好，显示出处理连续任务的能力。在MAMuJoCo上的实验结果不仅证明了HARL算法相对于现有强基准线的优越性，还揭示了HARL提供了多种有效的多智能体合作任务解决方案。

尽管MAMuJoCo任务是异构的，但参数共享仍然是有效的，因为它可以依靠神经网络的表达能力学习一个多功能的策略来控制各个部分。因此，在这五个任务上，MAPPO的表现虽然不如HAPPO，但差距不大。为了更清楚地区分HAPPO和MAPPO，我们在17智能体的人形任务上进行了额外比较。在这个场景中，17个智能体控制不同的身体部分，单一策略很难为每个部分选择正确的行动。事实上，MAPPO完全无法学习。相比之下，HAPPO仍然能够通过其顺序更新方案协调智能体的更新，从而带领所有智能体共同努力实现了行走的人形。HATD3也成功地学会了控制17智能体的人形，它同样享有HAML赋予的理论属性。因此，HARL算法对于一般的多异构智能体情况更加适用和有效。随着智能体异构性的增加，它们的优势变得越来越显著。

图表 8 17智能体人形控制任务上算法性能比较。HAPPO和HATD3取得了SOTA的结果，而MAPPO完全失效。

星际争霸多智能体挑战

SMAC & SMACv2

星际争霸多智能体挑战（SMAC）包含了一系列星际争霸地图，在这些地图中，一支由大部分同构友军单位组成的团队旨在击败对手团队。这要求算法发展有效的团队合作和分散的单位微管理，并作为算法比较的常见竞技场。我们在SMAC的五个困难地图和五个超级困难地图上对HAPPO和HATRPO进行基准测试，并与QMIX和MAPPO进行比较，这两者已取得卓越结果。此外，最近 SMACv2增加了任务的随机性和SMAC中单位类型的多样性，我们还在SMACv2的五个地图上测试了HAPPO和HATRPO，与QMIX和MAPPO进行对比。

图表 9 SMAC和SMACv2上的算法性能比较。

我们观察到，在SMAC的五个困难地图和五个超级困难地图中，HAPPO和HATRPO能够实现与QMIX和MAPPO相当或更优的表现，同时不依赖于MAPPO所使用的限制性参数共享技巧。从学习曲线来看，HAPPO和HATRPO展现出稳定提升的学习行为，而基线算法在25m和27m_vs_30m地图上经历了大幅波动，再次证明了我们方法的单调改进属性。在SMACv2中，尽管随机性和异构性增加，HAPPO和HATRPO仍然稳健地实现了与QMIX和MAPPO相当的胜率。另一个重要的观察是，HATRPO在SMAC和SMACv2中比HAPPO更有效，在15个任务中的10个任务上超过了HAPPO。这表明，通过对更新距离和奖励改进施加明确的约束，HATRPO可能增强了学习稳定性，使其成为应对新颖和具有挑战性任务的有前景的方法。总的来说，HAPPO和HATRPO在SMAC和SMACv2中的表现确认了它们在大部分同构环境下协调智能体训练的能力。

谷歌足球

Google Research Football Environment（GRF）组成了一系列任务，其中智能体被训练在一个高级的、基于物理的3D模拟器中踢足球。我们观察到HAPPO总体上优于MAPPO，树立了新的最优性能，并且它们都显著优于QMIX。特别是，随着智能体数量的增加和它们扮演的角色变得更加多样化，HAPPO和MAPPO之间的性能差距变得更大，再次显示了HARL算法在许多异构智能体设置中的有效性和优势。从渲染视频中可以看出，HAPPO训练的智能体发展出了巧妙的团队合作策略，以确保高进球率，例如合作突破形成一对一的机会等。这个结果进一步支持了将HAPPO应用于合作型MARL问题的有效性。

图表 10 谷歌足球环境上的算法性能比较。

双灵巧手

基于IsaacGym，双灵巧手（Bi-DexterousHands）提供了一系列用于学习人类水平的双手灵巧操纵任务。它利用GPU并行化，能够同时实例化成千上万的环境。与其他基于CPU的环境相比，双灵巧手显著增加了在相同时间间隔内生成的样本数量，从而缓解了在线策略算法的样本效率问题。在选取的三个代表任务上，HAPPO始终优于MAPPO，并且至少与单智能体基线PPO相当或更好，同时也显示出更小的方差。HAPPO与MAPPO之间的比较展示了HARL算法采用的顺序更新方案相对于同时更新在协调多个异构智能体方面的优越性能。

图表 11 双灵巧手环境上的算法性能比较。

消融实验

我们通过消融实验分析了HARL算法的两个创新点：智能体参数的异构性和顺序更新方案中智能体顺序的随机化。实验表明，参数共享引入了对训练的不合理策略约束，损害了单调改进属性，并导致HAPPO收敛于次优策略。同样地，顺序更新方案中固定顺序对收敛时的性能也产生了负面影响。在2智能体任务中，固定更新顺序导致整个训练过程中的性能较差；在6智能体任务中，虽然固定顺序版本最初学习更快，但它逐渐被随机顺序版本超越，并实现了更差的收敛结果。我们得出结论，HARL算法的性能强烈依赖于理论与实现之间的紧密联系。

图表 12 标准HAPPO与共享参数、固定更新顺序HAPPO的性能比较。

总结

我们介绍了异构智能体强化学习（HARL）算法系列，这是一组针对合作型多智能体问题的强大解决方案，具有单调改进和收敛到纳什均衡的理论保证。基于多智能体优势分解引理和顺序更新方案，我们成功地开发了异构智能体置信域学习（HATRL），并通过可行的近似方法引入了两个实用算法——HATRPO和HAPPO。我们进一步发现了异构智能体镜像学习（HAML）框架，它加强了对HATRPO和HAPPO的验证，并且是设计有理论支撑的MARL算法的通用模板。它导出了更多HARL算法，包括HAA2C、HADDPG和HATD3，这些算法显著丰富了解决合作型MARL问题的工具。在MPE、MAMuJoCo、SMAC、SMACv2、GRF和双灵巧手上的实验分析证实，HARL算法通常优于现有的MA对应算法，并在异构智能体基准测试上刷新了最优性能，显示了它们在异构智能体合作上超过如MAPPO和QMIX等强基准线的优越性能。消融实验进一步证实了理论推理中所需的关键新颖性，并加强了HARL理论与实现之间的联系。未来的工作，我们计划考虑HAML框架的更多可能性，并验证HARL算法在现实世界多机器人合作任务中的有效性。

作者信息

本项研究的第一作者为北京大学人工智能研究院博士研究生钟伊凡，主要研究方向为强化学习、多智能体系统、人机协作与对齐。共同第一作者为Jakub Grudzien Kuba（University of Oxford）和冯熙栋（University College London）。通讯作者为北京大学人工智能研究院杨耀东。

— 往期发布 —

学术前沿 |ChimpACT：理解黑猩猩行为的纵向数据集

点击图片查看原文

学术前沿 |TPAMI: 基于强化学习的灵巧双手操作技能学习

点击图片查看原文

学术前沿 |高效隐私计算新范式：神经网络架构与隐私推理协议的协同优化

点击图片查看原文

本微信公众号所有内容，由北京大学人工智能研究院微信自身创作、收集的文字、图片和音视频资料，版权属北京大学人工智能研究院微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿在本号刊登内容，请及时通知本号，予以删除。

继续滑动看下一个

北京大学人工智能研究院

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

学术前沿 | JMLR: 异构多智能体强化学习

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

学术前沿 | JMLR: 异构多智能体强化学习

您可能也对以下帖子感兴趣