IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

陈逸群 PaperWeekly

2024-08-23

©作者 | 陈逸群

单位 | 中国人民大学

研究方向 | 信息检索、LLM、强化学习

大家好，这里和大家分享一篇我们在多智能体强化学习（MARL）领域关于新的训练范式的文章（Accepted by IJCAI 2024）。

论文标题：

PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning

论文链接：

https://arxiv.org/pdf/2210.08872

代码链接：

https://github.com/AntNLP/nope_head_scale

这篇文章展示了如何通过个性化的集中式训练得到一个强大的集中式执行算法，然后通过知识蒸馏的方式使得智能体决策既受益于全局信息同时又能实现分散式执行，从而提升多智能体系统的协作性能。

研究背景与挑战

在现实世界的许多任务中，如多机器人导航、避障、无人机路径规划等，都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。

最常见的范式是集中式训练分散式执行（Centralized Training with Decentralized Execution, CTDE），这种范式在训练时利用全局信息促进各个智能体实现协作行为，在执行时只使用局部信息，是观测信息受限情况下的一种很好的训练 & 执行范式。

但如何在满足 CTDE 范式的前提下，还能在分散式决策过程中充分受益于全局信息，进而提升多智能体的协作表现呢？本文提出了一种新颖的范式（Personalized Training with Distilled Execution, PTDE）来实现这一目标。

PTDE的核心思想

PTDE 范式符合 CTDE 的要求，但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息，并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能，而且转变为分散式执行时的性能下降也是在可接受范围内的。

研究方法

PTDE 包含两个训练阶段。

第一阶段，通过全局信息个性化（GIP）模块为每个智能体提供个性化的全局信息。（Figure 2）

▲ 全局信息个性化（GIP）模块

第二阶段，使用知识蒸馏技术，将个性化的全局信息蒸馏到仅依赖于智能体局部信息的学生网络中，即学生网络根据局部信息生成个性化全局信息的替代品。（Figure 4）

▲ 特定化的知识蒸馏

经过两阶段的训练后，在执行阶段用替代，就可以实现完全分散式的执行并且受益于特定化的全局信息。

▲ 两阶段训练&分散式执行

实验结果

我们在 StarCraft II、Google Research Football 和搜索排序（LTR）等不同的测试平台上进行了广泛的实验。

实验结果表明：

unified 的全局信息对多智能体的协作不一定起到积极作用。
个性化的全局信息相比于 unified 的全局信息来说，一般更有利于多智能体的协作。
知识蒸馏后，由集中式执行转变为分散式执行的性能下降是在可接受范围内的。
基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。
PTDE 范式可以很好地适配现有的 MARL 算法，如基于值分解的 QMIX、VDN，以及基于 Actor-Critic 架构的 MAPPO 等。

以下是本文实验部分的一些基本数据，分别是在 StarCraft II、Google Research Football 和搜索排序（LTR）多个任务上的结果：

▲ 星际争霸实验结果

▲ 谷歌足球实验结果

▲ 搜索排序实验结果

文章的实验部分展示了更多充分且详细的实验曲线&结果分析，具体可进一步参考原文（http://arxiv.org/pdf/2210.08872）。

结论与展望

PTDE 作为一种新的多智能体强化学习范式，通过个性化的全局信息和知识蒸馏技术，有效地提升了多智能体系统的协作决策能力。

以上就是对 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning（http://arxiv.org/pdf/2210.08872）这篇文章的分享，如果感兴趣的话推荐阅读原文（http://arxiv.org/pdf/2210.08872）。如果想要讨论任何问题或者有任何建议，欢迎交流！

此外，还要宣传一下我们将 MARL 应用于搜索结果多样性排序（Search Result Diversification, SRD）的文章，探索 MARL 在更多场景应用的可能性：

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification（https://arxiv.org/pdf/2403.17421.pdf）

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

研究背景与挑战

PTDE的核心思想

研究方法

实验结果

结论与展望

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

研究背景与挑战

PTDE的核心思想

研究方法

实验结果

结论与展望

您可能也对以下帖子感兴趣