©作者 | 陈逸群
单位 | 中国人民大学
研究方向 | 信息检索、LLM、强化学习
大家好,这里和大家分享一篇我们在多智能体强化学习(MARL)领域关于新的训练范式的文章(Accepted by IJCAI 2024)。
PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning 论文链接:
https://arxiv.org/pdf/2210.08872 代码链接:
https://github.com/AntNLP/nope_head_scale 这篇文章展示了如何通过个性化的集中式训练得到一个强大的集中式执行算法,然后通过知识蒸馏的方式使得智能体决策既受益于全局信息同时又能实现分散式执行,从而提升多智能体系统的协作性能。 研究背景与挑战 在现实世界的许多任务中,如多机器人导航、避障、无人机路径规划等,都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。 最常见的范式是集中式训练分散式执行(Centralized Training with Decentralized Execution, CTDE),这种范式在训练时利用全局信息促进各个智能体实现协作行为,在执行时只使用局部信息,是观测信息受限情况下的一种很好的训练 & 执行范式。 但如何在满足 CTDE 范式的前提下,还能在分散式决策过程中充分受益于全局信息,进而提升多智能体的协作表现呢?本文提出了一种新颖的范式(Personalized Training with Distilled Execution, PTDE)来实现这一目标。 PTDE的核心思想 PTDE 范式符合 CTDE 的要求,但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息,并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能,而且转变为分散式执行时的性能下降也是在可接受范围内的。
研究方法 第一阶段,通过全局信息个性化(GIP)模块为每个智能体提供个性化的全局信息 。(Figure 2)
第二阶段,使用知识蒸馏技术,将个性化的全局信息 蒸馏到仅依赖于智能体局部信息的学生网络中,即学生网络根据局部信息生成个性化全局信息的替代品 。(Figure 4)
▲ 特定化的知识蒸馏
经过两阶段的训练后,在执行阶段用 替代 ,就可以实现完全分散式的执行并且受益于特定化的全局信息。
实验结果 我们在 StarCraft II、Google Research Football 和搜索排序(LTR)等不同的测试平台上进行了广泛的实验。 以下是本文实验部分的一些基本数据,分别是在 StarCraft II、Google Research Football 和搜索排序(LTR)多个任务上的结果:
▲ 搜索排序实验结果
文章的实验部分展示了更多充分且详细的实验曲线&结果分析 ,具体可进一步参考原文(http://arxiv.org/pdf/2210.08872)。 结论与展望 PTDE 作为一种新的多智能体强化学习范式,通过个性化的全局信息和知识蒸馏技术,有效地提升了多智能体系统的协作决策能力。 以上就是对 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning(http://arxiv.org/pdf/2210.08872)这篇文章的分享,如果感兴趣的话推荐阅读原文(http://arxiv.org/pdf/2210.08872)。如果想要讨论任何问题或者有任何建议,欢迎交流! 此外,还要宣传一下我们将 MARL 应用于搜索结果多样性排序(Search Result Diversification, SRD)的文章,探索 MARL 在更多场景应用的可能性: MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification(https://arxiv.org/pdf/2403.17421.pdf)
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧