学界 | 稳！DeepMind提出多任务强化学习新方法Distral | 自由微信

学界 | 稳！DeepMind提出多任务强化学习新方法Distral

2017-07-15 机器之心

选自arXiv

机器之心编译

参与：蒋思源、黄小天

深度强化学习因为复杂的环境而很难进行有效的训练，通常我们会简化环境或使用共享神经网络参数的方法进行多任务学习，但采用这种方法的学习并不稳定。因此 DeepMind 近日发表了一篇论文，并提出了一种用于多任务的联合训练的新方法—Distral（提取&迁移学习）。

论文链接：https://arxiv.org/pdf/1707.04175.pdf

摘要：在复杂的富环境中，大多数深度强化学习算法的数据使用效率并不高，限制了其在诸多场景之中的应用。解决该问题的一个方向是通过共享神经网络参数实现多任务学习，借助关联任务之间的迁移提升数据使用效率。然而在实际中，这不容易被观察到，因为来自不同任务的梯度可以消极干预，使得学习不稳定，有时甚至效率更低。另一个问题是任务之间的不同奖励方案，这可以轻易导致一个任务主导共享模型的学习。我们提出了一种用于多任务的联合训练的新方法——Distral（提取&迁移学习）。我们没有共享不同工作站之间的参数，而是通过共享「提取的」策略捕捉任务之间的共同行为。每个工作站被训练以解决其自己的任务，同时被限制接近于共享策略，尽管共享策略是通过提取被训练从而成为所有任务策略的中心（centroid）。学习过程的两个方面都来自于优化一个联合目标函数。我们表明该方法支持复杂 3D 环境中的高效迁移，并优于多个相关方法。然而，该学习过程更鲁棒更稳定——这对深度强化学习尤其关键。

新框架 Distral 可用于多任务之间的同步强化学习。图 1 是一个包含 4 个任务的图示。该方法聚焦于共享策略的理念上（如图中心所示），它从具体任务的策略中提取（在 Bucila and Hinton et al. [5, 11] 的意义上）共同行为或表征。

图 1: Distral 框架

图 2: 不同算法和基线的描述。左侧是 Distral 算法中的两个，右侧是 3 个 A3C 基线。熵（entropy）在括号之内，因为它是可选择的，且只用于 KL+ent 2col 和 KL+ent 1col。

Distral 框架允许大量可能的算法例示，以目标、算法和架构结合的方式出现，我们将在下文述及，并总结在表 1 和图 2 中。

表 1: 实验中评估的 7 个不算法。每一列描述一个不同的架构，每列的标题指示任务策略的 logit。行定义 KL 与熵正则化损失函数的相关量，第一行包括 A3C 基线（没有 KL 损失函数）。

图 3: 左图：两个空间网格世界中的学习曲线。DisTraL 智能体（蓝色）学习的更快，并向更好的策略收敛，从整体上证明了更稳定的学习。中图：任务的实例。绿色代表目标位置，为了每一任务统一被采样。在每一个 episode 开始之时，开始位置统一被采样。右图：习得的提取策略 π0 只在走廊之中，并受限于之前向左／向右的行动，没有先前的奖励。箭头的大小描述行动的概率。注意向上／向下行动的概率可以忽略。模型在走廊中学习保持行进的方向。

图 4：上图 A1、C1 和 D1 展示了任务具体型（分别为迷宫、导航和 laser-tag 任务）策略性能（所有任务的均值），其中这几幅图 x 轴代表每个任务训练环境步的总数。B1 图展示了由使用提取策略（distilled policies）所获得的均分值。对于每个算法，我们基于曲线下面积展示了最优超参数设定。A1、B1、C1 和 D1 中的粗线为四次运行的均值，而彩色的区域为每个任务的平均标准差。图 A2、B2、C2 和 D2 展示了每个算法 36 次运行的最终性能，并且从好到坏排序（9 个超参数设定，且运行了四次）。

结语

我们提出了 Distral，一种用于提取（distilling）和迁移多任务强化学习中一般行为的通用框架。在实验中，该最终算法不仅能更迅速地学习、产生更好的性能，同时还能更加稳健和鲁棒地设置超参数。我们发现 Distral 能显著地优于为多任务和迁移强化学习共享神经网络参数的标准方法。

该论文最重要的两个发现：即我们发现使用 KL 散度正则化任务模型的输出为已提取模型（distilled model）时，提取（distillation）可自然地作为优化过程的一半。另一半则相应于使用已提取模型作为任务模型训练的正则器（regularizer）。另一个发现是深度神经网络中的参数通常不具备语义意义，所以我们并不在参数空间内正则化（regularizing）网络，因此我们有必要考虑在更加具备语义信息的空间中正则化神经网络，如在策略空间中正则化神经网络。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

点击阅读原文，查看机器之心官网↓↓↓

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！

斗鱼老板已经“Q保H审”？多家知名媒体爆料！律师预计进去五到七年！