【源头活水】REPAINT：深度强化学习中的知识迁移

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—Johnson7788

地址：https://zhuanlan.zhihu.com/p/391824772

原文：REPAINT: Knowledge Transfer in Deep Reinforcement Learning

作者：Yunzhe Tao 1 Sahika Genc 1 Jonathan Chung 1 Tao Sun 1 Sunil Mallya 1

简介

通过利用以前学过的任务来加速复杂任务的学习过程一直是强化学习中最具挑战性的问题之一，特别是当源任务和目标任务之间的相似度很低时。这项工作提出了在深度强化学习中进行知识迁移的REPAINT（REPresentation And INstance Transfer）算法。REPAINT不仅在on-policy学习中迁移预训练好的教师策略的表示，而且在off-policy学习中使用基于优势的经验选择方法来迁移按照教师策略收集的有用样本。我们在几个基准任务上的实验结果表明，在任务相似性的一般情况下，REPAINT大大减少了总的训练时间。特别是，当源任务与目标任务不相似，或者是目标任务的子任务时，REPAINT在减少训练时间和返回分数的渐进性能方面都优于其他基线。

在过去的几年里，深度强化学习（RL）在解决许多现实世界应用的序列决策问题中变得更加普遍，例如游戏（OpenAI等人，2019；Silver等人，2016）、机器人（Kober等人，2013；OpenAI等人，2018）和自动驾驶（Sallab等人，2017）。然而，大多数RL方法从头开始训练一个agent，通常需要大量的时间和计算资源。加快复杂任务的学习过程一直是RL中最具挑战性的问题之一（Kaelbling等人，1996；Sutton & Barto，2018）。在现实世界的应用中，随着任务复杂性的增加，学习的计算开销也在增长。因此，一个学习算法最好能利用在一个任务中获得的知识来提高其他任务的性能。

迁移学习在计算机视觉、自然语言处理和其他知识工程领域取得了巨大成功（Pan & Yang, 2009）。在迁移学习中，源任务（教师）和目标任务（学生）不一定来自同一分布（Taylor等人，2008a）。未见的目标任务可能是一个简单的任务，与之前训练的任务相似，也可能是一个复杂的任务，其特征是从明显不同的源任务中借用的。尽管直接迁移权重的做法很普遍，但直到最近，来自预训练的agent的RL任务的知识迁移才得到了很多注意（Barreto等人，2019；Ma等人，2018；Schmitt等人，2018；Lazaric，2012；Taylor & Stone，2009）。然而，许多迁移RL算法被设计为从一组源任务中选择类似的任务或样本，或学习源任务的表示。因此，只有当目标任务与源任务相似时，它们才会表现良好，但当任务相似度低或目标任务比源任务复杂得多时，它们通常没有帮助。

在这项工作中，我们提出了一种算法，即REPresentation And INstance Transfer（REPAINT），以解决上述问题。该算法引入了一个off-policy实例迁移学习，并将其与策略性表示迁移相结合。本文的主要贡献如下。

(1) 我们在off-policy实例迁移中开发了一种基于优势的经验选择方法，该方法只迁移有用的实例，有助于提高采样效率。

(2) REPAINT算法实现简单，可以自然地扩展到任何基于策略梯度的RL算法。此外，我们还提供了REPAINT的两个变体，用于actor-critic式RL和对Q-learning的扩展。

(3) 我们澄清，我们的REPAINT算法利用了源样本和目标任务之间的（语义）关联性，而不是大多数迁移RL方法所利用的任务/样本相似性。

(4) 在几个迁移学习任务上，我们通过经验证明，在任务相似性的一般情况下，REPAINT大大减少了达到一定性能水平所需的训练时间。此外，当源任务与复杂的目标任务不相似，或者是目标任务的子任务时，REPAINT在减少训练时间和渐进返回分数方面都大大优于其他基线方法。

相关工作：RL中的迁移学习

本节只介绍了关于RL的迁移学习的相关工作。我们将在第四节讨论我们提出的算法与其他相关工作之间的联系。在RL的迁移学习中，大多数算法要么假设了特定形式的奖励函数，要么只在教师和学生的任务相似时表现良好。此外，很少有算法被指定用于actor-critic的RL。

RL中的迁移学习算法可以通过对迁移知识的定义来描述，它包含RL算法的参数、训练后的策略的表示以及从环境中收集的实例（Lazaric，2012）。当教师和学生的任务共享相同的状态动作空间，并且它们被认为是相似的（Ferns等人，2004；Phillips，2006），参数迁移是最直接的方法，即人们可以通过教师任务中的策略或价值网络来初始化学生任务（Mehta等人，2008；Rajendran等人，2015）。带有不同状态动作变量的参数迁移更为复杂，其中最关键的是要找到从教师状态动作空间到学生状态动作空间的合适映射（Gupta等人，2017；Talvitie & Singh，2007；Taylor等人，2008b）。

许多迁移学习算法都属于表示迁移的范畴，即算法学习了任务或解决方案的特定表示，迁移算法进行抽象处理以适应学生的任务。Konidaris等人（2012）使用奖励塑造的方法来学习知识迁移的可移植塑造函数，而其他一些工作则使用神经网络进行特征抽象（Duan等人，2016；Parisotto等人，2015；张等人，2018）。策略蒸馏（Rusu等人，2015）或其变体是学习教师任务表示的另一个流行选择，其中学生策略旨在模仿其自身学习过程中预训练的教师策略的行为（Schmitt等人，2018；Yin & Pan，2017）。最近，继任者表示被广泛用于迁移RL中，其中假设奖励具有一些共同的特征，因此价值函数可以简单地写成继任者特征（SFs）的线性组合（Barreto等人，2017；Madarasz & Behrens，2019）。Barreto等人（2019）将Q-learning（Sutton & Barto，2018）中使用SFs和广义策略改进的方法扩展到更普遍的环境。Borsa等人（2018）、Ma等人（2018）和Schaul等人（2015a）学习一个通用的SF近似器进行迁移。

实例迁移算法的基本思想是，教师样本的迁移可能会改善学生任务的学习。Lazaric等人（2008）和Tirinzoni等人（2018）在model-free算法中根据任务之间的符合性选择性地迁移样本，而Taylor等人（2008a）研究model-based的算法如何从来自教师任务的样本中受益。

在这项工作中，我们提出了一种表示-实例迁移算法来处理RL中任务相似性的一般情况。该算法也自然地适合于actor-critic框架，并且可以很容易地扩展到其他RL算法。

背景：actor-critic RL

一个与环境交互的一般RL agent可以用马尔科夫决策过程（MDP）来建模，它由一个元组M=（S，A，p，r，γ）定义，其中S和A分别是状态和动作的集合。状态迁移函数p(·|s, a)将状态和动作对映射为状态的概率分布。r : S × A × S → R表示奖励函数，它决定了agent从(s, a)到s'的迁移所得到的奖励。折扣因子，γ∈[0，1]，提供了获得长期目标的手段。具体来说，RL agent的目标是学习一个策略π，该策略将状态映射到每个时间步t的动作的概率分布，以便at∼π(·|st)最大化累积的折扣回报

。

为了解决这个问题，一个流行的选择是采用model-free的actor-critic架构，例如Konda & Tsitsiklis（2000）；Degris等人（2012）；Mnih等人（2016）；Schulman等人（2015a；2017），其中critic估计价值函数，actor按照critic提议的方向更新策略分布。actor-critic方法通常依赖于优势函数，其计算方法是Aπ(s, a) = Qπ(s, a)-V π(s) ，其中Qπ(s, a) =

是Q（动作价值）函数，

是状态价值函数。

直观地说，优势可以看作是采取特定动作a所能获得的额外奖励。在深度RL中，critic和actor函数通常由神经网络来设定参数。然后，策略梯度方法可以用来更新actor网络。例如，在剪切近似策略优化（Clipped PPO）（Schulman等人，2017）中，策略的目标函数被定义为标准代用目标和ε剪切目标之间的最小值。

其中，策略π的参数为θ，A ˆ t为优势估计值，ℓ θ(.,.)为似然比，即

此外，函数clipε将ℓ θ(., .)截断到(1-ε, 1+ε)的范围内。

REPAINT 算法

现在我们描述一下我们的知识迁移算法，即REPAINT，用于actor-critic式RL框架，它在算法1中提供。在不失一般性的情况下，我们使用Clipped PPO来演示策略更新，并在知识迁移中使用单一的教师策略。在实践中，它可以直接应用于任何基于策略梯度的RL算法，而且在迁移中使用多个教师策略也是直接的。更多的讨论可以在本节后面找到。

算法1 带有剪切的PPO的REPAINT

在REPAINT与actor-critic RL中，critic更新使用传统的 supervised regression，这与Clipped PPO完全相同。然而，我们的actor更新有两个核心概念，即策略上的表示迁移学习和off-policy的实例迁移学习。策略上的表示迁移采用了策略蒸馏的方法（Schmitt等人，2018）。在off-policy实例迁移中，我们通过off-policy目标Lins并使用基于优势的经验选择对教师实例的重放缓冲区S~更新actor。所提出的经验选择方法被用来选择与目标任务具有高语义相关性的样本，而不是高相似性。我们将讨论推迟到第5.2节。

4.1. 策略上的表示迁移: Kickstarting

为了提高agent的初始性能，我们使用了在启动训练pipeline中采用的策略蒸馏方法（Schmitt等人，2018；Rusu等人，2015）进行策略上的表示迁移。其主要思想是采用一个辅助损失函数，鼓励学生策略在学生采样的轨迹上接近教师策略。给定一个教师策略π教师，我们引入辅助损失为

，其中H(.‖.)是交叉熵。然后，策略蒸馏将上述损失添加到Clipped PPO目标函数中，即（3.1），在优化迭代k中通过缩放βk≥0进行加权。

在我们的实验中，加权参数βk在早期迭代中相对较大，并随着k的增加而消失，预计这将提高agent的初始性能，同时使其在以后的epoch中专注于当前的任务。

4.2. off-policy实例迁移：基于优势的经验选择

请注意，启动的目的是在早期训练阶段复制教师策略的行为，这样可以提高agent的初始性能。然而，当目标任务与源任务非常不同时，启动通常不会带来很大的改善。为了解决这个问题，我们现在提出用一种叫做基于优势的经验选择的方法进行off-policy实例迁移。

在off-policy实例迁移中，我们通过收集遵循教师策略π教师的训练样本形成一个重放缓冲区S~，但使用目标任务的当前奖励函数计算奖励。由于样本来自不同的分布，我们不使用这些样本来更新状态值（critic）网络。为了提高样本的效率，在更新策略（actor）网络时，我们根据优势值来选择迁移，只使用优势大于给定阈值ζ的样本。此外，由于教师策略已被用于收集推广，我们在计算目标时不使用辅助的交叉熵损失，但在（3.1）中用π teacher代替π θold用于off-policy学习，这导致了以下目标函数。

其中，ρθ现在由

给出。基于优势的经验选择的想法简单而有效。如前所述，优势可以被看作是采取特定动作所能获得的额外奖励。因此，由于优势是在目标任务的奖励函数下计算出来的，具有高优势值的状态-动作迁移可以被看作是迁移的 "好 "样本，无论源任务和目标任务有多大差别。通过只保留重放缓冲区S~的好样本，agent可以专注于学习对当前任务有用的行为，从而提高知识迁移的采样效率。

关于经验选择的相关工作。我们注意到，虽然经验选择方法以前没有被用于知识迁移，但它与优先经验重放（PER）（Schaul等人，2015b）有关，后者通过时序差分（TD）误差对重放缓冲区中的迁移进行优先处理，并利用重要性抽样进行off-policy评估。相比之下，我们的方法在actor-critic框架中使用经验选择，在每次训练迭代后，重放缓冲区都会被清除。不同于随机优先级的抽样概率，我们的方法直接过滤掉重放缓冲区中的大部分迁移，并对剩余的数据进行平均优先级，这进一步提高了抽样效率。此外，我们的方法在执行策略更新时无需进行重要性采样。一个批次中的所有迁移都有相同的权重，因为重要性可以通过它们的优势值来反映。PER和几种经验选择方法之间的经验比较可以在第6.2节找到。

作为另一项相关工作，自我模仿学习（SIL）（Oh等人，2018）提供了一种off-policy actor-critic算法，该算法学习复制agent过去的良好决策。它根据off-policy蒙特卡洛回报和agent的价值估计之间的差距来选择过去的经验，并且只使用具有正差距的样本来更新actor和critic。类似的方法也可以在Q-filter中看到（Nair等人，2018）。相比之下，除了REPAINT使用基于优势的经验选择而不是回报差距，我们的方法引入了一个更普遍的阈值ζ，而SIL将其固定为零。此外，正差距样本也被用来更新SIL中的critic，但我们只通过策略上的数据来拟合状态值，以遵循正确的分布。受SIL等同于下限软Q-learning这一理由的激励，我们在本文中还提出了带Q-learning的REPAINT扩展，这在A节中给出。

我们想再次指出，我们提出的基于优势的经验选择方法与现有的方法不同。此外，据我们所知，这是第一次将基于优势的筛选方法应用于RL的知识迁移。

4.3. 讨论和扩展

关于提议的REPAINT算法，我们想说的是，策略蒸馏权重βk和优势过滤阈值ζ是特定的任务。它们与单步奖赏有关。为此，我们可以考虑在实践中对奖励函数进行归一化处理，以便使one-step奖励处于相同的规模。一般来说，较大的βk鼓励agent更好地匹配教师的策略，而较大的ζ会导致较少的样本被保留用于策略更新，从而使当前的学习更集中于高优势的经验。关于这两个参数的实证调查可以在后面找到。

到目前为止，我们已经演示了REPAINT算法，在知识迁移中只使用单一的教师策略，目标函数来自Clipped PPO。事实上，使用多个教师策略，甚至使用不同的教师策略进行表示迁移和实例迁移是很直接的。此外，REPAINT可以直接应用于任何基于策略梯度的RL算法，如A2C（Sutton等人，2000）、A3C（Mnih等人，2016）、TRPO（Schulman等人，2015a）和REINFORCE（Williams，1992）。在A节，我们将提供更详细的讨论。我们还介绍了REPAINT算法的扩展与Q-learning的存在。

与REPAINT相关的理论论证和分析

本节介绍了与所提算法有关的一些理论结果和理由，我们希望从中更深入地阐明REPAINT。定理5.1和定理5.2的详细讨论可分别在附录的D节和E节中找到。

5.1. 收敛结果

我们首先讨论没有任何经验选择方法的REPAINT的收敛性，然后考虑教师策略的经验选择如何影响策略的更新。为了简化说明而不丧失一般性，我们认为actor-critic者的目标是

而不是Lclip(θ)，并相应地修改表示迁移和实例迁移的目标（用Jrep和Jins表示）。表示迁移的收敛性很容易得到，因为它等同于其他actor-critic方法的收敛性。我们的实例迁移学习符合off-policy actor-critic的框架（Degris等人，2012；张等人，2019）。按照Holzleitner等人（2020），在某些常用的假设下，我们可以证明off-policy实例迁移的收敛性。

定理5.1。假设critic由TD残差更新，actor πθ基于目标Jins(θ)更新。假设损失函数满足假设D.1-D.3，critic和actor的学习率满足假设D.4。那么（θn, ν n）通过在线随机梯度下降（SGD）在n→∞时几乎肯定地收敛到一个局部最优。

此外，我们还想展示REPAINT的收敛率，如果有一个好的critic近似值的话。同样，我们假设不使用经验选择方法。我们还假设学习率α1和α2是与迭代相关的（用α1,k和α2,k表示）。设Kε为达到函数梯度小于ε所需的最小更新数k，即。

Ak :=α2,k/α1,k和

请注意，超参数Ak可以由人们希望从实例迁移中学习多少东西来对抗表示迁移来决定。如果A被设定为1，那么我们可以得到

。

定理5.2. 假设表示迁移的学习率满足

，并且critic更新满足假设E.5。当critic偏差以O(k-b)的形式收敛到零时，对于某些b∈(0，1)，我们可以找到一个整数T(b，k)，使得每个actor更新发生T(b，k)critic更新。那么，actor序列就满足

尽管极大地提高了采样效率，但经验选择通过以不可控的方式改变分布而引入了偏差。在实践中，为了减轻它，我们可以在早期训练阶段采用REPAINT，然后减少到传统的actor-critic算法。因此，agent首先学习有用的教师行为，以达到良好的初始性能，之后再专注于目标任务。

5.2. 语义关联性与任务相似性

大多数RL的迁移学习算法都是基于源任务和目标任务之间的相似性建立的，并且只有在任务相似的情况下才会表现良好。如果给定两个MDP的样本，可以定义一些指标来计算或学习任务的相似性，例如，基于Kantorovich距离的指标（Song等人，2016），受限的Boltzmann机器距离测量（Ammar等人，2014），策略重叠（Carroll和Seppi，2005），以及任务符合性和样本关联性（Lazaric等人，2008）。一般来说，在获得任何样本之前，除非有其他信息，否则相似性通常是未知的。例如，使用继任特征的方法（Barreto等人，2019；Borsa等人，2018；Schaul等人，2015a）假设任务之间的奖励函数是一些共同特征的线性组合，即r（s，a，s'）=∑i wiφi（s，a，s'），固定φi的。那么，相似性可以用权重向量的距离来表示。

在本文中，我们的目标是表明REPAINT处理任务相似性的一般情况。因此，我们在迁移过程中不使用任何相似性信息。相反，REPAINT属于利用关联性进行知识迁移，这一概念已被用于其他一些机器学习领域，如多任务学习（Caruana，1997）和元学习（Achille等人，2019）。迁移学习中的关联性和相似性的区别可以类似于语言中的语义关联性和词法相似性的区别。更具体地说，无论源任务和目标任务有多大差别，我们总是可以从源任务中选择对学习目标任务有用的相关样本。在REPAINT中，相关度只是由目标奖励函数和状态值下的源样本的优势值来定义。此外，交叉熵权重β和经验选择阈值ζk被用来控制源任务的贡献。我们将在第6.2节中把REPAINT与基于相似性的迁移学习算法（Lazaric等人，2008）进行比较。

实验

根据Taylor和Stone（2009）的研究，迁移学习（TL）的性能可以通过以下方式衡量。(1)agent从预训练的策略中学习时初始性能的提高；(2)迁移后最终性能和总累积奖励的提高；以及(3)训练收敛时间或agent为达到指定性能水平所需的学习时间的减少。在本文中，我们对最后一个指标，即训练时间的减少特别感兴趣，因为我们不能一味地期待回报分数的提高，特别是当源任务与目标任务有很大差别时。

在本节中，我们进行了实验来回答以下问题。(1) 当源（教师）任务与目标（学生）任务相似时，预计大多数TL方法会表现良好。REPAINT是否也能实现良好的TL性能？(2) 当任务相似度较低时，REPAINT是否仍能减少目标任务的训练时间？(3) 当源任务只是复杂目标任务的子任务时，REPAINT是否仍有帮助？(4) 对于 REPAINT 来说，on-policy表示迁移和off-policy实例迁移是否都是必要的？(5) 其他经验选择（优先次序）方法在 REPAINT 上的表现如何？(6) 超参数β k和ζ如何改变TL的性能？REPAINT对它们是否稳健？

为了回答这些问题，需要一个量化任务相似度的指标。为简单起见，我们在实验中假设教师和学生任务之间的状态和动作空间保持不变，奖励函数具有一些共同特征的线性组合形式。然后我们用余弦距离函数来定义任务的相似性，即奖励函数为r 1(s, a, s')=φ(s, a, s')Tw1和r 2(s, a, s')=φ(s, a, s')Tw2的两个任务的相似性可以计算为

如果sim(r1, r2)>0，我们就说这两个任务是相似的。否则（≤0），它们就被认为是不同的（不相似的）。此外，如果奖励函数中的某些特征权重为零，则相应的任务可以被看作是具有非零特征权重的其他任务的一个子任务。

6.1. 实验设置

为了评估REPAINT算法，我们在多个基准任务中使用三个平台进行实验，复杂性不断增加，即MuJoCo模拟器中的Reacher和Ant环境（Todorov，2016），AWS DeepRacer模拟器中的单车和多车比赛（Balaji等人，2019），以及StarCraft II环境中的BuildMarines和FindAndDefeatZerglings小游戏（Vinyals等人，2017）。B节给出了更详细的环境描述。上述的前四个问题将在所有环境中得到回答。我们使用更简单的环境，即MuJoCo-Reacher和DeepRacer单车，来回答最后两个问题，因为没有额外的复杂性和环境噪声，更容易解释结果。

为了比较REPAINT与其他方法的性能，证明REPAINT在迁移过程中提高了采样效率，我们应该保证REPAINT在每次迭代中不使用更多的样本进行迁移。因此，我们在实验中采用了交替的REPAINT与Clipped PPO，在奇数和偶数迭代中交替采用on-policy表示迁移和off-policy实例迁移。该算法在A节中介绍（算法2）。C.1节中还提供了对不同交替比例的研究。此外，人们可以在B节中找到我们用于再现结果的超参数。

6.2. MuJoCo中的连续动作控制

MuJoCo-Reacher。在目标任务中，agent通过以较少的动作接近目标点而获得奖励。作为一项消融研究，我们首先根据两个教师任务，将REPAINT与仅有启动或实例迁移和无先验知识的训练（基线）进行比较。第一个教师策略的训练具有类似的奖励特征，但对运动惩罚的权重较高，我们将其设置为3，作为一个例子，这样余弦相似度为正。另一个教师策略是在一个不相似的任务中训练的，其中agent在接近目标时受到惩罚。在这种情况下，余弦相似度为零。在每次训练迭代之后，我们再对策略进行20次评估。评估性能见图11。在任务相似度的两种情况下，关于训练时间的减少、渐进性能和初始性能的提升，REPAINT都优于基线算法和实例迁移。虽然kickstarting可以提高初始性能，但当教师行为与预期的目标行为相反时，它在收敛中没有性能增益（见右图）。相比之下，虽然实例迁移不能提升初始性能，但在这两种情况下，它都会渐进地超过基线性能。

图1: MuJoCo-Reacher的评估性能，五次运行的平均值。我们认为教师任务与目标任务相似（左），与目标任务不同（右）。

我们还比较了REPAINT中几种经验选择规则的性能，包括高绝对值（|.|>ζ）、排名前20%的转移（top 20%）、我们提出的规则（->ζ）和PER（Schaul等人，2015b）。对于PER，我们使用优势估计值来计算优先级，而不是TD误差，以进行公平的比较，并稍微调整了超参数。从图2中，我们可以观察到，提议的选择规则和前20%的规则在初始性能上比其他规则更好，其中只有最相关的样本被选择用于策略更新。此外，PER的效果不如其他方法好，特别是当任务相似度低的时候，因为它包括低优势的教师样本，这些样本对学生策略的学习没有任何好处。因此，我们建议使用建议的带有阈值ζ的选择规则或带有比例阈值的基于排名的规则。

图2. 不同经验选择（优先级）方法的比较。左图：类似的任务。右：不相似的任务。

为了展示我们的REPAINT算法利用了源样本和目标任务之间的（语义）关联性，而其他大多数TL算法利用了样本的相似性，我们在此与现有方法进行了比较。Lazaric等人（2008）定义了一些任务符合性和样本相关性的指标，并在此基础上提出了一种实例迁移算法。我们称其为基于相关性的迁移（RBT）。我们将kickstarting与RBT结合起来，并在图3中与REPAINT比较其TL性能。当一个类似的任务被用于知识迁移时，RBT效果很好。然而，当目标任务与源任务有很大不同时，尽管RBT试图迁移最相似的样本，但与基线训练相比，它的性能并没有提高。在这种情况下，REPAINT的性能明显优于RBT。

图3. 基于相关性的迁移（RBT）和REPAINT的比较。左：类似的任务。右：不相似的任务。

MuJoCo-Ant。在这个目标任务中，agent受到生存和前进的奖励，而受到控制和接触开销的惩罚。教师策略都是从类似的任务中训练出来的，其中奖励函数对前进的权重更高。我们对每个模型进行1000次迭代训练，并对每个迭代再进行5次评估。结果显示在图42中。从左边的子图中，我们可以再次观察到，当任务相似性为正时，用REPAINT或kickstarting训练可以显著提高初始性能，并降低达到一定性能水平的学习开销。我们还评估了来自具有不同余弦相似度的相似源任务的迁移性能。我们在教师任务的奖励函数中设置了前向系数 (a) 外道奖励任务与内道教师为3、5和10，对应的余弦相似度分别为0.87、0.76和0.64。右边子图中的结果表明，任务的相似性影响了整体的训练性能，即使它们都是相关的。来自更多相似任务的预训练教师策略可以更好地促进迁移性能。此外，我们在C.2节中提出了更多的结果，表明REPAINT对阈值参数是稳健的。

图4: MuJoCo-Ant的评估性能，三次运行的平均值。左图：模型的表现与同一教师在类似任务中预训练的表现相同。右图。REPAINT在不同教师策略下的表现（给出了源任务和目标任务的余弦相似度）。这些图经过平滑处理，以利于观察。

图5. DeepRacer单车计时赛的评估性能，包括平均累积奖励和平均进度（单圈完成比例），五次运行的平均数。

6.3. AWS DeepRacer中的自主竞赛

单车计时试验。在这个实验中，我们使用了两个不同的奖励函数，其中一个在agent处于内侧车道时给予奖励，在外侧车道时给予惩罚，另一个奖励函数则相反。当我们在学生任务中使用一种奖励时，我们提供用另一种奖励训练的教师策略。因此，教师和目标任务的余弦相似度为负。

我们在每次迭代后对该策略进行5次评估。评估结果见图5，图中给出了平均回报率和进度（agent脱离轨道时完成的一圈的比例）。尽管在收敛时，所有模型都能完成一圈而不偏离轨道，但REPAINT和再次启动显著提高了初始性能。然而，当教师任务与目标任务有很大不同时，用kickstarting训练不能通过迁移来提高最终性能。相比之下，实例迁移仍然可以减少训练收敛时间，最终性能优于kickstarting（尽管在这个例子中幅度很小）。由于篇幅所限，我们在附录的C.3节中介绍了对不同交叉熵权重βk和实例过滤阈值ζ的影响研究。

我们还想将REPAINT算法（这是一种表示-实例迁移算法）与广泛使用的参数迁移方法，即warm-start进行比较。在warmstart中，agent用来自教师策略的参数进行初始化，之后进行RL算法。当目标任务与教师任务相似时，它通常工作得很好。但这里我们在DeepRacer单车实验中比较这两种算法，这两个任务有明显的不同。图6直观地显示了评估期间agent在赛道上的轨迹。每个模型都被训练了两个小时，又被评估了20个episode。从这两个案例中，我们可以看到，虽然两个奖励函数编码的行为完全不同，但REPAINT仍能在学习教师策略的同时关注当前任务。这再次表明基于优势的经验选择在实例迁移中的有效性。相比之下，由于可能卡在某些局部最优点上，暖启动的训练不能摆脱收敛时的意外行为。因此，用以前训练过的策略进行初始化，有时能以良好的初始性能启动训练，但只有当两个任务高度相似时，该方法才会对最终性能作出贡献。

图6: 策略评估的轨迹。在(a)和(b)中，左边是用REPAINT训练的模型的评价，右边是用暖启动训练的模型。

与机器人汽车竞赛。当RL agent需要在一项任务中学习多种技能时，REPAINT算法仍有帮助。在多车竞赛中，agent必须保持在赛道上，同时避免与僵尸车相撞，以获得高额奖励。我们首先训练一个善于避开物体的教师策略，即当agent远离所有僵尸车时就会得到奖励，而当agent离僵尸车太近并走向它时就会受到惩罚。然后在目标任务中，我们使用两种不同的奖励函数来评估模型。首先，我们使用一个高级奖励，除了保持跟踪和避开目标外，当agent从摄像头中检测到一些僵尸车并与僵尸车在同一车道上时，它也会受到惩罚。评估结果如图7（左）所示。由于环境具有高度的随机性，如agent和僵尸车的初始位置和僵尸车的车道变化，我们只报告平均结果。我们可以看到，REPAINT在一定性能水平所需的训练时间和渐进性能方面优于其他基线。我们还研究了另一项基于进度的奖励的目标任务，其中agent只根据其完成进度获得奖励，但当它偏离轨道或与机器人汽车发生碰撞时，会得到很大的惩罚。由于完成进度的最大化涉及到机器人汽车的规避，教师任务可以被看作是一个不同的任务或一个子任务。结果在图7（右）中提供。当目标任务是复杂的，而奖励是简单的（稀疏的），如在这种情况下，agent有时很难学习一个好的策略，因为它缺乏奖励对其动作的指导。从子图中，我们可以再次看到，用REPAINT训练不仅在很大程度上减少了收敛时间，而且与其他模型相比，还提高了渐进性能。

图7: DeepRacer多辆汽车与机器人汽车比赛的评估性能，三次运行的平均值。左图：有高级奖励的任务。右边。基于进度的奖励的任务。这些图经过平滑处理，以利于观察。

6.4. 更复杂的任务: 星际争霸II的环境

最后，我们还利用《星际争霸II》学习环境（Vinyals等人，2017）在一个更复杂的迁移学习任务上进行消融研究。教师策略是在BuildMarines小游戏中训练的，agent被赋予一个有限的基础，其任务是使训练的海军陆战队的数量最大化。然后，目标任务以BuildMarines为基础，包括FindAndDefeatZerglings小游戏，表示为BuildMarines+FindAndDefeatZerglings（BM+FDZ）。也就是说，在学习如何建造海军陆战队的基础上，特工必须学会使用建造的海军陆战队来探索整个地图，并试图找到和击败随机散布在地图上的虫族。请注意，BM+FDZ的地图比BuildMarines的地图要大，所以尽管状态和动作空间是相同的，但两个任务之间的初始特征图（观察）是不相同的。因此，这两个任务之间的知识迁移并不直接了当。环境和奖励函数的其他细节可以在B节找到。

表1: 实验结果的总结。

图8显示了REPAINT和其他方法的评估结果。我们想先说一下，当涉及BuildMarines小游戏时，RL的性能有很大的差异，这是一个众所周知的问题，在Vinyals等人（2017）的图6中也可以看到。从图中，我们可以再次看到，当源任务是复杂目标任务的子任务时，kickstarting方法不能很好地迁移。相比之下，实例迁移法和REPAINT算法通过选择语义相关度高的样本，迅速将建造海军陆战队的知识迁移到目标任务中。此外，它们取得了比从头开始训练或启动法更高的回报。

图8: 对《星际争霸II》环境的评估性能。源任务是目标任务的一个子任务，但使用不同的地图。这些图都经过平滑处理，以提高可见度。

总结和未来工作

在这项工作中，我们提出了一种用于RL的知识迁移算法。REPAINT算法对预训练好的教师策略进行策略上的表述迁移，对按照教师策略收集的样本进行off-policy的实例迁移。我们在实例迁移中开发了一种基于优势的经验选择方法，以选择与目标任务有高度语义关联的样本。基于样本相关度的经验选择的想法简单而有效，这是第一次将其应用于RL的知识迁移。

我们在表1中对实验结果进行了总结。根据余弦相似度（6.1），教师类型表示教师任务是目标任务的一个子任务还是与目标任务相似。目标分数是基线模型所能达到的最佳性能。然后我们提供每个模型为达到目标分数所需的训练迭代次数。这些模型包括用基线训练、kickstarting（KS）、实例迁移（IT）和REPAINT。在C.5节中，我们还提供了壁钟时间的数据。尽管我们对TL减少的训练时间更感兴趣，但我们在表中列出了每个知识迁移模型所能达到的最佳分数。只有在任务相似或目标任务简单的情况下，kickstarting模型才会表现良好。虽然实例迁移模型可以迁移相关样本，但它并不能提升初始性能。相比之下，无论任务的相似性如何，都能看到REPAINT的优越性能。它大大减少了每个目标任务的训练时间，也提高了大多数任务的最终返回分数。

在未来的工作中，我们旨在研究REPAINT如何自动学习任务相似性，并根据相似性自发地确定训练中的最佳β k和ζ值。我们在C.3节中的初步结果表明，当任务相似度较低时，较大的β k值可能会降低agent的渐进性能。此外，我们还对迁移性能对神经网络结构的依赖性感兴趣。我们在C.4节中提供了一些初步的实验结果。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

【源头活水】REPAINT：深度强化学习中的知识迁移

Transformer 的稳健性更好吗？

读SfM-Net: Learning of Structure and Motion from Video

Conditional DETR: 通过显式寻找物体的 extremity 区域加快 DETR 的收敛

谷歌和CMU论文：使用元学习生成伪标签

Deep GNN评测，模型退化是做不深的主要原因！

CVPR2021：Spatial在左，Temporal在右，如何缓解视频动作理解中的隐式偏见之殇？

CVPR2021自监督学习论文: 理解对比损失的性质以及温度系数的作用

GAN，没错，生成对抗网络也可以被用于时间序列预测

开放世界实体分割 Open-World Entity Segmentation

ICCV‘21 | 具有样本特定触发器的隐形后门攻击

ACL2021: 对比学习还能这样用？提升多语言机器翻译性能

CVPR 2021 | AdCo-基于对抗的对比学习（已开源）

最前沿：深度解读Soft Actor-Critic 算法

RL Transformer之Trajectory Transformers

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

女性最佳“绝经期”，不是45岁，而是这个数，越接近越健康！

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

生成图片，分享到微信朋友圈

【源头活水】REPAINT：深度强化学习中的知识迁移

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣