查看原文
其他

Soft Actor-Critic:适用于机器人的深度强化学习

Google 谷歌开发者 2019-11-02

文 / Tuomas Haarnoja,学生研究员;Sergey Levine,Google 机器人团队指导教师


深度强化学习 (RL) 能够借助通用的神经网络表征来处理复杂的感官输入,因此可让机器人直接从现实世界的经验与互动中完全自主地学习行为。然而,许多现有的 RL 算法均需几天或几周(甚至更久)的真实数据才能实现所期望的行为。此外,我们很难在复杂的机器人系统(比如多足机器人)上部署这样的系统,因为这些系统在探索阶段易受损坏,超参数设置难以调校,而且各种安全注意事项也会带来更多限制。 

通过与加州大学伯克利分校合作,我们最近发布了 Soft Actor-Critic (SAC),这是一种稳定高效的深度 RL 算法,适用于现实世界的机器人技能学习并能与机器人实验要求高度契合。很重要的一点是,SAC 颇为高效,数小时内便能完成现实世界的机器人任务,而且可使用同一套超参数在各种环境中工作。下面,我们将探讨 SAC 背后的一些研究,并对我们近期的一些实验加以说明。



现实世界机器人学习的要求

现实世界的机器人实验面临一些重大挑战,例如硬件故障和手动重置导致数据流时常中断,必须让探索过程保持流畅以免对机器人造成机械磨损等,这些都为算法及其实现带来了额外限制,其中包括(但不限于):

  • 需要良好的采样效率以减少学习时间

  • 将需要调校的超参数数量降至最低

  • 在不同场景中重复使用已收集的数据(称为 “脱策学习” ,off-policy learning)

  • 确保学习和探索过程不损坏硬件



Soft Actor-Critic

Soft Actor-Critic 基于最大熵强化学习,此框架旨在最大程度地提高预期回报(即标准 RL 目标)与策略的熵。熵越高,策略的随机性越高。直观而言,这意味着最大熵的强化学习倾向于选择仍能获得高回报且随机性最高的策略。

为何机器人学习会选择此策略?最明显的原因是,针对最大熵进行优化的策略具有更强的鲁棒性:如果一种策略能在训练期间接受高度随机的行为,则其在测试时成功响应意外扰动的可能性便更高。然而,更微妙的理由是,最大熵的训练能够提高算法对超参数的鲁棒性及其采样效率(如需了解详情,请参见此 BAIR 博文及该 教程 https://arxiv.org/abs/1805.00909)。

通过学习随机策略(用于将状态映射至动作)与 Q 函数(用于估计当前策略的目标价值)并使用近似动态规划对其进行优化,Soft Actor-Critic 能够最大程度地提高经过熵强化的回报。在此过程中,SAC 将目标视为一种基础方法来推导出更出色的强化学习算法,这些算法表现稳定并能提供足够高的采样效率,以应用于现实世界的机器人应用程序。如需了解技术详情,请参见我们的 技术报告(https://arxiv.org/abs/1812.05905)



SAC 的性能

我们通过以下两项任务对 SAC 进行了评估:

1) 让 Ghost Robotics 公司的 Minitaur 机器人四足行走

2) 让三指 Dynamixel Claw 机械手转动阀门


学习行走颇具挑战性,由于机器人为不完全驱动,因此必须使腿部的接触力实现精巧的平衡方可继续前行。未经训练的策略可能会使机器人失去平衡并摔倒,而摔倒次数过多最终会使其受损,所以拥有高采样效率的学习便显得至关重要。 

虽然我们只是在平地上训练策略,但随后的测试是在各种地形上进行并伴有障碍物。从原则上看,使用 Soft Actor-Critic 学习的策略在遇到测试过程中的扰动时应具有鲁棒性,因为此类策略在训练时会使熵最大化(即注入最大噪声)。实际上,根据观察,使用我们的方法学习的策略无需进行任何额外学习即可平稳应对这些扰动。 


应用 SAC 后的 Minitaur 机器人行走学习示图


下图所示的操作任务是让机械手转动一个类似阀门的物体,目标是让短桩彩色的一面朝向右侧。此任务颇具挑战性,因为除了高难度感知外,还需控制具有 9 个自由度的机械手。为了感知此阀门,机器人必须使用原始 RGB 图像(如右下角的插图所示)。在每轮训练中,我们都会随机均匀地重置阀门的初始位置,强迫策略学习使用原始 RGB 图像感知当前的阀门方向。 



Soft Actor-Critic 快速完成了这两项任务:Minitaur 的移动耗时 2 小时,而根据图像观察进行的阀门转动任务耗时 20 小时。此外,通过将实际的阀门位置作为观察结果提供给该策略,我们还学习了一种无需图像便能完成阀门转动任务的策略。Soft Actor-Critic 在 3 小时内即可学会这种更简单的阀门转动任务。相比之下,使用自然策略梯度的早期研究在学习同一项无图像任务时需耗时 7.4 小时。 



结论

我们的研究表明,基于最大熵框架的深度强化学习可用于在充满挑战的现实环境中学习机器人技能。由于直接在现实世界学习,这些策略对环境中的变化表现出鲁棒性,而其他方法则难以做到这一点。研究还证明,我们可以直接从高维度图像观察中学习,这对传统机器人而言是一项巨大挑战。我们希望 SAC 的发布能帮助其他研究团队努力将深度 RL 用于未来更复杂的现实任务中。 


如需了解更多技术详情,请访问 BAIR 博文(https://bair.berkeley.edu/blog/2018/12/14/sac/),或阅读移动实验的早期预印本以及更完整的算法描述。您可在 GitHub 找到本次实现过程(https://github.com/rail-berkeley/softlearning)。 



致谢

本研究由 Google 与加州大学伯克利分校合作完成。我们要感谢所有参与本次研究的人员,包括 Sehoon Ha、Kristian Hartikainen、Jie Tan、George Tucker、Vincent Vanhoucke 和 Aurick Zhou 等。



更多 AI 相关阅读:



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存