伯克利新无监督强化学习方法：减少混沌所产生的突现行为

Original CSDN App AI科技大本营 2020-02-17

作者 | Glen Berseth

译者 | Arvin

编辑 | 夕颜

出品 | AI科技大本营（ID: rgznai100）

【导读】所有生命有机体都在环境中占据一席之地，使它们在周围不断增加的熵中可以保持相对可预测性。例如，人类竭尽全力保护自己免受意外袭击--我们成千上万的人团结起来，在城市建造房屋，提供水、食物、天然气和电力，以阻止我们的身体和生活空间在冷热、风雨及风暴中恶化。为了发现和维持这种非意外的平衡，推动了生物的机智和技能的发展，这在多样化的自然生境中随处可见。受此启发，我们提出这个问题：在混沌中维持秩序的动机能否引导人工智能中有用行为的自动习得？

在没有外部监督的情况下，环境中的智能体如何获得复杂的行为和技能？人工智能的这一中心问题引发了几种候选解决方案，主要集中在寻求新奇行为。在诸如视频游戏之类的模拟世界中，寻求新颖性的内在动机可能导致有趣而有意义的行为。但是，现实世界可能根本缺乏这些环境。在现实世界中，自然力量和其他智能体提供了丰富的新颖性。

取而代之的是，自然环境中的挑战是同化作用：重在发现使智能体能够维持平衡（同化作用）的行为，例如保持其身体健康，家园安全并躲避掠食者和饥饿等。在下面的示例中，我们在其中展示了智能体由于天气的变化而遇到随机事件。如果智能体能学会建造庇护所（在这种情况下为房屋），则智能体受到的天气影响将减少。

我们将动态稳定化作为基于意外最小化（SMiRL）的强化学习的目标。当熵和动态环境的意外可控时，使意外最小化（即使新颖性最小化）会促使智能体自然地寻求可以稳定维持的平衡。

在这里，我们用上图展示基于SMiRL的智能体交互循环。当智能体观察到状态s，则在给定智能体具有rt←pθt−1(s)信念的情况下，它会计算这个新状态出现的概率。这种信念模拟了智能体最熟悉的状态，即过去所见状态的分布。体验更熟悉的状态会带来更高的回报。智能体经历新状态后，它将更新其信念pθt−1(s)来囊括最新的经验。然后，行动策略π(a|s,θt)的目标是去选择会导致智能体始终经历熟悉状态的操作。至关重要的是，智能体了解其信念会在未来发生变化。这意味着它有两种机制可以最大化这种奖励：采取行动访问熟悉的状态，以及采取行动访问将改变其信念的状态，从而使未来的状态更加熟悉。正是后者机制导致了复杂的紧急行为。

下面，我们将可视化玩俄罗斯方块游戏的策略。在左侧显示智能体选择的块，在右侧显pθt(s)。我们可以看到随着情节的进展，人们对可能放置块的位置的信念往往只倾向于最下面一行。这鼓励了智能体消除障碍物以防止板子填满。

上：俄罗斯方块。下：pθt(s)

突现行为

SMiRL智能体演示了在许多不同环境中有意义的紧急行为。在俄罗斯方块环境中，智能体可以学习主动行为以消除行并正确玩游戏。该智能体还学习了毁灭战士环境中的紧急游戏行为，从而获得了一种有效的策略来躲避敌人扔出的火球。在这两种环境中，随机事件和混乱事件都迫使SMiRL智能体采取协调的行动方针，以避免异常状态，例如完整的俄罗斯方块棋盘或火球探测。

上：Doom死守战术，下：Doom防守

两足动物

在悬崖环境中，智能体可以学习一种策略，该方法可以通过靠在地面上并在边缘保持稳定来大大降低从悬崖上掉下的可能性。在跑步机环境中，SMirl学习到更复杂的运动行为，向前跳以增加其在跑步机上的停留时间。

左：悬崖，右：跑步机

与内在动机的比较

内在动机是这样一种想法，即行为是由独立于任务的内部奖励信号驱动的。下面，我们显示了随着时间的推移，俄罗斯方块、毁灭战士和类人动物域上特定于环境的奖励的图表。为了将SMiRL与更标准的内在动机方法进行比较，后者可以找出使惊奇或新颖性最大化的状态，我们还评估了ICM 和RND 。我们包括一个直接优化任务奖励的先知智能体。

在俄罗斯方块上，经过2000代的训练，SMirl达到了完美的发挥，与先知奖励优化的智能体相提并论，没有死亡。ICM通过创建越来越多不同的积木模式而不是清除积木来寻求新颖性，从而导致游戏分数随着时间的推移而恶化。在毁灭战士上，SmiRL有效地学会了躲避对手投掷的火球。悬崖和跑步机环境的基线比较结果相似。ICM寻求新颖性的行为使它学习到一种不规则行为，该行为使智能体跳下悬崖并在跑步机上滚来滚去，从而最大程度地降低了跌倒的次数（和次数）。

SMiRL +好奇心

从表面上看，SMirl可以最大程度地减少意外，而好奇心的方法（例如ICM）可以最大限度地提高新颖性，但实际上它们并不是相互兼容的。特别是，虽然ICM在学习型迁移模型方面最大程度地提高了新颖性，但SMiRL在学习型状态分布方面却最大程度地减少了意外。我们可以将ICM和SMiRL结合使用，以在跑步机环境中获得更好的结果。

关键见解

我们的方法所利用的关键见解是，与简单的模拟域相比，现实环境展现出动态现象，随着时间的推移，这种现象逐渐增加了熵。阻止这种熵增长的主体必须采取积极和协调的行动，从而学习越来越复杂的行为。这不同于通常提出的基于新颖性的内在探索方法，后者试图达到新的状态并增加熵。SMiRL为一种新型的无监督RL方法带来了希望，该方法产生的行为与环境中的主要破坏力，对手和其他熵源紧密相关。

原文链接：

https://bair.berkeley.edu/blog/2019/12/18/smirl/

（*本文为AI科技大本营翻译文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

2020年，由 CSDN 主办的「Python开发者日」活动（Python Day）正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作，联手顶尖企业、行业与技术专家，通过精彩的技术干货内容、有趣多元化的活动等诸多体验，共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来，我们和中国万千开发者一起分享技术、践行技术，铸就中国原创技术力量。

【Python Day——北京站】现已正式启动，「新春早鸟票」火热开抢！2020年，我们还将在全国多个城市举办巡回活动，敬请期待！

活动咨询，可扫描下方二维码加入官方交流群~

CSDN「Python Day」咨询群 🔽

来~一起聊聊Python

如果群满100人，无法自动进入，可添加会议小助手微信：婷婷，151 0101 4297（电话同微信）

推荐阅读

你点的每个“在看”，我都认真当成了AI

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！