伯克利新无监督强化学习方法:减少混沌所产生的突现行为
【导读】所有生命有机体都在环境中占据一席之地,使它们在周围不断增加的熵中可以保持相对可预测性。例如,人类竭尽全力保护自己免受意外袭击--我们成千上万的人团结起来,在城市建造房屋,提供水、食物、天然气和电力,以阻止我们的身体和生活空间在冷热、风雨及风暴中恶化。为了发现和维持这种非意外的平衡,推动了生物的机智和技能的发展,这在多样化的自然生境中随处可见。受此启发,我们提出这个问题:在混沌中维持秩序的动机能否引导人工智能中有用行为的自动习得?
在没有外部监督的情况下,环境中的智能体如何获得复杂的行为和技能?人工智能的这一中心问题引发了几种候选解决方案,主要集中在寻求新奇行为。在诸如视频游戏之类的模拟世界中,寻求新颖性的内在动机可能导致有趣而有意义的行为。但是,现实世界可能根本缺乏这些环境。在现实世界中,自然力量和其他智能体提供了丰富的新颖性。
取而代之的是,自然环境中的挑战是同化作用:重在发现使智能体能够维持平衡(同化作用)的行为,例如保持其身体健康,家园安全并躲避掠食者和饥饿等。在下面的示例中,我们在其中展示了智能体由于天气的变化而遇到随机事件。如果智能体能学会建造庇护所(在这种情况下为房屋),则智能体受到的天气影响将减少。
我们将动态稳定化作为基于意外最小化(SMiRL)的强化学习的目标。当熵和动态环境的意外可控时,使意外最小化(即使新颖性最小化)会促使智能体自然地寻求可以稳定维持的平衡。
在这里,我们用上图展示基于SMiRL的智能体交互循环。当智能体观察到状态s,则在给定智能体具有rt←pθt−1(s)信念的情况下,它会计算这个新状态出现的概率。这种信念模拟了智能体最熟悉的状态,即过去所见状态的分布。体验更熟悉的状态会带来更高的回报。智能体经历新状态后,它将更新其信念pθt−1(s)来囊括最新的经验。然后,行动策略π(a|s,θt)的目标是去选择会导致智能体始终经历熟悉状态的操作。至关重要的是,智能体了解其信念会在未来发生变化。这意味着它有两种机制可以最大化这种奖励:采取行动访问熟悉的状态,以及采取行动访问将改变其信念的状态,从而使未来的状态更加熟悉。正是后者机制导致了复杂的紧急行为。
下面,我们将可视化玩俄罗斯方块游戏的策略。在左侧显示智能体选择的块,在右侧显pθt(s)。我们可以看到随着情节的进展,人们对可能放置块的位置的信念往往只倾向于最下面一行。这鼓励了智能体消除障碍物以防止板子填满。
突现行为
两足动物
与内在动机的比较
SMiRL +好奇心
关键见解
(*本文为AI科技大本营翻译文章,转载请微信联系 1092722531)
◆
精彩推荐
◆
2020年,由 CSDN 主办的「Python开发者日」活动(Python Day)正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作,联手顶尖企业、行业与技术专家,通过精彩的技术干货内容、有趣多元化的活动等诸多体验,共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来,我们和中国万千开发者一起分享技术、践行技术,铸就中国原创技术力量。
如果群满100人,无法自动进入,可添加会议小助手微信:婷婷,151 0101 4297(电话同微信)