其他

强化学习新方法,让后空翻回旋踢再也难不倒机器人 | 伯克利论文

2018-04-11 关注前沿科技 量子位
夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

波士顿动力人形机器人的后空翻技能亮相时,惊艳了全球群众。

这么复杂的动作,不用说现实世界中的机器人,就算是在模拟器里,学起来也非常的难。

现在,加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法,能教生活在模拟器中的机器人通过模仿人类,学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的,轻轻松松搞定~

(下文还会提到很多次“机器人”,基本都是生活在模拟器里的这种)

https://v.qq.com/txp/iframe/player.html?vid=m0627q9igjr&width=500&height=375&auto=0

让机器人、动画和游戏角色能灵活流畅地运动,是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长,当然也各有所短。

用强化学习方法教机器人(模拟器里的智能体),能学会的动作花样繁多,细致到拿东西、豪放到奔跑都能搞定,还可以给机器人设置一个明确的目的。但是,总难免上演一些羞耻或惊喜play。

而动作捕捉技术,能让机器人做出和真人一模一样,自然流畅毫无违和感的动作。但是,活学活用是不能指望的,每个动作、每个形态的机器人,都是需要单独训练的。

伯克利的科学家们取这两个领域所长,创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性,可以覆盖更多的动作类型和机器人形态,动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法,机器人究竟是怎么学习新动作的呢?

简单来说是通过看动作片段来学习,人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本,比如说下图这个侧空翻,右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列,q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标,就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习,直到自己的动作不再羞耻,灵活性和仿真度能够媲美演示视频,像上图左侧那样。

指导这个练习过程的,是这样一个奖励函数:

除了空翻,用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺:

对着完美的动作捕捉样本,再copy一遍,有什么意思?这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后,再活学活用起来。

比如当一个机器人学会了投球,就可以去执行一个演示样本中没有的任务。我们可以在模拟器中,指定一个目标让它来投:

训练的机器人,也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本,可以训练一个模拟波士顿动力Altas的机器人:

甚至不是人形的机器人,也可以用人形样本来训练。比如说这头霸王龙,就是跟人形样本学习的走路。在论文的主页上,他们还展示了更多的例子,甚至还有狮子和龙~

要更深入地了解DeepMimic,请看论文:

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

作者:Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne

PDF:https://arxiv.org/abs/1804.02717

   https://arxiv.org/pdf/1804.02717.pdf

作者系网易新闻·网易号“各有态度”签约作者


活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存