强化学习新方法，让后空翻回旋踢再也难不倒机器人 | 伯克利论文 | 自由微信

其他

强化学习新方法，让后空翻回旋踢再也难不倒机器人 | 伯克利论文

2018-04-11 关注前沿科技 量子位

夏乙发自凹非寺
量子位出品 | 公众号 QbitAI

波士顿动力人形机器人的后空翻技能亮相时，惊艳了全球群众。

这么复杂的动作，不用说现实世界中的机器人，就算是在模拟器里，学起来也非常的难。

现在，加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法，能教生活在模拟器中的机器人通过模仿人类，学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的，轻轻松松搞定~

（下文还会提到很多次“机器人”，基本都是生活在模拟器里的这种）

https://v.qq.com/txp/iframe/player.html?vid=m0627q9igjr&width=500&height=375&auto=0

让机器人、动画和游戏角色能灵活流畅地运动，是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长，当然也各有所短。

用强化学习方法教机器人（模拟器里的智能体），能学会的动作花样繁多，细致到拿东西、豪放到奔跑都能搞定，还可以给机器人设置一个明确的目的。但是，总难免上演一些羞耻或惊喜play。

而动作捕捉技术，能让机器人做出和真人一模一样，自然流畅毫无违和感的动作。但是，活学活用是不能指望的，每个动作、每个形态的机器人，都是需要单独训练的。

伯克利的科学家们取这两个领域所长，创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性，可以覆盖更多的动作类型和机器人形态，动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法，机器人究竟是怎么学习新动作的呢？

简单来说是通过看动作片段来学习，人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本，比如说下图这个侧空翻，右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^₀,q^₁,…,q^_T的序列，q^_T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标，就是要尽可能消灭t时间步的实际动作q_T和目标动作q^_T的差距。

机器人勤劳地不停练习练习练习，直到自己的动作不再羞耻，灵活性和仿真度能够媲美演示视频，像上图左侧那样。

指导这个练习过程的，是这样一个奖励函数：

除了空翻，用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺：

对着完美的动作捕捉样本，再copy一遍，有什么意思？这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后，再活学活用起来。

比如当一个机器人学会了投球，就可以去执行一个演示样本中没有的任务。我们可以在模拟器中，指定一个目标让它来投：

训练的机器人，也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本，可以训练一个模拟波士顿动力Altas的机器人：

甚至不是人形的机器人，也可以用人形样本来训练。比如说这头霸王龙，就是跟人形样本学习的走路。在论文的主页上，他们还展示了更多的例子，甚至还有狮子和龙~

要更深入地了解DeepMimic，请看论文：

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

作者：Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne

PDF：https://arxiv.org/abs/1804.02717

https://arxiv.org/pdf/1804.02717.pdf

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

活动报名

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足