李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

Original: 关注前沿科技量子位 2019-06-30

栗子夏乙发自凹非寺
量子位报道 | 公众号 QbitAI

聚精会神，紧盯电脑屏幕上的一支机械臂，捧着手机：移动、下降、抓住，抬起！

别误会，这位小姐姐并不是在远程抓娃娃，而是在为机器人创造学习资料。

在她和她的同道中人教育下，你将看到会端锅、会堆积木、会把螺丝螺帽组装在一起、甚至还会分拣物品的机器人。

从“抓娃娃”，到机器人学会种种技能，这两件看起来毫无关系的事情之间，斯坦福大学计算机视觉与学习实验室的一个团队正在用两项研究搭建桥梁。而带领这个团队的，正是最近从Google回到斯坦福教学岗位的李飞飞和她的丈夫 Silvio Savarese。

我们先来看第一项研究，也就是这个“抓娃娃”的系统。

“抓娃娃”

前面看到的“抓娃娃”平台，名叫RoboTurk。现在，人类已经用它已经为机器人生产了137.5小时的教学视频，演示了3224次抓取、组装物品的动作。其中，有1071次成功的抓取，1147次成功的组装。

听起来很多？其实做起来并不难，生产这么多的教学资料，总共只用了22小时。

李飞飞团队说，这是因为他们的RoboTurk，本来就是个快速众包制造大规模机器人控制数据集的利器。

RoboTurk到底怎么用呢？

这个平台的一端，是要训练机器人的科学家们。他们根据自己的研究目的，用物理模拟器来创建任务，部署到云端，就可以在世界各地征集人类、创造数据集了。

李飞飞的团队甚至在设计、测试这个平台的时候就已经帮你亲测过了：他们把机器人模拟器放在北京的服务器上，然后在太平洋对岸的加利福尼亚的实验室里，通过RoboTurk来控制它们。

平台的另一端，是为机器人创造教学资料的人类们。

这些人类，需要一只iPhone（6s及以后的机型）和一台装了浏览器、能上网的电脑。

打开手机上的RoboTurk App，输入网页上显示的ID，就可以用手机控制云端环境里相应的机器人了，在电脑上的浏览器里看到实时反馈的视频。

这些演示过程，都会存储在云端，供科学家们用来训练强化学习算法，训练成功后，就可以部署这些算法，让它们去控制机器人了。

这个团队自己，就用MoJoCo模拟器创建了两个环境：

一个训练机器人学分拣（picking），把桌上的物体抓起放到旁边不同的小盒子里；另一个让机器人学组装（assembly），把螺帽放到正确的螺栓上。

看完这些介绍和例子，可不要对RoboTurk有什么误会。它并不是只能控制MoJoCo模拟出来的机器人，其他模拟器、环境，也同样可以用，甚至……

真正的实体机器人，也完全没问题。

Follow Me, Robot

这些大费周章的抓娃娃式训练，究竟是为了什么呢？当然是为了让机器人更快学会更多新技能。

想让机器人学会抓取、组装物品，模仿人类是种不错的方法，这种方法叫“模仿学习”（Imitation learning），在最近机器人研究中越来越常见。

但是，这种方法有一种天生的局限：它和AI学会给图像分类一样，也需要很多标注好的数据。

AI研究的不少子领域都有很充足的数据：图像识别领域有ImageNet，目标检测有COCO，机器问答有SQuAD。这几个领域的发展，都离不开这些数据集的滋润。

而机器人控制……却没有类似的大规模数据集，实验室要想研究模仿学习，只能自己零零星星地去收集数据。RoboTurk平台，就是为了让科学家们更快收集数据而生。

发布平台的同时，李飞飞夫妇的团队还发布了一个RoboTurk数据集，就是我们前面提到的137.5小时的教学视频。

虽然规模稍小，但也称得上机器人界ImageNet的雏形了。

分布式，学得更快

有了“机器人界的ImageNet”之后，想要快速训练出厉害的机器人，算法本身也得学得快才行。

所以，还是飞飞实验室，又开源了分布式强化学习训练框架SURREAL，用来加速学习过程。

训练成果很丰盛，机械臂用两个手指，就可以执行各种操作：

第一，捡起一个方块，这是最基础的操作。

动了位置，机械臂也能速速跟过去。

第二，增加一点难度，叠罗汉。

它学会了，用手里的红方块，来调整底座绿方块的位置，然后更加稳妥地把红方块放上去。

第三，把不同质地的多个重物，分别放入所属的格子。

红色易拉罐，蓝色纸盒，白色利乐包，黄褐色的 (可能是) 面包。对号入座，不会放错。

下面，是双手技能的展示时间。

两只机械臂要各自完成不同的动作，互相配合，并不简单。

第一项任务，插入，插入 (上图) 。

第二项任务，按形状插入。

目前，这还不是双手技能，但也可以进化成双手技能。

正方形的插孔，对应正方形的柱子；圆形插孔对应圆柱。

只有物理性质匹配，才能获得更加长久的幸福。

除此之外，生活也少不了柴米油盐。至少，先把锅端起来。

熟练的操作，当然不是与生俱来。

就像婴儿学步，日复一日，愈发矫健。

回过头去，看看训练之初的机器人，双手几乎没有一丝协调性。

五个多小时后，插入操作已经毫无压力，孺子可教。

团队还发现，用SURREAL框架搭配上文的RoboTurk数据集服用，让人类教练来“手把手”训练机器人，疗效要比不经人类调教的AI好得多：

果然，没有看过人类演示的AI (左) ，虽然能找到锅的两个把手，但还是提不起来。

有了人类教练的指点 (右) ，端起锅来就不难了。

那么看一下，这个能够高效训练技能的框架SURREAL，长什么样子：

SURREAL框架，把一个分布式RL算法，分解成四个部分 (图中由左向右) ：

一是演员 (Actors) ，负责生成经验；

二是缓冲池 (Buffer) ，负责储存经验；

三是学习者 (Learner) ，根据经验来更新参数；

四是参数服务器 (Parameter Server) ，负责储存参数。

演员部分，是多个演员是并行 (Parallel) 的，16个，32个，64个……都可以。

这样一来，AI可用的数据量，能够猛烈增长。

把数据生成和学习过程分开，不需要全局同步 (Global Synchronization) 了，可扩展性 (Scalability) 也就增强了。

另外，框架支持在线 (On-Policy) 和离线 (Off-Policy) 两种策略更新方式。

团队说，系统可以直接部署在云端或者PC端 (如谷歌云、AWS、Azure) ，轻而易举，只需4层：

第一层，从配置器 (Provisioner) 开始，保障各个云平台的可复现性。
第二层，编配 (Orchestrator) ，用一个完善的云API来分配CPU/GPU资源，复制网络。
第三层，协议 (Protocal) 实现了高效的通信指令。
第四层，就是算法，用PyTorch实现的。

李飞飞夫妇的实验室

这两项研究背后，都是李飞飞夫妇的计算机视觉与学习实验室（SVL Lab）。众包平台RoboTurk，由他们的博士生Ajay Mandlekar主导；

△ RoboTurk团队

而SURREAL项目，共同一作是两位博士生Linxi Fan和Yuke Zhu。

△ SURREAL团队

关于Ajay同学，网络上资料并不多。不过，Linxi Fan和Yuke Zhu两位同学就足够大家学(mo)习(bai)了。

他们现在分别已经读到了博士的第三年和第四年，都积累了非常丰富的实习经历。

我们先来看看Linxi Fan同学：

读博第三年的他，2017年暑假在Google实习，跟着李飞飞、李佳和研究院Mei Han等人，研究神经架构和超参数的元学习。

之前，他还在参与过斯坦福NLP组、OpenAI、Yoshua Bengio带领的MILA、百度AI实验室、王弢和吴恩达带领的斯坦福自动驾驶项目等等。

在他的主页，你会看到更多勤奋的履历：

http://jimfan.me/

而Yuke Zhu，2017年暑假在DeepMind实习，之前的实习路程经过了艾伦人工智能研究院（AI2）、Snap、Twitter等等公司。

对于两项研究的最后两位作者，也是团队的指导老师，你们应该都很熟悉了。就是计算机视觉界的国民女神李飞飞，和她的丈夫、斯坦福大学副教授Silvio Savarese。

他们的实验室，除了上面两个项目之外，还有训练机器人在人群之中穿梭的JACKRABBOT，想训练AI从视频中识别人类行为的大规模数据集ACTIVITYNET等等研究。这些研究背后，是这样一群人类：

传送门：

最后，量子位当然会为爱学习的朋友们送上这些研究的传送门，请收好~

众包平台RoboTurk：

主页 https://crowdncloud.ai/

论文 RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation
http://vision.stanford.edu/pdf/mandlekar2018corl.pdf

加速训练的SURREAL：

主页 https://surreal.stanford.edu/

论文 SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark
https://surreal.stanford.edu/img/surreal-corl2018.pdf

这两项研究的论文，都发表在马上要在苏黎世进行的CoRL 2018大会上。

这个大会的全称是机器人学习大会（Conference on Robot Learning），由UC Berkrley、Google、微软、CMU、MIT等顶尖研究机构发起，Google、DeepMind、瑞士科研基金会（SNF）、Facebook、博世等赞助，自诞生起就被学界寄予厚望，今年是第二届。

在这里，你可以看到更多有趣的机器人研究项目：
http://www.robot-learning.org/home/program#schedule

Enjoy~

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

活动策划招聘

量子位正在招聘活动策划，将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入，并希望你能有一些活动策划或运营的相关经验。相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

西班牙街头一幕！国王遭民众围攻

今天，石狮这所小学向全市展示！

跟着总书记的考察足迹｜瞰孝感

封阿哲！爆瓜回YY！童锦程@阿哲吹牛P！给画面，哲领女歌手刷旭旭宝宝！

戴上这个耳机，终于不用担心睡不好觉啦！

李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

栗子夏乙发自凹非寺
量子位报道 | 公众号 QbitAI

“抓娃娃”

Follow Me, Robot

分布式，学得更快

李飞飞夫妇的实验室

△ RoboTurk团队

△ SURREAL团队

传送门：

您可能也对以下帖子感兴趣

西班牙街头一幕！国王遭民众围攻

今天，石狮这所小学向全市展示！

跟着总书记的考察足迹｜瞰孝感

封阿哲！爆瓜回YY！童锦程@阿哲吹牛P！给画面，哲领女歌手刷旭旭宝宝！

戴上这个耳机，终于不用担心睡不好觉啦！

生成图片，分享到微信朋友圈

李飞飞夫妇打造了两件秘密武器，让机器人快速学习人类技能

栗子 夏乙 发自 凹非寺量子位 报道 | 公众号 QbitAI

“抓娃娃”

Follow Me, Robot

分布式，学得更快

李飞飞夫妇的实验室

△ RoboTurk团队

△ SURREAL团队

传送门：

您可能也对以下帖子感兴趣

栗子夏乙发自凹非寺
量子位报道 | 公众号 QbitAI