告别晦涩代码,如何拥有一个不编程也能干活的机器人?| X实验室
The following article is from 机器之能 Author 机器之能
机器人几乎可以做任何我们想做的事情,但前提是我们得确切地告诉它们,要完成的动作是什么以及如何完成。它们的每个动作都离不开工程师的精细编程。如果把一些不同的东西混合在物品堆里——比如一团形状不规则的电线——它们就无从下手。
AI 发展到今天,在「感知」和「控制」层面都已经取得了比较大的突破,但在「决策」层面,基于决策算法创新、能够在复杂决策系统中辅助和替代人力的 AI 项目仍然非常少。
在硅谷,有三位年轻的华人博士在「决策」层面有了不错的进展。他们曾在埃隆·马斯克联合硅谷大佬们建立的 AI 非营利组织 OpenAI 工作过一年半,是 AI 顶级研究者 Peter Abbeel 教授在 OpenAI 实验室的同事。今年 9 月,他们离开 OpenAI,创立了 Embodied Intelligence,目标是让机器人可以不用编程也能像人类一样干活。
本篇文章介绍了三人从出走 OpenAI 到创办运营 Embodied Intelligence 的历程。他们所研发的智能模块可以接入任何市面上的机器人。人们只要通过 VR 设备示范教学,机器人就可以持续追踪、学习人的手的运动轨迹,再通过强化学习让动作变得更高效。
无论从中国制造业的需求,还是从峰瑞资本过往投资的机器人公司的发展速度来看,这类项目在中国市场都存在潜力巨大的应用前景。
本月,Embodied Intelligence 宣布获得 700 万美元种子轮投资。本轮投资由 Amplify Partners 领投,峰瑞资本(FreeS Fund)、Lux Capital、SV Angels、11.2 Capital、A.Capital 跟投。其中,峰瑞资本是唯一的中方机构。
早在创始团队成员陈曦(Peter Chen)和 段岩(Rocky Duan) 读博之前,峰瑞资本创始合伙人李丰就和他们讨论过创业想法。除了对团队熟悉,他们也符合峰瑞资本在做跨境投资时的一贯特点——团队或创始人是中国人,以美国为起点,攻克技术难点和典型应用,并做出影响力,然后再调动在中国的行业资源,把技术和产品带到中国巨大的应用场景里。
在 AI、芯片、智能传感器和智能制造领域,峰瑞资本持续且坚定地在以下方向寻找投资机会:
围绕行业规模足够大的智能手机、智能汽车相关的传感器和芯片创新,及物联网和 5G 通讯行业的创新应用;
在 AI 能够显著提升效率,且数据量大、数据流通性好的领域,具有明显先进特征、明确应用场景的算法和创新应用;
新出现的技术方向,包括 AI 相关的异构计算及边缘计算;
基于决策算法、能够在复杂决策系统中辅助和替代人力的创新应用。
前 OpenAI 科学家辞职创立智能机器人公司,我们和他们的 CEO 聊了聊
来源 | 机器之能(微信公众号ID:almosthuman2017)
撰文 | 彭君韬(Tony)
编辑 | 刘燕
中国几乎是对工业机器人应用反应最为积极的市场之一。从采购量来看,中国从 2013 年起就已经成为最大的工业机器人购买国,2016 年的采购量增速高达 27%。中国之外,全世界卖出的 30 万台机器人中,还有一些去了韩国、日本、美国和德国。根据国际机器人联合协会的数据, 2016 年工业机器人销售额以增速 18% 达到 131 亿美元,而这一数字创了行业纪录。
需求的另一边,机器人也是创业热地。全球机器人创业公司在 2016 年的融资交易量,从 2015 年的 147 起增加到 174 起,增长了约 18%。其中,约 48% 的融资交易指向了创建以重工业、制造业为主的企业级机器人。越来越多的机器人创业公司不仅局限于本土市场,也开始把眼光盯向全球不同的国家市场。
2017 年 9 月,硅谷创业公司 Embodied Intelligence 成立。这家公司因由在强化学习领域颇有建树的 Pieter Abbeel 从 OpenAI 辞职并参与创办而备受关注。除了较强的技术实力,我们也留意到创始团队成员的中国背景,以及种子轮投资方引入的中方机构峰瑞资本(FreeS Fund)。不难看出,中国市场也会是这家公司未来的目标。公司 CEO 陈曦说,「我们正在国内积极寻找合作伙伴和应用场景。」
▲ Embodied Intelligence 团队,从左到右分别为陈曦(首席执行官)、Pieter Abbeel(总裁及首席科学家)、段岩(首席技术官)、张天浩(研究科学家)。
2016 年年初,加州伯克利大学的教授、机器人学习大牛 Pieter Abbeel,带着他的两个博士陈曦和段岩,加入了位于旧金山的非营利性人工智能(A.I.)研究机构 OpenAI。在过去的一年半里,他们三人参与并贡献了整个机构 40% 的论文发表,在强化学习和生成模型上做出了很多成绩。
陈曦在回忆这段光景的时候感叹道,「最大的收获是 ambition(志向),」他顿了顿,又改了口,「确切地说是 perspective(视野)。相比于学术界,OpenAI 很不一样,这里的研究拓展了你的视线,让你在想能不能跳出一个细小的问题,去想一个更长期的目标。」
陈曦慢慢明确了自己想达到的目标,以及实现这个目标的路径。2017 年 9 月,Abbeel、陈曦和段岩同时离开了 OpenAI,并拉上了前微软研究员 张天浩,成立了一家致力于研究智能机器人(学徒)的初创公司 Embodied Intelligence。
在外人眼里,机器人或许只是一堆拼装在一起的、能重复简单动作的硬件,但 Embodied Intelligence 希望赋予他们快速学习的能力,可以通过算法学习完成任务,并将自动化技术应用到世界范围内的工厂、仓库、甚至是家庭中。
「传统的机器人编程非常耗费时间,只有专业人员才能进行。」Embodied Intelligence 总裁、首席科学家 Abbeel 说,而「我们提供的智能模块可以接入任何市面上的机器人,让它们可以自然地学习新的技能,无需编写晦涩难懂的代码。」
▲ 安装智能模块后,机器人手臂可学习人类抓起可变形物体,无需晦涩难懂的编码。
创立之初,Embodied Intelligence 的办公地还在伯克利大学的机器人实验室,陈曦的博士生岁月几乎也都是在这里度过。除了其他研究员外,实验室还有一个叫做 Bred/Brett 的机器人。伯克利的学生们没少在它身上下功夫:教它捡东西、拼装、实物操作。
之后,成立仅两个月的 Embodied Intelligence 就获得了硅谷风险投资机构 Amplify Partners 和其他投资方的共 700 万美元的种子轮融资,其中包括一家来自中国的风投峰瑞资本(FreeS Fund)。
11 月初,公司从伯克利搬到了附近埃默里维尔市(Emeryville)。机器之心在他们的新办公室里,和公司CEO 陈曦聊了聊从出走 OpenAI 到开始创办运营一家公司的历程。
看得出陈曦很忙,采访的时候也很难无法完全放下手上的活儿,需要时不时地翻看一下笔记本上的代码和手机上的消息。不过他直言,从伯克利博士生,到 OpenAI 研究员,再到如今公司的 CEO,他并没有觉得很强烈的角色变换。「我们依然在做一个研究项目,只不过要实现落地的话,就需要建立一个公司。」
让机器人抓东西怎么就这么难?
传统工业机器人的痛点,是每一个想要做智能机器人创业公司的机会。
目前,工业机器人的硬件水准是无可挑剔的。市面上大部分机器人都可以达到百分之一毫米的精确度,而且一个三五十万的机械臂的耐久度至少是五至十年的时间。机器人可以完成批量地、重复的动作、在生产线上进行装配,满足刚性制造所需的大批量生产。
但传统机器人的每一个动作都需要工程师在背后进行精细的编程。从拿起一个元件,到装配到另一个元件上,编程需要考量诸如距离、角度这样的条件。很多在人类看来非常简单的动作,对机器人来说却是很大的挑战。
比如,将两个齿轮合在一起,人类只要拧一拧调整一下角度就可以轻松地将齿轮卡住,但机器人不这么觉得。如果用传统机械的方法,工程师需要准确的监测到两个齿轮之间的角度差异,然后来回进行转动让它完美地契合在一起,这立刻就变得变成一个很困难的工程问题。
▲ 传统工业机器人的高精度操作背后是工程师的精细编程。
「任何需要用眼来看,然后用手去进行适应性操作的行为,都是对传统机器人的挑战,」陈曦说。越来越多年轻人不愿意在工厂或者仓库里做这些枯燥的、重复的动作,但传统机器人又无法适应柔性的、可以随时变化操作的工业制造。陈曦想要在短时间内实现的是,机器人既可以组装齿轮,下一秒也可以去装备其他的元件或者完成其他的动作。
智能机器人的解决方法可以有很多。今年受机器人公司关注的由谷歌提出的自我监督模仿(Self-Supervised Imitation),通过一种叫时间对比网络(Time-Contrastive Networks)的神经网络,让机器人能够自我学习视频里的动作,比如倒水,或者站立。
陈曦则将希望寄托于深度强化学习。这种基于环境而行动、从而获得最大化利益的机器学习方法,在过去的两年时间里成功地让电脑学会了下围棋和打游戏。
2015 年,陈曦过去所在的伯克利机器人实验室,已经通过深度强化学习让机器人获得了一种类似于视觉肌肉记忆(Visual Motor Skills)的能力。人类在做很多动作时不会认真经过大脑思考。比如在人喝水前,并不会在脑海里提前画上一个从拿起杯子——转动杯子角度——将水倒入嘴里的草图,而是根据条件反射直接拿起杯子喝水。
这个过程并不复杂:深度神经网络就像人类的大脑一样,它能够处理视觉数据,让机器拥有模拟人类条件反射的能力;模拟之后,接下来就是训练机器的方法。利用深度强化学习,机器人能通过不断地试错和奖励机制找到学习这个动作的「窍门」。这种学习动作的过程不需要手把手的编程。
但是,两年前的方法最终只停留在理论阶段。机器人的深度强化学习需要一个引导设置,而不是漫无目的地试错,这就需要拥有强化学习知识的人才(主力是博士生)完成前期的编程和调试。一个大学里的实验室可以让几个博士生没日没夜的埋头苦干,但这显然不适用于工业界。
因此,直到两年后,陈曦的团队找到了能够落地的解决方案——模拟学习(Imitation Learning)。
用 VR 设备学习人类动作
消费级 VR 设备的出现,为很多 AI 公司提供了意外惊喜。Embodied Intelligence 使用了 VR 设备实现了机器人模拟学习的能力。据陈曦介绍,模拟学习的主要研究出自另一位联合创始人张天浩之手。
任何人带上 VR 设备,拿上遥控器,就相当于人在实时遥控一个机器人。机器人只需实时追踪 VR 设备的手的运动轨迹,VR 中的示范数据则将用来训练深度神经网络。在这个过程中,机器人持续地学习,直到它表示:「我学会了。现在我可以自己接手了。」整个过程只需要 30 分钟。按照 陈曦的话说,即使是这 30 分钟再乘上 100 倍,也比过去训练机器人动作的成本要小。
▲ Embodied Intelligence 借助 VR 设备,让机器向人学习。
这种方法具有很好的迁移性或者说适用性。即使是不同的动作,它背后的代码是一模一样的,包括 VR 的代码、收集示范动作的代码、训练的代码,以及神经网络学习的代码,都是一样的。唯一的不同只是示范的动作而已。
目前,Embodied Intelligence 的机器人学过时间最长的动作是将近一分钟,学习动作并没有明确的规定,大部分人类凭条件反射就能完成的动作,机器人都可以学习。但还不知道机器人是否能学习一些非常规的动作,比如上周波士顿动力机器人 Atlas 的后空翻。
完成模拟学习后,机器人依然需要强化学习的介入,让它能够继续进行自我学习。人类的动作有些时候并非最有效的,比如在走路时沿着一个弧线,这可能不是最优的结果,或者人在走路的时候会有一些颤抖也是很有可能的,但对一个机器人来说,通过强化学习可以让动作变得更加高效。
「近段时间 AI 领域的突破性进展已让机器人学会行走,通过反复试错学习操纵物体,以及从 VR 收集的示范数据来学习新的技能。但是,这些进展都局限于仿真或实验室环境。」Amplify Partners 合伙人 Sunil Dhaliwal 说,「Embodied Intelligence 团队推动了进展,而现在他们将把这些最前沿的人工智能和机器人领域的进展引进具体的应用场景中。」
据陈曦透露,这套基于模拟学习和强化学习的机器人应用将在明年投身工业界。通过这套流程,机器人可以轻松地学会广泛的技能,尤其在那些传统解决方案望而却步的应用领域,比如操纵可变形的物体——电线、丝料、布料、服装、液体包装、食品等,在不规则、杂乱环境中分拣、整理物品,复杂的拼装任务。而随着材料不规整程度的增加,以及个性化订单的增长,传统硬编码的方式尤其展现出其局限性。
只不过,Embodied Intelligence 的蓝图并不尽于此。
把机器人变得和人一样可教
「模拟学习+强化学习」是 Embodied Intelligence 能够在短期内提供的智能解决方案,元学习(Meta Learning)才是这家公司放眼未来五年到十年的核心。「机器人和人力的关键区别是『教』的成本,我们想把机器人变得和人一样可教。现阶段,我们只是在减少教的时间。」
什么是元学习?简答来说,就是让机器人学会一个学习策略。过去的深度学习是通过输入大量的数据得到一个结果,而元学习则是从少量数据中获得学习这类任务的方法。换言之,这也是一种体现在机器人上的通用人工智能(Artificial General Intelligence),也是为什么陈曦会将公司取名为Embodied(具现) Intelligence(智能)。
陈曦在元学习上已经有了一些研究上的成果。今年,陈曦联合他的导师在 arXiv 上发表了两篇关于元学习的论文。Meta Learning Shared Hierarchies 研究了一种用于学习层次结构化策略的元学习方法,通过使用共享基元提高未见任务的样本效率;另一篇 Meta-Learning with Temporal Convolutions 则提出了一类基于时间卷积的简单和通用的元学习器体系结构,这个结构不限领域,而且没有使用特定的策略或算法进行编码。
在陈曦设想的蓝图里,Embodied Intelligence 最终实现的智能机器人将同时拥有元学习和强化学习的能力。「强化学习在单一任务上表现的很好,元学习是让机器人掌握快速学习,这两者在未来是可以互补的。」
身在硅谷的陈曦面临的压力不小,除了像谷歌这样的科技巨头发力智能机器人外,不少初创公司也有这样的野心,在距离埃默里维尔市开车 20 分钟的联合城市(Union City),同样一家机器人公司 Vicarious.ai 在为实现具有人类智能的机器人夜以继日。该公司的 CTO Dileep George 曾告诉机器之心,他们选择了一条完全不同于深度学习和强化学习的路径——通过模拟人类的视觉皮质,结合生成模型,让机器能够模拟物体的结构,从而获得对物体本身的理解能力。而他们预期在 2040 年前后实现。
没有人能确定哪一条路能通往人工智能的终极圣杯。但从现在来看,带着伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了机器人科研的最前沿。
(欢迎转发朋友圈。本文来源机器之能,点击「阅读原文」可查看原文。)
▲ 李丰专栏 | 从iPhone X、智能音箱到新药研发、环境监测,我如何看待科技创新