麻省理工科技评论：机器人技术是否即将迎来自己的 ChatGPT 时刻？

Melissa 科睿研究院

2024-08-30

本文原文标题为：Is robotics about to have its own ChatGPT moment?

作者Melissa Heikkilä，《麻省理工科技评论》的资深记者，主要报道人工智能及其如何改变我们的社会。

沉默。僵硬。笨拙。

亨利和简·埃文斯已经习惯了接待那些令人尴尬的客人。十多年来，这对居住在加利福尼亚州洛斯阿尔托斯山的夫妇在家里养了很多机器人。

2002 年，40 岁的亨利突发严重中风，导致他四肢瘫痪，无法说话。从那时起，他学会了通过在字母板上移动眼睛来交流，但他高度依赖护理人员和他的妻子简。

2010 年，亨利在 CNN 上看到查理·坎普 (Charlie Kemp) 的节目后，看到了另一种生活。坎普是佐治亚理工学院的机器人学教授，当时他在电视上介绍 Willow Garage 公司开发的机器人 PR2。PR2 是一台巨大的双臂机器，长着轮子，看起来像一个粗糙的金属管家。坎普演示了机器人的工作原理，并谈到了他对医疗机器人如何帮助人们的研究。他展示了 PR2 机器人如何将药物递给电视主持人。

“突然间，亨利转向我并说道：‘为什么那个机器人不能成为我身体的延伸？’我说：‘为什么不呢？’”简说。

不这样做是有充分理由的。尽管工程师们在让机器人在实验室和工厂等严格控制的环境中工作方面取得了巨大进步，但事实证明，家庭设计起来很困难。在现实世界中，家具和楼层平面图千差万别；儿童和宠物可能会挡住机器人的路；需要折叠的衣服形状、颜色和尺寸各不相同。管理如此不可预测的环境和多变的条件已经超出了最先进的机器人原型的能力范围。

这种情况似乎终于有所改变，这在很大程度上要归功于人工智能。几十年来，机器人专家或多或少专注于通过专用软件控制机器人的“身体”——手臂、腿、杠杆、轮子等。但新一代科学家和发明家认为，人工智能之前缺失的要素可以让机器人以前所未有的速度学习新技能并适应新环境。这种新方法也许最终可以让机器人走出工厂，走进我们的家中。

然而，进步不会在一夜之间发生，埃文斯夫妇从他们多年使用各种机器人原型的经验中非常清楚地知道这一点。

PR2 是他们引进的第一款机器人，它为亨利开启了全新的技能。它可以拿着剃须刀，亨利可以将脸贴在剃须刀上，这让他十年来第一次可以自己刮胡子和挠痒痒。但是，这款机器人重约 450 磅（200 公斤），售价 40 万美元，很难随身携带。“它很容易把你家里的一堵墙都拆掉，”简说。“我不是它的忠实粉丝。”

最近，埃文斯夫妇一直在测试一款名为 Stretch 的小型机器人，这是坎普通过他的初创公司 Hello Robot 开发的。第一代机器人在疫情期间推出，价格要合理得多，约为 18,000 美元。

Stretch 重约 50 磅。它有一个小型移动底座、一根悬挂着摄像头的棍子，以及一个可调节的手臂，手臂末端有一个带吸盘的夹子。它可以通过控制台控制器进行控制。亨利使用笔记本电脑控制 Stretch，笔记本电脑上的一个工具可以跟踪他的头部运动，从而移动光标。他可以移动拇指和食指，足以点击电脑鼠标。去年夏天，Stretch 和这对夫妇在一起待了一个多月，亨利说，这让他的自主性达到了全新的水平。“它很实用，我每天都能看到它在用，”他说。

亨利·埃文斯 (Henry Evans) 使用 Stretch 机器人梳头、吃饭，甚至陪他的孙女玩耍。

使用笔记本电脑，他可以让机器人帮他梳头，并让机器人拿着水果烤串给他吃。这也打开了亨利和他的孙女泰迪的关系。之前，他们几乎没有互动。“她没有拥抱他再见。一点都没有，”简说。但“Wheelie 爸爸”和泰迪用 Stretch 玩耍，参加接力赛、保龄球和磁力钓鱼。

Stretch 并不具备太多智能：它预装了一些软件，比如 Henry 用来控制它的网络界面，以及其他功能，比如支持人工智能的导航。Stretch 的主要好处是人们可以插入自己的人工智能模型，并用它们做实验。但它让我们看到了一个拥有实用家用机器人的世界会是什么样子。自 20 世纪 50 年代机器人研究领域诞生以来，能够做人类在家中做的很多事情（比如折叠衣物、做饭和清洁）的机器人一直是机器人研究的梦想。长期以来，情况一直如此：“机器人领域充满了梦想家，”Kemp 说。

但加州大学伯克利分校机器人学教授肯·戈德伯格表示，该领域正处于一个转折点。他表示，之前打造实用家用机器人的努力显然未能满足大众文化的期望——想想《杰森一家》里的机器人女仆。现在情况大不相同了。得益于 Stretch 等廉价硬件，以及数据收集和共享的努力和生成式人工智能的进步，机器人正以前所未有的速度变得更加能干和有用。戈德伯格说：“我们现在已经非常接近获得真正有用的能力了。”

折叠衣物、烹饪虾、擦拭表面、卸下购物篮——当今的人工智能机器人正在学习完成前辈认为极其困难的任务。

缺失的部分

机器人专家中有一个著名的观点：对人类来说很难的事情对机器来说却很容易，对人类来说很容易的事情对机器来说却很难。这个悖论被称为莫拉维克悖论，最早由卡内基梅隆大学机器人研究所的机器人专家汉斯·莫拉维克在 20 世纪 80 年代提出。机器人可以下棋或连续数小时不动地保持物体不动，而系鞋带、接球或交谈则是另一回事。

戈德堡说，造成这种情况的原因有三个。首先，机器人缺乏精确的控制和协调能力。其次，它们对周围世界的理解有限，因为它们依赖摄像头和传感器来感知世界。第三，它们缺乏与生俱来的实际物理意识。

“拿起一把锤子，它很可能会从你的抓手上掉下来，除非你抓住它靠近较重的部分。但如果你只是看着它，你就不会知道这一点，除非你知道锤子的工作原理，”戈德堡说。

除了这些基本考虑之外，还有许多其他技术方面需要恰到好处，从电机到摄像头到 Wi-Fi 连接，而且硬件价格可能非常昂贵。

从机械角度来说，我们已经能够完成相当复杂的事情。在1957 年的一段视频中，两个大型机械臂非常灵活，可以夹起香烟，将其放在打字机前的女人嘴里，并重新涂上口红。但该机器人的智能和空间意识来自操作它的人。

在 1957 年的一段视频中，一名男子操作两只大型机械臂，用机器为一名女性涂抹口红。自那时起，机器人已经取得了长足的进步。

卡内基梅隆大学计算机科学助理教授迪帕克·帕塔克 (Deepak Pathak) 说：“缺失的部分是：我们如何让软件自动完成（这些事情）？”

训练机器人的研究人员传统上通过对机器人所做的每件事进行极其详细的规划来解决这个问题。

机器人巨头波士顿动力公司在开发其跳跃和跑酷人形机器人 Atlas 时就采用了这种方法。摄像头和计算机视觉用于识别物体和场景。然后，研究人员使用这些数据来制作模型，这些模型可以极其精确地预测机器人以某种方式移动时会发生什么。使用这些模型，机器人专家通过为机器人编写一个非常具体的操作列表来规划机器的运动。然后，工程师们在实验室中多次测试这些动作，并对其进行调整以达到完美。

这种方法有其局限性。经过这种训练的机器人只能在特定环境中严格工作。如果将它们带出实验室，带到一个陌生的地方，它们很可能会翻倒。

帕塔克表示，与计算机视觉等其他领域相比，机器人技术一直处于黑暗时代。但这种情况可能不会持续太久，因为该领域正在经历一场大变革。

他说，由于人工智能的蓬勃发展，人们的关注点现在从身体灵活性转向以神经网络的形式构建“通用机器人大脑”。就像人类大脑具有适应性并能控制人体的不同方面一样，这些网络可以适应不同的机器人和不同的场景。这项工作的早期迹象显示出令人鼓舞的结果。

机器人遇见人工智能

长期以来，机器人研究是一个无情的领域，进展缓慢。帕塔克在卡内基梅隆大学机器人研究所工作，他说：“曾经有一句话说，如果你接触机器人，你的博士学位就会增加一年。”现在，他说，学生们可以接触许多机器人，并在几周内看到结果。

这些新机器人的与众不同之处在于它们的软件。机器人专家不再进行传统的艰苦规划和训练，而是开始使用深度学习和神经网络来创建系统，这些系统可以随时从周围环境中学习并相应地调整自己的行为。与此同时，新的、更便宜的硬件，如现成的组件和像 Stretch 这样的机器人，使这种实验更容易实现。

总体而言，研究人员使用人工智能训练机器人有两种流行方式。帕塔克一直在使用强化学习，这是一种允许系统通过反复试验来改进的人工智能技术，可以让机器人适应新环境。波士顿动力公司也开始在其名为 Spot 的机器“狗”中使用这种技术。

卡内基梅隆大学的 Deepak Pathak 团队使用一种名为强化学习的人工智能技术创造了一只机器狗，它只需极少的预编程就可以进行极限跑酷。

2022 年，帕塔克的团队用这种方法制造了四足机器人“狗”，它们能够爬上台阶，穿越复杂的地形。这些机器人首先在模拟器中接受一般移动训练。然后，它们被放进现实世界，由一个内置摄像头和计算机视觉软件引导。其他类似的机器人依赖于严格规定的内部世界地图，无法超越这些地图进行导航。

帕塔克表示，该团队的方法受到人类导航的启发。人类通过眼睛获取有关周围世界的信息，这有助于他们本能地将一只脚放在另一只脚前面，以适当的方式四处走动。人类走路时通常不会低头看脚下的地面，而是向前看几步，看向他们想要去的地方。

帕塔克的团队训练机器人采用类似的行走方式：每个机器人都使用摄像头向前看。然后，机器人能够记住它前面的东西，并引导其腿部位置。机器人无需内部地图即可实时了解世界，并相应地调整其行为。当时，专家告诉《麻省理工技术评论》，该技术是“机器人学习和自主性的突破”，可以让研究人员制造出能够在野外部署的腿式机器人。

帕塔克的机器狗从此升级。该团队的最新算法使四足机器人能够进行极限跑酷。该机器人再次接受模拟训练，以一般方式四处移动。但通过强化学习，它能够在移动中自学新技能，例如如何跳远、用前腿行走以及爬上两倍于其高度的箱子。这些行为不是研究人员编程的。相反，机器人通过反复试验和前置摄像头的视觉输入进行学习。“三年前我不相信这是可能的，”帕塔克说。

另一种流行的技术称为模仿学习，模型通过模仿人类遥控机器人的动作或使用 VR 耳机收集机器人数据来学习执行任务。丰田研究院机器人研究副总裁兼麻省理工学院教授 Russ Tedrake 表示，这种技术在过去几十年中时而流行时而过时，但最近在执行操作任务的机器人中越来越受欢迎。

通过将这项技术与生成式人工智能相结合，丰田研究院、哥伦比亚大学和麻省理工学院的研究人员已经能够快速教会机器人执行许多新任务。他们相信他们已经找到了一种方法，将推动生成式人工智能的技术从文本、图像和视频领域扩展到机器人运动领域。

这个想法是从人类开始的，人类手动控制机器人演示打蛋或收拾盘子等行为。使用一种称为扩散策略的技术，机器人可以使用输入的数据来学习技能。研究人员已经教会了机器人 200 多种技能，例如削蔬菜和倒液体，并表示他们正在努力在年底前教授 1,000 种技能。

许多其他公司也利用了生成式人工智能。Covariant 是一家机器人初创公司，由 OpenAI 现已关闭的机器人研究部门分拆而来，它建立了一个名为 RFM-1 的多模态模型。它可以接受文本、图像、视频、机器人指令或测量形式的提示。生成式人工智能使机器人既能理解指令，又能生成与这些任务相关的图像或视频。

丰田研究院团队希望，有朝一日这将催生出类似于大型语言模型的“大型行为模型”，Tedrake 说道。“很多人认为行为克隆将使我们在机器人领域迎来 ChatGPT 时刻，”他说道。

今年早些时候，斯坦福大学的一个团队在一次类似的演示中，成功使用一个相对便宜的现成机器人（售价 32,000 美元）完成了烹饪虾和清洁污渍等复杂的操作任务。它借助人工智能快速学会了这些新技能。

这款机器人名为Mobile ALOHA（“低成本开源硬件远程操作系统”的缩写），它仅通过 20 次人类演示和其他任务（例如撕下纸巾或胶带）的数据就学会了烹饪虾。斯坦福大学的研究人员发现，人工智能可以帮助机器人获得可转移的技能：对一项任务的训练可以提高其在其他任务中的表现。

虽然当前一代生成式人工智能主要处理图像和语言，但丰田研究所、哥伦比亚大学和麻省理工学院的研究人员认为，这种方法可以扩展到机器人运动领域。

这一切都为家用机器人奠定了基础。人类的需求会随着时间而变化，教会机器人可靠地完成各种任务非常重要，因为这将有助于它们适应我们。这对于商业化也至关重要——第一代家用机器人的价格不菲，而且这些机器人需要具备足够的实用技能，才能让普通消费者愿意投资购买它们。

斯坦福大学计算机科学与电气工程系助理教授、Mobile ALOHA 项目顾问 Chelsea Finn 表示，长期以来，很多机器人社区都对这类方法持怀疑态度。Finn 说，近十年前，基于学习的方法在机器人会议上很少见，在机器人社区中也遭到贬低。“[自然语言处理] 的蓬勃发展让更多社区成员相信这种方法非常非常强大，”她说。

然而，有一个问题。为了模仿新的行为，人工智能模型需要大量的数据。

多多益善

与聊天机器人不同，聊天机器人可以使用从互联网上收集的数十亿个数据点进行训练，而机器人需要专门为机器人创建的数据。纽约大学计算机科学助理教授 Lerrel Pinto 说，机器人需要实际演示如何打开洗衣机和冰箱、如何拿起碗碟或如何折叠衣物。目前，这类数据非常稀缺，人类需要很长时间才能收集到。

“将机器人带回家”，NUR MUHAMMAD (MAHI) SHAFIULLAH 等人。

一些研究人员尝试利用现有的人类做事的视频来训练机器人，希望机器能够模仿人类的动作而无需物理演示。

Pinto 的实验室还开发了一种简洁、廉价的数据收集方法，将机器人运动与所需动作联系起来。研究人员拿了一根类似于捡垃圾的抓取器，并将 iPhone 连接到它上面。人类志愿者可以使用这个系统拍摄自己做家务的过程，模仿机器人对机械臂末端的视角。使用这个替代 Stretch 机械臂的替代品和一个名为 DOBB-E 的开源系统，Pinto 的团队能够让 Stretch 机器人学习诸如从杯子里倒水和拉开浴帘等任务，而只需要 20 分钟的 iPhone 数据。

但对于更复杂的任务，机器人需要更多的数据和更多的演示。

Pinto 说，DOBB-E 很难达到所需的规模，因为你基本上需要说服地球上的每个人购买抓取系统，收集数据并将其上传到互联网。

谷歌 DeepMind 发起的一项名为 Open X-Embodiment Collaboration 的新计划旨在改变这一现状。去年，该公司与 34 个研究实验室和约 150 名研究人员合作，收集了 22 种不同机器人的数据，其中包括 Hello Robot 的 Stretch。最终的数据集于 2023 年 10 月发布，其中包括展示 527 种技能的机器人，例如拾取、推动和移动。

参与该项目的加州大学伯克利分校计算机科学家 Sergey Levine 表示，该项目的目标是通过收集来自世界各地实验室的数据来创建一个“机器人互联网”。这将使研究人员能够访问更大、更具可扩展性和更多样化的数据集。导致当今生成式人工智能的深度学习革命始于 2012 年，当时ImageNet兴起，这是一个庞大的在线图像数据集。Open X-Embodiment Collaboration 是机器人社区对机器人数据进行类似处理的一次尝试。

早期迹象表明，更多的数据将带来更智能的机器人。研究人员为机器人构建了两个版本的模型，称为 RT-X，既可以在各个实验室的计算机上本地运行，也可以通过网络访问。更大的、可通过网络访问的模型已使用互联网数据进行预训练，以从大型语言和图像模型中开发出“视觉常识”，即对世界的基线理解。

当研究人员在许多不同的机器人上运行 RT-X 模型时，他们发现这些机器人学习技能的成功率比每个实验室开发的系统高出 50%。

“我认为没人能预见到这一点，”谷歌 DeepMind 机器人技术负责人 Vincent Vanhoucke说道。“突然间，出现了一条利用所有这些其他数据源来实现机器人智能行为的途径。”

Vanhoucke 表示，许多机器人专家认为，能够分析图像和语言数据的大型视觉语言模型可能会为机器人提供重要提示，帮助它们了解周围世界的运作方式。它们提供有关世界的语义线索，可以帮助机器人推理、推断事物并通过解释图像进行学习。为了测试这一点，研究人员拿了一个在大型模型上接受过训练的机器人，并要求它指向一张泰勒·斯威夫特的照片。Vanhoucke 表示，研究人员没有向机器人展示斯威夫特的照片，但它仍然能够识别这位流行歌星，因为即使数据集中没有她的照片，它也能从网络层面了解她是谁。

RT-2 是一种最新的机器人控制模型，它根据在线文本和图像以及与现实世界的交互进行训练。

Vanhoucke 表示，谷歌 DeepMind 越来越多地使用类似于机器翻译的技术，将英语翻译成机器人语言。去年夏天，谷歌推出了一个名为 RT-2 的视觉-语言-动作模型。该模型从经过训练的在线文本和图像以及其自身在现实世界中的互动中获得对世界的一般理解。它将这些数据转化为机器人动作。他补充说，每个机器人将英语翻译成动作的方式略有不同。

“我们越来越觉得机器人本质上就是说机器人语言的聊天机器人，”Vanhoucke 说。

循序渐进

尽管发展速度很快，但在投入现实世界之前，机器人仍面临许多挑战。对于普通消费者来说，它们仍然太笨重，不值得花费数万美元购买。机器人还缺乏能够进行多任务处理的常识。戈德堡说，它们需要从捡起东西并将它们放在某处转变为将东西放在一起——例如，将一副牌或一个棋盘游戏放回盒子里，然后放进游戏柜里。

但 Pinto 表示，从人工智能融入机器人的早期成果来看，机器人专家并没有浪费时间。

“我非常有信心，我们将会看到某种类似通用家用机器人的机器人。那么，它会向公众开放吗？我认为不会，”他说。“但就原始智能而言，我们现在已经看到了一些迹象。”

制造下一代机器人可能不仅仅能帮助人类完成日常家务，或帮助像亨利·埃文斯这样的人过上更独立的生活。对于像平托这样的研究人员来说，他们还有更大的目标。

他说，家用机器人为人类水平的机器智能提供了最佳基准之一。他补充说，人类可以在家庭环境中智能地操作，这一事实意味着我们知道这是可以达到的智能水平。

“这是我们有可能解决的问题。我们只是不知道该如何解决，”他说。

多亏了 Stretch，亨利·埃文斯 20 年来第一次能够拿着自己的扑克牌。

对于亨利和简·埃文斯来说，获得一个可靠的机器人就是一大胜利。埃文斯夫妇试验的 Stretch 机器人仍然有太多缺陷，如果没有研究人员在场排除故障，就无法使用，而且他们家里并不总是有亨利需要的可靠 Wi-Fi 连接，以便使用笔记本电脑与 Stretch 进行通信。

即便如此，亨利表示，他使用机器人进行实验的最大好处之一就是独立性：“我所做的一切就是躺在床上，现在我可以自己做一些涉及操纵物理环境的事情。”

多亏了 Stretch，二十年来亨利第一次能够在比赛中拿着自己的扑克牌。

他说：“我多次打败了每个人。”

“好吧，我们就不要在这里说太多了，”简笑着说道。

科睿研究院最早成立于中国香港特别行政区，是国际科学与人文科学院（International Core Academy of Sciences and Humanities）建设的综合性研究机构，致力于搭建学术界与社会间高效沟通的桥梁，将前沿的学术研究成果赋能至新时代社会发展。

作为科睿研究院主办的官方号，我们致力于打造高质量知识交流平台：持续推出与当代社会相关的洞察分析与时事评论，定期发布高质量专栏文章与交流活动，并推送有价值的学术资源和最新资讯。同时，学院积极欢迎读者们的踊跃来稿，参与我们的知识传递之旅中！

往期推荐

全球芯片大战：为什么芯片如此重要？

距奥运会开幕不到两个月，巴黎还能兑现其奥运承诺吗？

经济溃败、政坛地震，67岁苏林成为越南国家主席

哈佛商业评论：工程师为什么要学习哲学？

素材来源官方媒体/网络新闻

继续滑动看下一个

科睿研究院

向上滑动看下一个

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

麻省理工科技评论：机器人技术是否即将迎来自己的 ChatGPT 时刻？

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

麻省理工科技评论：机器人技术是否即将迎来自己的 ChatGPT 时刻？

您可能也对以下帖子感兴趣