具身智能成败之战:由数据瓶颈引发的重大挑战
【导读】具身智能将人工智能集成到机器人等物理实体中,使它们能够感知、学习并动态地与环境互动。这种能力使这些机器人能够在社会中有效地提供商品和服务。在本文中,作者将互联网行业的数据价值与具身智能中的数据价值进行比较,以估算具身智能数据的潜在价值。此外,还探讨了具身智能发展中由数据瓶颈引发的重大挑战,并研究了旨在克服这些障碍的创新数据采集和生成技术。
数据在互联网和机器人领域都是一种关键的货币化工具。我们通过将互联网行业作为历史基准来探讨数据在具身智能中的战略价值。在互联网行业,公司主要通过用户数据进行定向广告和个性化内容,这种定向方法不仅增加了销售量,还提升了用户参与度,从而可能带来更高的订阅费用或使用量。与此同时,在具身智能领域,数据对于训练深度学习模型以增强和优化机器人能力至关重要。
图 1 数据已经成为一种货币化工具
从财务上看,用户数据对互联网公司的价值估计为每用户 600 美元。全球约有 50 亿互联网用户,总市场价值约为 3 万亿美元。展望具身智能领域,埃隆·马斯克预测未来机器人数量将超过人类。假设市场饱和时将有超过 100 亿机器人,考虑到每个机器人在大规模商业化后的估计成本为 35000 美元,我们保守估计机器人公司愿意投资约每个机器人成本的 3% 用于数据采集和生成。这项投资旨在开发先进的具身智能能力,从而估算出具身智能数据的市场价值将超过 10 万亿美元,是互联网行业的三倍。
这项分析突显了具身智能数据的巨大潜力,而目前具身智能数据采集和生成行业还处于初期阶段。
具身智能的数据瓶颈
虽然具身智能数据行业的未来看好,但目前具身智能系统的可扩展性受到严重的数据瓶颈制约。与主要由用户生成的、相对容易收集和汇总的互联网数据不同,具身智能的数据涉及机器人与其动态环境之间的复杂互动。这一根本差异意味着,互联网数据可以从用户在数字平台上的活动中挖掘,而具身智能数据则必须捕捉在多样且常常不可预测的环境中的各种物理互动。
图源:GPT 生成
例如,尽管现成的聊天数据使得 GPT-4 能够用 570 GB 的文本进行训练,展现出卓越的聊天任务能力,但训练具身智能模型需要大量的机器人数据,因为其具有多模态特性。这种机器人数据包含各种感官输入和互动类型,不仅极其复杂,而且收集成本高昂。
训练具身智能的第一个挑战是获得广泛的高质量和多样化的数据集。例如,自主导航机器人需要处理大量的环境数据以提升其路径规划和障碍物回避能力。而数据的精确度将直接影响机器人性能;从事高精度任务的工业机器人需要极为准确的数据,微小的错误就可能导致生产质量出现重大问题。
此外,机器人在不同环境中适应和推广的能力取决于其处理数据的多样性。例如,家用服务机器人必须适应各种家庭环境和任务,需要从大量的家庭环境数据中学习以提高其推广能力。
训练具身智能的第二个挑战是“数据孤岛”。获取如此全面的数据面临高成本、时间长以及潜在安全风险的挑战。大多数具身智能机器人组织仅限于在特定的受控环境中收集数据。缺乏实体间的数据共享加剧了这种情况,导致重复劳动和资源浪费,形成“数据孤岛”。这些孤岛显著阻碍了具身智能的进展。
图 2 具身智能数据采集和生成
为了解决具身智能开发中的数据可用性瓶颈,需要一个强大的数据采集和生成系统,图 2 展示了这样的系统架构。
系统的第一个组件是捕捉真实世界的数据。这包括从人类与物理环境的互动中收集数据用于模仿学习,如研究项目 Mobile ALOHA 捕捉复杂的互动任务和 PneuAct 捕捉与人手动作相关的数据。此外,该管道还涉及从多模态机器人传感器中收集数据,以捕捉机器人对其物理环境的感知。
其次,鉴于获取大量高质量和多样化的具身智能数据成本过高,基于数字孪生的仿真已经证明是一个有效的解决方案。它显著降低了数据收集成本并提高了开发效率。例如,捕捉一小时的自主车多模态机器人数据成本为 180 美元,而模拟相同数据仅需 2.20 美元——减少了近 100 倍。此外,Sim2Real 技术的发展促进了技能和知识从仿真环境到现实应用的转移。这种技术在虚拟空间中训练机器人和 AI 系统,使它们能够安全高效地学习任务,而无需面对现实世界的物理风险和限制。因此,结合真实世界和合成数据是一种克服具身智能数据可用性挑战的战略方法。
最后,收集和生成的数据必须进行时间和空间上的对齐。这确保了来自不同传感器的数据既准确又同步,提供了对机器人环境和动作的统一和详细理解。只有经过这些过程,数据才能有效地用于训练具身智能系统。
为了应对具身智能数据瓶颈,我们提出了 AIRSPEED,一种用于具身智能的实时数据收集和生成中间件。总体而言,AIRSPEED 是首个实时具身智能数据收集和生成中间件,提供了一个克服具身智能数据获取障碍的通用平台。具身智能数据收集节点:我们开发了轻量级中间件端点,用于捕捉、过滤和传输具身智能数据。
这些端点能够从人与物理环境的互动中收集数据,用于模仿学习,如 Mobile ALOHA 研究项目中展示的那样,以及从操作中的机器人多模态传感器中收集数据。仿真服务:鉴于获取大量高质量和多样化的具身智能数据成本高昂,AIRSPEED 提供了作为服务的仿真,使用真实世界的数据作为种子生成合成数据,大大提高了数据生成的生产力。数据对齐服务:确保收集和生成的数据经过时间和空间的对齐是至关重要的。AIRSPEED 提供了一个数据对齐服务模块,以确保来自不同传感器的数据既准确又同步,提供了对机器人环境和动作的统一和详细理解。
AIRSPEED 系统设计
视觉和语言基础模型的最新进展,如大语言模型(LLMs)和对比语言-图像预训练(CLIP),为实现机器人智能提供了新方法。使用基础模型实现具身智能有两种主要类别。第一种方法旨在通过利用预训练的视觉语言模型(VLMs)生成自由形式的文本描述来实现端到端控制。第二种类别使用模块化和分层方法处理具身智能任务,利用预训练的大语言模型(LLMs)将复杂的视觉和语言指令分解为一系列定义明确的机器人任务。对于任何一种方法,数据都是具身智能的瓶颈,因为物理具身智能数据难以收集且成本高昂。我们首先介绍具身智能系统的详细信息,以便读者了解 AIRSPEED 的需求。
AIRSPEED 数据管道旨在以数据流的方式连接所有节点,以最大化吞吐量和最小化延迟,并为具身智能数据处理提供必要的服务。这里描述的每个组件都是 AIRSPEED 系统中的一个节点,所有节点共同形成一个数据流图,以促进流线型数据处理,从而最大限度地减少延迟和最大化吞吐量。
为了实现前一节中讨论的系统架构,需要一个中间件架构来连接不同的组件并托管各种服务。由于其高性能和在各种机器人工作负载中的流行,DORA 和 ROS2 这两个中间件框架成为了 AIRSPEED 的骨干候选。
DORA 旨在支持数据流计算,适合我们的用例,即以数据流方式处理数据。特别是,DORA 中的服务被建模为有向图,其中数据通过流传输并由节点处理,通常类似于一系列连接的节点,称为管道。这种架构允许高效的数据处理和应用设计的灵活性。
相反,ROS2 提供了一个强大的机器人软件开发框架,强调模块化和可重用性。它支持广泛的硬件接口,并拥有一个广泛的工具和库生态系统。然而,它可能不提供与 DORA 相同的低延迟数据流优化。
图 3 中间件性能对比
为了比较 DORA 和 ROS2 的性能,我们进行了一个实验测量了在各种大小的包(从 8B 到 750MB)上的传输延迟,模拟了各种形式的机器人数据。图 3 总结了该实验的结果。X 轴显示了不同的包大小,而 Y 轴显示了传输延迟,以纳秒为单位,呈对数刻度。对于小于 50KB 的包,ROS2 和 DORA 的性能相似,但对于大于 500KB 的包,DORA 显著优于 ROS2。
一个特别有趣的案例是 5MB 包,这是用于发送图像数据的最常用大小,ROS2 上的延迟始终比 DORA 上的延迟大约 100 倍,我们重复了 10 次实验以验证结果。由于 AIRSPEED 需要高效的分布式数据流处理,DORA 提供了更适合的解决方案,因此我们选择 DORA 作为 AIRSPEED 的中间件骨干。
具身智能数据收集端点
具身智能数据收集端点有一个总体设计目标:如何在数据涌入率比网络带宽高一个甚至两个数量级的情况下高效地收集具身智能数据。为实现这一目标,我们开发了动态数据收集、数据选择和数据压缩机制。
具身智能数据收集必须解决三个关键方面:数据延迟、数据传输带宽和数据质量。数据延迟可能导致不同模态数据之间的时间对齐误差,从而影响整体数据质量。不足的数据传输带宽可能加剧延迟问题,甚至导致数据收集失败。我们测量了我们在亚洲和美国的办公室中的网络上传带宽,测得的网络带宽范围从 8MB/s 到 80MB/s,因此在大多数情况下,具身智能数据涌入量远远超过可用的网络带宽,如果管理不当,将导致数据收集失败。
因此,具身智能数据收集端点设计中的关键问题是如何根据当前的带宽条件动态调整数据收集策略。为实现这一目标,我们在具身智能数据收集端点内设计了数据收集器、带宽适配器、关键帧选择器和数据压缩器,以在面对这些权衡时实现最佳点。
数据收集器
数据收集器的设计目标是尽可能完整地收集原始数据,并根据数据采样率进行数据分类。数据收集器将数据分类为低采样率(LSR)数据(0.01-10Hz)、中等采样率(MSR)数据(10-100Hz)和高采样率(HSR)数据(100+Hz),根据数据的原始频率进行后续数据处理策略。
带宽适配器
带宽适配器的任务是持续监控当前的数据传输带宽,并动态调整关键帧选择器和数据压缩器的策略,以在当前条件下实现最佳的数据收集质量。
关键帧选择器
关键帧选择器的任务是根据学习目标选择关键帧,并按比例删除冗余数据帧。冗余数据帧的删除不可避免地会导致数据质量下降和时间对齐误差增加,因此其删除比率需要根据带宽适配器进行控制。
数据压缩器
数据压缩器的任务是根据数据传输带宽压缩数据。数据压缩可以是无损的或有损的,有损压缩不可避免地会导致数据质量下降,因此其压缩策略需要根据带宽适配器进行控制。
仿真服务
具身智能系统的训练,无论是控制策略还是基础模型,依赖于大量真实世界和合成数据的收集和生成。AIRSPEED 提供作为服务的仿真,以促进数据生成过程。在本节中,我们使用机器人臂控制策略的训练来演示 AIRSPEED 的仿真作为服务,经过现实世界模仿数据收集、现实到仿真(Real2Sim)和仿真到现实(Sim2Real)步骤。
图 4 仿真服务
模仿数据收集
机器人臂控制策略训练通常从模仿学习的初始策略开始。这种方法涉及专家演示和从演示中学习。AIRSPEED 端点首先记录人类专家的真实世界演示的期望行为。然后,模仿学习算法会消耗收集到的数据,并不断改进初始策略。更重要的是,收集到的模仿数据被用作仿真的种子,用于大规模数据生成。
Real2Sim
Real2Sim 是指将真实世界的模仿数据(种子)放入仿真环境中进行增强。模仿数据提供了一个良好的起点,但在处理看不见的情况或从记录状态的意外偏离中恢复时,纯粹从真实数据中学到的策略会遇到困难。
Sim2Real
通过 Real2Sim 进行数据增强是远远不够的,主要原因有两个:1)不完整的物理建模:尽管模拟器很复杂,但它们无法完美捕捉真实世界物理的每一个细微差别;2)参数不准确:仿真中使用的参数不能完全匹配真实世界的使用情况。这个问题可以通过 Sim2Real 来解决,即在仿真环境中训练策略,并将其转移到真实世界的部署中。
数据对齐服务
数据对齐是将数据对齐到一个公共参考框架的过程。数据对齐将不同的数据集转换为一个坐标系统。通过对齐来自不同视角或传感器的图像,机器人可以创建对其环境的一致理解,从而增强其做出决策和与世界互动的能力。
基于特征的方法用于图像对齐,侧重于检测和匹配图像中的不同点、线或区域。这些特征用于计算所需的转换进行对齐。此方法的常见算法包括 SIFT、SURF、ORB。
基于深度学习的方法利用神经网络学习图像对齐的表示和转换。这些方法通常涉及在大型数据集上进行训练,以有效地泛化到新图像。此类别中的关键架构包括空间变换网络(STNs)和 VoxelMorph。尽管基于深度学习的方法提供了更高的准确性和鲁棒性,但它们需要大量的计算资源和更大的训练数据集。因此,默认情况下 AIRSPEED 使用基于深度学习的方法进行对齐,我们已经实现了每张图像 30 毫秒的对齐延迟。
AIRSPEED 将数据注册方法实现为系统中的 DORA 节点,并且节点是可配置的,用户可以选择基于特征的方法或基于深度学习的方法。此服务是数据流图中的最后一个节点,当有足够的数据时,该服务会触发数据对齐,然后对齐的数据将存储在数据库中,以满足未来的模型训练需求。
结论
具身智能是自主经济的智能支柱,但目前面临着显著的数据瓶颈,因为开发具身智能系统需要大量高质量的数据集。从机器人及其环境中捕获多样化的真实世界数据既具有挑战性又成本高昂。AIRSPEED 旨在解决这个确切的问题,并提供了几个关键贡献:
这是首个设计用于克服数据收集障碍并增强数据共享的实时中间件;
引入了通用的具身智能数据格式和轻量级端点,用于捕捉、过滤和流传输具身智能数据;
支持作为服务的仿真,利用真实世界的数据生成合成数据,大大降低了成本并提高了生产力;
提供了数据对齐服务,以确保来自各种传感器的数据准确且同步,提供了对机器人环境和动作的统一理解。
目前,AIRSPEED 已成为我们具身智能开发环境的重要组成部分,从如 Mobile ALOHA 等模仿学习设备以及各种自主机器(如类人机器人)中收集数据。接下来,我们计划扩展 AIRSPEED 以支持人体动作捕捉设备,训练类人机器人执行复杂的人类动作。
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。