机器人行业专题报告:机器人的大脑,具身智能(附下载)
(精选报告来源:报告研究所)
1. 具身大模型:能够理解三维物理世界的模型
1.1. 非具身大模型 vs 具身大模型:是否可以生产运动姿态
从物理空间的角度来划分,大模型可以分为非具身大模型(基础大模 型)、具身智能大模型(机器人大模型),它们的区别是能否生成运动 姿态。(1) 非具身大模型:代表的模型有 GPT、Sora、文心一言、通义千 问等,这类模型输入的是语言、图片和视频,输出的模态是语 言、图片和视频。大模型采取 Transformer 架构,以与训练+微 调的形态有效摆脱对基于场景数据训练的依赖,解决了长距离 信息关联的问题。在人形机器人的应用,大模型集成了多模态 的感知模块,大幅提升了机器人额环境感知和人机交互,上层 规划的能力。(2) 具身大模型:以自动家数大模型和机器人大模型为代表,如 Tesla FSD、谷歌 RT、RFM-1、ViLa 和 CoPa 等,具身大模型 输入的是视觉、语言信号,输出的是三维物理世界的操作。
1.2. 具身大模型:端到端&分层端到端
具身智能大模型主要有两个路径:(1) 端到端的具身大模型,以谷歌的 RT 模型为代表;(2) 基于 LLM 或 VLM 的具身分层大模型,大多数的机器人公司都 采取了这个方案,典型代表有:Tesla FSD,Figure AI,星海 图,银河通用,智元机器人等。
端到端的大模型同时训练决策和操作,直接端到端地实现从人类指令 到机械臂执行,其特点有:1)需要大量真实长任务数据才能有效,且 要覆盖所有可能的任务,所需的数据量估计需要达到万亿级别。以谷 歌的 RT 模型为例,谷歌花了上千万美金 16 个人耗时 17 个月收集得到 了 13 万条厨房数据训练 RT,模型在厨房表现很好,但除了厨房成功 率却骤降至 30%。泛化性难其实一定程度上是由于数据采集没有做到 scalable。归根到底是由于机器人的物理数据不如互联网图像/文本数据 那样大量且易得,与自动驾驶这一单一任务相比,如果每种任务都需 要自动驾驶那么多数据、这一数据量要大得多。2)推理速度慢。RT2 采用的 LLM 是谷歌的 PaLM-E,频率 1-3Hz,响应速度 0.3s~1s。
1.3. 主流方案:分层端到端,典型代表 Figure AI
由于端到端大模型目前面对局限性,因此目前大多数的机器人公司都 采取了分层端到端的方案,通过决策大模型和操作大模型的相互配 合,分层端到端的方法需要的训练数据相对较少,能够完成各种新任 务。多层端到端大模型的上层是多模态通用大模型,可以调度中间技 能 API,来实现完整的从任务的感知、规划到执行的全流程;中间层 是决策大模型(任务/运动规划),通过数据训练的泛化的技能,包括 自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂 衣服叠衣服柔性物体操作的泛化技能;底层是硬件驱动执行算法,实 现机器人的平衡,实时精准的运控。
典型代表:Figure 02 采取了基于 VLM 的分层大模型。在 Figure 发布 的演示中,Figure 01 能理解周围环境,流畅地与人类交谈,理解人类 的需求并完成具体行动,包括响应人类想吃东西的问题递过去苹果, 然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因,将杯子 和盘子归置好放在沥水架上。在 Figure 01 的视频里,OpenAI 提供了 视觉和语言理解能力,而 Figure AI 则提供了机器人的动作规划和控制 能力。OpenAI 和 Figure 合作用的小模型,动作输出频率 200Hz,从 Figure 01 的 Demo 视频展示中,响应速度几乎没有延时。Figure 02 搭 载了机载的视觉语言模型(VLM),通过机载麦克风和扬声器,实现了 与人类的高效对话,具备了快速的常识性视觉推理能力,能够自主执 行多种复杂任务。
典型代表:银河通用采取三层大模型系统。底层是硬件层,中间层是 些响应快小模型(如:三维感知、自主建图、自主导航、物体抓取、 开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等),上 层是用来做推理慢的做任务规划的大语言模型 LLM。当得到指令, LLM 负责分析,安排调度哪个小模型 API。小模型执行完后,LLM 分 析结果,研究下一步该怎么做。
2. 具身大模型的主流方案:分层端到端
2.1. 基础大模型:LLM&VLM
大模型采取 Transformer 架构,以与训练+微调的形态有效摆脱对基于 场景数据训练的依赖,解决了长距离信息关联的问题。在人形机器人 的应用,大模型集成了多模态的感知模块,大幅提升了机器人额环境 感知和人机交互,上层规划的能力。Figure01 采用 OPEN AI 的多模态 大模型,类似于 RT-1+PaLM-E 的模型融合。
2.2. 决策大模型:从 LLM 向 RL 演进
决策智能面临开放变化环境情况下的泛化问题,决策大模型使用大模 型解决决策任务中的环境变化、开放环境、策略泛化性问题。其核心 任务是基于任务理解,自动生产运控指令,为操作模块提供指令输 入,也就是将复杂的任务分解为一系列动作指令,然后交由操作大模 型逐一执行。以 ChatGPT for Robotics 为例,将 prompt 封装成函数或类,将复杂 任务拆解为子任务序列,并逐步调用相应的 prompt,生成 python 代 码指令。首先,定义一组高级机器人 API 或函数库。该库可以针对特 定的机器人类型进行设计,并且应该从机器人的控制栈或感知库映射 到现有的低层次具体实现。为高级 API 使用描述性名称非常重要,这 样 ChatGPT 就可以推理它们的行为。接下来,为 ChatGPT 编写一个 文本提示,描述任务目标,同时明确说明高级库中的哪些函数可用。提示还可以包含有关任务约束的信息,或者 ChatGPT 应该如何组织它 的答案,包括使用特定的编程语言,或使用辅助解析组件等。再次, 用户通过直接检查或使用模拟器来评估 ChatGPT 的代码输出。如果需 要,用户使用自然语言向 ChatGPT 提供有关答案质量和安全性的反 馈。最后,当用户对解决方案感到满意时,就可以将最终的代码部署 到机器人上。示例:输入指令“将苹果放入碗中”,决策大模型将输出 一系列动作指令,包括“识别苹果”、“抓取苹果”、“识别碗”和“放 置苹果于碗内”。
谷歌 PaLM-E 是一个用于体现推理任务、视觉语言任务和纯粹语言任 务的单一通用多模态语言模型。PaLM-E 基于丰富的多模态模型知识对 任务进行理解和处理,并分解成待定的机器人指令,RT-1 将代堆的机 器人指令转化为机器人控股指令,模型将较为复杂的任务分解成简单 的不走完成,并且具备了更强的抗干扰性和知识能力。决策大模型的两种范式主要围绕大语言模型(LLM)展开,结合不同 的技术和方法,以实现更高效的决策过程:范式 A(LLM):以基于深度学习的大语言模型为中心,配合 API 选 择和其他技术手段,实现决策过程的优化。这种范式利用大语言模型 处理自然语言任务的能力,如文本分类、问答、对话等,作为通向人 工智能的重要途径。大语言模型通过大量文本数据训练得到,能够生 成自然语言文本或理解语言文本的含义,处理多种自然语言任务,并 在多个基准测试上表现出色。这种范式的应用通常需要掌握 Python 编 程知识、神经网络的知识以及深度学习框架,以便更有效地使用这些 大语言模型进行训练和推理。范式 B(RL):基于强化学习的范式,使模型能够在不同环境和任务 中学习和适应,实现更高级的决策能力。通过学习额外的一个价值函 数,使得能够大致知道往哪边去搜索,哪些行动最终会带来好的结 果,哪些会导致不好的结果。在这种比较庞大的决策树下,引导大语 言模型做出相关的决策,通过前瞻技术产生当前可以有的更好的行 动。这种范式不仅仅是基于一个已经被训练好的大语言模型,更多的 是一个强化学习的框架,通过训练过程的不同,使得模型能够在不同 的任务上做出泛化,实现 goal condition reinforcement learning,而不是 使用单一的奖励函数。这种范式的训练过程与一般的强化学习有所不 同,因为它希望模型能够在不同的任务上做出泛化。
2.3. 操作大模型:从“MPC+WBC”向“RL+仿真”演进
操作大模型是根据决策大模型的输出执行具体动作,如“抓取”、“打 开”、“旋转”等。与决策大模型不同,操作大模型需要与机器人硬件 深度集成,且必须通过数据采集来实现。运动控制算法的演进:基于 模型的控制和算法——MPC+ WBC——RL+仿真模拟。MPC 更适合具 有精确模型和短期优化目标的场景,RL 更适用于不确定性高、需要长 期学习和自适应的环境。
模型预测控制(MPC)与全身控制(WBC)结合:MPC 根据用户和 控制器指定计算反作用力和位置命令,将计算结果传递给关节控制 器,通过驱动硬件的伺服系统和关节,实现全身运控。任何为机器人 控制系统的驱动关节产生控制信号的操作都可以叫做 WBC。控制系统 框图如下所示,1)构建并求解基于质心动力学建立的非线性模型预测 控制器(NMPC),用于规划机器人质心和四肢的运动轨迹。其中 NMPC 的代价函数为系统状态误差的加权平方与系统输入的加权平方之和, 其约束包括足端作用力在摩擦锥内、足端触地速度为零和摆动腿的 Z 轴轨迹追踪。2)将追踪的状态变量定义为一组带优先级的轨迹跟踪任 务(WBC),求解以生成机器人驱动关节的控制信号。WBC 建立的任务 有运动方程、质心状态追踪、关节力矩限幅等。3) 使用卡尔曼滤波器 融合 IMU 和驱动关节数据,得到机器人质心的位姿、速度和关节位 置、速度等状态,并反馈给 NMPC、WBC 控制器。
MPC 的局限性:(1) 在 MPC 模型预测滚动优化的过程其实是一个实时迭代的过 程,要求很大的计算量和计算时间。这就意味着 MPC 模型预 测其实适用于慢动态过程和具有高性能计算机的工作环境;(2) 现有的预测控制算法多数采用工业界易于获得的阶跃响应或脉 冲响应这类非参数模型,并通过在线求解约束优化问题实现优 化控制,对于约束系统无法得到解的解析表达式,这给用传统 定量分析方法探求设计参数与系统性能的关系带来了困难,使 得这些算法中的大量设计参数仍需人为设定并通过大量仿真进 行后验,因此除了需要花费较大的前期成本外,现场技术人员 的经验对应用的成败也起着关键的作用。RL+仿真训练:可以让具身智能从环境中获得更优的状态,然后由智 能体做出决策,并对环境做出适当的行为反应。比较关心的是具体的 输入输出,对于物理交互任务来说:输入:1)状态:机器人的位置、 速度、加速度等运动学信息,以及可能包括的力反馈信息。这些信息 通过机器人的传感器(如编码器、力传感器等)获取。2)环境信息:机器人所处环境的信息,如障碍物的位置、形状等。这些信息也可以 通过机器人的感知系统(如视觉系统、激光雷达等)获取。输出:1) 动作:机器人的运动指令,如速度、加速度、方向等。这些指令直接 控制机器人的运动。2)控制参数调整:在阻抗控制中,输出可能还包 括对阻抗参数的调整,如刚度、阻尼等。这些参数的调整会影响机器 人在与环境交互时的力反馈行为。
强化学习在具有力感知的机械臂操作任务中也存在问题:(1) 数据收集与标注问题:强化学习的方法去做控制机械臂抓取的 任务,需要大量的数据进行训练,但是通常没有足够多的真实 数据去训练强化学习模型,因为这不仅需要精确的力感知设 备,还需要进行数据收集和标注。所以最常见的做法就是用仿 真去产生大量的训练数据,训练数据越多强化学习模型才越鲁 棒。但是存在的一个问题是仿真图片和真实图像是有差距的, 在仿真环境里训练出来的 RL 模型可能在真实场景中应用的时 候并不那么好。(2) 模型泛化能力:强化学习模型往往容易过拟合于特定的任务和 环境,导致其泛化能力受限。当面对新的任务或环境时,模型 可能需要重新进行训练和调整,这增加了应用的复杂性和成 本。(3) 实时性与稳定性:强化学习算法在训练过程中可能会受到噪 声、延迟等因素的影响,导致实时性和稳定性下降。
3. 数据采集:具身智能最大的壁垒之一
3.1. 机器人场景数据主流采集方法:远程操作、仿真合成数 据
本报告文件将分享到报告研究所知识星球,扫描下方图片中二维码即可查阅
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:
1、报告持续更新,分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载;
2、海量研究报告均可下载PDF高清版,无限制;
3、会员可以提问方式获取具体报告需求;
温馨提示
应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!
这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”
入群方式:添加助理微信touzireport666,发送「个人纸质名片」或「电子名片」审核后即可入群