人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

文琳行业研究 2024-04-11

（报告出品方：中信证券）

人形机器人加速发展，感知能力愈发重要

人形机器人迅速迭代，国内外厂商加速布局

特斯拉机器人迭代迅速，历时 8 个月便可执行复杂动作。2022 年 10 月，在特斯拉 AI Day 上，特斯拉机器人 Optimus 首次亮相，当时还需要人工推出，仅能完成简单的肢体动作。而在 2023 年 3 月的投资者日中，Optimus 便展现了步行以及组装机器人的工作能力。到 2023 年 5 月的股东大会上，Optimus 已经可以实现对物品的抓取等复杂动作。马斯克提出，Optimus 将面向应用场景进行快速迭代，预计在特定应用场景将快速推出量产机型。我们认为特斯拉强大的汽车供应链有望加速 Optimus 量产实现。

特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均有特有优势。1）技术方面，拥有 FSD 自动驾驶技术以及 DOJO D1 超级计算芯片的特斯拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究；2）成本方面：研发团队在设计阶段已充分考虑量产阶段的降本可行性，例如高度集成的电池、 6 种执行器等，强大供应链保障有望降低量产成本；3）应用场景：特斯拉汽车工厂将为人形机器人提供巨大的试验田，早期版本的机器人将在工厂中进行大量训练，并不断迭代，解决了大多数厂商早期寻找应用场景这一大难题。

传统机器人公司技术迭代速度较慢，且并未面向应用场景设计机器人，供应链问题也导致机器人造价十分昂贵。以大家熟知的波士顿动力 Atlas 为例，根据波士顿动力官网，波士顿动力的 Atlas 拥有近 40 年的发展历史，1983 年-2013 年，从麻省理工 Leg Lab 走出来的 Atlas 基本完成了简单的肢体动作和行走能力，2016 年 Atlas 开始具有简单的物体搬运功能，并且没有灵巧手，2019 年 Atlas 行走能力进一步增强，可实现后空翻等动作，并且能够识别复杂地形，2021 年，Atlas 具有一定的工作能力，用简单的灵巧手搬运物体。目前，发展了 40 年的 Atlas 仍然没有明确的应用场景，且售价十分昂贵，达到 200 万美元以上。

特斯拉或在机器人行业再次带来鲇鱼效应。回顾新能源汽车在中国市场的发展史，特斯拉这条“鲇鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019 年 1 月，特斯拉上海工厂奠基，2020 年 1 月，特斯拉上海工厂新车交付，国产版 Model 3 售价下调，扣除补贴后，基础版车型售价从 35.58 万元下调至 29.9 万元，低廉的售价以及优良的性能对我国新能源车厂商带来了巨大冲击，迫使我国新能源车厂商降本提效，加速了新能源车行业的发展，同时也推动了我国消费者对新能源车的接受度提高。因此，我们认为特斯拉在机器人行业中也将扮演这条“鲇鱼”，极快的迭代速度以及可预期的低廉的售价将迫使老牌机器人厂商加速发展。

国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本田 ASIMO、美国波士顿动力 Atlas、美国 Agility Robot、优必选 Walkers、中国小米 CyberOne、以及特斯拉 Optimus 等。其中，日本本田、小米及特斯拉皆研发了自己的人形机器人。而波士顿动力相继辗转谷歌、软银后，目前被现代公司收购。美国 AgilityRobot 的 2022 年 B+轮融资的投资者中，出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人，人形机器人有望迎来快速发展。

国内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追觅科技、达闼科技等先后推出自己的双足人形机器人，国内四足机器人领先企业宇树科技也在加入到人形机器人的研发中，腾讯 Robotics X 实验室推出自研机器人灵巧手 “TRX-Hand”和机械臂“TRX-Arm”，为其后续在机器人行业的发展作出铺垫，华为于 2023 年 6 月注册成立东莞极目机器有限公司，正式进军机器人领域，注册资本 8.7 亿元。国外方面，OpenAI 在 A2 轮领投挪威人形机器人公司 1XTechnologies，旨在将其强大的 AI 系统与实体机器人结合起来，从而为 AGI 的发展奠定基础。

人形机器人浪潮下，类人型机器人也迎来快速发展，但人形机器人仍然是各大厂商的主要目标。随着人形机器人浪潮袭来，类人型机器人如四足机器人也迎来了快速发展，成为各大厂商的必争之地，早在 2021 年 3 月腾讯便发布多模态四足机器人 Max，并在 2022 年 8 月推出 Max 二代，小米于 2021 年 8 月发布第一代四足机器人铁蛋，小鹏鹏行机器也于 2022 年 7 月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有自己的标杆四足机器人产品，例如宇树科技的 A1、云深处的绝影 X20、蔚蓝科技的 E 系列、优宝特的 YoBoGo。国外较为出名的四足机器人有波士顿动力的 Spot、IIT 的 HyQReal。但人形机器人相较于仿人形机器人仍有较大优势：（1）仿生步态下运动能力较传统履带/ 四轮/双轮机器人大幅提升；（2）灵巧手可实现双手配合和工具替换，较工业机器人技能更广；（3）依靠算法能力实现复杂环境识别并实施决策。

预计到 2027 年，全球人形机器人市场规模将达到 141 亿美元。根据优必选招股书，弗若斯特沙利文预计 2026 年全球智能服务机器人产品及解决方案的市场规模将达到 676 亿美元，2021 年到 2026 年 CAGR 达到 25%。而根据 Stratistics Market Research Consulting 数据，全球人形机器人市场规模将在 2027 年达到 141 亿美元，2020 年到 2027 年 CAGR 达到 58%。

人形机器人是具身智能的重要载体，AI 发展赋能机器人感知

人工智能的下一个浪潮将是具身智能。在 ITF World 2023 半导体大会上，英伟达创始人兼首席执行官黄仁勋表示，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950 年，图灵在他的论文“ComputingMachinery and Intelligence” 中首次提出了具身智能的概念。之后的几十年里，大家都觉得这是一个很重要的概念，但是由于技术限制，具身智能并未有很好的发展。从认知的角度来看，人类是第一人称视角的智能，用 1963 年的实验来说明，有两只猫，一直猫被绑起来，只能看这个世界，另一只猫可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能。到最后，这只旁观的猫失去了行走能力。当机器可以主动感知世界时，人工智能也就变成了第一人称的智能，也就无限接近于人类。

具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策吾教授在机器之心 AI 科技年会中提出了 PIE 方案，即具身感知（Perception）、具身想象（Imagination）和具身执行（Execution）。PIE 方案帮助机器模拟了人类的思维及行动方式，即机器人首先需要识别物体，然后通过交互感知物体，再通过数字孪生进行仿真模拟，利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶瓷瓶碎片，对于不规整的碎片，机器人总是能成功抓取。

作为具身智能的大脑，多模态大模型更符合人类大脑接受与处理信息的方式。从人类接受信息的角度看，我们所接收到真实世界的信息来自于多模态的数据源，如语音、文本、图像等，而单模态预训练模型只涵盖了单一模态的信息，无法对人类的信息获取、环境感知、知识学习与表达的主动学习过程进行有效表达，不同模态之间的隐式交互信息并未被充分利用与学习。“GPT 一小步，多模态 AI 的一大步”，GPT-4 支持图片和文本类信息同时输入。GPT-4 是由 OpenAI 发布的大型多模态模型，它不仅能与用户一起生成、编辑，完成创意的迭代和技术写作任务，更重要的是，它还能读懂图片。多模态感知是实现通用人工智能的必要条件，无论是知识/能力获取还是与现实物理世界的交互，这也是其与上一代 GPT 的主要区别。在 GPT-4 中，多模态输入的图像和文本基于 Transformer 作为通用接口，图形感知模块与语言模块对接进行进一步计算。基于 Transformer 技术，GPT-1 只有 12 层，而到了 GPT-3，则增加到 96 层。GPT-4 增加了额外的视觉语言模块，理论上具有更大的模型尺寸和输入窗口。

语言方面，以 ChatGPT 为代表的大模型已具备协助机器人处理语言，从而可以高效地对感知信息进行交互，如人类通过自然语言对机器人进行调试。根据微软 Sai Vemprala 等最新的论文：“目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为，而我们使用 ChatGPT 的目标是让非技术用户参与到修正过程中，通过高级语言命令与语言模型交互，无缝部署各种平台和任务。” 如果付诸实践，AI 有望帮助编写新代码和规范来纠正机器人的行为，因此允许了不懂技术的广大用户提供反馈，轻松地与机器人互动，直到用户对机器人的处理解决方案满意为止，再将这个代码部署到机器人上，一个调试就结束了。

视觉方面，谷歌推出 ViT 统一了 CV 和 NLP 框架，用于图像识别。ViT 模型将语言模型的 transformer 架构用于视觉模型，代替了传统的 CNN，统一了 CV 和 NLP 的架构。2020 年 10 月，谷歌推出 Vision Transformer（ViT）模型，证明了不使用 CNN，直接将 Transformer 结构应用于视觉模型也可以很好地执行图像分类任务。Transformer 将句子中的每个词（token）并行输入编码器，ViT 直接将图像拆分为多个块，将每个块的位置和包含的图像信息当做是一个词，输入到编码器中，训练好的编码器可以将图像输出为一个包含了图像特征的编码，类似于在语言模型中将一句话输出为一个包含了语言信息的编码，之后通过 MLP 层将编码器的输出转化为不同分类的概率。

信息处理方面，算法模型与软硬件一起集成为可供机器人“思考”的“大脑”。如谷歌发布 RoboCat，其基于谷歌的多模态模型 Gato，可以在模拟和物理环境中处理语言、图像和动作。通过将 Gato 的架构与一个大型训练数据集结合起来，该数据集由各种机器人手臂的图像序列和动作组成，可以解决数百种不同的任务。RoboCat 先通过机器视觉观察由人工操作的机械臂完成任务，搜集数据后通过在物理和虚拟环境中进行练习，通过练习生成新的训练数据，合并进入训练集，用于新版本的训练，从而学会此次任务。学会此次任务的 RoboCat 可被移植到新的机械臂上，对新的机械臂进行微调后执行相同的任务， RoboCat 在几小时内观察 1000 次人工演示后，可以灵巧的指挥新手臂抓取齿轮，成功率高达 86%。RoboCat 的出现为未来更加通用的机器人出现打下基础。

人工智能要走向具身智能的交互端，必须要具备强大的感知能力。陆奇在《我的大模型世界观》的演讲中提到 AI 发展的新范式将属于“行动”系统。第一代系统“信息”对应着感知，第二代系统“模型”对应着思考，第三代系统“行动”对应着实现，目前 GPT 的快速发展让人工智能的思考以及交互能力大大提升，而 Tesla Bot 的推出也就预示着“行动”系统的量产已有眉目。但感知能力是“模型”和“行动”的基础，人形机器人终端的发展离不开感知能力的不断提升。

人形机器人更加智能化，所需的感知硬件远多于传统机器人

文琳编辑

免责声明：转载内容仅供读者参考，观点仅代表作者本人，不构成投资意见，也不代表本平台立场。若文章涉及版权问题，敬请原作者添加 wenlin-swl 微信联系删除。

文琳行业研究 2018年—2023年7月文章汇总

今日导读：点击下面链接可查阅

公众号：文琳行业研究

《文琳资讯》

提供每日最新财经资讯，判断经济形势，做有价值的传播者。欢迎关注

今日导读：点击下面链接可查阅

▼长按2秒识别二维码关注我们

公众号：就业与创业

点击下方可看

继续滑动看下一个

文琳行业研究

向上滑动看下一个

不雅视频流传12秒，判刑13年，重庆雷书记风流二三事

86年上市公司的单身美女董秘

90后女首席的瓜！

鱼皇被吐槽“给大哥LPT”！极力反驳，欲跟大舅哥鱼S网破！都怪白毛！弹幕、礼物！

法官“垂帘听审”，律师“拍照捉奸”|法官被指集体违法，律师谈提线木偶式审判弊端

人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

您可能也对以下帖子感兴趣

不雅视频流传12秒，判刑13年，重庆雷书记风流二三事

86年上市公司的单身美女董秘

90后女首席的瓜！

鱼皇被吐槽“给大哥LPT”！极力反驳，欲跟大舅哥鱼S网破！都怪白毛！弹幕、礼物！

法官“垂帘听审”，律师“拍照捉奸”|法官被指集体违法，律师谈提线木偶式审判弊端

生成图片，分享到微信朋友圈

人形机器人感知硬件专题研究：人形机器人的五类感官和硬件支撑

您可能也对以下帖子感兴趣