查看原文
其他

人形机器人感知硬件专题研究:人形机器人的五类感官和硬件支撑

(报告出品方:中信证券)

人形机器人加速发展,感知能力愈发重要

人形机器人迅速迭代,国内外厂商加速布局

特斯拉机器人迭代迅速,历时 8 个月便可执行复杂动作。2022 年 10 月,在特斯拉 AI Day 上,特斯拉机器人 Optimus 首次亮相,当时还需要人工推出,仅能完成简单的肢 体动作。而在 2023 年 3 月的投资者日中,Optimus 便展现了步行以及组装机器人的工作 能力。到 2023 年 5 月的股东大会上,Optimus 已经可以实现对物品的抓取等复杂动作。马斯克提出,Optimus 将面向应用场景进行快速迭代,预计在特定应用场景将快速推出量 产机型。我们认为特斯拉强大的汽车供应链有望加速 Optimus 量产实现。

特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业 化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均 有特有优势。1)技术方面,拥有 FSD 自动驾驶技术以及 DOJO D1 超级计算芯片的特斯 拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究;2) 成本方面:研发团队在设计阶段已充分考虑量产阶段的降本可行性,例如高度集成的电池、 6 种执行器等,强大供应链保障有望降低量产成本;3)应用场景:特斯拉汽车工厂将为人 形机器人提供巨大的试验田,早期版本的机器人将在工厂中进行大量训练,并不断迭代, 解决了大多数厂商早期寻找应用场景这一大难题。

传统机器人公司技术迭代速度较慢,且并未面向应用场景设计机器人,供应链问题也 导致机器人造价十分昂贵。以大家熟知的波士顿动力 Atlas 为例,根据波士顿动力官网, 波士顿动力的 Atlas 拥有近 40 年的发展历史,1983 年-2013 年,从麻省理工 Leg Lab 走 出来的 Atlas 基本完成了简单的肢体动作和行走能力,2016 年 Atlas 开始具有简单的物体 搬运功能,并且没有灵巧手,2019 年 Atlas 行走能力进一步增强,可实现后空翻等动作, 并且能够识别复杂地形,2021 年,Atlas 具有一定的工作能力,用简单的灵巧手搬运物体。目前,发展了 40 年的 Atlas 仍然没有明确的应用场景,且售价十分昂贵,达到 200 万美 元以上。

特斯拉或在机器人行业再次带来鲇鱼效应。回顾新能源汽车在中国市场的发展史,特 斯拉这条“鲇鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019 年 1 月,特 斯拉上海工厂奠基,2020 年 1 月,特斯拉上海工厂新车交付,国产版 Model 3 售价下调, 扣除补贴后,基础版车型售价从 35.58 万元下调至 29.9 万元,低廉的售价以及优良的性能 对我国新能源车厂商带来了巨大冲击,迫使我国新能源车厂商降本提效,加速了新能源车 行业的发展,同时也推动了我国消费者对新能源车的接受度提高。因此,我们认为特斯拉 在机器人行业中也将扮演这条“鲇鱼”,极快的迭代速度以及可预期的低廉的售价将迫使 老牌机器人厂商加速发展。

国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本 田 ASIMO、美国波士顿动力 Atlas、美国 Agility Robot、优必选 Walkers、中国小米 CyberOne、以及特斯拉 Optimus 等。其中,日本本田、小米及特斯拉皆研发了自己的人形机器 人。而波士顿动力相继辗转谷歌、软银后,目前被现代公司收购。美国 AgilityRobot 的 2022 年 B+轮融资的投资者中,出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人, 人形机器人有望迎来快速发展。

国内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追 觅科技、达闼科技等先后推出自己的双足人形机器人,国内四足机器人领先企业宇树科技 也在加入到人形机器人的研发中,腾讯 Robotics X 实验室推出自研机器人灵巧手 “TRX-Hand”和机械臂“TRX-Arm”,为其后续在机器人行业的发展作出铺垫,华为于 2023 年 6 月注册成立东莞极目机器有限公司,正式进军机器人领域,注册资本 8.7 亿元。国外方面,OpenAI 在 A2 轮领投挪威人形机器人公司 1XTechnologies,旨在将其强大的 AI 系统与实体机器人结合起来,从而为 AGI 的发展奠定基础。

人形机器人浪潮下,类人型机器人也迎来快速发展,但人形机器人仍然是各大厂商的 主要目标。随着人形机器人浪潮袭来,类人型机器人如四足机器人也迎来了快速发展,成 为各大厂商的必争之地,早在 2021 年 3 月腾讯便发布多模态四足机器人 Max,并在 2022 年 8 月推出 Max 二代,小米于 2021 年 8 月发布第一代四足机器人铁蛋,小鹏鹏行机器也 于 2022 年 7 月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有 自己的标杆四足机器人产品,例如宇树科技的 A1、云深处的绝影 X20、蔚蓝科技的 E 系 列、优宝特的 YoBoGo。国外较为出名的四足机器人有波士顿动力的 Spot、IIT 的 HyQReal。但人形机器人相较于仿人形机器人仍有较大优势:(1)仿生步态下运动能力较传统履带/ 四轮/双轮机器人大幅提升;(2)灵巧手可实现双手配合和工具替换,较工业机器人技能更 广;(3)依靠算法能力实现复杂环境识别并实施决策。

预计到 2027 年,全球人形机器人市场规模将达到 141 亿美元。根据优必选招股书, 弗若斯特沙利文预计 2026 年全球智能服务机器人产品及解决方案的市场规模将达到 676 亿美元,2021 年到 2026 年 CAGR 达到 25%。而根据 Stratistics Market Research Consulting 数据,全球人形机器人市场规模将在 2027 年达到 141 亿美元,2020 年到 2027 年 CAGR 达到 58%。

人形机器人是具身智能的重要载体,AI 发展赋能机器人感知

人工智能的下一个浪潮将是具身智能。在 ITF World 2023 半导体大会上,英伟达创始 人兼首席执行官黄仁勋表示,人工智能的下一个浪潮将是具身智能,即能理解、推理、并 与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950 年,图灵在他的论文“ComputingMachinery and Intelligence” 中首次提出了具身智能的概念。之后的几十年里,大家都觉得这是一个 很重要的概念,但是由于技术限制,具身智能并未有很好的发展。从认知的角度来看,人 类是第一人称视角的智能,用 1963 年的实验来说明,有两只猫,一直猫被绑起来,只能 看这个世界,另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的 智能。到最后,这只旁观的猫失去了行走能力。当机器可以主动感知世界时,人工智能也 就变成了第一人称的智能,也就无限接近于人类。

具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策吾 教授在机器之心 AI 科技年会中提出了 PIE 方案,即具身感知(Perception)、具身想象 (Imagination)和具身执行(Execution)。PIE 方案帮助机器模拟了人类的思维及行动方 式,即机器人首先需要识别物体,然后通过交互感知物体,再通过数字孪生进行仿真模拟, 利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶瓷瓶碎片,对于不规 整的碎片,机器人总是能成功抓取。

作为具身智能的大脑,多模态大模型更符合人类大脑接受与处理信息的方式。从人类 接受信息的角度看,我们所接收到真实世界的信息来自于多模态的数据源,如语音、文本、 图像等,而单模态预训练模型只涵盖了单一模态的信息,无法对人类的信息获取、环境感 知、知识学习与表达的主动学习过程进行有效表达,不同模态之间的隐式交互信息并未被 充分利用与学习。“GPT 一小步,多模态 AI 的一大步”,GPT-4 支持图片和文本类信息同时输入。GPT-4 是由 OpenAI 发布的大型多模态模型,它不仅能与用户一起生成、编辑,完成创意的迭代 和技术写作任务,更重要的是,它还能读懂图片。多模态感知是实现通用人工智能的必要 条件,无论是知识/能力获取还是与现实物理世界的交互,这也是其与上一代 GPT 的主要 区别。在 GPT-4 中,多模态输入的图像和文本基于 Transformer 作为通用接口,图形感知 模块与语言模块对接进行进一步计算。基于 Transformer 技术,GPT-1 只有 12 层,而到 了 GPT-3,则增加到 96 层。GPT-4 增加了额外的视觉语言模块,理论上具有更大的模型 尺寸和输入窗口。

语言方面,以 ChatGPT 为代表的大模型已具备协助机器人处理语言,从而可以高效 地对感知信息进行交互,如人类通过自然语言对机器人进行调试。根据微软 Sai Vemprala 等最新的论文:“目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为, 而我们使用 ChatGPT 的目标是让非技术用户参与到修正过程中,通过高级语言命令与语 言模型交互,无缝部署各种平台和任务。” 如果付诸实践,AI 有望帮助编写新代码和规范 来纠正机器人的行为,因此允许了不懂技术的广大用户提供反馈,轻松地与机器人互动, 直到用户对机器人的处理解决方案满意为止,再将这个代码部署到机器人上,一个调试就 结束了。

视觉方面,谷歌推出 ViT 统一了 CV 和 NLP 框架,用于图像识别。ViT 模型将语言模 型的 transformer 架构用于视觉模型,代替了传统的 CNN,统一了 CV 和 NLP 的架构。2020 年 10 月,谷歌推出 Vision Transformer(ViT)模型,证明了不使用 CNN,直接将 Transformer 结构应用于视觉模型也可以很好地执行图像分类任务。Transformer 将句子中的每个词 (token)并行输入编码器,ViT 直接将图像拆分为多个块,将每个块的位置和包含的图像 信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像 特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过 MLP 层将编码器的输出转化为不同分类的概率。

信息处理方面,算法模型与软硬件一起集成为可供机器人“思考”的“大脑”。如谷 歌发布 RoboCat,其基于谷歌的多模态模型 Gato,可以在模拟和物理环境中处理语言、 图像和动作。通过将 Gato 的架构与一个大型训练数据集结合起来,该数据集由各种机器 人手臂的图像序列和动作组成,可以解决数百种不同的任务。RoboCat 先通过机器视觉观 察由人工操作的机械臂完成任务,搜集数据后通过在物理和虚拟环境中进行练习,通过练 习生成新的训练数据,合并进入训练集,用于新版本的训练,从而学会此次任务。学会此次任务的 RoboCat 可被移植到新的机械臂上,对新的机械臂进行微调后执行相同的任务, RoboCat 在几小时内观察 1000 次人工演示后,可以灵巧的指挥新手臂抓取齿轮,成功率 高达 86%。RoboCat 的出现为未来更加通用的机器人出现打下基础。

人工智能要走向具身智能的交互端,必须要具备强大的感知能力。陆奇在《我的大模 型世界观》的演讲中提到 AI 发展的新范式将属于“行动”系统。第一代系统“信息”对应 着感知,第二代系统“模型”对应着思考,第三代系统“行动”对应着实现,目前 GPT 的快速发展让人工智能的思考以及交互能力大大提升,而 Tesla Bot 的推出也就预示着“行 动”系统的量产已有眉目。但感知能力是“模型”和“行动”的基础,人形机器人终端的 发展离不开感知能力的不断提升。

人形机器人更加智能化,所需的感知硬件远多于传统机器人

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年7月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 中国消费二十年洞察系列报告人群篇

  2. 2023年中国消费者洞察与市场展望

  3. 2023大社交趋势观察报告

  4. 2023当代独居女性生活现状调研报告

  5. 2023年中国女性线上消费力趋势报告-洞见“她”力量

  6. 2023抖音生活服务综合行业商家案例刊-Vol.2

  7. 2023快手用户价值洞察报告-洞见成长中的百样人生

  8. 2023年Z世代消费趋势分析报告

    ▼长按2秒识别二维码关注我们



《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 重磅信号!证监会召开座谈会,事关中长期资金入市!

  2. 顶级经济学雄文,一文读懂中美冲突的根源

  3. 干货!土地资产装入政府融资平台公司的方法和技巧

  4. 囤盐?世界最大盐企发声!韩国多个海鲜市场空无一人!乌军突然宣布:登陆克里米亚

  5. 金融监管总局最新发文!

  6. 日本核污染水已进入大海,有多可怕?

▼长按2秒识别二维码关注我们

公众号 :就业与创业
点击下方可看
  1. 中科院博士,已被解救!

  2. 前华为"天才少年"创业公司火了!短短数月已完成3轮融资

  3. 沸腾!34万人涨薪,最高年薪124万!雷军曝出大消息,啥情况?

  4. 疯狂挪用公款4800万,碧桂园90后出纳被抓!漏洞百出!用途竟是……


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存