半年冒出近百家新公司，「具身智能」也有春天｜36氪新风向

36氪

2024-10-10

The following article is from 智能涌现 Author 王沁邱晓芬

围堵人工智能的下一波浪潮。

文｜王沁邱晓芬

编辑｜苏建勋邱晓芬

来源｜智能涌现（ID：AIEmergence）

封面来源｜视觉中国

今年5月，北京中关村一栋大楼里，机器人行业泰斗王田苗创立的智友研究院的会议上，机器人创业者们的一项重要议题便是——如何招人。

论坛上，一位创业者向众人展示自己的手机页面，“我在猎聘上看了4000多份简历，每个人我都认真回复，我应该是猎聘上最活跃的boss！”

在机器人界，北航机器人所名誉所长王田苗，不仅是一位学术泰斗，更是带领一群年轻人把校园科创项目做到上市公司的创业导师。在他投资的超过70个项目中，赫赫有名的有九号机器人、国内手术机器人第一股天智航、工业机器人埃夫特等等。

王田苗看到了风潮下的的泡沫，也透视到现实的机会。

“即便目前一些具身智能的创业公司估值已经达到了20亿、50亿、甚至100亿，这更多反映了资本市场的乐观预期，可能存在泡沫”，他顿了顿，“但真正的价值创造才刚刚开始，特别是当硬件的迭代周期还跟不上软件或大脑的进化速度时，我们看到了具身智能的机会所在。”

从2023年中至今，具身智能火了，热钱的涌入，在2024年一片萧条的市场中显得格外耀眼。据IT桔子统计，2023年中国一级市场机器人行业融资金额达240亿元，其中十亿元量级以上的投资事件数量在4起左右。

最“疯狂”的一家，当属华为天才少年“稚晖君”辞职后创立的“智元机器人”——最近一年的时间，这家炙手可热的公司融了6轮，资方名单包括红杉中国、上汽投资等。成立不过短短一年多，“智元机器人”估值已经飙已经升至70亿元。

“（我们）不接受比较拖拉的（投资），谁的效率高、速度快，我们优先要谁的钱”，一家具身机器人公司CEO告诉《智能涌现》，近来找他的投资人都在排队。

一位通用机器人公司的联创调研了一圈市场后惊讶发现——最近半年时间，国内冒出了小一百家机器人公司，甚至很多非机器人背景的人也挤上牌桌。

据Markets and Markets预测，2023年全球具身智能市场规模为18亿美元，预计2028年将达到138亿美元。

巨头公司们也通过投资押注：Open AI押注了国外炙手可热的具身智能公司1X Technologies、Figure AI，前者背后站着三星，后者则拿了英伟达、微软、英特尔、亚马逊等赫赫有名的大公司投资。

“具身智能”（Embodied Intelligence）的概念不是新鲜事，早在2005年就在学术界提出，但由于当时实现起来相当困难，一直没有出圈，只是科幻电影里人类浮夸的想象。直到AI大模型出世，大家才意识到，具身智能原来真的能走进现实。

具身智能的理论认为，智能体是通过视觉、听觉、触觉等各种感官与现实物理世界的不断交互，来反馈到脑，生成智慧与思维能力的。打个比方，你要变得智慧，就不仅要输入符号性的知识、读万卷书，还要到真实世界里去看、去听、去真感受、去行万里路。

AI大模型的突破，完成了具身智能的“智能”（intelligence），以前遥不可及的目标如今走了近半，就差“具身”（embodiment）了——一具能看、能听、能行动的身体。

已经投入到亚马逊仓库里搬箱子的Aglitiy机器人，在演示中不仅能自行拆解如何做饭，还能理解人类的流行文化梗语（例如星球大战中黑暗尊主达斯·维达之剑），还能学会在从未训练走过的路面走路。

业界开始对具身智能投以热切的期待。

Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起，图片来源：Agility Robotics

显然，过去传统专项机器人（机械臂、扫地机器人、无人搬运车等）的叙事，早已无法满足人们的想象。由人类一手构建出来的社会，本就是为人类身体设计的：手机的尺寸、电脑的大小、桌椅的高度、门把手的高度等等，都以人类身体为丈量。

当一具像人身体的机器人有了大模型大脑的加持，机器人便可以真正代替人类，在多种场景下做各种事情，科幻电影走向现实。人形，才是人类对于机器人的终极想象。

本文将围绕以下几个问题展开：

1、为什么大模型出来之后，具身智能才突然爆火？

2、具身智能赛道的玩家有哪些？谁是理想派和现实派？他们如何形成分野？

3、具身智能距离商业化落地还有多远？如何寻找PMF？（Product Market Fit，产品市场匹配度）

AI大模型出世，具身智能有“脑”了

一台人形机器人，可以粗略分为三个关键部分：大脑（AI大模型）、小脑（运动控制）、硬件身体。

如果把人形机器人与人类做类比——机器人大脑（AI大模型），意味着机器人理解人类社会的规则，进而与人类进行自然语言对话交互，做出顶层行为决策；机器人小脑，控制机器人的运动流畅性、身体感知与平衡（比如摔倒后能自行站起来）。

可以用一个比喻来理解机器人大脑：它有点像钢铁侠里面的Jarvis，可以帮助你理解外部的环境信息，给机器人发相关的相应的命令。

当然，机器人大脑并不是我们理解中，有沟壑、有皮质层的人类大脑形状，它是一个存在形态多样的“算力盒子”。比如，当Jarvis存在于它的盔甲里时，它就是一个人形机器人；但当钢铁侠脱了人形盔甲，它也可能变为一个机械臂或物流车，帮你在工作台作业或搬东西。

当然，通用AI大模型并不能和机器人大脑直接划等号。通用大模型还要经过进一步的“加工”（训练和微调），才能成为一个合格的机器人大脑。

机器人大脑理解了人类给出的任务后，要进行任务分解与规划，还要“编译”成动作指令，这样机器人大脑输出的信息，才能直接转化成小脑运动控制系统能理解的指令代码。也就是说，机器人大脑输出的不仅是文字、语音、视频，而是一项项能让机器人真正动起来的动作指令。

在过去，没有“大脑”的传统机器人只会按图索骥，按照人类简单的指令去执行简单的任务（如将物体从定点A移到定点B），但有了大模型后，机器人变得有脑子了，也更聪明了。

比如，当有人告诉装有大脑的机器人，“给我炒盘菜”，机器人能把“炒菜”的任务，自动理解规划成到冰箱拿菜、到厨房切菜、用锅炒，并执行动作。

谷歌的机器人基础大模型PaLME装到机器人上后，机器人知道如何从抽屉里拿米片给人类，图片来源：palm-e.github.io

不过，大模型对于人形机器人的助推，不仅仅简单停留在机器人大脑层面。聪明的机器人行业从业者们还打开了新的思路——具身机器人是否可以通过大量投喂人类运动数据，让机器人小脑也能模仿学习到人类的轨迹？

目前，行业内已经有不少公司，尝试让机器人大量观看学习人类的动作轨迹，让机器人模仿人类倒水、装东西、放东西、通过复杂路面，或者模仿人类跳海藻舞时的手臂波浪状动作。

多指机器人通过模仿学习来习得人类动作，图片来源：CSDN

美国加州大学伯克利分校团队的《Humanoid Locomotion as Next Token Prediction（把人形机器人的运动作为下一个token去预测）》论文中，就将Transformer构架预测下一个token的原理，运用到机器人小脑的运动控制中，用27小时的行走数据训练机器人。

结果显示，机器人最后不仅能够在从未训练过的路面上行走，甚至出现了倒退行走这一训练中从未出现过的动作。

美国加州大学伯克利分校训练的Agility机器人在草坪上倒退行走，图片来源：Hybrid Robotics

大模型让机器人长出脑子，只是人形机器人近期爆火的一大关键因素。在国内，另外一项重要原因在于，机器人硬件成本曲线的快速下降，给了机器人行业蓬勃发育的土壤。

多位行业人士向《智能涌现》提到了一项共同的判断，人形机器人创业理应在中国发生，而不是大洋彼岸的硅谷——相比之下，中国不仅有更强大的机器人生产能力、也有机器人应用场景，需求供给都比硅谷更强势。

一家人形机器人初创公司CEO向《智能涌现》举例，以机器人的电驱关节为例，单价已经从最初的小一万块钱，下降到如今一千块左右，降低了九成。

机器人公司“宇树科技”在今年5月发布的G1人形机器人，售价9.9万起，更是将人形机器人的价格进一步下探。据“人形机器人研究院”公众号分析，宇树G1的硬件成本批量化生产不超过8万元，定价仍有利润空间。

“优必选”一位技术人员向《智能涌现》表示，过去人形机器人之所以成本高，是因为专用零部件需要定制，产量低，关键零部件依赖国外供应商。但近年来，国内供应商加入，零部件出货量提升，拉低了价格。

这形成了一种互为因果的循环：在中国做硬件相对简单、便宜，人形机器人公司更敢于尝试做硬件，市场需求量提高，进一步拉低硬件价格，又进一步降低入局的难度。

一派理想，一派现实

一个有意思的现象是，如大模型的发展路径分化为理想派和现实派一样，AI机器人如今也大致分化为两派：

理想派喜欢谈AI与具身智能，将人形机器人视为终极形态与最高理想；现实派则更看重AI机器人与商业应用场景的结合，讲究短期内的商业回报。

理想派将人形形态贯穿始终，无论是从最初的To-E（To-Education，客户是高校科研院所）、To-D（To-Developer，客户是开发者）的小批量量产阶段，还是到大B客户阶段，和To-C阶段。

至于早期怎么养活自己，理想派不愁。人形机器人公司“加速进化”创始人程昊认为，最理想的养活自己方式是，产品形态一直保持通用人形，不需要中途去做垂类专用机，商业规模上慢慢扩大。

“我们只需要锻炼出几百台、上千台的量产能力就行了，积累期先卖给科研机构。像苹果手机（相比于MP3、相机等专用机，苹果手机是通用机）最早卖到中国时，有谁买？都是学校在买。个人PC也是先卖发烧友、高校、华尔街。先把这一块吃下，让很多人学会用。”

“加速进化”公司的人形机器人，图片来源：加速进化

现实派则更看重机器人的商业应用场景，他们不一定将人形视为机器人的终极形态，机器人具体的形态可能会根据具体的场景做出调整——它可能是一只足够聪明的机械手，或者是一台脚部是轮子、但带有双臂，能在工厂里快速滑行的机械车。

正因为AI大模型带火的这一波机器人，具有AI大脑，但未必要装在人形的身体里，所以也有观点认为，这波有泛化智能的机器人更合适的表述是“AI机器人”，只是“人形”对大众的情感冲击力更强。

智能机器人公司“星海图”的策略是，“先不怼人形”。“星海图”CEO高继扬在一次公开采访中提及，机器人现在面对的环境是人类改造过的社会环境，人形机器人对于高度特化的任务岗位未必是最合适的。

在他看来，具身智能的未来应该是 “一脑多形” 的，关键是要选好商业闭环场景，当本体足够便宜，再降低数据获取成本，数据推动算法进入规模化阶段。

《智能涌现》发现，在地理分布上，以北京为代表的北方公司，理想派偏多；而以珠三角为代表的南方，现实派偏多。这与行业人员的出身背景、投资方的偏好有关。

北方的项目大多孵化于高校（清华、北大、中科大、北航、北理工等等），从高校实验室出发，再延伸到产业界。通用人形机器人这种“大而全”的理想，一般更容易孵化于高校实验室。

“北京投资人更喜欢投人形（机器人），喜欢大而全的故事，无论是投AI的一波，还是当年投软件的一波，都是这个风格”，一位FA向《智能涌现》表示。

投资偏向，也和资金来源有直接关系。在北方，政府侧的资金来源占比更高，对于科研战略级、离落地有距离的人形机器人，会更有耐心，在创业公司能养活自己之前给予更长的时间。

初心资本合伙人许旸洋向《智能涌现》表示，人形机器人赛道有一些国家政策侧的支持，资金会保持一定的容量、持续性和容错的空间。

“人形机器人涉及到产线厂房，跟政府的招商引资、税收、人才息息相关。即使人形机器人行业需要探索的时间，但只要公司能持续地有进展，无论是泛化能力还是单点的性能，只要最后效果层面有突破，我预计（资金持续）至少三年左右是有的。”

而在以珠三角为代表的南方，现实派的观点更占上风。

一位长期驻扎深圳的FA告诉《智能涌现》，驻扎华南的投资人风格更现实主义，“无论你是物流机器人还是家居清洁机器人，整体都离应用近一点，不至于融了20亿，啥都见不着。对于一项新技术，今年的一级市场也不会给不能商业化的公司太长的容忍周期......要在一两年之内看得到你成还是不成。”

在以珠三角为代表的南方，垂类机器人（如仓储物流机器人、工业机器人、送餐机器人、清洁机器人等）占比更高。在大模型风潮之后，这些公司纷纷试图在原有机器人形态的基础上，加上一个聪明的AI大脑。

比如，一种思路是，针对仓储物流的场景，用轮式+双臂的类人形机器人，让手臂拥有跟人一样的操作空间，但用的是最廉价、最稳定的底盘，可以根据货架高度来升降。

在珠三角和长三角，传统场景下的工业机器人、商业服务机器人，供应链很成熟，毛利已经压得极低。在工业机器人中，拓斯达、埃夫特、迈赫股份等下游集成商的利润被上游一步步压缩；对商用服务机器人来说，据《Equal Ocean》报道，国内市场的毛利率在30%-40%，商用服务机器人公司"F4"云迹、普渡、擎朗、高仙，都还处在亏损状态。

传统机器人毛利低，对成本敏感，那么对于加上AI大脑的成本、收益、使用安全性的考虑，更要精打细算。

一家深圳的除雪机器人向《智能涌现》表示，他们新一代产品加入了AI大模型功能，但当下只用了自然语言交互功能，但未采用大模型对机器人进行视觉训练（例如泛化能力能让机器人识别出仿真的假草），以免大模型的幻觉带来安全隐患。

在资本方面，“现实派”AI机器人落地，得到了不少产业资本的支持，这些产业资本既是股东，也是客户，提供了工厂的落地应用场景，场景数据又能反馈给机器人的AI算法。

从总体上看，无论是理想派还是现实派，由AI大模型引发的这一波AI机器人的浪潮，都非常吃学术资源。AI机器人赛道总体上处于从学界到业界的跨越期，几乎每个AI机器人团队背后都有自己的学术圈层。

信息来自公开渠道、访谈，《智能涌现》整理

不同高校的风格也不同。

比如，清华大学背景的机器人团队，大多是单干模式，每个团队都有核心的学术骨干，彼此独立。一位FA称，清华叉院研究机器人的教授大多有自己的公司。

而哈尔滨工业大学（深圳）背景的机器人团队，则偏向团体模式——学校和企业之间深度合作绑定。某机器人创业公司CEO告诉36氪，哈工大除了入股外，会在机器人资源、产业融资等方面提供支持，学校和企业同时把盘子做大。

阻挡人形机器人落地的两座大山

不过，人形机器人看起来很美好，但是距离落地还有很远。目前有两大难题需要跨越。

第一个难题是，数据的获取。

AI大语言模型需要投喂关于人类世界的海量知识，才能涌现智能。同理，机器人大脑也需要投喂关于现实物理世界的海量数据，才能训练得聪明。ChatGPT的出世，是因为互联网用20年的时间把人类的知识数字化了，但对于具身智能行业，物理世界的数字化才刚刚开始。

相比于AI大模型的训练数据（文字、图像、视频等数据库），具身智能的训练数据需要人类各种场景下的行为数据（比如开门、做饭等等）、以及人类所处的物理世界的场景数据。而对于具身智能创业公司来说，如果数据采集成本很高，便很难收支平衡。

一些机器人公司也在尝试解决数据来源问题——主动与产业界合作，获取场景下的数据。比如，特斯拉机器人擎天柱Optimus，使用的便是与特斯拉全自动驾驶FSD相同的计算机硬件，Optimus的AI大脑也与FSD 非常相似，包含相同的计算机视觉系统。

国内一家具身智能公司的技术研发人员向《智能涌现》推测，FSD的信息来源是用车载摄像头的路况信息来训练的视觉模型，而Optimus则将FSD的视觉模型拿来作为机器人的基座模型，再用机器人的场景（如搬运作业）数据，来对基座模型进行训练微调。

由于数据难获取，具身智能的Scaling law（规模定律，指当模型的参数量、数据集大小、计算量增加，模型的性能会提高）还在早期阶段，还没有达到涌现。一家机器人大脑公司的技术人员告诉《智能涌现》，国内还没有看到哪家公司的机器人大脑是能达到涌现阶段的。

而对于获取数据难题，国内不同团队目前分化出了不同的解决路径。

通用机器人公司“银河通用”的创始人王鹤，提倡使用仿真合成数据（即利用模拟软件，将目标的现实数据复制到虚拟环境中）。其团队利用合成数据训练的机器人，对任意材质和形状的堆叠物体能达到95%的抓取成功率。

利用仿真合成环境来训练机器人行走，图片来源：Dynaimc Robotics Laboratory

不过，这种解决思路并不能得到所有机器人公司的效仿。“星海图”CEO高继扬则认为，具身智能的第一阶段一定是，真实数据加上模仿学习，真实数据需要从现实世界获取，不能靠虚拟合成。

数据获取的纷争尚未停歇，人形机器人落地的第二个难题由此产生——机器人的泛化能力还达不到要求。

尽管谷歌RT-2（Robotic Transformer 2）具身多模态大模型已经足够惊艳世界，但距离实际应用还有一定的距离。谷歌此前曾经通过十几万条数据，让机器人通过模仿学习的方式，学习数据包中的行为轨迹，进而举一反三，习得语义和视觉上的泛化能力。

从谷歌的视频可以看出，他们让机器人把那个“快要掉到地上的袋子抓回去”，或者抓起一个机器人从未见过的饮料瓶。

谷歌实验室的机器人夹起快要掉落的袋子，图片来源：Transhuman Videos

但事实证明，即使强如谷歌，他们机器人的泛化性还不够。因为谷歌的十几万条数据的物理场景很单一，都是在同一个厨房、同一个桌面高度上采集的，而一旦机器人换一个场景，甚至是换一个桌面高度，机器人的动作便可能面临举一反三失败。

一个例子可以说明，高泛化能力的机器人多么聪明有趣——当机器人接受到一个“把螺栓拧到几个洞去”的任务，如果上一环节拧偏了，机器人也会根据实际情况，修正自己的行为，去适应上一环节的偏差。

正如“银河通用”创始人王鹤此前表示，机器人在车厂、工厂应用落地的障碍不在于操作精度、移动精度，而在于泛化能力。高泛化性，是当下机器人必须提升、攻克的关键点。

不过，要解决这些问题，产业界还有很长的路要走，这并不意味着人形机器人的落地就停滞不前。机器人的落地，其实也可以“抄近道”。

大部分人形机器人从业者认为，相比于AI大模型要达到GPT3.5或者GPT4的通用能力才具有商业价值，但对于具身智能，虽然机器人大脑还没达到“涌现”，匹配合适的身体形态和场景，就能产生商业价值。

机器人的泛化能力也分等级：初等泛化能力的机械臂，只能能识别更换形状后的零件；更高泛化能力的机械臂，即使在产线上的生产品类发生变化后（打个比方，从梭织牛仔到针织外套），机械臂也能自动适配。

多位行业人士向《智能涌现》表示，尽管初等泛化能力的AI机器人还没有顶尖聪明，但也有望在短期内落地。

一家具身机器人大脑研发公司表示，他们有望在2024年年底前落地有基础泛化能力的具身机器人大脑产品，可以用到打磨、抛光、搬运、点胶等环节。借助股东的产业资源和场景，实现商业闭环。至于机器人大脑的价格，其CEO表示，以协作机器人为例，相比于15-20万元的硬件本体，具身机器人大脑的价格只是零头。

初心资本合伙人许旸洋则判断，更高泛化能力的AI机器人（例如更换生产品类，也可以自适应），需要至少两年左右落地。

一些业内人士，也明确了AI机器人商业化落地的关键点。

对于大B端市场，机器人界泰斗王田苗表示，对机器人创业公司来说，第一个要素是场景背后的资源——大厂不仅能投钱，还能提供经验和数据。比如，小米汽车、美团物流都能为机器人提供场景数据。

第二要有产品技术；第三要能整合资源、融资，“不然（机器人公司）融到5亿、10亿之后，就融不下去了”。在他看来，同时具备两到三个要素才能成为行业头部，若只具备一个就只能成为一般的创业项目。

对于小体量的科研高校市场，要占据渠道优势。可以明确的是，人形机器人在未来很长一段时间是To-E（客户是高校、科研院所）的小批量量产阶段，并没有B端市场那么大，因此要把握好渠道，争取先发优势。

以“宇树科技”为例，宇树早在2017年四足机器狗阶段，就把产品卖给了很多高校。

“宇树科技”的早期投资人、初心资本合伙人许旸洋到美国走访发现，斯坦福、伯克利等高校的机器人实验室，几乎人手一台宇树的机器狗。有了前一个阶段的渠道铺垫，到如今的人形机器人阶段，宇树再卖给已有的高校客户就很顺畅，因为有天然的渠道优势和品牌信任。“对于高校市场，如果现在才开始去做的话，肉眼可见肯定没有优势。”许旸洋表示。

正如黄仁勋在不久前的台北国际电脑展上所说，“机器人时代已经来临，具身智能是人工智能的下一波浪潮。”

人形机器人的落地尽管将会有曲折，但行业在一步步蜿蜒前进着。

36氪旗下AI公众号

👇🏻真诚推荐你关注👇🏻

来个“分享、点赞、在看”👇

围堵人工智能的下一波浪潮

修改于

继续滑动看下一个

36氪

向上滑动看下一个

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

半年冒出近百家新公司，「具身智能」也有春天｜36氪新风向

AI大模型出世，具身智能有“脑”了

一派理想，一派现实

阻挡人形机器人落地的两座大山

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

半年冒出近百家新公司，「具身智能」也有春天｜36氪新风向

AI大模型出世，具身智能有“脑”了

一派理想，一派现实

阻挡人形机器人落地的两座大山

您可能也对以下帖子感兴趣