查看原文
其他

新一代人形机器人Figure 02登场,号称“地表最强AI硬件”,能对话会学习,无间断打工20小时

Jessica 硅星人Pro
2024-09-06

作者Jessica
邮箱JessicaZhang@pingwest.com

今年3月把GPT-4装上身,像科幻片里一样会“看听说”的机器人Figure 01,又出来硬控硅谷热搜了。

早在5天前公司推特账号就发布预告,即将官宣下一代人形机器人Figure 02。

今天凌晨,充满未来感的demo如期而至:

视频中可以看到,Figure 02的外观已焕然一新:从上一版闪银色铬金属皮肤换成了炫酷哑光黑,曲线也更流畅。演示背景脱离了实验室,来到南卡罗来纳州斯帕坦堡的一处宝马生产线上。

Figure 02展示着灵巧的手指和躯干关节,在工厂里行走,使用神经网络技术自主学习拿取和装配汽车零件。

据Figure AI称,此次工程和设计团队“从零开始完成了硬件和软件的重新设计”,在人工智能、计算机视觉、电池、电子设备、传感器和执行器等关键技术上取得了重大突破。

主要特征包括:

• 语音对话:通过机载麦克风和扬声器连接到定制的AI模型,能与人类进行对话

• 摄像头:AI 驱动的视觉系统由 6 个机载 RGB 摄像头提供支持

• 手部:第四代手部具有16个自由度,与人类力量相当

• 机载视觉语言模型(VLM):使机器人摄像头能够快速进行常识性视觉推理

• 机载电池:机器人躯干内的2.25千瓦时定制电池组,提供超过50%额外能量

• CPU/GPU:与上一代相比,机载计算和AI推理能力提升3倍

公司CEO兼创始人Brett Adcock表示, Figure 02 的概念设计评审是在去年 2 月,历时 18 个月完成,自豪称之为“地球上最先进的 AI 硬件”。

题外话:总觉得他神似马斯克

并高调回应马斯克2月底的宣战:

他也进一步透露了部分主要技术细节:

首先是语音对话推理。Figure 02 延续上一代,可以通过内置麦克风和扬声器与人类进行语音对话。这一核心功能依托于与OpenAI合作训练的定制AI模型,能够理解、处理并回应人类的语音输入。机器人以语音作为默认操作界面,意味着用户可以像跟人交谈一样自然地与Figure 02互动,而无需依赖传统的按钮或屏幕界面。

得益于机载视觉语言模型(VLM),Figure 02能通过摄像头"看懂"周围环境。进行快速的语义理解和常识性视觉推理,并做出智能判断。例如物体识别、场景理解,甚至洞悉人类的行为意图,显著增强了机器人在复杂现实世界中的适应和交互能力。

此外,Figure 02机载CPU / GPU的计算和AI推理能力是上一代产品的3倍。这一重大提升使其能够完全自主地执行现实世界中的AI任务,而无需依赖外部资源。

除软件外,Figure 02在底层硬件上也进行了几大升级。

电池配备上,Figure 02采用自主设计的2.25千瓦时内置电池组,对比Figure 01 能提供超过50%的额外能量。显著提升机器人的续航能力,实现每天长达20小时的有效工作时间,接近全天候运行。

创新的集成布线系统看似简单,实则是一项复杂的工程挑战。这种设计减少了线路故障的风险,隐藏式布线更美观和安全,紧凑的布局也优化了机器人的内部空间利用。公司还开发了定制的线缆端口和连接器,进一步提升Figure 02的整体可靠性。

6个分布在头部、前躯干和后躯干的RGB摄像头,以及 AI驱动的视觉系统,赋予Figure 02超越人类的视觉能力。这种全方位的摄像头配置实现了360度环境感知、精确深度感知和细节识别。结合先进的AI算法,使Figure 02能够快速理解眼前的复杂视觉信息,做出相应行为判断。

为了提升刚性强度并防止撞击负荷,Figure 02 还被设计成类似飞机机身的外骨骼结构:即外壳不仅用于保护内部组件,还用于提供结构支撑。与传统的内部框架相比,外骨骼可以更有效地利用材料,在不牺牲强度的情况下减轻重量,提高能源效率和移动性能。

还有一大亮点是Figure 02的第四代机器手。完全仿照人手的尺寸和功能设计,具有16个自由度和与人类相当的力量。Brett Adcock称这种设计涵盖了机械、电气、控制和传感器等各个方面,展现出的高度灵活性和强度,使手部能够执行足够广泛的人类任务。

根据Figure的控制总监Michael Rose和硬件总监Vadim Chernyak介绍,Figure 02有高达几千个部件,为了便于制造,腿部和电池等都是可更换的。

不仅如此,在Figure 02此前的预告片中,还透露出其扭矩等级高达150牛顿米(Nm),这一指标直接体现机器人在搬运物体时的力量。更引人注目的是,Figure 02运动范围(ROM)可达195度,在机器人技术领域堪称一项重大突破。

所以尽管外界一直传言,Figure AI自从上次拿到OpenAI、微软、英伟达的6.75亿美元B轮融资后,产品研发就进入难产期,起码表面上,它还是把第二代机器人给推出来了。

英伟达高级研究员Jim Fan说,“恭喜 Brett!制作高自由度灵巧手的决定绝对是正确的。”

网友Lorenz S说,“这竟然将是最差的一次。想象一下 Figure公司15 年后的样子….”

Brett Adcock也回复道,“这确实是件神奇的事,每天都在变得更好。我们没有哪一周不在进步,接下来的 18 个月里你会看到更多的激进改进,因为这将越来越多地转向软件发展。”

有人提问Figure 02的重量和行走速度。Brett回答说,虽然外骨骼减轻了质量,但由于在另一端增加了电池、摄像头、CPU/GPU,因此净重增加到 70KG。

对于速度则未做回应,大概是因为看起来,就很慢…

这个步态也成了被网友们开玩笑的槽点之一。

“一切都很酷,直到它开始走路。”

“是啊,就像拜登 02。”(嘴可以说是很毒了…)

还有自带放大镜的,注意到视频里机器人胯部的伤痕。

一些更不买账的网友认为,Figure 02的宣传片更多借鉴了消费电子产品视频的风格,而不是机器人实际工作的原始演示。换句话说,现在对于一些足够有钱的公司拿出足够fancy的demo这件事,不少人已经逐渐有了免疫力。

“我没有看到你所说的那些重大功能:它没有显示出能够听到命令,没有随机与人交谈,没有展示推理能力,也没有在工厂进行任何实际工作。你什么时候展现公正的测试演示?”

“当今 AI 公司的一个常见现象是,在技术演示中过度承诺以吸引投资者,实际中却大大低于预期。这家公司又有什么不同?”

另外也有人认为在工业制造用例中,人形机器人并不是最优解。

“在工厂里使用这些技术和工程是巨大的浪费。视频中的任务完全可以用机械臂完成。应该将 Figure 02 投入到例如商店上货架,帮助老年人做饭、打扫卫生这些任务上去。”

Figure AI几个月前开始与宝马进行试点合作,在汽车生产线训练和收集数据。通过每秒200次的像素采样到动作神经网络中进行学习,以证明其在工业级环境中的应用潜力。

加上集成了OpenAI最先进的大模型,使其超强的语音对话和视觉推理能力成为业界一大卖点。Brett曾表示,他的目标是在未来2~5年内将自主双足机器人推向市场。

当然,Figure AI并非现在唯一角力通用人形机器人赛道的公司。

去年年底,亚马逊和Playground Global投资的Agility展示了利用生成式AI改善人机通信的工作。其双足机器人Digit根据自然语言指令,成功执行了“把达斯·维达光剑颜色的箱子移动到最高塔上”的任务。

马斯克负责的Grok AI和Optimus项目也在快速发展中。并预测Grok将借助来自X、特斯拉汽车和Optimus机器人的实时数据,成为世界最领先的AI系统。同时Optimus机器人也已经在特斯拉设施中执行任务,计划在2026年开始销售。马斯克设想,未来将有百亿个Optimus机器人与Grok AI互相训练,进一步提升整体实力。

此外1X、Boston Dynamics、英伟达、谷歌也都在积极训练自己的智能机器人项目。

科技巨头和创业公司疯狂涌入,频繁刷新投资记录。无论是对生成式AI新技术的追逐,还是对错过下一个风口的恐惧,亦或是对解放生产力和探寻人机交互智能边界的渴望,人形机器人无疑是未来科技的重要方向之一。然而,各种视频中展示的高度灵活性和智能背后,其成本效益和复杂性、在真实物理环境中的实际表现、以及商业化产品周期仍是一个未知数。

这让Figure 02的亮相相比起技术展示,更像是一次对同行的震慑,和对公众、特别是投资人的交代。

又或许像CEO Brett Adcock说的那样,在完成硬件创新后,未来18个月将有越来越多的软件升级,带来更多“激进”突破。拭目以待。

点个“在看”,再走吧

继续滑动看下一个
硅星人Pro
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存