查看原文
其他

码脑|关于Figure新demo的一些冷静思考

源码资本
2024-09-08

The following article is from 工具与意志 Author 西坝河GPT

把LLM大模型与机器人结合,人类能“制造人类”吗?拥有“涌现能力”的大模型一经面世,就引起市场的无限遐想。现在,一切看起来更近了。


第一个“ChatGPT机器人”出现了,初创公司Figure联合OpenAI,推出名为Figure 01的机器人——它会说会看,还能给人类递食物、捡垃圾、收拾碗筷;此外,它还能够推理,自行识别、计划和执行有用的任务。


具身智能的革命来临了吗?Figure 01到底有哪些突破?我们选取了公众号“工具与意志”提出的观点,期待与大家共同探讨。

这几天Figure和OpenAI合作的demo视频又破圈了。基本和我年初的预测一致,2024年,我们会不断看到机器人领域有一些令人兴奋的进展出来,相信Figure的demo只是其中之一,而且肯定不是其中最具突破性的。

为什么有这个预测?因为机器人整个技术栈里的单点技术都在快速进展,它们排列组合一下就会有一些很具“视觉冲击力”的成果出来。

但是,有必要给看到Figure视频过于兴奋的人泼点冷水。先说结论:我没有在Figure的demo中看到非常新的技术能力,目前demo 的性质更像是我们去年常说的GPT-wrapper的状态。换句话说,要达到这个demo的状态并没有很多secrets。当然这里wrapper没有负面的意思,硬件产品需要很好的wrapper。在这一点上,必须承认Figure做的还不错。

简单聊聊这个demo里的细节。

1

关于整体架构

Figure的工程师Corey Lynch在x上公开了架构图,整个算法分为三层:

  • 上层:OpenAI model。这也就是我们常说的High-level policy部分,也被称为“大脑”,这部分负责处理语言和视觉输入,人机交互,并生成动作决策。这个决策的内涵就是“选择能执行目标动作的模型”。Lynch的原话是:“deciding which learned, closed-loop behavior to run on the robot to fulfill a given command, loading particular neural network weights onto the GPU and executing a policy.” 这句话其实暗含了一个信息,就是他们的Low-level policy包括多个模型,这些模型是通过learning的方式得到的,但这些子模型的封装程度/抽象程度没有披露(是比较细颗粒度的元动作库,还是比较粗粒度的任务库)。

  • 中层:Neural Network Policies(NNP)。这就是Low-level policy部分。Lynch强调了:“All policies are learned, (not teleoperated)”。这个很关键,所有的动作都是用learning的方式来做的,但没有强调是什么learning方法。但Lynch也给了一些细节:“All behaviors are driven by neural network visuomotor transformer policies, mapping pixels directly to actions.”结合视频中的动作,我们可以大胆猜测下,他们应该用的是基于transformer的模仿学习(imitation learning)。类似的技术也出现在前阵子爆火的mobile aloha(https://mobile-aloha.github.io/)中,相关技术的论文至少在2020-2021年就已经有了。在Figure 01做零食装篮的动作时,左手的小动作似乎imitation learning的一个clue。

  • 下层:Whole body controller(WBC)。这部分就是对应人的小脑。这部分公开的细节不多,猜测NNP输出的是全24关节的角度控制信号和灵巧手的控制信号(200Hz),然后在下层会根据一些安全约束对24DoF的关节控制信号进行修正和插值(1000Hz)。当然,也不排除NNP这部分只focus在manipulation相关的控制。可以看下面这段视频,在手部动作时,Figure 01的全身动作是比较协调的(比如在放杯子时,做出了轻微的下蹲动作);当然这个在此前Figure发的煮咖啡视频中,已经看到了这个能力。

2

关于OpenAI、大模型和机器人的结合

在High-level Policy这一层,demo 目前展现出来的感知理解能力、推理能力、对话能力等其实都是多模态大模型能力的直接体现,只是经过“具身化”之后给人比较强的感官冲击。早在去年PaLM-E(Corey Lynch也是PaLM-E工作的参与者之一)的时候,这些能力就已经初步展现出来,只是GPT-4/GPT-4V的感知理解和推理能力又往前进了一步。

PaLM-E当时接的下层控制RT-1也一个transformer-based policy model,采用了learning from demonstration的方法,只是Figure 01用了更复杂的灵巧手,其控制要更复杂精巧,但不一定有方法论层面的本质突破。

比较有意思的是High-level policy和NNP这层的接口是怎么做的,在demo的复杂度上,这些接口都是可以“手搓”的(LLM本身就提供了一些灵活性),但要真正希望把LLM的泛化能力充分发挥出来,这层接口怎么做,我猜测并不简单。不过,最近跟圈内朋友交流下来,应该已经在部分任务上可以实现了,在更广泛的操作任务上实现,也不是完全不可能的事情了。

3

关于机械设计方面

简单说三个关键词:丝滑、线束、大背包。

Lynch特别强调,所有的视频都是原速录制!原速录制!原速录制!

在原速下,Figure 01的动作速度、流畅程度都非常不错,这个值得称赞。首先说明他们把电机和减速器的性能做到不错了,其次整个NNP的算法和后面的修正插值都做的很不错,不比硬件见长的特斯拉做的差。现在压力给到了特斯拉和各路中国团队这边。

不过,Figure 01的线束似乎不太讲究,这说明他们还没有采用中空走线的方案,猜测这个后面大概率会改的。

上次发煮咖啡视频的时候就注意到了Figure 01的”大背包",里面可能是电池和控制器?这个一方面不美观(萝卜青菜,个人观点),另外重心也比较高且靠后。

4

小结和一些期待

结合Sergey Levin和Chelsea Finn等大牛联合创办的PI高调官宣(更多大神也已经在路上了...),具身智能领域的攻坚战才刚刚打响。但我还是非常兴奋地看到越来越多资源开始进入到这个领域,无论如何,技术的发展速度被加快了。

回到技术上,我认为最关键的问题还是基础能力的泛化。跟一位行业大佬聊天时,他提到说在自动驾驶领域的泛化都还没有看到解决的希望。那么对于多达40-50个关节的复杂机器人而言,要做到真正泛化又谈何容易。好的一点是,我们看到scaling law在这个领域也显现出效果。大概率泛化能力会沿着自主导航——夹爪抓取——夹爪操作——灵巧手操作的顺序逐步实现,整个时间周期目前看还需要至少3-5年时间。期待一步到位的朋友们,可能要有些耐心。



继续滑动看下一个
源码资本
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存