其他
银河通用王鹤:用三维视觉小模型+基础大模型实现具身智能
什么是具身智能的关键?
作者| 金旺
栏目| 机器人新纪元
随着通用人工智能的浪潮来袭,具身智能也随之成了一个热门研究方向。尤其是在GTC 2024上,黄仁勋官宣人形机器人通用基础模型GR00T发布后,让AGI+人形机器人成了一个全球热门课题。在近日上海举办的首届具身智能大会上,科技行者在现场聆听了国内众多专家、学者、科学家对于这一话题的激情研讨和观点碰撞。有专家认为,通用人工智能是人类一个永恒的目标,但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是银河通用机器人公司创始人的王鹤认为,谷歌RT-2和Figure给出的不是最优解,三维视觉小模型+基础大模型会是实现具身智能的一条路径。为什么谷歌的RT-2和Figure给出的不是最优解?三维视觉小模型+基础大模型又是一条怎样的具身智能路径呢?关于这些问题,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:
01
机器人从动嘴到动手有多难?
最近,具身多模态大模型非常火,我们看到了OpenAI和Figure的联合演示,我们也知道英伟达最近在GTC 2024上宣布了他们的Project GR00T计划。02
两大难题:泛化能力、响应速度
那么它的问题在哪里呢?第一个问题是泛化性差。谷歌RT系列的动作数据来自于1-3个厨房,谷歌在山景城办公室3个厨房中,一个16人的团队用13个机器人,花了17个月的时间,采集到了13万条数据。这些数据虽然覆盖了移动、抓取、放下这些移动场景中很多任务,但是场景非常单一,只是在谷歌的厨房里。所以我们发现,谷歌这一模型在他们的厨房里执行任务的成功率相当高,在RT-1的论文中的数据显示,在这个场景中,它执行任务的成功率高达97%。03
具身智能关键:三维视觉小模型
我认为一种有效的途径是使用三维视觉小模型。这需要覆盖很多任务,例如,怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉,用榨汁机等,我们可以把它通俗地归纳为泛化的家用电器操作。这其中有一个共性是,这些物体都有很多零部件,我们操作这些家用电器时要按按钮、拉把手等。所以我们在2023年CVPR的论文GAPartNet提出了一个数据集,总结了家用电器9种常见的零部件,包括直线型把手、圆形把手、转钮、按钮、拉的盖子、转的盖子等。
我们今天给大家的一个思路是,类似于Figure的GPT-4V大模型在顶层,中间层是一些响应很快的小模型,我们用的是三维视觉小模型,最后形成了可泛化的任务执行能力。那么,什么是终极具身智能呢?什么时候我们能做到类脑模型,把所有的模态数据全放到数据集中,还能拥有足够快的响应速度,还能听得懂语义,就能做到真正的具身智能。这也是我们接下来要研究的问题。
作者简介 PROFILE
金旺
关注智造、硬件、机器人。
行业交流请加微信:jin_3144
[ 注:添加好友时请注明公司、职位和来意 ]
· FIN ·
科技行者团队出品
腾讯将人形机器人写进计划里
OceanBase十四年:艰难起步、根自研和一体化思路