查看原文
其他

宇树科技王兴兴:与其完善多模态大模型,不如探索开发全新模型

抱一君 元界
2024-09-05



总书记视察的上海机器人公司,有这样几个显眼之处

黄仁勋:希望今天不是我的巅峰, AI的下一波浪潮是机器人技术



“与其继续完善现有的大语言模型和多模态大模型,不如探索开发全新模型,这样可能会带来更大突破。”2024源大会的具身智能论坛上,宇树科技创始人兼CEO王兴兴如此表示。

智源社区说,要说2024智源大会最火爆的论坛,具身智能论坛一定榜上有名。论坛现场,门口站满围观听众,可谓水泄不通。


有人说,2024年是“人形机器人元年”。引爆这一概念者,除了马斯克,还有英伟达。

英伟达GEAR负责人范麟熙,在去年年底展望2024年时说,“除了大语言模型之外,最大的事情毫无疑问是机器人。”

他表示,2024年将是机器人全面崛起的第一年。

3月18日,在英伟达2024年GTC AI大会上,英伟达创始人、CEO黄仁勋表示,随着生成式人工智能发展,“一个新的产业已经出现”,那就是机器人产业。

6月15日,在美国加州理工学院第 130 届毕业典礼上,黄仁勋表示,人工智能的下一波浪潮是机器人技术。

智源也认为,从Figure01与人类交流自如,到特斯拉Optimus叠衬衫,从宇树G1惊艳发布到公众对人形机器人的争相追逐,具身智能是2024年最炙手可热的科技概念。

不过,如果说元界为什么关注智源大会的具身智能论坛,很大程度因为宇树科技创始人王兴兴、这位90后创业者的存在。

今年2月,宇树科技获得近10亿元的B2轮融资,这也是当时国内自2024年以来四足机器人领域融资金额最高的一笔。领投的资方是美团、金石投资、源码资本,深创投、中网投、容亿、敦鸿和米达钧石,跟投。

不仅如此,在英伟达2024年GTC AI大会上,与黄仁勋一同登场的9款人形机器人,两款来自中国,其中一款是宇树科技旗下产品H1,后者有“国产首款能跑的全尺寸通用人形机器人”之称。


左二为宇树科技HI


当天,王兴兴与来自北京大学、清华大学、NUS、UCSD的顶尖专家们,从数据、算法、技术路线、应用等角度回答了主持人的一系列提问。


踢机器人一脚,为什么不会倒?

论坛由北京大学助理教授、智源学者王鹤,主持。他抛给王兴兴的一个问题是,目前人形机器人主要通过强化学习来实现行走,让强化学习效果稳健的秘诀是什么?为什么踢机器人一脚它都不会倒?

王兴兴表示,这个问题并不复杂。国内外的学术圈已经利用机器人发表了许多顶尖的学术论文,可以直接查看这些论文,就能获得大致的了解。

他认为,机器人行业包括传统算法和AI部分。强化学习是一个很好的概念,但要真正落地,还需要许多其它技术的支持。

“我们不仅使用了强化学习,还结合了模仿学习和对抗生成网络等技术。强化学习只是一个总体框架,实际的模型架构设计更加复杂。不是简单地搭建一个多层神经网络,再加上强化学习的反馈机制就能解决问题。“他说。

具身智能论坛,被围得水泄不通。如果你有撰稿、企业人工智能应用、寻找投资、元宇宙规划、数据中心建设等需求,请微信 yhxgj360。


卡脖子的关键:从仿真数据到真实数据

具身智能体的数据来自哪里?王兴兴介绍说,目前宇树科技的机器狗和人形机器人主要通过纯深度强化学习在仿真环境中训练,如果第一次训练效果不理想,会调整奖励函数再训练,经过几次尝试,通常可以取得较好的效果。通过仿真环境中的实时交互数据进行训练,效果非常好,尤其是在纯运动控制领域,如跑步、跳跃或跳舞,仿真数据已经足够,目前并不大量依赖真实数据。

但在某些情况下,会使用真实数据作为参考。通常,先用模型预测控制生成运动轨迹,或者从仿真中获取轨迹,再让机器人进行模仿学习。例如,机器人学习跳舞时,初始动作来自真实表演的数据。采集后筛选优化,再输入仿真环境训练,从而让机器人准确执行舞蹈动作。


但他认为,如果结合实际操作中的真实数据进行强化学习,效果会更好。”尤其是在让全尺寸人形机器人执行复杂任务或进行人机交互,单靠仿真数据可能不够,主要问题是现有仿真环境对接触的模拟很粗糙,为了效率,使用的模型过于简单。“

对于复杂的任务,如灵巧手的模仿学习,目前在仿真和实物上都有尝试,但机械臂主要依赖真实数据,虽然数据量不大,但成功率和实用性尚不理想。机械臂主要应用于简单的抓取任务,泛用性和处理复杂任务的能力仍然不足。

他表示,如果希望机器人在更真实的环境中操作,比如做饭或装配零部件,就需要使用高精度仿真环境,这要求更高性能的仿真器和显卡,如更真实的RGB相机,需要强大的显卡处理能力,但这会增加成本。不仅如此,接近真实环境的高精度仿真代价很高,特别是对布料和流体的仿真几乎不可行。

在他看来,在工业场景等复杂操作中,使用真实数据非常重要,因为涉及大量零部件的接触和复杂的物理环境,仿真训练可能效果有限。仿真器需要处理准确的物理模拟和材料变形,调整仿真器的时间成本很高,且仿真与真实环境差距较大,尤其在复杂任务中,如转笔任务,实际操作效率可能更高。总的来说,对于复杂操作任务,实物数据在当前阶段仍是更有效的解决方案。

折中而言,他认为,与其投入大量资源在高度真实的仿真上,不如直接用实际机器人操作,采集的数据量很大,且成本相对低廉。可以先用仿真环境解决问题,解决不了时,再用真实数据调整。最终,真实数据的使用是不可避免的。

论坛现场,从左到右依次为北京大学助理教授、智源学者王鹤,北京大学副教授、智源学者卢宗青,宇树科技创始人王兴兴,NUS助理教授邵林和清华大学助理教授、视觉与具身智能实验室主任高阳


先有鸡还是先有蛋?

马斯克曾说,未来如果有100亿个仿人机器人,它们可以随时随地的录制数据,因为人类在日常生活中并不总是在用相机记录一切。只有当通用机器人数量足够多时,才能解决图文大模型特别是图像数据的覆盖不足问题。

当主持人提问如何看待这种说法时,王兴兴表示,我们面临的是一个“先有鸡还是先有蛋”的问题。

他解释说,现有模型质量不高,导致机器人无法采集到高质量数据,而没有足够的数据,我们又无法做出优质的模型。因此,无论是多模态大模型,还是机器人模型,结构上还有很多改进空间。

他说,在理想情况下,我们应开发对数据需求较低的模型,就像人类和动物一样。一个小孩在成长过程中,通过较少的数据就能学会很多东西,包括语言。相比之下,现有的大语言模型对数据依赖性很强,这与人类学习方式不同。

在智能模型和模型结构方面,还有很多探索空间。现有的神经网络架构可能并非最优,可以研究脉冲神经网络或其它新结构。

他认为,”与其继续完善现有的大语言模型和多模态大模型,不如探索开发全新模型,这样可能会带来更大突破。“


相对技术路线,训练技术至关重要

自动驾驶领域是当前最火的具身大模型之一。特斯拉从最初的模块化系统,将感知、规划和控制分为三步,到如今声称实现了端到端的大模型。特斯拉认为,端到端方案成功实现了L4级别的自动驾驶,而模块化方案未能达到这一目标。

主持人问,如何看待这两种方案? 

清华大学助理教授、视觉与具身智能实验室主任高阳认为,两种方法各自都有其优点和出色之处。他个人更倾向于相信端到端的方法。比如人类在执行任务时,并不会刻意地先做这件事再做那件事,而是非常自然地完成整个过程。例如,当我们想拿起一个杯子时,我们的手自然地伸过去,整个流程非常流畅和高效。

”模块化的方法可能是当前数据不够充分时的过渡形态。在短期内,由于缺乏足够的数据,我们无法训练出一个海量数据支持的端到端模型,因此采用模块化的方法。当数据量足够多时,最终我们会转向端到端的方法,因为它能够更自然和高效地解决问题。“他表示。

主持人问,什么时候才能把技能全部整合到一个网络中,以实现端到端的处理?

王兴兴表示,当前的四足机器人和人体运动算法大多采用端到端的方式,但在技能训练上,如空翻和行走,通常还是分开进行,尽管这些模型在结构上相似。理论上,可以将这些技能整合到一个模型中训练,难度并不大。

他说,在具体任务上,使用端到端方法已经很普遍。例如,机器人翻越障碍时,会通过深度相机直接控制关节角度,整个流程非常端到端。但在复杂系统中,直接训练复杂的端到端模型难度很大。就像早期的深度学习只能训练浅层网络,而通过新技术才能训练更深的网络,训练技术至关重要。面对复杂系统时,大模型难以控制和收敛,因此通常将其拆解成小模块,在中间加入约束以便于训练。

他表示,目前直接训练复杂的大模型来实现多任务学习非常困难,将任务分解、分别训练,再合并整体训练的方法更为简单有效。

宇树科技创始人王兴兴


增加触觉感知,一个值得研究的方向

通用机器人在本体层面还需要哪些改进?哪些方面需要进一步提升?

王兴兴表示,他一直在考虑是否需要为机器人增加足够的触觉感知,以提升其智能和与外界的交互能力。

但他同时认为,触觉传感的设计和实现非常困难,尤其是如果需要覆盖整个机器人本体,几乎是不可能的。因此,”我在思考是否真的需要增加大量触觉感知,或者是否可以在较少的触觉感知条件下,使机器人本体在智能上有显著提升。虽然视觉信息非常丰富,但如果机器人有更好的触觉感知,是否可以进一步提升其对环境的理解?这可能是一个值得研究的方向。“ 

此外,”我们一直追求提升机器人本体性能、降低成本和提高可靠性。我希望未来有一天,人们可以从垃圾堆中捡几个关节,用胶水粘合,再下载一个先进的通用智能模型,机器人就能够自动站起来,并帮助完成各种任务。这是一个非常理想的状态,对硬件要求低,但对AI要求很高。我期待这样的未来到来。 “他表示。


两三年内,会在工业或体育赛事得到应用

未来三年,具身智能的产业发展前景如何?王兴兴表示,在未来两到三年内,具身智能可能会在一些相对简单的工业领域或体育赛事中得到应用。这些场景目标明确,过程清晰,相对容易实现。



推荐阅读

从估值3亿美元到融资超10亿美元,他仅用8个月|中国未来产业100人

性能超Llama2-13B,华为哈勃、北京国资基金刚投,吴恩达点赞

百亿估值大模型公司再获融资,国资背景基金出手,三大看点

性能超Llama2-13B,华为哈勃、北京国资基金刚投,吴恩达点赞

红杉、高瓴后,华为哈勃投下这家元宇宙领域公司,3D引擎迎风口?

AI应用存六个阶段的机会:智源大会Sora负责人、杨植麟等观点速览

首次!中国元宇宙区县、产业园、乡镇、街区TOP榜评选,上路


修改于
继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存