查看原文
其他

Hugging Face进军机器人,前特斯拉Optimus科学家带队|甲子光年

王艺 甲子光年
2024-08-23

软件平台也有硬件野心。


作者|王艺‍‍

编辑|赵健‍


机器人太火了,连专注软件领域的Hugging Face也入局了!


美国时间5月6日,Hugging Face的机器人项目负责人雷米·卡德内(Remi Cadene)宣布推出LeRobot开源代码库,并形容它对于机器人的意义就如同“Transformer架构之于NLP(自然语言处理)”。


Remi Cadene表示:“人工智能发展的下一步是将其应用于我们的物理世界。因此,我们正在围绕AI机器人建立社区驱动的努力,并且它向所有人开放!”


Remi Cadene的X推文


Remi Cadene在两个月之前加入Hugging Face,并在法国巴黎搭建团队,招募具身机器人工程师。此前Remi Cadene先后在特斯拉自动驾驶汽车部门与人形机器人Optimus团队担任科学家。


Remi Cadene表示自己将在Hugging Face开启一个“雄心勃勃”的开源机器人项目,而且不是像OpenAI那样的开放,是真正的开源。


Hugging Face是一家总部位于纽约的人工智能公司,估值45亿美元。在组建开源机器人团队之前,Hugging Face的主营业务均为软件形态,包括开源AI模型库和AI助手Hugging Chat Assistants。


如今,随着Hugging Face的开源机器人代码库上线,将会有更多的人加入到机器人研发的大潮中。Hugging Face已经乘上了大模型爆火的第一轮东风,它还会继续乘上机器人的东风吗?




1.LeRobot:一个机器人的“图书馆”


此次推出的LeRobot开源代码库旨在为Pytorch框架下的现实世界机器人提供模型、数据集和工具,目标是降低进入机器人技术的门槛,以便每个人都可以做出贡献,并从共享数据集和预训练模型中受益。


LeRobot不仅仅是一个软件包,而是一个综合平台,其中包括用于共享、可视化数据和训练最先进模型的多功能库。具体而言,LeRobot开源数据库提供了一组预训练模型、包含人类收集演示的数据集,以及无需组装机器人即可使用的模拟环境,以为机器人在现实世界中的动作提供更多的支持。


它与物理模拟器无缝集成,让没有物理机器人硬件的爱好者和开发人员可以在虚拟环境中模拟和测试他们的人工智能模型,目标是提供一个可以适应和控制任何形式的机器人的AI系统,从而实现机器人应用的多功能性和可扩展性。


Remi Cadene在推文中表示,LeRobot之于机器人就像Transformer架构之于NLP——它提供带有预训练检查点的高级AI模型的简洁实现。他们还复现了来自学术界的 31 个数据集和一些模拟环境,无需实体机器人即可开始使用。



Cadene 发布了一些由Github上LeRobot库的代码提供的机器人功能的示例,它们都是在真实数据集上训练的。


比如,在这个数据可视化的例子中,它展示了LeRobot是如何在Return(一个SDK和查看器,用于可视化与多模态数据流交互)上运行的,数据集来自Aloha项目(用于异构架构运行时自适应和安全深度学习的软件框架,主要目标是促进深度学习算法在异构低能耗计算平台上的实现,为最佳算法选择、资源分配和部署提供自动化。



LeRobot的另一项可视化是在Mobile Aloha数据集上进行的,旨在完全端到端地学习导航和操作。以下例子展示了LeRobot控制下的两个机器人抓手/手臂之间传递物体:



上述两个数据集都是在机器人公司Trossen Robotics的机械臂上收集的。


当Remi Cadene团队使用ACT策略对LeRobot开源代码库进行测试时,基于LeRobot的机器人在模拟环境下同样表现良好。


ACT策略是一种机器人的动作分块算法,即Action Chunking with Transformers,它使用Transformer编码器合成来自多个视点、联合位置和风格变量的图像,并使用Transformer解码器预测一系列动作,通过预测动作序列来解决高精度领域中的问题。ACT策略可以在新环境干扰下做出反应,并且对一定程度的干扰具有鲁棒性。



可以看到,两只机械手分别娴熟地捏起两块不同的积木并堆叠到了一起,证明了ACT策略下LeRobot的有效性。


同时,在Diffusion Policy(扩散策略,一种强大的模仿学习算法)和TDMPC Policy(Temporal Difference Learning for Model Predictive Control,一种包含世界模型的强化学习算法)两种策略下,LeRobot同样表现出色,可以不断从与环境的交互中学习。



早在索邦大学(Sorbonne University)读博的时候,Remi Cadene就给出了NASNet模型(一个移动端的ImageNet模型)的Pytorch实现方法。


2021-2024年3月在特斯拉的Autopilot团队和Optimus团队工作期间,Remi Cadene也在自动标记神经网络、构建操控网络等工作中做出了重要贡献。




2.软件平台也有硬件野心


在过去的几个月里,人形机器人技术取得了令人印象深刻的突破(ALOHA、扩散策略、UMI 等等),使机器人能够在有限数量的数据集上运行,同时让很多资金实力不足的小团队也能训练自己的机器人。


同时,最近一段时间,大量风险资本涌入人形机器人行业,比如Figure AI在2月份获得了来自英伟达、亚马逊和OpenAI等的6.75亿美元融资,这已经是他们在2023年5月完成7000万美元A轮融资、7月获英特尔900万美元投资后,一年内的第三次融资。


4月18日波士顿动力将其液压动力机器人Atlas退役、推出了全新的电动Atlas机器人(详见《波士顿动力推出全新Atlas:人形机器人并不一定要像人》);就在前天,特斯拉宣布了其人形机器人Optimus能力的全面升级(详见《特斯拉机器人Optimus“进厂打工”:它学会了纠正自己的错误》)。


在中国,人形机器人赛道同样耀眼,仅仅是在2024年4月,中国的人形机器人领域就发生了4起投融资事件,截至目前已经有了8起融资事件,达到了2023年的三分之二,累计融资金额超过12亿元。2023年底,人形机器人第一股优必选更是成功在港交所上市。


「甲子光年」曾在《人形机器人+大模型,为什么是投资人追逐的新风口》中指出,通用人工智能对物理世界的价值需要有具身的实体来承载,而人形机器人就是最好的落地方式;大模型打开了通用机器人的可实现性,帮助人形机器人在技术层面迈过了一个鸿沟,产生了巨大的价值发挥空间,而这也是人形机器人最近备受科技和投资圈关注的原因。


作为在机器学习和AI领域深耕了多年的玩家,Hugging Face同样能够看到人形机器人的巨大潜力。今年3月,在将前特斯拉AutoPilot与Optimus科学家招至麾下后,Hugging Face在法国巴黎招募具身机器人工程师,并提到:“在Hugging Face,我们相信机器学习不必局限于计算机和服务器,这就是为什么我们正在扩大我们的团队,为专注于机器学习/人工智能的机器人工程师提供新的机会。”


Hugging Face表示,“在这个职位上,你将负责设计、构建和维护集成人工智能技术的开源和低成本机器人系统,特别是深度学习和具体人工智能技术,突破机器人和人工智能的可能性界限”。 


Hugging Face已经迈出了第一步。将LeRobot机器人代码库开源是Hugging Face的一项战略决定,旨在避免权力和创新集中在少数公司手中。


LeRobot发展的基础是创建有史以来最大的众包机器人数据集。通过与大学、初创公司、大型科技公司和个人爱好者合作,Hugging Face 正在促进庞大机器人数据存储库的建立——这其中包含数以TB计的机载视频记录,这些视频记录正在使用轻量级的 LeRobot Dataset 进行格式化,以便通过Hugging Face快速上传和下载。


未来,通过降低准入门槛并营造共享知识和资源的环境,Hugging Face上有希望长出一个可以重新定义人工智能机器人领域的社区,而这也是Hugging Face的机器人野心。


(封面图来源:Hugging Face)





END.






继续滑动看下一个
甲子光年
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存