RSS 2023|30分钟教会机器人做家务!CMU提出全新结构化世界模型SWIM
教会机器人在现实环境中解决各种复杂任务,一直是机器人控制领域的关键研究课题。近来随着具身智能的快速发展,机器人代理已经被要求拥有自主路径规划和对任务进行推理的能力。但是现有的方法仍然需要大量高质量的特定任务数据来训练代理模型,这使得机器人很难在一个陌生的环境中正常运作。本文介绍一篇发表在机器人顶级会议RSS 2023的论文,作者团队来自卡内基梅隆大学,本文提出了一种名为结构化意图世界模型 (Structured World Models for Intentionality,SWIM)的方法,SWIM仅使用few-shot的方式来从现实世界交互数据中学习,就可以高效的驱动机器人完成各种复杂任务。
文章链接:
https://arxiv.org/abs/2308.10901
项目主页:https://human-world-model.github.io/
受到计算机视觉和自然语言领域大规模数据集学习成功的启发,本文作者认为,人类本身具有多样性的交互技能,如果能使机器人利用来自互联网中的人类视频数据进行学习,可以极大的提升机器人的控制性能。SWIM通过构建一个结构化的、以人为中心的动作空间,并从各种人类交互视频中捕获通用结构,训练得到一个高效的机器人世界模型,该模型可以尽在30分钟以内的交互数据上学习各种复杂环境中的各项操作技能,上面视频展示了SWIM学习到的一些具体交互示例,例如挑选蔬菜、拿起刀、打开柜子、拉抽屉、拉开洗碗机和操作垃圾桶。
一、引言
目前较为流行的机器人学习范式是基于模拟学习,或者在现实环境中部署强化学习框架,通过工程奖励的方式来训练机器人代理,但是这种方式训练得到的代理几乎是不可扩展的,其很难迁移到具有不同目标的新任务上。因此本文的目标是建立一个世界模型来解决这一问题,由于人类在日常生活中执行的诸多任务之间存在共性,这导致即使在不同的环境中,一些交互行为在环境动力学方面具有相似的结构,因此构建一个高效的世界模型,实现跨任务的未来交互预测,从而可以使智能体能够学习这种共享的行为结构。但是如何收集用来训练世界模型的数据呢,本文作者想到能否直接利用互联上的人类运动视频来对世界模型进行训练?
如上图所示,本文作者提出了一种结构化世界模型SWIM,其构建了一个既适用于人类视频领域又适用于机器人的动作空间,例如我们考虑一个“拿起杯子的任务”,从人类视频中提取到的运动信号与机器人实际执行时的运动信号完全不同,这导致操作层面的预测模型无法直接训练。如果能够提前在动作空间中对目标动作姿态和杯子把手的方向进行预测,并抽象出低级控制路径,那么人类使用的目标姿势也可以被机器人直接利用,因此SWIM要求在实际环境信息的介入下,学习一个形态不变的高级结构化动作空间来完成复杂的交互过程。
二、 本文方法
本文提出的SWIM框架主要分为三个阶段:(1)使用人类视频数据对世界模型进行预训练,(2)使用机器人特定任务的数据进行无监督微调,(3)将世界模型部署在特定的目标任务上。下图展示了前两个阶段的主要操作流程,下面我们将详细介绍其中的一些细节。
2.1 世界模型预训练
SWIM框架仍然遵循谷歌大脑和DeepMind联合提出的Dreamer范式[1],该文发表在ICLR2020上,其将世界模型定义为一个紧凑的状态空间,可以对传感器捕获的高维数据进行理解并产生控制信号,并且将中间状态信息进行保存,从而实现有效的预测和规划。在本文中,作者仍然使用Dreamer中的世界模型结构和训练过程,它具有以下组件:
2.2 使用机器人数据进行微调
2.3 在特定任务上部署模型
四、总结
参考
作者:seven_
Illustration by IconScout Store from IconScout
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>>> 添加小编微信!
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈点击“阅读原文”按钮,查看社区原文⤵一键送你进入TechBeat快乐星球