科研速递 | 理工学院林天麟教授团队在机电工程领域顶刊TMECH发表论文
The following article is from 优必选科技 Author 优必选科技
随着人形机器人行业的快速发展,其在现实生活中的应用也愈发变得可能。如何在适应不同的地面环境的同时保证行走安全是一个亟待解决的课题。
日前,优必选科技与代尔夫特理工大学丁加涛博士、香港中文大学(深圳)理工学院林天麟教授(兼任深圳市人工智能与机器人研究院智能机器人中心主任)、利兹大学黄艳龙教授合作,联合发表了论文《Safe and Adaptive 3D Locomotion via Constrained Task-Space Imitation Learning》。该论文针对人形机器人安全步行, 通过线性化3D捕获条件并结合任务空间的模仿学习,实现人形机器人在不需要大量示教数据的情况下,快速获得稳定、安全的行走步态。
该论文于2023年1月被《IEEE/ASME机电一体化汇刊》(IEEE/ASME Transactions on Mechatronics,简称“TMECH”)收录,该期刊由美国电子电气工程师协会(IEEE)和美国机械工程师协会(ASME)共同主办,是机电工程领域的顶级期刊。
摘要概述
近年来,双足步行控制得到了广泛研究,其中(被动)安全(即双足快速制动而不会摔倒)是实现人形机器人走向实际应用必须要首先解决的关键问题。本文通过将安全性约束集成到模仿学习框架中,赋予人形机器人的安全行走能力并使之具备环境适应性。
与之前基于非线性的、耦合的捕获动力学的方法不同,该论文通过选取适当的极值将3D捕获条件线性化,然后将它们整合到最新的受限模仿学习框架中。此外,文中提出了一种启发式规则来定义控制点,从而实现自适应步态的学习。所提出的框架不需要手动生成步行参考轨迹,允许机器人从少量示教轨迹中快速地学习运动技能,并能将学到的技能应用到新的3D场景中。
与深度强化学习不同,该框架避免了大量迭代优化,也避免了从模拟到真实迁移(sim-to-real transfer)的难题。由于在任务空间进行学习,所得到的步行控制策略可以快速迁移到不同的样机上。
背景简介
针对人形机器人安全步行,领域内已经从保持平衡和避免障碍等方面进行了研究。最近,被动安全概念引起了广泛关注。该任务不仅要求人形机器人在行走过程中能够保持平衡,还要能在迈出有限步甚至零步后紧急制动,即满足N步或零步捕获约束。
现有的工作大都假设机器人行走过程中保持竖直高度恒定,以此获得N步或零步捕获。而在3D步行任务(例如,爬楼梯或穿过不平地形)中,竖直高度的变化是不可避免的。针对此问题,现有工作从调整“运动的发散分量”(DCM)角度出发,试图将2D的N/零步捕获拓展到3D。然而,这些工作通常涉及非线性或隐式约束,并且其中大多数需要对质心(CoM)或压力中心(CoP)轨迹进行额外的简化。
此外,为实现N/零步捕获步态的求解,现有的工作依赖于有约束的模型预测控制或者其他的非线性规划方法,但需要在事先通过手动获取参考轨迹。不同于数值优化方法,示教学习(也称为模仿学习)使得模仿人类/机器人现有的步态成为可能。比如,部分研究者使用动态运动基元(DMP)和核化运动基元(KMP)生成鲁棒的步行模式。然而,他们都未能考虑安全性约束。
本文方法
为了在保证安全的情况下实现自适应3D双足步行,本文首先推导出满足安全行走要求的线性、解耦条件;其次,将可行性约束(包括安全性约束)与受限模仿学习相结合,提出一个能够在满足安全约束的同时模仿示教运动的步态学习框架;最后,借助线性倒立摆(LIP)模型,定义任务空间中的控制点,以实现自适应步态的学习。
3D 捕获条件
3D DCM可表示为:
式(1)表明DCM运动跟质心的竖直方向上的运动呈非线性相关。通过选取适当的极值(
可以对DCM施加线性约束,即:
基于此,可以给出线性的捕获条件。以一步捕获为例,安全性条件可表示为:
图1展示了本文使用的线性化策略的基本思想。
图1:安全行走所允许的捕获区域(capture region)的近似:“Act. Capture region”表示使用变化的自然频率计算的捕获区域。“Max.”和“Min.”对应的最大和最小捕获区域由固有频率的边界值计算得到。
考虑安全性约束的受限模仿学习
参考文献[2]提出了一种可以处理线性约束的模仿学习方法(LC-KMP)。该方法通过求解以下约束优化问题实现对示教轨迹的学习。
在本文中,为了获得一定的鲁棒性,我们使机器人同时学习未来两步的运动。其中在第一步中遵循一步捕获条件,在第二步中考虑零步捕获条件。与大多数忽略双足支撑阶段的工作不同,本文在使用公式(5)时,显性地考虑了单/双足支撑阶段的切换,如图2所示。此外,除捕获条件外,本文还考虑了质心运动等可行性约束。
图2:考虑双足支撑的行走动作。在第二步的末尾,我们只考虑单腿支撑,行成更加严格的安全性保证。
基于启发式规则的控制点选取
LC-KMP的另一大特点是可以通过选取适当的控制点,从而生成满足不同任务的轨迹。本文针对双足步行学习任务,在两步运动中定义四个期望点,其中第一点和第四点用于确定开始和结束状态,而第二点和第三点用于满足任务需求。为了满足安全性约束,在每个时刻分别选取CoM位置、速度和加速度。对于水平运动,使用LIP模型确定参考运动状态,见图3。对于高度变化,采用启发式规则进行参考状态的选取,见图4。
图3:水平面控制点的选取。
图4:高度方向控制点选取。
优必选Walker2 真机实验
为验证方法的有效性,研究团队在优必选的Walker2人形机器人上进行了大量实验。首先采集Walker2机器人周期行走生成的步态数据作为示教。然后,使用上述的框架生成针对不同任务需求的3D步态。测试任务包括在非平整地面上行走(图5第二行)、爬楼梯(图5第三行)和直膝行走(图5第四行)等。实验数据表明,该算法能够满足不同任务需求,生成满足安全性需求的双足步态。并且,在不同的任务下,机器人都能够实现单腿急停。
图5:机器人平整地面上示教行走(第一行)和不同任务下安全行走:不平地面行走(第二行),上台阶(第三行)和直膝行走(第四行)。机器人头顶上方的红色箭头指示运动方向。
小结
在本文中,我们为双足步行开发了一个考虑约束的模仿学习框架。该框架能够处理包括线性化的安全约束在内的大量可行性约束。实验表明,所提出方法可以从少量的2D场景演示中学习行走技能,并在严格遵守安全限制的前提下泛化到新的3D场景。
我们认为,这一方法未来还能够应用到人形机器人更复杂、更高维的动作中(如跑步或跳跃),并在这个过程中确保机器人的动作安全。这也是提升人形机器人环境适应能力的一次正向尝试,
完整的结果和分析参见全文:
https://ieeexplore.ieee.org/document/10049251
参考文献:
[1] T. Koolen, T. De Boer, J. Rebula, A. Goswami, and J. Pratt,“Capturability-based analysis and control of legged locomotion, part 1: Theory and application to three simple gait models,” Int. J. Robot. Res., vol. 31, no. 9, pp. 1094–1113, July 2012.
[2] Y. Huang and D. G. Caldwell, “A linearly constrained nonparametric framework for imitation learning,” in Proc. IEEE Int. Conf. Robot. Autom., 2020, pp. 4400–4406.
作者简介
本文通讯作者为香港中文大学(深圳)理工学院林天麟教授。
林天麟,香港中文大学(深圳)理工学院助理教授,校长青年学者,机器人与智能制造国家地方联合工程实验室常务副主任,深圳市人工智能与机器人研究院智能机器人中心主任,电气与电子工程师协会(IEEE)高级会员。分别于2006年和2010年在香港中文大学获得一级荣誉学士学位和博士学位。研究重点包括多机器人系统,新型移动机器人及协作机器人等。获国内外授权专利70余项,发表2部专著,在T-PAMI、T-IP、T-RO、T-MECH、JFR、RA-L、ICRA、IROS顶尖国际期刊及会议发表论文余50篇。获2011年IEEE/ASME T-MECH最佳论文奖, 2020年IROS机器人机构及设计最佳论文奖及2020年IROS最佳應用论文提名奖。研究成果被Reuters、Discovery Channel、IEEE Spectrum、NHK日本放送协会等众多国际知名媒体广泛报导。
点击以下链接,进入理工时刻:
喜讯 | 理工学院共13篇研究论文被CVPR 2023收录(含1篇highlight)
科研速递 | 理工学院黄乃正院士、彭小水教授功能有机分子研究团队在Chemical Science上发表综述
重磅丨港中大(深圳)供应链与物流管理硕士2024年入学申请正式开放!
活动回顾 | 深圳市环境材料与再生能源重点实验室2023年度第一届学术委员会暨发展战略研讨会成功举办