清华最新强化学习 | 混合策略梯度对高级自动化车辆的集成决策与控制
作者 | 王汝嘉 编辑 | 汽车人
原文链接:zhuanlan.zhihu.com/p/586586304
点击下方卡片,关注“自动驾驶之心”公众号
点击进入→自动驾驶之心【3D目标检测】技术交流群
后台回复【强化学习】获取本文论文!
论文思路
自我进化是实现完全自动驾驶不可或缺的。本文提出了一种基于集成决策与控制 (IDC) 的自我发展决策系统,该系统是基于强化学习 (RL) 构建的高级框架。首先,提出了一种称为约束混合策略梯度 (CMPG) 的RL算法,以持续升级IDC的驱动策略。它在惩罚方法下调整MPG,以便可以使用数据和模型解决约束优化问题。其次,设计了一种基于注意力的编码 (ABE) 方法来解决状态表示问题。它介绍了用于特征提取的嵌入网络和用于特征融合的加权网络,以实现对顺序不敏感的编码和对道路使用者的重要性区分。最后,通过融合CMPG和ABE,本文开发了IDC架构下的第一个数据驱动决策和控制系统,并将该系统部署在日常运行中运行的功能齐全的自动驾驶车辆上。实验结果表明,通过数据提升,该系统比基于模型的方法具有更好的驱动能力。它还展示了在具有真实混合交通流的信号交叉口的各种复杂场景中的安全,高效和智能驾驶行为。
主要贡献
本文提出了约束混合策略梯度 (CMPG) 算法来解决IDC的CMDP问题。CMPG是为约束优化而设计的RL算法。与基于模型的算法不同,CMPG可以同时使用交互式数据和先验模型来有效且一致地改善自动驾驶策略。
本文设计了一种基于注意力的状态编码 (ABSE) 方法来解决一般情况下道路用户的表示问题。ABSE建立了对订单不敏感的编码网络,以处理动态流量,同时捕获单个参与者的相对重要性。证明了该方法的内射性质。
通过将CMPG和ABSE融合在IDC架构中,本文作者开发了用于自动车辆的高级决策和控制系统。据本文作者所知,它是世界上第一个部署在日常操作自动驾驶汽车中的数据驱动决策和控制系统。在具有混合交通流的真实信号交叉口中验证了系统的性能。
网络设计
智能汽车需要一个自我进化的决策系统来应对无数的角落案例。本文认为有效的数据利用率和一般的状态编码是两个实现自我进化能力的关键技术。在IDC的框架下,本文首先提出了一种新的基于数据和模型驱动的约束RL算法CMPG。因此,当使用算法作为IDC求解器时,数据可以巧妙地融合在训练好的策略中。此外,为了在不同场景中获取一般策略输入,设计了一种基于注意的方法来编码动态交通元素,同时识别其相对重要性。实验结果表明,所提出的决策系统在数据的帮助下可以达到更好的驱动性能。代理可以精确区分他人的重要性,并在复杂的交叉路口场景中实现安全高效的自动驾驶。
实验结果
参考
[1] Integrated Decision and Control for High-Level Automated Vehicles by Mixed Policy Gradient and Its Experiment Verification
往期回顾
超越所有Anchor-free方法!PP-YOLOE-R:一种高效的目标检测网络
【自动驾驶之心】全栈技术交流群