查看原文
其他

ICRA2021专场回顾|Apollo自动驾驶技术中的视觉感知

阿波君 Apollo开发者社区 2022-07-29


近期,一年一度的国际机器人技术与自动化大会(ICRA)在中国西安如期举行。数千位来自高校、科研机构、科技公司的教授、学者和工程师们汇聚ICRA 2021现场,带来近50场技术研讨会,共话机器人、自动化、人工智能等领域前沿进展,云端吸引全球超过10余万人的关注参与。百度Apollo继续携干货参与ICRA,带来自动驾驶Workshop技术分享专场。本文主要从以下几点为大家详细讲解「自动驾驶中的视觉感知」的内容!


  • 摄像头作为传感器在自动驾驶中的意义
  • 百度Apollo Lite
  • 环视视觉感知技术
  • 基于深度学习的三维⽬标检测



在自动驾驶系统中,为什么摄像头发挥越来越重要的作用?主要有以下两个原因:
首先,摄像头传感器的环境感知能力潜力巨大,它可以获取细节丰富的环境信息,并且具有高帧率和高分辨率特点。激光雷达的典型帧率为10fps或20fps,摄像头的帧率则可以达到30fps甚至60fps。并且摄像头产品成熟稳定,达到车规级,而这对于量产是一个非常重要的因素。


其次,视觉感知技术的发展离不开过去十多年软硬件在算力、算法和数据方面的进步。在算力方面,以GPU为例,过去十年有100倍的提升;在算法方面,深度学习技术过去十年取得重大进展,精度提升;在数据方面,在自动驾驶领域可以借助其他传感器如激光雷达来辅助标注,这使得从摄像头数据中提取3D信息成为可能

 


在2019年CVPR大会上,百度Apollo为大家带来了中国首个L4级别城市道路自动驾驶解决方案Apollo Lite的分享。Apollo Lite使用10个摄像头进行360度环境感知。包括3个前置摄像头,1个后置摄像头,4个侧置摄像头和2个侧置鱼眼摄像头。在过去的两年里,Apollo Lite已经取得了很大的进步。一是Apollo Lite已经在北京、广州、上海等地区进行了路试,有能力应对中国复杂的道路环境;二是在百度的AVP和ANP智能驾驶产品中应用了Apollo Lite的技术。




通过视觉感知,我们可以对环境模型有一个全面的了解。环境模型中的元素可以分为三类:

  • 道路使用者——检测所有车辆、自行车、行人、交通锥等可移动物体,并输出3D信息;

  • 道路语义——停止线,交通灯和道路指示等具有语义信息的道路元素;

  • 道路几何——道路表面建模。


二维检测在计算机视觉中得到了很好的研究,但对于自动驾驶来说,三维检测是必须的。如何从2D图像中提取3D信息,是一个病态问题。


我们使用三个引擎来解决二维到三维的问题:

1、使用神经网络端到端估计3D框

2、如果我们知道车辆与道路之间的接触点,以及路面模型,我们就可以估计接地点的深度对于接触点的检测,我们采用车轮检测或可行使区域深度估计来提高接触点的精度。对于路面模型的估计,我们结合了在线标定和HDmap。
3、第三个是VIDAR(视觉激光雷达),可以预测每个点的深度。
    • 3D障碍物检测:端到端估计,基于射影几何的优化;
    • 触地线索:车轮、触地线、Freespace检测;
    • 环境理解:地面建模、车道属性、路面建模和车道分配;
    • 视觉点云:基于图像的深度估计,视觉雷达。

 



在基于深度学习的三维目标检测中,我们需要解决离线标注和在线推理问题。
  • 首先对图像中的三维长方体和三维线索(如车轮)进行预测。
  • 然后通过投影几何、道路几何和应用几何推理来保证二维图像和三维世界之间的约束。
  • 最后,我们得到每个对象的3D框。

在每个摄像头中进行三维物体检测后,我们需要对摄像头之间的物体进行跟踪。例如,左前、左后、左侧鱼眼摄像头中的白色车辆属于同一物体。挑战在于同一个物体在不同的摄像头下的外观可能会有很大的不同。我们采用了表观特征提取网络来生成每个目标的特征表达

 

除了3D道路用户检测和跟踪外,行为相关语义线索对于自动驾驶也很重要,特别是对于提前预测行为。


Apollo Lite采用高度学习化的感知算法,整个机器学习系统由30多个神经网络组成,可以对10个摄像头进行实时处理。除了常见的目标检测和场景分割,机器学习系统还包括端到端的3D估计和表观特征等预测推理,这些大大简化了障碍物的3D估计和跟踪中的后处理策略。而且,高度学习化的感知系统也赋予了自动驾驶系统消化数据和持续进化的能力,是整个数据闭环的重要基础。为了让学习化的系统随着道路测试不断自我进化,我们需要构建高效的数据引擎基础设施。



该基础设施有四个重要的子系统:

  • 数据挖掘和筛选系统负责通过交叉验证等产生高价值的数据;

  • 标注系统负责高质量数据标注;

  • 模型训练系统负责大规模多任务模型训练;

  • 多层次的测试系统,可以在不同的层次(如模型层次、感知层次)对系统进行标定。

在Apollo Lite中,80%的新标记数据来自数据挖掘。



以上就是ICRA2021自动驾驶Workshop技术分享中关于「自动驾驶中的视觉感知」的全部内容啦!如果大家对此次国际机器人技术与自动化大会(ICRA)的内容感兴趣可以上B站观看全程直播。

如果大家对Apollo或者开发套件感兴趣,可以关注添加Apollo小哥哥(微信号:apollo_xzs)为好友,进入技术交流群,跟开发者们一起讨论哦!


©️著作权归作者所有,如需转载,请注明出处,否则将追究法律责任。

点击文章左下角『阅读原文』

可观看直播回放




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存