【综述专栏】薛建儒: 自动驾驶的场景理解研究
IJAC综述专栏
本期聚焦西安交通大学薛建儒教授团队成果,10年之内可以造出完全自动驾驶的汽车吗?当前自动驾驶技术的发展遭遇哪些瓶颈?未来如何突破?
A Survey of Scene Understanding by Event Reasoning in Autonomous Driving
Jian-Ru Xue, Jian-Wu Fang, Pu Zhang
限时免费下载(5-7月):
https://link.springer.com/article/10.1007/s11633-018-1126-y
图片来自SpringerLink
在交通运输领域,自动化(Automation)是最热门的研究课题之一。预计10年之内,完全自动驾驶的汽车就可以生产出来。
---2015《Nature》
文章节选
10年之内真的可以造出完全自动驾驶的汽车吗?坦白来说,就目前的研究进展和面临的挑战,这一目标的实现尚需更多时日。
自动驾驶的发展历史
发展自动系统的目的在于帮助人们处理一些日常事务。而自动驾驶系统,与人们日常出行十分紧密,因此成为当前最关注的技术之一。它能把人的双手从方向盘上解放出来,腾出更多时间完成其他工作。此外,自动驾驶车辆配置的传感器还能迅速识别周围环境,保证安全驾驶,减少交通事故。
图片来自网络
当前,有两股动力在推进自动驾驶研究:一是由各个政府、研究机构、生产商发起的研究计划和挑战任务;另一个则是诸多公开测试(benchmarks)。
1)研究项目及挑战赛事
自1986年,欧洲发起"智能交通运输系统项目",简称PROMETHEUS,19个国家的13余家汽车生产商和研究机构参与其中。来自卡耐基梅隆大学的Charles Thorpe等人在美国发起了第一个自动驾驶项目,1995年,该研究项目取得很大进展,汽车从宾夕法尼亚州的匹兹堡自动驾驶至加利福尼亚州的圣地亚哥。同年,在诸多研究的支持下,美国政府组建国家自动高速公路系统联盟(NAHSC)。一系列项目推动了对高速公路场景(highway scenarios)长期系统的研究。然而,这些研究始终未涉及城市场景。
图片来自网络
实际上,城市场景与人们的日常生活密切相关。由美国国防高级研究计划局(DARPA)组织的“DARPA超级挑战赛”大大加快了自动驾驶车辆研究的发展进程。2004年和2005年分别举办第一届和第二届。2007年11月3日,第三届DARPA挑战赛---“城市挑战”在加利福尼亚维克多维尔的乔治空军基地拉开帷幕,目的是在莫哈韦沙漠中测试自动驾驶车辆的性能,比赛规定车辆在遵守交通规则的同时,也要能够与其他车辆及障碍物进行沟通协调,充分融入整个交通场景中。6小时内,4个参赛组完成了路线行驶。
图片来自网络
2009年,中国国家自然科学基金委发起了“中国智能车未来挑战赛”(iVFC)。截止到2017年11月,已经成功举办9届。谷歌也在2009年启动了自动驾驶研究项目,至2018年3月已累计完成超过500万英里的自动驾驶测试。2016年,项目部门发展成一个独立研究自动驾驶技术的公司Waymo。2016年10月,特斯拉发布Autopilot 2.0,配置了多个摄像机、12个超声传感器和1个前向雷达,所有搭载Autopilot 2.0的车辆都具有自动驾驶能力。
图片来自网络
实际上,越来越多的汽车生产商,如奥迪、宝马、奔驰等,也开始着手研究自己的自动驾驶汽车。
2)测试(Benchmarks)
2012年,Andreas Geiger等人提出KITTI视觉测试数据集(KITTI vision benchmark),其中包含6个不同的城市场景,以及156个时长2-8分钟的视频片段。这些数据由配置了一个彩色和黑白摄像机、威力登3D激光扫描仪(Velodyne 3D laser scanner)和高精度GPS/IMU惯性导航系统(inertial navigation systems)的汽车采集而来。
同时,剑桥大学发布CamVid数据集,包含4个城市场景的视频序列(video sequences),提供了语义分割评价测试(evaluation benchmark)。另一个颇受欢迎的测试是2016年公开的Cityscapes数据集,其中收集了50个城市中的场景,包含5000张精标图像(fine-annotated images)和20000张粗标图像(coarse-annotated images)。Cityscapes已成为完成语义分割任务时,最具挑战的数据集。
图片来自文章
标注(annotation)是一件耗时且费力的工作。基于此,Adrien Gaidon等人借助计算机图像技术,构建了一个大规模的类似KITTI数据集的虚拟数据集。虚拟数据集的优点在于可以生成任何想要的任务,即使该项任务非常罕见。然而,对于复杂多样的场景而言,这些测试的生命周期都很短暂。
为解决这个问题,Will Maddern等人通过一年内重复穿行牛津大学中央的一条路线,行驶了1000多公里,采集了多于20TB的图像、LIDAR和GPS数据。这个数据集反映了更多城市场景、照明和天气的变化,但不足之处在于没有提供充分标注。除了配置各种传感器系统外,一些研究者还专注于全景校准(full view calibration),通过给测试车辆安装多个摄像机,他们从不同视角收集数据,如:LISA-Trajectory、PKU-POSS数据集。
自动驾驶技术发展面临的困难
当前,自动驾驶技术的发展主要面临以下困难:
1) 当前对于环境感知,如对交通场景中参与者的检测、追踪和分割,在真实环境中仍然会出现无法避免的错误。
2) 驾驶环境非常复杂,无法预测,且实时变化,充满不确定性。
3) 关于深度交通场景理解(deep traffic scene understanding)的研究远远不够,如理解场景的几何/拓扑结构,参与者(行人、车辆等)的时空变化等,这类研究的终极目标是在语义上推理出场景演化(scene evolvement),从而为行动计划和自动驾驶控制提供参考,但该研究开展起来非常困难,因为这些因素是隐性存在于自动驾驶环境中的,无法直接通过观察得到。
4) 自动驾驶车辆的应用遭遇社会阻力和道德追问。
本文结构
本文集中讨论自动驾驶车辆对交通场景的深度理解,旨在从事件推理的角度(event reasoning view),探索交通场景的演变。因为通过可追踪的推理策略,事件能反映场景的动态演化过程。为了更加清晰且有逻辑地展现本研究,文章从表现(representation)、检测(detection)和预测(prediction)三个阶段来推理事件。
图片来自文章
在表现阶段(representation stage),作者详细探讨了自动驾驶的显著性(saliency)、上下文布局(contextual layout)、拓扑规则(topology rules),旨在为下面两阶段获取高质量研究线索(clues)。在检测阶段(detection stage),作者从不同参与者(participants)的角度回顾了事件检测(event detection),如行人角度和车辆角度。在预测阶段(prediction stage),文章集中于探讨研发自动驾驶车辆的意图,并将其分为长期意图预测(long-term intention prediction)和短期意图预测(short-term prediction)。
图片来自网络
除了这些阶段,近年也出现了一些针对自动驾驶场景理解的端对端方法(end-to-end approaches),如FCN(fully convolutional networks)和FCN-LSTM。文章第5部分集中讨论了这类方法。此外,文章还讨论了一些开放性问题和挑战,并尽力给出一些可行的解决办法。
全文结构如下:
第一部分是引言,第二部分讨论了场景表现(representation of scene),为接下来的事件推理铺路;第三部分回顾了行人及车辆事件检测;第四部分概述了意图预测;第五部分介绍了基于深度学习技术,直接推理(direct reasoning)的端对端框架(end-to-end frameworks);第六部分集中于事件推理(event reasoning)的评价指标(evaluation metrics)和相关数据集;第七部分是本文结论。
全文信息
A Survey of Scene Understanding by Event Reasoning in Autonomous Driving
Jian-Ru Xue, Jian-Wu Fang, Pu Zhang
摘要:
Realizing autonomy is a hot research topic for automatic vehicles in recent years. For a long time, most of the efforts to this goal concentrate on understanding the scenes surrounding the ego-vehicle (autonomous vehicle itself). By completing lowlevel vision tasks, such as detection, tracking and segmentation of the surrounding traffic participants, e.g., pedestrian, cyclists and vehicles, the scenes can be interpreted. However, for an autonomous vehicle, low-level vision tasks are largely insufficient to give help to comprehensive scene understanding. What are and how about the past, the on-going and the future of the scene participants? This deep question actually steers the vehicles towards truly full automation, just like human beings. Based on this thoughtfulness, this paper attempts to investigate the interpretation of traffic scene in autonomous driving from an event reasoning view. To reach this goal, we study the most relevant literatures and the state-of-the-arts on scene representation, event detection and intention prediction in autonomous driving. In addition, we also discuss the open challenges and problems in this field and endeavor to provide possible solutions.
关键词:
Autonomous vehicle, scene understanding, event reasoning, intention prediction, scene representation.
限时免费下载 (5-7月):
https://link.springer.com/article/10.1007/s11633-018-1126-y
本文系IJAC小编编译,翻译如有不当之处,欢迎后台留言批评指正!
专题推荐
论文助手
往期目录
IJAC新年首期,重磅来袭(Vol. 14 No.1, Feb. 2017)
更多精彩内容,欢迎关注
1) IJAC官方网站:
http://link.springer.com/journal/11633
2) Linkedin: Int. J. of Automation and Computing
3) 新浪微博: IJAC-国际自动化与计算杂志
4) Twitter: IJAC_Journal
5) Facebook: ijac journal
关于杂志或文章,您有任何意见或建议,欢迎后台留言或私信小编,对话框回复关键词,自动获取往期更多精彩内容!
本文编辑:欧梨成
点击“阅读原文",进入原文下载通道