很多自动驾驶公司包括Waymo、百度、奔驰(Cityscape)、英伟达(PilotNet)、本田(H3D)、安波福(nuScense)、Lyft、Uber都公开了其部分训练验证数据集,还有一些知名大学也公开了其训练验证数据集,包括MIT、剑桥、牛津、巴克利、加州理工大学(Caltech)、CMU、悉尼大学、密歇根、德国鲁尔(交通灯)、加拿大约克(JAAD)、斯坦福。但是Argo AI的数据集Argoverse仍然值得一提。
2020年6月2日,Argo AI 公司 CEO Bryan Salesky 和该公司慕尼黑分部(即AID)副总裁 Reinhard Stolle 在其官方 Blog 上联合发布了一篇声明,宣布 Argo AI 由此走向国际化。而这一事件完成最关键的标志就是——德国大众集团完成了对 Argo AI 价值 26 亿美元的注资正式结束。大众将与福特持有相同的股份,剩余部分则归Argo AI公司员工所有。Argo AI公司的董事会也会由5人增至7人,其中大众和福特各占2个席位,另外的3个席位则归属于Argo AI自己。Argo AI与大多数自动驾驶公司将总部放在加州也不一样,其总部在匹兹堡,美国汽车工业心脏地带,而不是加州的高科技地带。自动驾驶感知环节,不仅要探测移动目标,还要对移动目标的行动轨迹做出预测,就像人类驾驶的预判,这样才是真正的自动驾驶,才能提高安全性。也就是MODT(Moving Object Detection and Tracking),上面提到的数据集都是针对Detection的,而Argoverse主要是3D轨迹追踪和预测,这是其独特之处。再者,Argoverse将高精度地图与3D轨迹追踪并预测结合,用确定性的地图提高整体系统的确定性,这才是自动驾驶大厂所关注,传统车厂更注重确定性,更在意安全。拥有高精度地图的数据集只有两个,一个是Argoverse,另一个是nuScense。
Argoverse与其他数据集的对比
上图是Argo AI的数据采集车,激光雷达部分采用两个VLP-32C堆叠。扫描密度是nuScense的3倍,7个200万像素摄像头呈环状分布,帧率30Hz,一个500万像素双目摄像头,帧率5Hz,基线宽29.86厘米,还有6DOF的高精度定位。这个数据采集车同时也是Argo AI的自动驾驶原型车,主要采集地点在匹兹堡和迈阿密。
最上面一行是4个200万像素相机影像,中间右边是双目相机影像,最下面一行是3个200万像素相机影像,右边是地面高度的矢量地图。所有序列都与包含车道中心线(洋红色),可行驶区域(橙色)和地面高度的地图对齐。序列用3D长方体轨道(绿色)标注。
显示三个参考坐标系:(1)车架,Xv向前,Yv左,Zv向上,(2)相机架,Xc跨像平面,Yc朝下像平面,Zc沿光轴,( 3)LiDAR框架,向前XL,向左YL,向上ZL。为每个坐标系定义正旋转RX,RY,RZ为遵循右手定则的绕相应轴的旋转。如果地图直接告诉我们哪些3D点属于道路,哪些属于静态建筑物,所跟踪的对象位于哪个车道,到下一个交叉路口的距离等,则3D场景理解会更容易,更容易预测其运动轨迹。但是,由于公开可用数据集不包含丰富的映射属性,如何表示和利用这些特征是一个开放的研究问题。Argoverse是第一个具有此类详细地图的大规模自动驾驶数据集。Argo AI在3D跟踪和运动预测这两个任务上研究了这些新地图功能的潜在用途,并且提供了大量的现实世界,带标注的数据,以为这些问题提供新的基准。
Argoverse的场景可视化,用激光雷达鸟瞰图(BirdEyed View)视觉化,车辆或其他目标用3D框标注,用双目计算出可行驶区域,并用青色表示,用黄线表示边界。从中也可以看出,未来大众和福特的自动驾驶类似奔驰的,也是以双目为核心,以双目计算出可行驶区域,以激光雷达定位和MDOT避障。
Argoverse用高精度地图移除地面静态物体。有了高精度地图,再配合激光雷达鸟瞰图,可以准确地移除基于地面的静止目标,减轻自动驾驶的感知计算复杂程度,更容易识别出重要的运动目标。如果地面有坡度,这种算法难度较高,Argo AI用准确的高度匹配和3D地图解决这个问题,最终效果如右边一列。Argoverse跟踪数据集包含113条带有人类注释3D轨迹的片段。这113个片段的长度从15到30秒不等,总共包含11,052个跟踪对象。使用3D Bounding Box对所有感兴趣的对象(动态和静态)进行标注。仅标注了地图定义的可行驶区域5 m内的对象。对于整个片段持续时间不可见的对象,在LiDAR点云中该对象变为可见后立即实点化轨迹,并在该对象不再可见时终止轨迹。即使暂时被遮挡,相同的对象ID仍用于同一对象。每个对象都标记有15个类别之一,其中包括ON_ROAD_OBSTACLE和OTHER_MOVER,用于不属于其他预定义类别的静态和动态对象。超过70%的被跟踪对象是车辆,还观察到行人,自行车,轻便摩托车等。
所有标注均通过人工手动标注保证质量。将带注释的跟踪数据分为65个训练,24个验证和24个测试序列。在移动目标轨迹运动预测中,Argoverse可以预测将来某个时间跟踪对象的位置。许多车辆的运动相对无意义-在给定的帧中,大多数汽车都以几乎恒定的速度停泊或行驶。这样的轨迹很难代表真实的预测挑战。Argo AI想要一个具有多种场景的基准测试,例如交叉路口,车道合并车辆减速,转弯后加速,道路上的行人停车等。为了对这些有趣的场景进行足够的采样,Argo AI跟踪了迈阿密和匹兹堡1006个行驶小时内的物体,并找到了Argo AI感兴趣的车辆在那320小时内的行为。主要包括(1)在十字路口,要么(2)左转或右转,(3)转向相邻车道,或者(4)在交通繁忙时。Argo AI总共收集了324,557个5秒序列,并将其用于预测基准。
这些序列的地理分布如上图
每个序列都包含以10 Hz采样的每个被跟踪物体的2D鸟瞰中心。每个序列中的“焦点”对象始终是车辆,但是其他跟踪的对象可以是车辆,行人或自行车。它们的轨迹可用作“社会(Social)”预测模型的上下文。324,557个序列分为205,942个训练序列,39,472个验证和78,143个测试序列。每个序列都有一个具有挑战性的轨迹。训练,验证和测试序列取自城市的不相连部分,即每个城市的大约八分之一和四分之一被分别留作验证和测试数据。该数据集远大于可以从公共可用的自动驾驶数据集中挖掘的数据集。如此规模的数据很吸引人,因为它使我们能够看到罕见的行为并训练复杂的模型,但它太大了,无法详尽地验证开采轨迹的准确性,因此,数据中固有一些噪声和误差。Argo AI使用Baseline Tracker基线追踪器,给定一系列F帧,其中每个帧包含一组环形摄像头图像和来自LiDARPi的3D点,其中Pi的x,y,z坐标,我们想要确定一组轨迹假设{Tj | j = 1,…,n},其中n是整个序列中唯一对象的数量,Tj包含对象中心位置和方向的集合。我们通常有一个动态的观察者,因为我们的汽车经常行驶。场景中的车辆可以是静止的或移动的。基线跟踪器。Argo AI的基线跟踪管道在LiDAR点云的可行驶区域(在地图上标出)内工作,以检测潜在的物体,使用Mask R-CNN 去除非车辆的LiDAR信息,使用最近相邻和匈牙利算法将聚类随时间进行关联,使用迭代最接近点(ICP)估计群集之间的转换,并使用等速运动模型通过经典的卡尔曼滤波器估算车辆姿态。所有车辆均使用相同的预定义3D Bounding Box尺寸。如果无法通过匈牙利方法找到对象的匹配项,则在删除对象或将其关联到新的群集之前,仅使用最多5帧的运动模型来维持对象的姿势。即使对象在短时间内被遮挡并重新出现,这也使跟踪器可以保持相同的对象ID。如果集群不与当前跟踪的对象相关联,将为其初始化一个新的对象ID。可行驶区域 Argoverse侧重于车辆跟踪,因此将跟踪器限制在地图指定的可驾驶区域。该可行驶区域覆盖车辆可能行驶的任何区域。这种限制减少了误报的机会。地面高度。使用地图信息去除地面上的LiDAR点云。与局部地平面估计方法相比,基于地图的方法在倾斜和不平坦的环境中有效。车道方向。由于LiDAR的稀疏性和局部视野,仅凭LiDAR来确定车辆方向是一项艰巨的任务。Argo AI观察到车辆方向很少违反车道方向,尤其是在十字路口外。幸运的是,此类信息可在地图中获得,因此,只要车辆不在十字路口且包含的LiDAR点太少,Argo AI就会根据车道方向调整车辆方向。评估标准方面,Argo AI将对MOTP(Moving Object Tracking Processing)使用三个距离度量:MOTP-D(3DBounding Box中心Centroid距离),MOTP-O(方向误差)和MOTP-I(交叉路口误差) 。MOTP-D是由相关跟踪器输出和地面真实情况之间的3D边界框质心距离计算的,在MOTA中也用作检测关联范围。我们的“遗失”轨道阈值是2米,是美国平均家庭用车长度的一半(编者注:这个显然错了,应该是2.5米)。MOTP-O是绕z轴(垂直)的最小角度差,从而忽略了前后对象的方向,而MOTP-I是无模态形状估计误差,由3D边界框的1-IoU计算得出与nuScenes中一样对齐方向和质心。对于所有三个MOTP分数,较低的数值表示较高的准确性。
24个片段的测试结果,结果显示,远距离效果不是太好。
与基于地图的地面拟合方法相比,基于地图的地面去除方法在较长距离下具有更好的3D IoU评分和更好的检测性能(更高的MOTA),但方向稍差。另一方面,地图上如果加上车道线信息,车道方向追踪性能可显着改善。运动预测方面,Argo AI首先挖掘“有意义”的序列,在其中观察“焦点”车辆 5秒钟。作为上下文,Argo AI具有所有其他跟踪对象(包括自动驾驶车辆本身)的质心,这些质心被折叠为一个“其他”类。预测坐标系和归一化。用于轨迹预测的坐标系是自顶向下的鸟瞰图(BEV)。预测涉及三个参考坐标系:(1)在城市坐标系中存储和评估原始轨迹数据。(2)对于使用车道中心线作为参考路径的模型,Argo AI定义了一个二维曲线坐标系,其轴线与车道中心线相切且垂直。(3)对于没有参考路径(没有地图)的模型,Argo AI对轨迹进行归一化,以使轨迹的观察部分始于原点,并在正x轴上结束。如果(x,y)表示在时间步t处轨迹V的坐标,则此归一化可确保ytobs=0,其中Tobs是轨迹的最后观察到的时间步。Argo AI发现这种归一化比将轨迹留在绝对地图坐标或绝对方向上更好。抽出特征,对于交通环境,使用到前面,后面和附近对象的最小距离。这种启发式方法旨在捕获车辆之间的交通互动。对于空间上下文,Argo AI通过计算车道线段坐标系中的特征将地图用作先验。Argo AI计算与每个轨迹相对应的车道中心线,然后将坐标(x,y)映射到沿中心线 a的距离并偏离中心线o。在随后的部分中,Argo AI分别通过时间st和mt分别表示时间步t的轨迹Vi的交通特征和地图特征。Argo AI使用关联速度( Constant Velocity),最小近邻(NN)和LSTM来做预测。给定车辆轨迹的过去输入坐标Vi ,其中对于时间步长t的 X,预测时间步长T的未来坐标 Y。对于汽车,5 s足以捕获轨迹的显着部分,例如。过十字路口。Argo AI将运动预测任务定义为观察20个过去的帧(2 s),然后预测未来的30个帧(3 s)。每个预测任务可以按相同顺序利用其他对象的轨迹来捕获交通环境并为空间环境映射信息。
Argo AI使用最小平均距离误差Average Displacement Error (minADE)最小最终距离误差 minimum Final Displacement Error (minFDE)可行驶区域服从度DAC( Drivable Area Compliance)Miss Rate (MR,阈值为1米)来评估预测效果。minADE指的是轨迹的ADE,具有最小FDE,而不是最小ADE,因为要评估单个最佳预测。就是说,minADE误差可能不是一个足够的指标。K指一条路径上的预测次数。如果只预测一次,LSTM效果比较好,预测多次,NN加地图性能更好。无论哪一种,加了地图之后性能都更好。
【近期文章】
佐思汽研招聘分析师,兼职顾问等岗位
TOF相机将碾压MEMS激光雷达
《周彦武研究特辑:智能驾驶硬件指南》
「佐思研究年报及季报」
「佐思研究月报」
车联网月报 | ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报
报告订购联系人: 廖棪 13718845418(同微信) 佐思客服 18600021096(同微信)