查看原文
其他

基于激光雷达的大尺度三维场景重建

The following article is from 泡泡机器人SLAM Author paopaoslam

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Large-Scale Volumetric Scene Reconstruction using LiDAR

作者:Tilman Kühner1and Julius Kümmerle

来源:ICRA 2020

播音员:

编译:Weirse

审核:wyc



摘要

        大家好,今天为大家带来的文章是——Large-Scale Volumetric Scene Reconstruction using LiDAR大规模三维场景重建是自主驾驶和其他机器人应用中的一项重要任务,因为要安全地与环境交互,就必须对环境进行精确的表示。重建用于从定位、地图绘制到规划等许多任务。在机器人技术中,由于其鲁棒性和高重建质量,自消费级RGB-D摄像机出现以来,体积-深度融合成为室内应用的首选方法。在这项工作中,我们提出了一种使用激光雷达传感器进行体积深度融合的方法,因为它们在大多数自动驾驶汽车上很常见。我们提出了一个考虑环路封闭的城市区域大比例尺地图绘制框架。我们的方法从3.7公里距离的记录中创建一个城市区域的网状表示,在几分钟内消费级图形硬件上具有高水平的细节。整个过程完全自动化,不需要任何用户干预。我们从实际应用程序中定量地评估我们的结果。同时,利用合成数据研究了我们假设的传感器模型对重建质量的影响。

主要贡献

本文我们利用柱面投影模型,利用激光雷达数据进行体积深度融合。

  1. 本文提出了建图框架,处理回环闭合,并在记录过程中对多次访问的区域创建一致性重建。   

  2. 本文分析了使用旋转式激光雷达传感器时必须考虑的所有相关影响,如非单视点和滚动快门。

  3. 本文展示了公共数据集的实验结果

算法流程

问题

有多种方法可用于表示重建场景。最简单的方法是积累点云,因为它不需要融合单个传感器的测量值,它是每一个基于激光雷达的SLAM的副产品。SLAM与三维重建密切相关,因为它也建立了一个世界模型。累积点云的缺点是它们存储了大量冗余数据,这使得进一步的处理效率低下。点密度随传感器分辨率变化很大,远区采样比近区稀疏。重建过程中并不包含拓扑信息。

整体框架

图1 系统框架

位姿估计

我们将正的体素定义为外部的有符号距离。梯度是用中心差来计算的。理论上,F(x)表示到最近曲面的距离。然而实际上,体素网格并不包含适当的TSDF,因为网格的一部分只在低入射角下观察到,因此F(x)往往太大。这会导致ICP期间真实溶液的超调。为了解决这个问题,公式7中的F(x)除以梯度的大小来补偿影响。

融合和传感器模型

为了将激光雷达的距离测量值融合到体素网格中,需要一种有效的方法将体素分配给测量值。我们使用柱面投影模型,柱面像平面绕着激光雷达的旋转轴,如图1所示。对于大多数常见的激光雷达传感器,光线没有共同的交点,并且垂直角度增量对所有光线都不相同。我们通过将投影中心放在旋转轴上与所有光线的平方和最小的点上来近似单个视点。我们用cz表示投影中心与传感器坐标系原点的偏移量。

图1 用于旋转激光雷达的柱面投影模型

我们选择列数nuto与LiDAR和cuin的水平分辨率相同,使得从Piproject到像素中心的所有点。行数nv是以使像素近似正方形的方式选择的。当将扫描投影到圆柱体上时,这将使大多数像素为空,并将导致重建不完整。因此,扫描点投影到的每个像素将其点测量指定给同一列中的空像素,该范围大约是两个投影扫描之间间隙的一半。

图2三维点投影到左侧的圆柱体上(彩色点)。具有投影的像素用其点填充上下空像素(右图)

由于大多数显卡与其主机设备相比内存相对较少,因此我们流式处理将传感器最大可视范围留给主机的体素,而进入该范围的体素则流式传输到GPU。在主机上,我们将体素存储在更大的立方体块中,作为八叉树的叶子,它随着所探索的空间而动态增长。另一个优点是,它可以很容易地序列化为长时间存储,并在以后反序列化以集成多个驱动器。在最后一帧被整合到体素网格之后,我们将所有剩余的体素从哈希表流到八叉树。然后,我们将八叉树中的大块数据流返回哈希表,并在GPU上提取网格。该曲面隐式编码为F(x)作为其零iso曲面。

建图

为了在映射框架中考虑循环闭包,我们运行了多个阶段来获得最终的重建。首先,我们在里程表模式下运行前面的所有步骤,这意味着我们只输出体素,而不将它们存储在八叉树中,因为这会在累积漂移后发生循环闭合时产生冲突。我们用Todom表示这个轨迹。然后我们运行OpenFABMAP位置识别算法[28],这是[29]的一个开源实现,以确定姿势关联L={(Ts,Td)1。(Ts,Td)l}。Todomis然后通过最小化轨迹T={T0中所有姿态的最小二乘优化问题,使相关姿态重合,同时尽可能少地改变增量姿态。Tn−1}。

使用Todom,我们通过整合一定数量连续激光雷达扫描的测量值来创建网格。所有网格通过多次扫描重叠。我们将网格顶点转换为点云,我们称之为块。法线可以直接在网格上计算。块用Tloop初始化。它的目的是让块在循环闭包发生的区域重叠,这样就可以在块之间找到点对点的关联。然后,使用LUM算法对它们进行全局对齐[30]。在这一步中,我们使用点云而不是提取的网格,因为点到面距离比使用点云计算点到平面距离要昂贵得多。一个块中的所有姿势都会随着块进行严格的变换。

主要结果

我们把这个评估分成两部分。第一部分是关于重建质量和传感器模型如何影响重建质量。第二部分评估基于公共可用数据的真实世界映射场景。

重建

在这个实验中,我们评估一个物体的重建质量。我们模拟了激光雷达在距离地面1.9米处以10米/秒的速度绕着汽车移动。传感器以10赫兹的频率记录。记录了63次扫描,从各个侧面捕捉了模型。我们记录了两个数据集。首先,我们创建了无噪声的合成激光雷达扫描,并假设传感器遵循理想的柱面投影模型,即所有光线都精确地穿过每个像素的中心,所有光线都来自投影中心。此外,所有扫描点都被记录在一个时间点上,用于传感器头部的完全旋转,从而消除了滚动快门的影响。然后我们模拟了一个真实的激光雷达传感器,在测量范围内加入高斯噪声,标准偏差为σr=1.5cm。所有光线的方向取自V elodyne HDL-64校准文件,传感器在扫描时连续移动。

图3  重建曲面到地面真实的距离。误差在5厘米处被切断,以便更好地显示。

表1:重建汽车模型的误差度量

结果如表1所示。请注意,在所有情况下,完整性都会受到以下事实的影响:传感器无法看到汽车的整个内部,也无法在记录过程中看到汽车底部。如图所示,不补偿传感器的运动会导致比所有其他方法更糟糕的结果,其精度不到使用简单运动补偿的重建的一半,完整性约低三分之一。与计算上更便宜的补偿点云积分相比,连续积分传感器测量值的额外努力只能部分获得回报,因为它将精度提高了0.255厘米,完整性提高了5.4%。图6反映了这些结果,因为两个重建看起来几乎相同。同时,通过比较误差度量,对真实数据的重建与从理想数据重建的结果也非常接近。

建图

我们使用KITTI里程计基准的数据和已知的地面真实度([32])评估定位结果,并显示重建的定性结果。对于里程计,我们使用lv=10 cm,出于性能原因,将传感器范围限制在50 m。我们注意到,当传感器噪声实际上是相同的时,长距离的传感器距离改善了里程计,因为远距离测量比近距离测量更好地约束了姿势。对于位姿优化后的最终积分,我们设置lv=5cm,传感器范围为20m,以限制位姿误差对重建结果的影响。

图4 摄像机图像和三维重建同一场景并排。重建后的深度图叠加在左下角的图像上

图1(顶行)和图7(下排)显示传感器多次经过的场景,因此不一致的轨迹会显示恶化的重建结果。在城市地区的其他序列中也获得了类似的结果,但是在公路和乡村道路上,由于没有足够的结构靠近车辆,因此里程计在某些点上失效.

图5 KITTI里程计序列00总长度为3.7 km的轨迹。


Abstract 

    Large-scale 3D scene reconstruction is an impor-

tant task in autonomous driving and other robotics applications as having an accurate representation of the environment is necessary to safely interact with it. Reconstructions are used for numerous tasks ranging from localization and mapping to planning. In robotics, volumetric depth fusion is the method of choice for indoor applications since the emergence of commodity RGB-D cameras due to its robustness and high reconstruction quality. In this work we present an approach for volumetric depth fusion using LiDAR sensors as they are common on most autonomous cars. We present a framework for large-scale mapping of urban areas considering loop closures.

Our method creates a meshed representation of an urban area from recordings over a distance of 3.7 km with a high level of detail on consumer graphics hardware in several minutes. The whole process is fully automated and does not need any user interference. We quantitatively evaluate our results from a real world application. Also, we investigate the effects of the sensor model that we assume on reconstruction quality by using synthetic data.



泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存