自主着陆是无人机最基本、最关键的功能,与各种民用和军事任务密切相关,如搜索救援、物流配送和紧急着陆等。但由于近地情况极为复杂,这项任务往往伴随着很大的风险。尤其当无人机在非合作环境下自主着陆时,其核心难题是于如何选择安全的着陆地点。目前大多数解决方案是寻找平坦的地面作为着陆点,使用机载传感器进行深度估计,例如单目摄像机、双目摄像机或超声波雷达,以获得地面和无人机之间的相对距离,进一步计算出地形的倾斜度和颠簸程度;还有研究通过单应性估计或深度学习方法直接检测地面的水平区域。然而这些研究的主要问题是,由于缺乏可靠的测距传感器和鲁棒算法,这些方法无法自我评估和纠正其结果,从而导致在不熟悉的环境中泛化能力差,甚至导致无人机坠毁。更重要的是,仅仅根据地形平坦性会导致无人机选择错误的着陆地点(如平静的湖泊)或降落在次优地点(如有不明显石头的草地或建筑物的屋顶)。在本文中,我们提出了一个可靠的多传感器系统和鲁棒的地形理解模型,该模型可以同时推断地面的平坦度和安全性,以克服过往研究中的问题,如图1所示。具体而言,我们构建了一个配备轻型高精度双目视觉与激光雷达系统的无人机平台,提出了一个名为TerrainNet的模型,通过同时执行深度补全和弱监督语义分割,从形态学和语义两方面实现对地形的全面理解。在模型推理阶段,我们的模型能够自我评估预测深度图的准确性,并动态选择激光雷达的积累时间,从而自适应地平衡模型的精度和速度,确保准确的深度估计。该功能大大提高了模型的鲁棒性,并确保无人机能够在完全未知的环境中安全着陆。为了训练该模型,利用我们的无人机平台收集了一个新的低空航拍图像数据集,其中包含约30000张自动稀疏标注的深度图和3000张手动标注的语义分割图。在这个数据集上,我们验证了TerrainNet可以有效地同时学习两个任务,即使数据量不平衡,也比单独学习每个任务效果更优。使用精心设计的网络结构、损失函数和多任务学习范式,我们的模型取得了比现有基于深度估计的着陆方法更好的效果。我们的着陆点选择方法经过验证,能够在不同复杂环境下成功找到安全区域,准确率高达98%。此外,我们在真实无人机上进行了完整的自主着陆实验,验证了我们整体着陆策略的有效性和鲁棒性。
本文的贡献如下:
(1) 首次通过同时考虑地面的形态和语义特征来解决非合作环境中的无人机自主着陆问题。
(2) 提出了一种鲁棒的模型推理策略,可确保深度图的准确性,并自适应地平衡模型的精度和速度。
(3) 收集了第一个具有弱标注深度图和语义分割图的低空航拍图像数据集。
(4) 将着陆方法应用于实际无人机,并在各种复杂环境中实现了安全着陆。
本文选择了10个飞行片段中的8个片段作为训练集,剩余2个片段作为测试集。对于深度补全任务,本文采用了均方根误差(Root Mean Squared Error,RMSE)、相对差的绝对值平均(Absolute Relative Error,REL)和比值阈值 δ 等几种常用的评价指标,对于语义分割任务,采用了平均交并比(mean Intersection over Union,mIoU)指标衡量模型性能,此外我们还引入了着陆点选取准确率acc来评估整体的任务完成率。本文对所提出的地形理解模型开展了消融实验并与现有的深度估计和深度补全方法进行了对比。本文对比的SafeUAV以及Ma等人方法的骨干网络都调整为与本文模型保持一致以进行公平的比较。与使用相同网络结构和基本深度值损失函数实现的 SafeUAV相比,更多类型的损失函数提供了更丰富的监督信息,使得本文方法学习出了更好的性能。与 Ma等人方法比较,文本网络结构的改进、深度值比例损失函数的引入共同提高了模型的准确性。从表1第3、4行的对比以及6、7行的对比可以看出,多任务学习策略也可以明显提升深度补全任务的效果。总体来看,稀疏深度图的引入能够显著提升模型性能,这说明深度补全方法整体比纯粹依赖于视觉的深度估计方法更为精准和可靠。
本文针对无人机着陆场景提出了深度值比例损失函数,期望模型能够在低空范围表现更好,如图6所示,可以发现在使用了深度值比例损失函数进行训练的模型虽然在飞行高度较高时的平均深度误差稍大,但在更大范围的低空区域内表现都更好,并且整体的RMSE有所降低,这种特性保证了无人机在逐步降落的过程中深度估计结果会逐步变得更为精准。
本文还进一步探究新的模型推理策略的可靠性和有效性。本文比较了在不同密度的激光雷达所转换得到的稀疏深度图作为输入时模型效果的差异。如表2所示,实验使用RMSE、REL和 δ 直接评估深度图效果的同时还引入了平均SSIM作为新的评价指标,这个指标通过重建图像的相似度质量间接评估模型性能,同时也是本文模型推理策略用来决定深度图是否足够准确的直接变量。从表格的结果可以看到,随着激光雷达比例不断提升,各项深度图指标都逐渐改善。
从图7中的预测深度图的可视化时间线可以看到,当使用没有激光雷达数据的原始相机图像进行预测时,深度图可以区分明显的高度差异,例如树木和地面,随着激光雷达密度的增加,预测深度图的边缘变得更加细致,经过大约1秒的积累,通过直接对稀疏深度图进行最近邻插值,可以得到最精细的密集深度图,此时虽然无人机的感知范围缩小,但能够识别极为微小的高度差异,如图中草地相对于地面的微弱高度凸起。
为了验证地面形态学特征和语义学特征的互补性和必要性,实验还对比了在使用不同掩码时无人机在各种环境中所选取着陆点的差异。从可视化结果来看,如图10所示,通过考虑语义信息,无人机可以避开湖泊和草地,始终选择最可靠的硬质铺装地面。同样的,如图11所示,精确的深度图有助于识别难以分辨的小障碍物并区分相同语义类别区域内的高度变化,例如坡道、路缘石和下水道入口等。可视化对比结果表明,综合考虑深度信息和语义信息的着陆点选择方法是一种更可靠的策略。
在无人机真实飞行实验中,由于受到了机载计算平台能力的限制,所以地形理解模型的骨干网络使用了ResNet-18,本节对比了在使用不同骨干网络时模型效果的差异,结果如表3所示。可以发现,虽然使用了层数更少的骨干网络,但是深度补全任务上的性能差异非常小,说明将图像分支和稀疏深度图分支进行分离的设计有着更加鲁棒的效果,虽然语义分割任务上的mIoU数值有所下降,但最终的着陆点选取准确率依旧保持了非常好的效果。
我们在各种环境中进行了一系列自主着陆实验。在不同的情况下,我们的无人机成功地找到了平坦的地面并安全着陆。我们记录平均 LiDAR 累积时间以获得准确的深度图。在熟悉的环境中,仅需0.16秒,而在未知环境中,平均时间达到0.8秒。这表明我们的模型可以自适应地平衡准确性和速度,以确保预测结果的可靠性。图13绘制了着陆轨迹。可以看出,无人机执行水平和垂直悬停几秒钟后按顺序移动以选择安全着陆点。
最后,为了评估无人机在完全未知环境中的性能,我们在夜景中进行了自主着陆测试。由于光线昏暗,TerrainNet 预测的深度图和语义分割图很差。然而,依靠机载激光雷达,无人机仍然可以观察视野中的小障碍物,如图14所示,从而完成安全着陆。
http://engine.scichina.com/doi/10.1007/s11432-021-3429-1