面向遥感影像语义分割的多视场深度自适应融合网络 | 李彦胜,陈蔚,黄昕等
Li Y S, Chen W, Huang X, et al. MFVNet: Deep Adaptive Fusion Network with Multiple Field-of-Views for Remote Sensing Image Semantic Segmentation. Sci China Inf Sci, 2022, doi: 10.1007/s11432-022-3599-y
遥感影像通常具较大的幅面,包含大量的地物目标(建筑、树木、水体等)和丰富的地理空间信息。由于受到计算资源的限制,当前主流的深度学习方法无法对大幅面遥感影像进行整体处理。较为常见的做法是对遥感影像进行下采样处理或者裁剪后处理再拼接。下采样能够保持遥感影像的视场信息,但会不可避免地丢失地物细节;裁剪后处理能够保证影像的细节不受影响,但其包含的视场十分受限,无法提供完整的地物信息,可能会导致误判。上述两种方法都存在一定程度的缺陷,因此,亟需研究能够挖掘遥感影像多视场信息的方法。
图1 融合多视场信息进行遥感解译的必要性
为了解决上述问题,本文提出了一种深度自适应融合网络来充分利用遥感影像中的多视场信息。通过对原始影像进行不同比率的金字塔采样,可以增大可用的空间上下文,得到具有多视场信息的多尺度影像。通过尺度特定模型搜索模块,能够获得每个尺度上的最优模型。将多尺度影像输入到对应的最优模型中得到各尺度特定的特征图与概率图,这些特征图与概率图经由尺度对齐模块解决采样过程中的偏差,随后由特征图计算得到尺度特定的权重图,最后使用权重图与概率图通过自适应融合模块得到模型最终的预测结果。
提出了一种可端到端训练的多视场深度自适应融合网络,名为MFVNet。 提出了尺度对齐模块解决不同尺度遥感影像中的空间不对齐问题,提出了自适应融合模块来充分利用不同尺度的优势。 通过在三个典型遥感数据集上的充分实验验证了方法的有效性,并达到了最优性能。
图2 本文提出方法MFVNet的整体结构图
本文提出的MFVNet方法相比已有方法有着明显的性能优势。在GID、GF1WFV、Potsdam数据集上,MFVNet相比目前最优方法在mIoU指标上分别提升了0.6%,1.8%,1.3%。可视化结果同样能够体现MFVNet方法的优势。从图中可以看出,基线方法在云区或者建筑物等区域无法得到精确的预测结果。而在多视场信息的辅助下,MFVNet能够结合各尺度的优势,通过自适应融合得到更为准确的预测结果。
图3 在GID数据集上的实验结果
图4 在GF1WFV数据集上的实验结果
图5 在Potsdam数据集上的实验结果
相关阅读