智能化测绘专刊 | 张永军：多源卫星影像的摄影测量遥感智能处理技术框架与初步实践

Original 测绘学报智绘科服 2022-07-16

收录于合集 #《测绘学报》 340个

本文内容来源于《测绘学报》2021年第8期（审图号GS（2021）5047号）

多源卫星影像的摄影测量遥感智能处理技术框架与初步实践张永军¹, 万一¹, 史文中², 张祖勋¹, 李彦胜¹, 季顺平¹, 郭浩宇¹, 李礼¹ 1. 武汉大学遥感信息工程学院, 湖北武汉 430079;
2. 香港理工大学土地测量及地理资讯学系, 香港 999077基金项目：国家自然科学基金重点项目(42030102)；湖北省自然科学基金创新群体项目(2020CFA003)摘要：回顾并分析了摄影测量与遥感学科的发展历程，并针对大数据和智能化测绘新时代的多源遥感影像精准快速智能处理的迫切需求，本文提出摄影测量遥感的科学概念。全新的摄影测量遥感主要由摄影测量和遥感两个学科的交叉融合而形成，致力于研究解决同步探测被摄目标的几何位置、物理属性、语义信息和时序变化关系的理论方法及技术问题，其理论基础和支撑学科包括摄影测量、遥感、人工智能、大数据处理与高性能计算等，将突破目前摄影测量侧重几何处理、遥感侧重语义信息提取反演的相对独立现状和串行技术路线，通过几何模型与光谱辐射反射信息的深度交叉融合形成几何语义一体化处理机制。本文在阐述摄影测量遥感基本概念的基础上，初步探讨了其涉及的主要科学问题及相关研究应用领域，并以多源遥感卫星影像为例构建了一体化摄影测量遥感智能处理技术框架，通过语义信息提取与精准几何处理的交叉闭环融合，显著提升了高分辨率多源遥感卫星影像精准快速处理的自动化和智能化水平，多个应用实践初步验证了相关理论方法的正确性和有效性。关键词：摄影测量遥感多源卫星影像几何语义一体化智能处理摄影测量遥感人工智能

引文格式：张永军, 万一, 史文中, 等. 多源卫星影像的摄影测量遥感智能处理技术框架与初步实践[J]. 测绘学报，2021，50(8)：1068-1083. DOI: 10.11947/j.AGCS.2021.20210079ZHANG Yongjun, WAN Yi, SHI Wenzhong, et al. Technical framework and preliminary practices of photogrammetric remote sensing intelligent processing of multi-source satellite images[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8): 1068-1083. DOI: 10.11947/j.AGCS.2021.20210079

阅读全文：http://xb.sinomaps.com/article/2021/1001-1595/2021-8-1068.htm

1 摄影测量与遥感学科发展历程

摄影测量学是通过影像研究信息的获取、处理、提取和成果表达的一门信息科学，通常利用摄影或遥感的手段获取被摄物体的影像，研究和确定被摄物体的形状、大小、位置、性质和相互关系^[1-2]。摄影测量具有悠久的发展历史，起始于19世纪中叶摄影机的发明和立体视觉的发现。从18世纪数学家兰勃特首次论述透视几何理论，到1839年尼普斯和达意尔发明摄影技术，再到19世纪中叶"摄影测量之父"劳赛达利用"明箱"装置测制万森城堡图，摄影测量学开始蓬勃发展。此时的摄影测量学，完全由人工进行操作，普遍借助于光学投影或机械投影或光学-机械投影来"模拟"摄影的过程^[2]，因此也称为模拟摄影测量时代。随着模数转换、电子计算机与自动控制技术的发展，"数字投影"的概念开始取代"物理投影"。1961年第一台解析测图仪AP/1问世，解析测图逐步成为摄影测量的主要方式，也标志着摄影测量的发展踏入了解析摄影测量阶段。此后，摄影测量学家对"摄影测量自动化、真正的自动化测图"进行不懈的追求，推动了数字摄影测量时代的到来。美国20世纪60年代研制的DAMC系统，国内1985年完成的WUDAMS全数字自动化测图系统、21世纪初完成的DPGrid系统等都是代表性产物。目前，数字测图的核心技术，如影像自动匹配^[3]、正射影像制作^[4]等均已较为成熟。在经历了3个重要阶段，即模拟法、解析法、数字法后^[5]，摄影测量学已广泛应用于国民经济发展和建设中，并随着智能化测绘新时代的到来，进入智能摄影测量新阶段，发展为广义摄影测量学^[1]。

遥感是以航空摄影测量为原型过程发展起来的。除测图模式和处理方法不断发展之外，从空中和太空观测地球并获取影像，是20世纪的重大成果之一^[6-7]。1960年，文献[8]率先提出了"遥感"这一名词，用于取代传统的术语"相片判读"。自1960年TIROS-1气象卫星成功发射，1961年"东方号"宇宙飞船进入太空开始，再到1972年美国第一颗地球资源技术卫星ERTS-1的成功发射，遥感技术在世界范围内迅速发展并广泛使用。20世纪70年代中期，国际上许多国家测绘部门开始介入到遥感事业中，并逐渐把摄影测量与遥感的概念融为一体。1979年，王之卓院士率先指明了摄影测量与遥感的密切关系，指出遥感是摄影测量学的发展和扩充，摄影测量必将向遥感发展的趋势^[9]。随着遥感成像方式多样化及遥感数据获取能力的增强，利用遥感平台可获取多尺度、多时相、多传感器、多光谱影像数据，打破了传统航拍影像数据的局限性，极大地促进了摄影测量与遥感学科的发展，以及在农业^[10]、林业^[11]、水利^[12]等领域的广泛应用。在王之卓院士等的倡导下，国内开始注重遥感技术的发展与应用。1980年，武汉测绘学院航测与遥感系正式成立遥感技术教研室，并针对性地开设遥感课程，原航空摄影测量专业于1984年经教育部批准更改为"摄影测量与遥感"专业^[13]。近20年来，在众多学者的共同努力下，新生的"遥感科学与技术"学科取得了长足发展，在多传感器数据获取、多源影像几何处理、语义信息反演提取等方面都取得了卓越成就，并于2019年获批首批博士学位授权交叉学科。

在实时化、智能化、知识化为代表的智能化测绘新时代，摄影测量与遥感的发展也面临新的挑战。如何把握机遇实现空间感知和空间认知的智能化^[5]，以更高的效率和更智能的手段，获得更精准的处理结果，是智能化测绘新时代摄影测量与遥感学者需要考虑和解决的问题。目前，遥感影像的几何处理(属于摄影测量范畴)和语义信息反演提取(属于遥感范畴)仍然在很大程度上互相独立。很多学者都将二者看成两个独立的问题，并分别进行了大量研究，也产生了丰硕的成果，但二者的融合处理应用并未引起足够重视。部分原因在于摄影测量几何处理难度大、流程长，研究群体相对有限；而遥感信息提取反演与行业应用结合非常紧密，需求旺盛，研究者们通常无暇也无力顾及几何处理问题，导致大部分摄影测量研究者不懂遥感、遥感研究者不懂摄影测量的现状。另一个原因是应用需求和发展时机尚未成熟，例如在各类公众地理信息和基础地理信息产品广泛应用于遥感影像全自动几何处理前，决定几何处理精度的控制资料基本依靠人机交互手段进行获取，遥感语义分割结果对于提升摄影测量几何处理精度和效率的作用非常有限。近10年来，随着计算机技术的进步和大数据时代的到来，多源广义控制信息(或称为泛在控制或云控制)^{[1, 14]}在自动化几何处理方面发挥了重要作用。但是，遥感影像分辨率越来越高，尤其是亚米级影像中存在大量的云区、水体等时变地物和建筑物、树木等高出地面的物体，其与已有地理信息的自动匹配结果往往存在显著的平面和高程误差，已经严重制约高分辨率影像的几何处理精度和效率；而几何处理精度有限的多源多时相影像，会影响语义信息提取结果的完整性和可靠性，因此必须寻求新的科学途径。

2 摄影测量遥感的概念及研究领域

在智能化测绘新时代，数据处理服务的实时化、智能化、知识化是典型特征，而如何顺应科技发展的潮流，思考所面临的挑战和问题并寻求科学解决方案，是研究者们的历史使命。文献[15]指出，大数据挖掘的核心是"垃圾进，黄金出"，简明扼要地指出了其核心要义是如何自动化智能化地发掘有用信息。同样，智能化测绘的实时化、智能化发展趋势也催生了摄影测量与遥感的一体化。多源遥感影像的快速智能处理，迫切需要从广义控制资料中通过语义信息的辅助自动挖掘出高精度有效几何控制，并充分利用实现精确配准的多源遥感数据的信息互补性，实现高可靠性语义信息提取。基于上述对摄影测量与遥感学科发展历程的回顾与分析，以及其所面临的挑战性问题和发展趋势的理解，本文提出摄影测量遥感的概念，并试图探讨所涉及的若干科学问题和主要研究领域，为建立摄影测量遥感智能处理框架和研发自主可控核心技术奠定基础。

2.1 摄影测量遥感的基本概念

摄影测量遥感，是指利用多传感器观测技术，非接触式地获取地表或被摄物体的辐射或反射特性影像数据，通过几何语义一体化的智能处理模式，自动化智能化地同步探测其几何位置、物理属性、语义信息及时序变化关系等的一门新型交叉科学和技术。

摄影测量遥感主要由摄影测量和遥感两个学科的交叉融合而形成，如图 1所示，致力于研究解决两个学科共同关注的理论方法及技术问题，通过三维(或2.5维)几何模型与光谱辐射反射信息的深度融合，实现几何语义一体化智能处理，同步探测被摄目标的几何位置、物理属性、语义信息及时序变化关系，其理论基础和支撑学科主要包括摄影测量、遥感、人工智能、大数据处理与高性能计算等。区别于现有摄影测量与遥感学科在多源影像处理应用时一般将几何处理和语义信息提取视为两个相对独立的工作，摄影测量遥感交叉学科则充分利用多源广义控制资料和深度学习等人工智能技术，将语义信息提取与精准几何处理深度交叉融合构成闭环机制，进行几何语义一体化处理，在提升多源遥感影像几何处理精准度和自动化水平的同时，促进语义信息提取和遥感反演结果的完整性和可靠性。

图 1 摄影测量遥感是由摄影测量和遥感构成的交叉学科 Fig. 1 Photogrammetric remote sensing is an inter-discipline of photogrammetry and remote sensing

2.2 摄影测量遥感的科学问题

每个学科都有其需要解决的主要科学问题，摄影测量遥感也不例外。例如，定量遥感主要解决遥感目标的定量地学描述反演问题，高光谱遥感主要解决地物反射特性的精细分类表达问题，而摄影测量遥感则主要致力于解决遥感影像中地形地物目标的几何语义同步精准刻画及其时序变化问题，即回答何时(when)、何地(where)、何目标(what object)及何变化(what change)等问题。因此，摄影测量遥感学科所面临的主要科学问题是如何充分挖掘多源影像中的几何及语义信息，回答好上述4W问题。

2.2.1 多传感器集成多源遥感数据同步获取

摄影测量遥感数据来源丰富，但数据存在空间和时间上的不一致性。要实现对全色影像、多光谱影像、高光谱影像、LiDAR点云、视频流等多源或多模态遥感数据的联合处理应用^[16]，必须先对数据以时间为第一维度进行对齐管理。通过GNSS和IMU集成系统可直接确定传感器的空间位置和姿态，并辅助数据时间同步。但在现实应用中，各种传感器的定位定姿精度不同、时钟同步精度不同，且由于平台颠振等原因导致观测数据质量不稳定，如何有效采用多种传感器实现多源或多模态遥感数据高精度同步获取仍是摄影测量遥感的重要问题。

2.2.2 语义信息约束多源影像精准几何处理

多源遥感影像数据的精准几何处理需依赖高精度的匹配控制点对^[14]。例如，多源遥感影像匹配容易受云区、水体等时变地物和建筑物、树木等凸起地物的干扰，匹配控制点的质量难以保障。随着深度学习等智能遥感影像解译技术的发展，遥感影像语义分割的性能得到了极大改善，是否有可能在匹配前将不利于匹配的时变地物和凸起地物从遥感影像中自动确定并排除？如何利用遥感影像语义信息来提高匹配质量、进而提升几何平差的精度和效率是多源遥感影像精准几何处理的关键。

2.2.3 几何语义联合约束多源影像镶嵌合成

在多源影像镶嵌合成中，受成像角度和数字表面模型精度等因素影响，经过正射纠正后的影像仍然存在一定的投影差，特别是建筑物、树木及其他明显高于场景的障碍目标，会导致镶嵌影像在拼接处产生明显错位^[4]。是否能够通过几何及语义信息的联合约束，在进行镶嵌线选取时避开影像重叠区域内的障碍目标，实现多源影像无缝镶嵌合成？这是镶嵌线智能选取优化面临的挑战性问题。

2.2.4 人工智能技术辅助目标语义识别提取

从遥感影像中自动准确识别提取地物和其他目标的语义信息一直是具有挑战性的难题。深度学习技术是语义信息提取的重要途径，但该技术远未完善，其矢量提取精度还难以满足用户需求^[17]。将深度学习方法应用于语义信息提取尚需综合考虑多时相、多尺度、多谱段、多角度的遥感数据。是否能够将地物或场景目标的先验知识融入深度学习，提升语义识别提取网络的迁移性和可解释性？总体来说，利用人工智能领域的前沿技术实现目标识别和语义信息提取仍是一个值得探索的科学问题。

2.2.5 精准几何信息辅助遥感影像动态监测

遥感影像具有周期性特点，精准几何处理后的多时相影像，可为卫星遥感监测、城市视频场景动态识别监控、星地影像实时动态定位等应用提供支撑^[18]。然而，多源、多时相遥感数据的综合利用及动态监测应用尚未形成成熟的理论和技术体系，其中还有几何定位轨迹及图像坐标轨迹的联合优化等许多关键技术需要攻克。如何通过多时相精准几何信息辅助进行目标动态监测，仍是摄影测量遥感的重要科学问题。

2.3 摄影测量遥感的研究领域

随着通信技术和高性能运算技术的发展，传感器、无人平台与芯片等关键产品生产成本的下降，多源遥感数据语义几何一体化处理的应用领域乃至市场需求呈现出爆炸性增长的态势。本文抛砖引玉，仅列出摄影测量遥感学科在智能化测绘新时代若干亟须和正在突破的研究和应用领域，包括多源遥感影像精准几何处理、大范围多源遥感影像镶嵌合成、多时相遥感影像智能监测、实景三维几何语义联合建模、智能无人视觉系统自主导航等。

2.3.1 多源遥感影像精准几何处理

多源遥感影像精准几何处理是摄影测量遥感领域的基础研究工作。多源遥感影像数据的精准几何处理，包括影像匹配、几何检校和区域网平差等研究内容，需要考虑不同传感器、不同视角数据特性，充分发挥多源广义控制资料的辅助作用。如何充分利用语义信息(包括云区、水体等时变地物和建筑物、树木等凸起地物)来实现针对性的同名几何特征获取和几何约束条件设置，进而提升平差精度和效率，是多源遥感影像精准几何处理的重要研究方向。

2.3.2 大范围多源影像镶嵌合成

生成大范围时间有序、空间对齐、辐射一致的高质量合成遥感影像产品是摄影测量遥感的重要任务之一。在进行影像镶嵌合成时需要利用邻近时段影像间良好的互补性修补无效像元，选取最优镶嵌线并实现影像间辐射和光谱信息一致化，其中如何利用多源影像数据的语义分割结果约束几何镶嵌拼接及空洞修补合成是优化影像镶嵌合成效果的重要方向。

2.3.3 多时相遥感影像智能监测

基于多时相影像进行地形地物信息的动态监测，是智能化测绘时代遥感影像信息服务的重要途径。如何充分发挥经过前述精准几何处理后的多时相遥感影像的作用，基于人工智能等前沿技术进行地物信息自动提取、自然资源监测评估、土地利用动态监测、森林火灾监测、农作物种植面积和估产监测、视频数据目标识别与动态监控、建筑物墙面热红外监测等，是摄影测量遥感动态监测的重要研究方向。

2.3.4 实景三维几何语义联合建模

传统的实景三维建模缺乏语义信息且数据量巨大，极大地限制了其应用范围。深入分析和理解三维模型中蕴含的语义信息，更加有效地处理和使用三维模型，以及利用语义信息合成新的三维模型，逐渐成为热点问题。在结合点云和影像数据进行部件级几何建模的同时，进行纹理语义提取、优化和分析，生成几何语义一体化的部件级三维模型，属于摄影测量遥感的重要研究方向。

2.3.5 智能无人视觉系统自主导航

近年来，无人机、无人车、无人船等无人系统取得了极大进步，但其真正智能化与实用化尚需要突破完全自主的高精度、高可靠实时导航和避障运动等核心技术。智能无人视觉系统的自主导航是摄影测量遥感的前沿领域，具有广泛的应用前景，需要充分结合摄影测量遥感、人工智能、卫星导航等研究领域的先进理论和技术，才能在无人机三维环境实时建模及自动避障飞行、车载传感器实时道路建模、无人车辆自动驾驶、室内机器人自主视觉导航定位等方面取得突破。

3 摄影测量遥感智能处理技术框架

本节以多源遥感卫星影像为例，讨论摄影测量遥感智能处理的技术框架。国际上现有的卫星遥感影像处理研究成果大都采用如图 2所示的串行处理技术路线，即首先基于摄影测量软件进行多源遥感卫星影像几何精校正、三维地形提取和正射影像制作，然后再由遥感软件进行语义信息提取，也即摄影测量处理的输出，作为遥感信息提取的输入，二者本身并无交叉反馈机制，且每个环节都需要一定的人机交互。现有互相独立的技术体系基本满足2 m以下分辨率卫星影像的自动化处理和应用需求，但是在采用多源地理信息进行米级尤其是亚米级高分辨率遥感影像处理应用时，由于影像分辨率提升导致地物变形显著、已有地理信息精度不均匀且DEM无法准确反映地物高程，以及普遍存在的摄影测量研究者不懂遥感、遥感研究者不懂摄影测量等原因，导致互相独立的现有处理技术体系在应对亚米级影像时面临难度大、精度低和效率差等突出问题。

图 2 现有摄影测量及遥感软件系统所采用的多源卫星影像串行处理技术路线 Fig. 2 Serial processing scheme of the current photogrammetry plus remote sensing software for multi-source satellite images

在摄影测量遥感科学概念的指导下，本文提出多源卫星影像一体化摄影测量遥感智能处理的思想，基于摄影测量、遥感、人工智能等领域的最新研究成果，将快速语义分割、几何语义联合约束的精准处理与镶嵌合成、多源影像语义信息提取等步骤有机融合，形成几何语义一体化智能处理机制，从而连通摄影测量和遥感两个相互独立的处理过程，可望显著提升多源卫星影像一体化处理的智能化和自动化水平。摄影测量遥感处理的技术思路如图 3所示，输入数据为多源遥感卫星影像、已有多源广义地理信息(如控制点、参考影像、矢量数据、高程数据)及其他辅助数据，处理过程分为快速语义分割、语义辅助精准几何处理、三维地形及影像合成、语义信息智能提取4个有机融合的环节，输出产品包括卫星影像高精度几何定向模型、三维地形产品、大范围多源合成影像、高精度地物覆盖和目标信息专题图等。

图 3 多源卫星影像一体化摄影测量遥感智能处理技术框架 Fig. 3 Integrated photogrammetric remote sensing processing technology for multi-source satellite images

(1) 单源遥感卫星影像快速语义分割：该环节通过传统手段或深度学习方法对遥感数据进行语义信息提取，从而实现地面和非地面目标、人工与自然地物等少量类别的快速语义分割，例如从卫星遥感影像中快速分割云区、水体、建筑物、树木等对几何处理具有较大影响的目标地物，为后续几何处理和测绘产品生产提供有效辅助。这一阶段尚未实现多源数据的配准和融合，因此需要对每一种来源的遥感数据按景进行独立处理。

(2) 语义辅助多源影像精准几何处理：该环节在传统摄影测量几何处理手段的基础上，增加了语义信息辅助机制，旨在通过语义信息辅助实现多源卫星影像的高可靠性全自动区域网平差与配准，大幅度提升传统几何处理手段的精度、效率和自动化程度。充分利用前述环节的语义分割信息剔除广义几何控制资料中的非地面目标特征点，实现高精度DEM辅助的卫星影像几何精校正，或利用语义信息识别出人工地物，从而快速提取线段特征用于多源异构遥感数据高精度配准。

(3) 三维信息提取及多影像时序合成：该环节利用前期地类语义分割结果及高精度几何模型，实现三维地形的快速提取和大范围多源影像的镶嵌、修补与合成。利用语义分割环节获得的人工地物、植被、水体、云等语义信息，可以对不同的地类采用不同的三维重建手段，获得更加精准可靠的三维地形数据，也可以为多时相影像的修补提供范围参考，辅助实现影像镶嵌线构建过程中的自动避障，从而大幅减少人工编辑的工作量。

(4) 多源遥感影像语义信息智能提取：经过前述自动化处理后，多源、异构遥感数据已经实现了精确配准与融合，因此可以借助于人工智能等先进技术手段，利用多源数据的差异性和互补性，从高精度多源/多时相合成影像中准确提取地物目标的几何信息、语义信息、物理信息及其时序变化信息，从而得到精确的语义地图、各类专题图及变化信息图，例如道路网拓扑矢量、建筑物轮廓矢量、农作物长势、水体范围，以及各类地形地物目标的多时相变化图等。

其中，步骤(4)通过多源遥感数据和人工智能技术提取得到的语义信息精度远高于步骤(1)中从单景遥感数据中独立提取的信息，因此可以反馈到前端的快速语义分割过程作为步骤(1)中分类器的高精度训练样本，从而构成交叉闭环融合的智能处理理论和技术体系，进一步提升一体化处理效果和智能化水平。

4 摄影测量遥感智能处理应用实践

在上述多源卫星影像摄影测量遥感智能处理技术框架的指导下，笔者所在课题组进行了多年的一体化处理研究与实践，开发了多模态卫星遥感影像自动化智能处理系统(MIPS1.0)^®，并在全球地理信息资源建设、地理国情普查、自然资源监测等多项国家重大工程及各省市卫星遥感影像产品生产中取得了良好的应用效果。以下分别就卫星遥感影像快速语义分割、语义辅助多源影像几何处理、语义辅助多源影像时序合成、多源影像地物信息智能提取等4个环节的部分典型试验结果和应用案例进行阐述。

4.1 卫星遥感影像快速语义分割

由于已有地理信息DEM数据中不包含云区、建筑物、植被等高出地面的物体，因此DEM辅助的卫星影像区域网平差时，严格意义上来说必须滤除全自动匹配的控制点中的非地面点，才能获得准确的高程精度，因此首先需要进行云区、建筑物、植被等目标的快速语义分割。

传统机器学习方法在云检测精度、适用性、稳健性方面有待提高；而深度学习在硬件条件和数据样本满足要求的前提下，能取得显著优于传统方法的检测结果，因此可采用深度学习全卷积神经元网络实现高分辨率光学卫星影像云检测。通过制作地理场景多、样本种类丰富、标注准确的云雪检测数据集，用于卷积神经网络模型参数训练和学习，从而构建适用于高分辨率光学卫星影像云雪检测的语义分割网络，并利用全局语义信息提高云检测精度。采用多源数据标签训练后的UNet模型和36景高分二号卫星4波段多光谱影像进行云区检测测试，采用人工标记数据进行精度评价的结果表明，云检测结果的整体像素精度可达97.62%。部分云检测结果如图 4所示，其中第1列为多光谱测试影像，第2列为人工标注的云掩膜，第3列为深度学习网络模型预测结果，可以看出影像中不同大小和反射强度的云区都能够准确提取出来。

图 4 基于深度学习网络的高分二号卫星影像云检测结果 Fig. 4 Cloud detection result from GF-2 satellite images by deep learning network

建筑物检测方面，则采用联合无监督-半监督约束的深度语义分割网络进行，该方法在利用适当训练样本进行模型参数训练后，仅需极少量的目标域样本即可实现跨域卫星影像的建筑物智能检测。例如阿里天巡业务中，需要实现跨地域建筑物检测任务，采用所研究的深度语义分割网络仅利用10%的目标域标签数据，即可获得非常理想的建筑物语义分割效果，比Deeplab V3+^[19]等主流基线方法的IoU指标提升5%以上(从73.0提高到79.62)。植被检测可采用经典的NDVI方法进行，本文不再赘述。

图 5所示为广州测区高分七号卫星影像的部分语义分割结果，其中图 5(a)为高分七号后视融合影像，图 5(b)为对应的快速语义分割结果，其中红色、绿色和白色分别表示建筑物、植被、云区，可以看出语义分割结果能够较为准确地提取上述地类目标，且剩余未分割像素均为裸地或道路等地表区域。

注：红色为建筑物、绿色为植被、白色为云区。图 5 高分七号卫星影像快速语义分割效果 Fig. 5 Fast semantic segmentation result from GF-7 satellite image

4.2 语义辅助多源影像几何处理

4.2.1 几何语义联合约束立体影像处理

目前，全国大部分省份都构建了1∶1万DEM/DOM等基础地理信息。如果能够充分发挥这些已有地理信息的作用，进行亚米级立体卫星影像的全自动处理，并达到1∶1万比例尺测图精度要求，将会带来生产方式的革命性变化，具有极大的实践意义和推广应用价值。本节将采用前述摄影测量遥感智能处理技术路线，通过几何语义联合约束实现高分七号卫星立体影像自动化处理，以验证其所能达到的平面和高程精度。试验测区为广州市某区域4景高分七号卫星立体像对，每个立体像对包含一景前视全色影像、一景后视全色影像及其对应的多光谱影像。处理流程包括影像融合、影像匹配、语义约束的非地面点剔除、几何语义联合约束平差、DOM/DEM生产等，其中影像融合及匹配可采用现有技术，本文不再赘述。

(1) 语义分割约束的非地面点剔除。采用图 5所示的快速语义分割结果，即可用于非地面点剔除，同名点局部滤除情况如图 6所示，可以看出大量原始同名点位于建筑物和植被区域，而经语义分割结果约束后，非地面点被成功滤除且地面点得以准确保留。图 7所示为4景高分七号立体像对区域网的非地面同名点剔除结果，从左至右依次为原始影像语义分割结果、原始匹配点分布图、语义约束后保留匹配点分布图。4景前后视立体像对中语义信息滤除的连接点数量和比例见表 1，可以看出约88%~96%的同名点被成功滤除，且语义约束技术能够在保证控制点高程精度的同时，极大地减小区域网平差的数据量。

图 6 语义分割约束的非地面点滤除效果 Fig. 6 Effects of non-ground points filtering by semantic constraint

图 7 语义分割约束的非地面点剔除结果 Fig. 7 Results of non-ground points removing bysemantic constraints

表 1 4组高分七号立体像对匹配点滤除数量统计 Tab. 1 Statistics of non-ground points filtering with four GF-7 stereos

立体像对编号	5610	5609	5737	5738
初始匹配点数	14 868	14 128	14 516	14 472
语义信息滤除点数	14 119	13 564	12 876	13 495
语义信息滤除比例/(%)	95.0	96.0	88.7	93.2
区域网平差输入点数(保留点数)	749	564	1640	977

(2) 几何语义联合约束区域网平差。为了验证几何语义联合约束平差处理的有效性，采用4种方案进行结果对比，即原始影像直接前方交会、基于原始匹配点的平高控制点平差(不用语义信息剔除非地面点)和基于语义约束剔除非地面点的平高控制点平差以及带控制点平差，需要说明的是所有平差方案中的控制点均来自于1∶1万DEM和控制点影像库中自动匹配的同名点，未施加任何人工干预。为了验证平差精度，采用39个人工量测的检查点进行平面高程精度检查，其中检查点平面位置来源于高精度控制影像，高程来自1∶1万DEM数据，精度均优于0.5 m。4种不同方案平差后检查点精度见表 2。

表 2 3种不同控制策略的全自动平差精度对比 Tab. 2 Accuracy comparison of automatic block adjustment under three different control strategies

区域网平差策略	人工检查点数量	平面中误差X	平面中误差Y	高程中误差Z
原始影像直接前方交会	39	4.66	7.61	21.69
无语义信息辅助，有平高控制	39	0.94	2.17	7.70
有语义信息辅助，有平高控制	39	0.91	1.60	0.68
20个平高控制点	19	0.87	1.38	0.61

可以看出，该组高分七号卫星影像的直接定位精度较差，平面为8 m左右，高程达到22 m，主要原因在于影像获取时间较早，在轨几何检校过程尚未全部完成。使用原始匹配点进行平高控制区域网平差后，检查点高程中误差提高到7.70 m，但仍远低于高分七号卫星的理想定位精度，说明高层建筑、树木等凸起地物的DEM高程错误问题给平差结果带来显著影响。采用语义分割结果剔除非地面控制点后，基于保留的全自动匹配平面高程控制进行区域网平差，平面定位精度大幅提升至2 m以内，高程精度优于0.7 m，充分验证了语义约束对于提升亚米级立体影像高程精度的显著效果。从39个检查点中选取均匀分布的20个作为控制点、其余19个作为检查点进行平差后，检查点平面和高程精度均有一定提升，但幅度并不明显，说明语义信息辅助的全自动平差技术完全有潜力代替传统的人工刺点生产模式。考虑到1∶1万DEM数据的高程精度约0.5 m，因此根据误差传播规律可知，最后两种区域网平差方案的实际高程精度也应该在0.5 m左右，完全满足1∶1万比例尺地图制作和更新的精度要求。

(3) 立体影像DOM/DEM生产。利用上述第3种平差策略得到的高精度RPC模型与1∶1万DEM数据对高分七号前视和后视全色影像进行正射纠正，得到的DOM接边精度如图 8所示。可以发现，虽然前后视影像具有约33°的成像视角差异，导致建筑物和树木等突起地物具有显著的镶嵌误差，但是机场跑道、运动场等地面目标的镶嵌误差极小，进一步验证了区域网平差结果具有很好的高程精度。

图 8 语义信息辅助平差后高分七号前后视全色DOM镶嵌精度卷帘示意图 Fig. 8 Mosaic accuracy of DOMs generated by GF-7 stereos after semantic information assisted block adjustment

以上述精准几何处理方式获取的高精度RPC模型作为输入，采用立体卫星影像近似核线影像生成算法^[20]，以SRTM数据为辅助进行核线立体影像生产，核线重采样后残余上下视差中误差优于0.05像素。然后采用粗略地形引导的物方半全局密集匹配SGVLL算法进行密集匹配^[21]，经自动滤波后获取的丘陵和山区DEM产品如图 9所示，精度分别为2.33 m和3.23 m，均满足1∶1万比例尺DEM产品的精度要求。上述试验充分验证了语义约束的全自动几何处理能够达到很高的精度水平。

图 9 高分七号卫星立体像对丘陵(a)和山区(b)DEM生产结果 Fig. 9 Results of DEM generation from GF-7 stereos under hilling and mountainous areas

4.2.2 超大范围多源卫星影像快速处理

国家自然资源监测、全球地理信息建设等重大工程，都需要超大范围卫星影像的快速处理技术作为支撑。笔者所在课题组研发了多模态遥感影像自动化智能处理系统MIPS，采用多级并行计算实现卫星影像自动化处理。图 10所示为覆盖蒙古地区的1551景资源三号卫星和高分一号卫星影像区域网平差生产示例，其中包含668景高分一号全色影像和883景资源三号下视全色影像。影像匹配在一台工作站上完成，工作站搭载一颗Intel-Xeon-W3275M处理器，共有28个核心提供56线程，内存空间192 GB，固态硬盘空间8 TB，搭载了两块Nvidia-RTX-3090显示卡。生产使用的参考影像和原始影像均存储在固态硬盘空间中。匹配所使用的参考影像是公众地理信息卫星影像，分辨率约为3 m。

蓝色为资源三号影像，红色为高分一号影像图 10 蒙古地区1551景国产卫星影像分布 Fig. 10 Distribution of 1551 satellite images covering Mongolia, blue and red rectangles are ZY-3 and GF-1 images, respectively

每景影像通过自动匹配得到约100个控制点，测区中控制点总数约为12万。在连接点匹配中，共匹配了4987个影像对，经语义分割结果约束剔除后剩余连接点总数约为96万。采用笔者所在课题组研发的多核CPU并行共轭梯度法进行区域网平差，耗时约20 s，远远高于现有传统方法的平差效率，平差后像点反投影中误差分别为x方向0.55像素、y方向0.34像素。平差后影像间的接边中误差如图 11所示，可见大部分影像重叠区的接边中误差都在2像素以内，极少量影像接边中误差超过2像素，一般发生在云雾较为浓厚的影像上。平差后影像定位精度方面，大部分影像的控制点平面中误差均优于5 m。

图 11 蒙古地区1551景国产影像区域网平差后DOM镶嵌中误差 Fig. 11 DOM mosaic error of 1551 satellite images covering Mongolia after block adjustment

由于采用自主研发的CPU/GPU高性能并行处理算法，单机情况下该组蒙古地区1551景卫星影像的处理时长为19 h，包括云区检测、影像融合、影像匹配、区域网平差、正射影像纠正等全部处理流程。

4.3 语义辅助多源影像时序合成

4.3.1 多时相影像云检测修复

光学卫星影像中的云区会影响地表观测信息的整体一致性，容易给影像融合和解译等任务带来困难，因此需要进行修复处理。在多时相影像语义辅助精准几何处理的基础上，含云影像修复方法将快速语义分割获得的云区及云阴影区域视为无效像元区域，利用多时相影像的矩阵低秩信息对其进行修复^[22]，并通过对云区和非云区设定不同的权值，使得到云区修复的同时尽量保留非云区的原始信息。如图 12所示为6景高分二号卫星多光谱含云影像的云检测修复结果，原始影像中的含云量约为8%~50%，且影像获取时间间隔为数月甚至一年以上，因此影像间差异较大，可以看出经过检测修复处理后，所有时相的影像均取得了较好的修复效果。

图 12 高分二号卫星6景多光谱含云影像检测修复结果 Fig. 12 Cloud detection and removal result with 6 scenes of GF-2 multispectral images

4.3.2 多源遥感影像镶嵌合成

在大范围遥感影像生产中，通常需要对经过几何处理的多张像进行镶嵌拼接。但这些影像来自不同时相甚至异源影像，影像间往往具有较大的色彩差异。图 13所示为由13幅卫星影像组成的多源影像镶嵌测区，从图 13(a)可以看出相邻影像间存在较大的色彩差异，拼接处存在明显的色彩跳跃现象，拼接痕迹严重，对影像解译与分析造成不利影响。在语义分割结果基础上，选择裸地、建筑屋顶等稳定地物区域，采用全局与局部相结合的色彩一致性处理方法进行色彩处理^[23]。该方法无须指定参考数据，根据待处理影像自身特性进行色彩差异消除。全局优化是将影像间色彩差异的消除问题转化为最小二乘优化求解问题，消除影像间的整体色彩差异；局部优化则是在全局优化基础上，对邻接影像重叠区域的残余色彩差异进行处理，最终得到色彩信息一致、过渡平滑的处理结果。由图 13(b)可见，经过色彩一致性处理后，影像间色彩差异基本消除，符合目视解译及地物信息提取的需求。

图 13 多源影像色彩一致性处理结果 Fig. 13 Color balancing of multi-source satellite images, the left part are original images and local zoom in effects, and the right part are final results and local zoom in effects

4.4 多源影像地物信息智能提取

4.4.1 高分辨率影像水体提取

高分辨率遥感卫星影像中不同类型水体目标呈现出尺度不一、形状多样、光谱色彩差异大等特点^[24]，研究团队联合弱监督深度语义分割网络和空间一致性边界优化方法(简称联合优化提取方法)进行水体目标提取。采用"高分辨率可见光图像水体目标自动提取"比赛公开的数据集进行试验，图 14为7种水体提取方法在该测试集中高分二号卫星影像的自动提取结果示例，表 3为对应的精度评定结果。从定量结果可以看出，联合优化提取方法的FWIoU达到89%，水体提取效果明显优于其他深度学习方法。例如，相比于单一深度语义分割网络结构表现最优的CE-Net，联合优化提取方法在FWIoU上提高了0.68%，在比赛系统打分中提高了0.96。该方法可以有效地综合不同深度语义分割网络的优点从而提高水体目标提取精度，采用旋转方式对预测结果进行综合判断提升模型的可靠性和区域预测一致性，空间一致性边界优化则能够在不产生噪点的前提下，达到优化提取结果边缘的效果。

图 14 7种不同水体提取方法可视化结果 Fig. 14 Visualization of 7 different water body extraction methods

表 3 7种不同水体提取方法结果精度对比 Tab. 3 Accuracy comparison of 7 different water body extraction methods

指标	U-Net	CE-Net	CEWI-Net	HR-Net	未进行边界优化	未进行图像旋转综合预测	联合优化提取方法
FWIoU	0.855	0.884	0.881	0.878	0.887	0.888	0.890
比赛系统打分	-	89.563	-	-	90.261	90.354	90.521

4.4.2 高分辨率影像建筑物提取

遥感影像建筑物自动化提取在城市发展规划、人口估计、地图制作与更新等应用中具有极为重要的意义。由于遥感影像成像机理、建筑物自身特性、背景环境复杂等因素，从遥感影像中自动提取建筑物是艰难长期的挑战，现有的建筑物提取依赖于经验设计特征，耗时长、泛化能力差，无法实现自动化，而借助人工智能方法则有可能实现端到端的建筑物快速提取。文献[25]提出一种基于多尺度融合全卷积神经网络的建筑物提取方法MA-FCN，以多源遥感卫星合成影像为输入，结合深度学习语义分割及规则化算法实现建筑矢量边缘的高精度提取。MA-FCN方法的部分提取结果如图 15所示，表 4所示为5种不同方法的统计对比，可以看出MA-FCN方法的建筑物提取效果最好，准确率可达0.952，明显超越其他主流方法。

图 15 基于多尺度融合语义分割网络的建筑物提取 Fig. 15 Building outline extraction by MA-FCN method

表 4 5种不同方法的建筑物提取结果 Tab. 4 Building extraction results of 5 methods

建筑物提取方法	交并比	召回率	准确率
Si-UNet	0.886	0.848	0.931
U-Net	0.879	0.943	0.929
DeeplabV3+	0.878	0.935	0.935
Mask R-CNN	0.849	0.823	0.914
MA-FCN	0.907	0.951	0.952

4.4.3 道路网拓扑矢量自动提取

作为具有复杂拓扑关系的线状地物，道路数据在实际生产中应用广泛，但从高分辨率影像中进行道路提取面临诸多困难。文献[26]提出了一种同时提取遥感影像道路路面和中心线的深度学习融合提取方法，充分发挥卷积神经网络在道路路面分割和道路中心线追踪中的优势，采用路面和中心线结果相互约束、从粗到细逐级优化的方式进行遥感影像道路网提取：①将深度学习和经典机器学习方法结合，利用提升策略(boosting method)优化初始分割结果，并采用高效的提升分割网络模型增强道路路面分割结果的连接性。②在分割结果基础上检测多个特征点作为追踪起点，利用CNN决策网络输出的"追踪动作"和"追踪方向"来逐段构建道路网，增强道路中心线结果的完整性。③充分发挥语义分割方法和追踪方法的优势，克服原始分割结果中道路断裂以及单起点追踪结果中道路不完整的缺点，融合得到准确、完整、连通的道路网数据。图 16所示为3种道路网提取结果的可视化展示，表 5为不同城市地区的道路网提取结果统计对比，可以看出融合提取方法的结果显著优于其他两种道路网提取方法。

图 16 语义分割和多起点追踪融合道路网提取 Fig. 16 Building outline extraction by MA-FCN method

表 5 3种不同方法的道路网提取结果 Tab. 5 Road network extraction results of 3 methods

数据集	方法	完整度	准确度	质量
马萨诸塞州	单起点追踪	0.435	0.513	0.308
多起点追踪	0.488	0.552	0.343
融合结果	0.889	0.882	0.796
绍兴	单起点追踪	0.168	0.413	0.150
多起点追踪	0.378	0.607	0.298
融合结果	0.823	0.757	0.650
全球25个城市	单起点追踪	0.229	0.371	0.170
多起点追踪	0.264	0.416	0.195
融合结果	0.701	0.693	0.541

5 结束语

近10年来，随着计算机技术的进步和大数据时代的到来，多源广义控制信息在自动化几何处理方面发挥了重要作用。但是，目前遥感影像的几何处理和语义信息提取反演仍然在很大程度上互相独立，智能化测绘时代摄影测量与遥感的发展面临新的挑战。例如米级尤其是亚米级影像中存在的云区、水体等时变地物和建筑物、树木等高出地面的物体，会导致与已有地理信息的自动匹配结果中往往存在显著的平面和高程系统误差，严重制约自动化处理的精度和效率；而几何处理精度有限的多源多时相影像，又会进一步影响语义信息提取和监测结果的完整性和可靠性。本文提出了摄影测量遥感的概念，探讨了其主要科学问题及应用领域，并以多源遥感卫星影像为例，通过语义提取与几何处理交叉闭环融合的全新思路，构建一体化摄影测量遥感智能处理技术框架。充分利用语义分割信息自动挖掘多源广义地理信息中的高精度有效控制，代替传统的人工刺点生产模式进行几何语义一体化处理，显著提升了多源遥感影像精准快速处理的自动化和智能化水平，可应用于超大范围高分辨率多源影像镶嵌合成、三维地形、语义分割图、地类覆盖图等产品的快速智能化生产应用，有望为智能化测绘新时代多源遥感影像的精准快速处理提供新的解决方案。