龚健雅院士:两个“老”学科在“新”时代的火花碰撞
点击图片上方蓝色字体“慧天地”即可订阅
可能很多人不知道,这几年流行起来直至人尽皆知的“人工智能”学科已经有60年的历史了。而测绘学科更是一门历史悠久的老学科。
随着新技术的发展,人工智能技术迅猛发展将对各行各业造成巨大影响。测绘遥感是一个与人工智能密切相关的领域,在人工智能领域迅速发展的大环境下,测绘遥感学科既有很好的发展机遇,也面临很大的学科危机。
龚健雅院士在学术论文《人工智能时代测绘遥感技术的发展机遇与挑战》中:
首先介绍了人工智能的范畴和与测绘遥感相关的领域
然后介绍了人工智能两大热门领域——机器视觉和机器学习在摄影测量与遥感领域的应用进展
最后介绍了基于时空大数据的认知与推理研究进展,展示了测绘遥感的时空大数据在自然和社会感知、认知与推理的应用前景,希望测绘遥感学科在人工智能时代获得大发展。
论文发表于《武汉大学学报·信息科学版》2018年 43卷 12期,“测绘遥感学科发展高端论坛专刊”。
引用本文:
龚健雅. 人工智能时代测绘遥感技术的发展机遇与挑战[J]. 武汉大学学报·信息科学版, 2018, 43(12): 1788-1796
无论在学术界、产业界或是公众生活中,人工智能都称得上当前最热门的一个话题,也是目前发展最快的一个领域。
回顾人工智能发展历程,1956年达特茅斯会议的召开标志着人工智能研究的开启,历经60年的发展,两起两落,每次兴盛都是人工智能算法有了新的突破,比如50年代神经网络理论的提出,80年代反向传播算法的出现等。而每次低潮又是计算性能和数据规模的局限不能满足实际应用的需求,从而导致政府和投资的冷落。
2006年,会议五十年后,当事人重聚达特茅斯。左起:摩尔,麦卡锡,明斯基,赛弗里奇,所罗门诺夫 来源:澎湃新闻
自2013年始,以深度学习为代表的神经网络算法为核心,在大数据和图形处理器(gra- phics processing unit, GPU)大规模应用的推动下,在语音识别、图像识别领域达到甚至超过了人类平均水平,迎来了人工智能研究的第三次高潮。
如今,人们不仅能频繁看到人工智能的研究与技术进展的报道,如AlphaGo打败了人类围棋手,波士顿动力公司的机器人做出空翻等高难度动作等,也能不时地感受到人工智能对生活的影响,如家中新添的扫地机器人,高铁进站的“刷脸”,手机即时翻译等。
这一切无不宣告世界正进入人工智能时代,而且发展迅猛,影响深远。人工智能的迅速发展对各行各业将造成巨大冲击,许多行业可能在这场变革中消失,一些行业将获得大发展。测绘遥感是一个与人工智能关联密切的领域,在这样的背景下既有发展的机遇,也面临很大的危机, 本文将着重讨论。
人工智能可以分成6个研究方向。①机器视觉,包括三维重建、模式识别、图像理解等;②语言理解与交流,包括语音识别、合成,人机对话交流,机器翻译等;③机器人学,包括机械、控制、设计、运动规划、任务规划等;④认知与推理,包含各种物理和社会常识的认知与推理;⑤博弈与伦理,包括多代理人(agents)的交互、对抗与合作,机器人与社会融合等;⑥机器学习,包括各种统计的建模、分析工具和计算方法等。
机器视觉
前3项是类人的外观,是与外界接触的部件。类比人的五官(眼、耳、鼻、舌、身),人工智能的研究方向中包含了其中三官。机器视觉相当于人的眼睛,语音理解与交互相当于人的耳朵,机器人学主要研究智能机器人的运动器官,包括能够运动的脚、能够工作的机械手、能够空翻的身体等等。
而后3项相当于人脑的功能,认知与推理是智能体需要具备的基本能力,它可以是简单的认知与推理,也可以是复杂的高级的认知与推理,认知与推理过程可以是计算机算法驱动,也可以是已有规则或者知识的直接驱动;机器学习是一个增加智能体知识、提高智能体认知与推理水平的过程;博弈与伦理则是更高级的智能,它不仅涉及到智能体与智能体之间的协同,还涉及到人与智能体之间的协同与融合。一个智能体可能包含一个或者多个方面的智能,如机器翻译可能仅包含语言理解和机器学习,但人脸识别可能包括机器视觉、机器学习和认知与推理等。
当一个智能体具备以上6个方面的智能时,就可能进入到强智能时代。
什么时候能够进入强智能时代,强智能时代的标志是什么,笔者给出了一个例子。如果哪一天机器人与人进行一场足球赛并取得胜利,则可以认为强智能时代已来。原因在于,这种比赛要求机器人不仅具有以上6个方面的能力,且各方面能力应高级到足以打败人类。人工智能要到达这一水平,可能还需要几十年的时间。
人工智能的发展过程中许多衍生的技术是可以用于其他领域的,并且有可能推动其他领域的技术变革。智能科技产业形成从宏观到微观的各领域的智能化新需求,将重塑全球经济结构,催生新技术、新产品、新产业、新业态、新模式,打造智能经济、智能社会和智能生活。
测绘遥感是一个与人工智能密切相关的学科领域。
摄影测量与遥感和机器视觉有许多概念、原理、理论、方法与技术上的重叠,它们都是用来感知环境的技术;其区别是摄影测量与遥感主要是感知地球和自然环境,而机器视觉主要是感知智能体关注的目标和环境,但是它们在数学和物理上的原理基本相同。
机器学习,特别是最近几年快速发展的深度学习方法,在机器视觉、模式识别、语音理解等方面得到广泛有效的应用,可说是一个革命性的技术,在摄影测量与遥感领域也得到广泛应用。
认知与推理是一种更广义的智能,在时空大数据挖掘和智慧城市等方面将大有用武之地。本文将讨论机器视觉、机器学习和认知与推理在测绘遥感学科的应用。
一、机器视觉及其在摄影测量与遥感领域的应用
机器视觉或者称计算机视觉,是一门研究用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等的学科。广义上,计算机视觉包括图像处理、目标重建与识别、景物分析、图像理解等内容。狭义上,计算机视觉通常是通过对采集的图片或视频进行处理以获得相应场景的三维信息,即三维重建。
20世纪40年代,贝尔实验室的Julesz发现任意视差图都可恢复立体感,无需事先识别单幅图像的含义;而此前心理和神经学家认为人需要先感知才能产生立体感。由此Marr认识到复杂的神经和心理过程可用直接的数学计算表达,并提出三维重建的计算视觉理论。他在1982年发表的《视觉:从计算的视角研究人的视觉信息表达与处理》中详细分析了二维图像的表达、立体图像的对应和重建、算法以及硬件的实现,是计算机视觉的开山之作。
20世纪80年代同时也是计算机视觉的第一段黄金时期。许多经典的算法和算子,如Canny边缘检测、shape from shading、Hough变换、LoG(Laplace of Gaussian)等都起源于70-80年代。除了图像处理,早期的计算机视觉同样关注几何和三维重建问题。不过,在计算机和数码相机还未成熟之前,摄影测量与计算机视觉当时的状况距离Marr所提倡的三维重建理论依然相去甚远。
与计算机视觉相似,摄影测量学是一门利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系的学科,简而言之,摄影测量学是以摄影为工具,以测量为目的。
事实上,摄影测量学的历史远早于计算机视觉。19世纪早期,德国教授舒尔兹发现银的混合物在日光下会变黑;1839年,法国画家达盖尔发明了银版摄影法,并制作了世界上第一台真正的照相机;19世纪中叶,法国测量学家和摄影测量学的先驱Fourcade首先发现了用立体照片可重建立体视觉,从而促进了摄影测量学的诞生。
透视窗 来源:科学网 季顺平博客
在其后漫长的岁月里,相机和照片帮助人们将地球表层地形地物在室内重建三维立体,从而将野外测量工作搬运至室内。“内业”工作成为主体,照片和摄影测量仪器替代了三脚架、经纬仪和标尺,成了主要的研究对象。随着航空航天技术的发展,以航空航天飞行器为载体的摄影测量应运而生。
第一次世界大战中,首台航摄仪问世,立体坐标量测仪和1318立体测图仪投入使用,标志着航空摄影测量学的理论、方法与技术体系初步形成。1957年,第一颗卫星被发射到外太空,同时开启了卫星摄影测量时代。
1973年,贝尔实验室的Boyle和Smith发明了电荷耦合器件(charge-coupled device,CCD),促成数码相机和数字摄影测量时代的诞生。以CCD/互补金属氧化物半导体(complementary metal oxide semiconductor, CMOS)数字成像器件为代表的数字摄影技术开启了数字摄影测量理论与方法的研究。
从此,计算机成为测量的主要工具,数字影像和摄影测量算法替代了胶片和摄影测量仪器成为主要研究对象,形成了目前的数字摄影测量理论、方法与技术体系。与此同时,计算机视觉也得到迅猛发展,并成为计算机领域的一个热门方向。
90年代后,两个领域都得到数码成像技术和计算机技术的强大推动。仅几何而言,两门学科具有同样的理论基础,即小孔成像和双目视觉原理。但在应用和技术细节上,两者存在区别。
如数字摄影测量主要用于相对静态的地形地物测绘,使用航空和航天平台,所用的相机通常为专业量测相机;而计算机视觉主要以普通相机、手动和车载移动平台为主,用于运动目标的实时重建与识别,应用领域包括人脸识别、机器人和无人驾驶车等大众应用领域。
在技术方法上,如相机检校,摄影测量一般布设有高精度三维检校场,而计算机视觉常采用二维平面棋盘。在空中三角测量方面,摄影测量一般用严密的光束法区域网平差,而在计算机视觉中一般称为从运动恢复结构(structure from motion, SfM),除了用全局的光束法平差,也采用一些非全局解法,如增量式的局部平差、滤波等;这些差异源于摄影测量需要更高的测量精度。
此外,还有一些近似等价的概念,由于学科的发展而具有不同的称呼。如平差中的粗差探测,摄影测量中称为选权迭代的方法,在计算机视觉中则称为权衰减法;又如为了处理法方程系数阵(即Hessian矩阵)接近奇异的问题,计算机视觉中常用L-M(Levenberg-Marquardt)算法,而摄影测量中常用岭估计法。
一般而言,计算机视觉中理论的严密性要高于摄影测量,算法发展也非常迅速,当然,反过来说,摄影测量在工程和实用性方面可能更占优势。
摄影测量学与计算机视觉的区别
来源:龚健雅, 季顺平. 从摄影测量到计算机视觉[J]. 武汉大学学报·信息科学版, 2017, 42(11): 1518-1522,1615
计算机视觉中的同时定位与地图构建(simul-taneous localization and mapping, SLAM)已经成为一个重要研究支流,是机器人和无人驾驶车的必备技术。
早期的SLAM以激光扫描仪为主,这也是SLAM中Mapping的由来;后来基于视觉的SLAM(Visual SLAM)成为主流,并与摄影测量特别是实时摄影测量在各个研究点上(匹配、平差、定位和重建)都有共同之处。
实际上,Visual SLAM的原理与摄影测量的空中三角测量类似。空中三角测量与SLAM的明显区别在于,前者是通过连接点构建航带,确定航摄仪的6个外方位元素,即摄站定位;而后者在定位的同时生成密集点云。
早在21世纪初,美国为了精确测量“勇气号”和“机遇号”火星探测器的具体位置,就采用了空中三角测量区域网平差的原理,根据每天获得的火星表面的序列影像,通过匹配同名点,建立“航带”模型,以此精确计算每个摄站点的坐标位置,以纠正遥测定位产生的误差。该项目的首席研究员是时任俄亥俄州立大学测量系教授的李荣兴博士。
图1 采用区域网平差方法为火星机器人导航定位
图 1所示为“勇气号”火星探测器基于序列影像采用区域网平差对火星探测器进行精确导航与定位的示意图,蓝色为遥测的位置,红色为纠正后的位置。这一实例说明,摄影测量工作者早就采用了区域网平差的方法为火星机器人导航定位,即Visual SLAM。
由此可见,摄影测量与计算机视觉在原理、方法和应用上都有很多相通的地方。在进入21世纪后,两者的融合速度又得到进一步提升,它们之间的技术交叉点是无人机和车载移动平台。摄影测量的一个重要发展方向是地面移动测量系统,它可以用来采集道路和街景;而计算机视觉同样关注道路信息的提取与重建,并应用于机器人、城市地图、智能交通和自动驾驶汽车中。同时,无人机航摄技术除了是摄影测量中的一个方便快捷的测量技术,也是计算机视觉所关注的未来焦点。
由于计算机视觉领域研究学者云集,应用领域又很广泛,发展了大量新理论和新方法。摄影测量工作者应在这场技术变革中拥抱新技术,学会跨界融合,并发挥自己的优势,贡献自己的智慧,方能使自己的学科立于不败之地,同时与其他学科一起推动智能科学的发展。
为了促进测绘遥感学科与计算机视觉的交叉融合,紧跟人工智能领域的技术潮流,国内学者组织了专门的人工智能研究团队,积极行动。图 2为武汉大学研发的无人驾驶汽车和机器人。
图2 武汉大学研制的无人驾驶汽车与室内智能机器人
无人驾驶汽车技术除了可以用于无人驾驶的交通通行以外,一个重要应用是用于无人测绘。无人驾驶汽车上装载的各种传感设备除了用于汽车本身的导航定位以外,还可以自动获取道路及周边环境信息,进行自动测量。智能机器人也将广泛应用于室内外测量,特别是一些困难和危险地区,如煤矿井下测量等。一方面,测绘遥感学者在人工智能大潮中参与人工智能技术的发展,另一方面,人工智能技术的进步将推动测绘遥感技术更深层次的变革。
二、机器学习及其在摄影测量与遥感领域的应用
当前人工智能发展的一个重要方向是机器学习。从1955年John McCarthy提出人工智能的概念以来,机器学习就作为人工智能的一个重要方向。机器学习的基本原理是寻找某种函数,能从数据与类别之间得到正确或最佳的映射。基于统计学习的思想不仅长期应用于机器学习,在摄影测量与遥感领域也得到广泛应用,如监督和非监督目标识别与分类方法。基于传统统计学习的遥感影像的监督与非监督分类以及经典的神经元网络方法的研究进展一直很慢,目标识别的准确度和分类精度难以大幅提高,机器学习有效地改变了这一现状。
来源:pixaby.com
2006年,Hinton的研究表明,采用一种逐层的贪心算法可实现深度神经元网络的训练,深度学习的概念由此浮出水面。
深度学习算法的突破来自于LeCun Yann、Bengio Yoshua和Hinton Geoffrey 3位科学家在深度卷积网络方面的杰出工作。他们通过多层的深度卷积处理抽取图像的抽象特征,而这原本深度依赖算法设计者的经验。目前的研究进展已经有能力训练一个深度网络,根据目标任务的不同来选取不同的特征,实现了人工智能方法和实践上的突破。
2012年,在ImageNet挑战赛中,深度学习的方法夺得第一,并一举超过传统机器学习方法10个百分点;而第二至第四名相差不超过1%,显示了传统方法的天花板。随后的大量实验表明,无论在图像分类、物体识别、语音识别、遥感应用等关于学习和语义的研究领域,深度学习都占据上风,深度学习的时代由此开启。
除了自然语言处理(natural language processing, NLP)以外,深度学习最重要的应用是在视觉图像上,如手写字体识别、自然图像分类[18]和目标检索等等。深度学习在计算机视觉领域得到广泛应用,推动了人脸识别、机器人和无人驾驶车等相关技术的蓬勃发展。由于摄影测量的研究对象也是视觉图像,因此摄影测量也成为深度学习发展最受益的学科之一。
摄影测量的两个主要任务是目标几何定位和属性的提取,包括从二维像片重建三维几何以及地物要素分类。将深度学习应用于几何定位目前还未进入摄影测量研究领域,但已经出现在密切相关的计算机视觉领域,如SfM与SLAM。然而,深度学习方法的定位精度目前尚不能同传统的方法相比,约相差一个数量级。对于三维重建中的关键技术——密集匹配,深度学习已经取得很好的应用效果。如在KITTI等标准数据集上,前10名的方法都是深度学习方法,展现了深度学习方法的应用潜力。
深度学习在摄影测量领域的另一个主要任务,即影像的语义提取方面,则取得了重要进展,并开始普及应用。
基于图像的建筑、道路网等地物的提取数十年来一直是热门课题。虽然经典方法取得一定的效果,但距离实用、市场、商业软件尚有一定的距离。卷积神经网络(convolutional neural network, CNN)目前已成为道路网提取的主流方法。
表 1为肖志锋等开发的基于深度学习方法的遥感影像内容检索系统。从表 1可以看出,这里采用的基于深度级联降维网络的遥感图像特征提取方法(deep convolutional neural network, DCNN)的查全率和精度大大高于传统的LBF-HF(local binary pattern histogram Fourier)和EFT-HOG(the elliptic Fourier transform-histogram of oriented gradients)方法,其精度高出了20%~30%。
基于深度学习的方法除了可有效地用于遥感影像的地物分类与目标检索以外,在其他摄影测量与遥感数据处理方面也有广泛用途。例如,胡翔云等采用深度学习方法进行激光雷达(light detection and ranging, LiDAR)点云数据处理。山地林区的点云数据滤波,从点云数据提取数字高程模型,自动化很难实现,一般需要人机交互作业,耗费大量人力物力。目前该小组采用机器学习方法,在人机交互作业过程中进行训练,学习到知识,然后再应用于点云数据的自动处理中,自动处理的准确率达到95%以上,大大提高了作业效率。
图3所示为广东某地的点云提取的地形断面,可以看出,该地区相当复杂,但是用深度学习获取的地面模型断面还是相当准确的(红色曲线)。这说明深度学习方法在点云数据自动处理方面有很好的应用前景。同理,深度学习方法在测绘领域的其他方面,特别是需要人机交互数据处理等方面,如影像变化检测、地图综合,也将发挥重要作用,使之更加智能化和自动化。
图3 深度学习方法应用于点云数据滤波,自动提取数字高程模型
三、基于时空大数据认知与推理
人机物三元世界(物理世界、人类社会、信息空间)是一个多人、多机、多物组成的动态开放的网络社会,如图 4所示。
在这个三元世界中:
一方面,人们采用测量、遥感、野外调查和最近兴起的传感网技术获取物理世界的信息;
另一方面,人们应用社会调查以及近几年兴起的互联网、智能手机、导航设备、可穿戴设备和监控视频等工具获取人类社会经济信息。这些信息形成了多种多样的海量时空大数据。这些数据成为对物理世界和人类社会认知与推理的源泉,这也是人工智能的使命之一,而且是用于辅助决策的高级智能。
图4 物理世界、人类社会和信息空间的关系
与计算机视觉和深度学习等人工智能领域具有的比较完善的理论与方法不同,对物理世界和人类社会认知与推理的人工智能的理论与方法目前还很不成熟,并且不成体系。但是这并不妨碍人们在人工智能的框架下采用大数据分析方法开展智慧城市、智能社区的研究与应用。
经过几十年的发展,地理信息系统已经有了比较完善的空间分析理论与方法体系。但是,加入了传感网和社会感知设备的时空数据分析与挖掘的理论与方法还不够成熟,目前正处于快速发展之中。
时空数据可分为两类不同类型,一类来自测绘遥感及地面传感网的反映地球表层及环境特征的时空数据;另一类是来自社会感知设备,包括互联网、智能手机、导航设备、可穿戴设备、视频监控设备以及社会调查获取的时空数据,它主要反映人为活动及社会经济形态特征。第一类数据比较规范,适于数值分析与计算,所以通常采用数学模型来进行模拟及预测分析。
例如,陈能成等采用航空航天遥感与传感网集成技术建立了长江流域对地观测传感网系统,该系统除包含航空航天遥感数据、基础地理信息数据以外,还包含了气象、水文、航标、土壤湿度等32种共上万个地面传感网实时数据。通过这些实时动态数据,能对流域内的水库和河流的水位、水量、泥沙、河道进行分析和预测,实现水利的智能调度,为蓄水发电和防洪抗旱等提供决策支持。图 5为长江流域天空地对地观测传感网示意图。
图 5 长江流域天空地对地观测传感网示意图
来自社会感知设备的时空数据是一种新型数据,它的结构和形式更加多样。例如互联网数据主要以多媒体的文本数据为主,导航轨迹数据是流式的点坐标数据,视频监控数据是图像数据,而智能手机数据则有文本、点坐标和图像等多种数据。
这些数据复杂多样,有些时空标签明显,有些则需要经过分析处理才能添加时空标签。目前多个领域的学者,包括计算机应用、测绘遥感、地理信息科学、城市规划与管理等,都对社会感知的时空数据感兴趣,认为该数据是社会科学与信息领域交叉的新兴学科,是建设智能城市和智慧社区的有效手段。
社会感知时空数据包含了多源、异构、海量的数据的同时包含了复杂的社会网络关系。针对社会感知的时空数据分析方法主要包含以下方面:
①数据预处理:数据清理、数据集成、数据归约、数据变换;
②时空分析:时间序列分析、空间自相关分析、空间聚类分析;
③网络分析:网络的构建、学习与发现;
④时空挖掘:文本挖掘、特征建立、学习与知识模式的提取。
通过时空数据分析与挖掘来揭示人类社会活动及行为规律。图 6为方志祥等使用深圳市民手机移动位置信息勾画了深圳人活动空间的主要范围和热点区域(图 6(a)),并探测出社区的边界(图 6(b))。利用社会感知时空大数据揭示城镇居民社会行为及活动规律是比人脸识别、三维建模、语言翻译等更加复杂、更高级的人工智能。
图 6 根据移动手机的位置信息揭示深圳市民主要活动区域、中心和社区边界
四、结语
人工智能正在掀起一场技术革命和产业革命,测绘遥感既是人工智能技术的受益者,又是人工智能技术的贡献者。摄影测量从静态走向动态与实时,并将与计算机视觉深度融合;遥感应用人工智能技术解决影像解译、信息自动提取问题;互联网、物联网、传感网获取的海量时空数据是人工智能的血液,为机器学习、智能抉择与服务提供支撑。
本文首先回顾了摄影测量与机器视觉的历史,并分析了两者间的紧密联系。然后,介绍了深度学习以及卷积神经元网络的基本思想;分析了摄影测量与遥感、计算机视觉、机器学习等领域的相关发展,以及深度学习在遥感影像目标检索与激光测高数据处理中的应用;最后,分析了测绘遥感与社会感知方法获取的时空数据对自然和社会认知与推理的潜力,介绍了基于时空大数据的流域与城市智能管理和分析中的应用。
面对人工智能的迅猛发展,摄影测量工作者是仅跟踪应用计算机视觉成果,还是主动作为;是仅应用现有的深度学习方法,还是构建新的遥感深度学习网络;社会感知信息如何与测绘遥感信息融合用于揭示自然物理空间发展和人类社会行为及活动规律,发展更高级更复杂的人工智能;这些是测绘遥感工作者面临的新任务和新挑战。
(温馨提示:请在wifi下观看)
作者:龚健雅 中国科学院院士 武汉大学遥感信息工程学院院长。
来源:《武汉大学学报·信息科学版》(版权归原作者及刊载媒体所有)
欢迎大家关注《慧天地》同名新浪微博
微博ID:慧天地_geomaticser
荐读
点击下文标题即可阅读
龚健雅院士:筑创新之基石 绘天地之大美——《武汉大学学报·信息科学版》测绘遥感高层论坛专刊前言
编辑 / 刘峰 审核 / 刘峰 胡方霞
指导:万剑华教授