查看原文
其他

聚焦︱基于RBF神经网络的OSM道路网智能选取

The following article is from 地理信息世界GeomaticsWorld Author 地理信息世界

导读

当前,大量自发性地理信息数据的涌现为电子地图的更新提供了方便快速的数据源,那么,如何将质量驳杂的VGI数据综合成可供专业人士使用的标准数据?本文从实际应用出发,以RBF神经网络为例,将Open Street Map道路网数据作为数据源,用智能化的方法对1:250 000的OSM道路网数据进行自动综合,以期获得更标准的专业数据供专业人士使用。


随着数字城市建设的发展,测绘地理信息的成果在社会上得到了普遍应用,最典型的应用就是电子地图。在电子地图中,道路网是最重要的元素之一。道路网是地图中覆盖范围较广的元素,类型繁多、形状各异、关系错综,相对于其他地图要素更为重要且使用的频率更高,对军事和经济方面的意义较为重要。现在流行的一些电子地图导航软件,使用的道路地图仍然是先由人工方法进行各级比例尺的道路选取,再逐层呈现给用户。在道路建设发展迅速、电子地图的数量日渐增多的现实情况下,这种人工选取具有信息滞后和工作量成倍增长的问题。如何从大比例尺地图中自动提取道路信息为特定小比例尺地图的制作提供数据支持,是当前形势下亟待解决的技术问题。


随着人工智能的兴起和发展,人工神经网络在许多领域得到了广泛的应用,其中包括道路网的自动选取。常用的道路网选取神经网络算法包括自组织映射(Self-Organizing Maps,SOMs)神经网络、反向传播(Back Propagation,BP)神经网络、径向基(Radial Basis Function,RBF)神经网络、多层感知器神经网络(Multi-Layer Perceptron,MLP)、深度神经网络等。进一步对比已有针对分类问题的研究资料,SOM训练的时间较长,BP神经网络容易陷入局部极小,难以达到最佳逼近性质。而RBF神经网络分类能力较强,可以映射任意复杂的非线性关系,通过将数据映射到高维空间,使其更接近线性划分的情况,具有其他神经网络难以替代的优势。鲁棒性和记忆能力较强,学习规则简单,便于计算机完成,避免陷入局部极小,学习过程的收敛速度较快,精度较高。


目前, 大量自发性地理信息( V o l u n t e e r e d Geographic Information,VGI)数据的涌现为电子地图的更新提供了方便快速的数据源,如何将质量驳杂的VGI数据综合成可以供专业人士使用的标准数据成为当下急需解决的问题。本文从实际应用出发,以RBF神经网络为例,将Open Street Map(简称OSM)道路网数据作为数据源,用智能化的方法对1:250 000的OSM道路网数据进行自动综合,期望获得更标准的专业数据供专业人士使用。


一、研究方法


本文选取OSM道路网作为实验的数据源,输入原始数据后,经过数据预处理等操作后完成样本选取工作,再依次计算出各参数完成参数计算的工作,最后进行网络训练,输出实验结果,具体流程图如图1所示。下面将详细介绍实验中选用的数据和采取的神经网络方法。


图1 道路网选取流程图


1.1 OSM道路网

OSM是Steve Coast在2004年在伦敦发起的一个类似于维基百科的合作项目,该项目致力于创造和提供免费的地理数据,用户可以通过网络,结合GPS工具或者自身的经验,对地理数据进行编辑并上传。


OSM道路网具有较高的细节水平和复杂的结构,但道路特征也有大量的重复线路,导致道路提取比较困难。由于OSM数据是通过大众参与获得的,这些数据从其发展以来就一直因为数据的质量较低而受到质疑。许多专家对OSM数据质量的评价做了研究,并且将它与官方数据进行比较。研究结果表明,OSM数据在城市地区细节表现较好,而农村地区的属性准确度则比较差,随着OSM数据的普及,一些相关的数据问题在逐渐减少。


与传统的地理信息系统所采用的方式相比,OSM数据具有更新速度快、反映真实情况和获取成本低等优点。而且经过一些基本数据处理之后,OSM数据变得更为标准,可以被看成是专业数据并进行应用。除了作为导航数据之外,OSM数据也为城市路网基础数据的采集和更新提供了新的思路。针对目前官方道路网数据难以获取而OSM数据方便获取且质量较好的现状,本文选取OSM数据作为道路网选取的实验数据。


1.2 RBF神经网络


RBF神经网络是近几年兴起的且效果较好的一种前馈式神经网络,它的训练方法简单又迅速,同时保持了最佳逼近和全局最优的特点,这些优点使得RBF网络在非线性时间序列预测中得到了广泛的应用。


RBF神经网络通常有3层,即输入层、隐藏层和输出层。第一层中的节点就是信号源,输入的是各样本。中间层的节点数不固定,该层神经元个数根据具体问题而定,这一层中用到的变换函数是径向基函数,即对中心点径向对称且衰减的非负线性函数。第三层输出的是经过隐藏层处理后的输入层结果。与一般的三层神经网络不同的是,RBF神经网络的中间层采用的是核函数对输入层进行非线性变换,进行线性分类器训练。RBF神经网络的基本思想是在中间层对输入层样本进行变换,将低维模式内的数据映射到高维空间,使得在低维空间内的线性不可分问题在高维空间内线性可分。


道路网综合一般以选取、简化和位移3个部分进行。其中,道路网选取是减少道路网中辅助道路和不必要细节的重要过程,选取的基本单元为两点之间的路径,在缩小比例尺的过程中将最重要的元素突出,不重要的道路舍弃,达到地图概括的目的。因此,它可以被定义为一种选取与删除的二分类问题。


利用神经网络进行道路网选取的方法,将道路网选取问题看作一个“黑盒”模式下的分类问题。对于读图者而言,只能看到制图者已经发布的地图数据,对地图概括的过程和选取规则并不清楚。在没有制图者地图概括知识的情况下,难以自行实现道路网的选取。而神经网络等智能化的机器学习算法,则可以根据已知输入和输出的情况下,逼近两者的映射关系,打开“黑盒”。通过对制图规则进行学习,形成可以用于地图概括的网络,从而实现道路网的自动选取。而RBF神经网络分类能力较强,可以映射任意复杂的非线性关系,通过将数据映射到高维空间,在选取道路网这种复杂的情况下可以达到较高的精度。


二、技术路线


本文按照图1所示的技术路线图进行实验,主要分为样本选取、参数计算、网络训练这三大模块,首先用ArcGIS、QGIS等数据处理软件对OSM数据进行预处理,构建选取单元stroke;再利用Java程序计算各选取参数;然后,用RBF神经网络方法,对样本进行训练,并根据构建的网络对实验样本进行实验,得到选取结果,最后处理完成输出地图。下面将对这些模块进行详细阐述。


2.1 样本选取


RBF是一种典型的有监督算法,训练样本需要有期望的输出值,期望输出值指的就是标准的输出值,一般以专家综合好的标准地图作为训练样本的期望输出值。本文将原始OSM地图1:250 000比例尺数据作为样本的输入,期望输出为对应的标准地图。训练样本的选择要遵循科学性、全面性、针对性和准确性的原则,所选择的样本应包含典型的道路网结构及道路特征,同时样本分布保持均匀。


本文数据来自OSM官网,文件为shapefile格式,坐标系为WGS-84经纬坐标系,采用的是Web Mercator投影。以2017年10月8日为节点,下载了如图2所示的中国上海的OSM道路网数据作为原始数据。上海是中国的超大城市,其交通网络特别发达,OSM数据也比较全面,包括有24种类型的道路网数据,根据OSM分级情况,提取了包含有10种道路类型的1:250 000比例尺的道路网数据。在正式出版的地图集中查找了对应区域1:250 000的地图作为标准数据,分别选取比较密集有代表性的上海市中心的静安区和徐汇区的道路网数据集作为训练样本和实验样本,分别如图3、图4所示。


图2 OSM原始数据


图3 训练样本


图4 实验样本


作为训练样本的静安区道路网数据集,道路类型较为复杂,包含了一些典型的道路网数据特征。用于验证道路网选取算法的实验样本则选取同样位于上海市中心的徐汇区道路网数据集,道路网组织方式较为自由,同样也包含了典型的道路网数据特征,都比较符合作为选取样本的要求。


2.2 参数计算


道路网的特征可以通过描述其结构特征和几何特征来进行表达。此外,其拓扑结构也决定了部分道路的层次安排,但由于很多道路网在空间上互相约束,因而几何特征在确定道路网结构中起着重要的作用,每一条街道都会对整个道路网系统产生影响。在此基础上结合前人的研究成果,选择道路类型、名称、长度、度中心性、中介中心性、紧密度中心性共6个常用参数作为道路网选取的依据。道路类型、名称分别对应属性表中的对应字段,其他的参数则要通过计算获得。


1)长度(Length):组成stroke的所有路段长度之和,在一定程度上,长度可以反映道路的重要性,道路越长,重要性越高。早期的道路网选取中常常将长度属性作为必选参数。


2)度中心性(Degree Centrality):表示与该条stroke相交的其他stroke的数目,也称为连通性,度中心性反映出stroke之间的邻接关系。一条stroke的度中心性值越大,则代表它与周围stroke的连通性越高。


3)紧密度中心性(Closeness Centrality):表示一个stroke与其他stroke的紧密程度,用该条stroke与其他stroke之间的最短距离的平均数的倒数表示。紧密度中心值越大,则代表它与其他stroke越紧密。


4)中介中心性(Betweenness Centrality):表示在该道路网中,一条stroke作为中介的次数,即stroke之间的最短路径的集合中出现该条stroke的次数。


道路类型名称长度可以直接从原始数据属性中统计获取,其他拓扑参数在Java环境中建立道路网数据库,调用SQL语言计算得出。


2.3 网络训练


RBF神经网络具有前馈式的网络结构,由一个隐含层和局部调节神经元组成,与输出层完全互联,能够避免BP神经网络层数增加导致训练时间增加的问题。根据道路网自动选取问题,本文设计了如图5所示的RBF神经网络功能结构。


图5 RBF神经网络功能结构图


图中第一层为输入层,m为输入层的神经元xi (i =1,2, 3,…,m )数量,取决于道路网stroke的规模,由于道路网中的每条stroke都有相应的语义、几何、拓扑参数信息,因此x不是单独的数值,而是向量。


中间层为隐含层,h 表示隐含层的神经元数量。隐函数为非线性核函数,形状呈径向对称,半径越大函数值越趋近于0。隐函数的选择较为广泛,而最为常用的隐函数如式(1)所示。



式中,μk是径向基函数的中心,σk为第k 个隐含层神经元的宽度(Width),也称为核半径(Kernel Radius)、影响系数、基函数方差,是一个符号为正的实常数。


每一个输出神经元是隐含层神经元按照方程(2)计算出的线性组合,n 为输出层的神经元数量。而在道路网选取问题中,输出层每个神经元的理想输出则是一个标记类别的标签值,输出值为0表示该道路可以删除,1表示该道路应该选取。



式中,βi 为径向基函数隐含层和输出层神经元之间的连接权值。


RBF神经网络的不同层次分别执行不同的任务,因此,它合理地使用不同的技术将隐含层和输出层的优化过程分离。目前较为高效迅速的RBF神经网络的训练方法,是首先从搜索隐函数参数之一的基函数中心开始;然后根据如式(3)所示的最小二乘法线性优化策略,计算隐含层和输出层之间的权重。



利用道路网训练样本数据对RBF神经网络训练完成后,将测试数据带入网络中进行测试,按式(2)获得输出矩阵Y。Y 的大小决定了该条道路是选取还是删除。选取结果的均方根误差按式(4)进行计算:



本文的选取实验后台计算是以Python语言编程实现的,通过读取经过预处理的训练样本csv数据,计算隐含层的隐函数和输出层线性函数中的μ、β,再对实验数据进行二分类,输出选取和删除对应的标签值。


三、实验分析与结果评价


由于OSM数据细节水平比较高,结构比较复杂,还拥有重复线路,在作为样本数据之前,要对原始数据进行预处理,包括删除重复线路,删除琐碎类型道路,合并相同道路,简化复杂道路形状等操作。


对原始数据进行预处理后,保留训练和实验样本的道路名称和类型,将相同名称的道路合并为一个整体的链状要素stroke,保证道路选取的连续性,构建道路网选取的基本单元。相同名称的道路在无法连续时被视为不同的stroke,选取时不会受到影响。在原始1﹕250 000比例尺的训练样本属性表中添加标签字段Selection,标记stroke是否被选取,对期望输出的样本,利用中国地图出版社出版的中国高速公路及城乡公路网里程地图集作为标准地图,以1和0分别标记需要选取和删除的stroke。用Java编程将样本读入数据库,结合图论知识及相关参数计算公式,最后用SQL语句计算出各参数,并读入数据库。参数计算完成后,将训练样本载入之前构建的RBF神经网络进行训练,训练完成后再载入实验数据进行实验,得到选取结果,将结果与原始地图数据关联,可以在地图上直观地观察选取结果。


实验结果输出的标签值与期望输出的标签值之间存在以下3种可能性(实验结果,期望输出):误删:(0,1)、误选(1,0)、取舍正确(0,0)和(1,1)。系统平台通过调用QGIS程序接口,使结果以地图的方式直观地呈现,结果对比如图6所示。


图6 选取结果图


从选取结果的情况来看,本文的道路网自动选取系统能够自动完成道路网选取知识的学习以及选取过程的重现,且取得了较好的选取效果。与制图者实际制图的情况接近,误删道路基本都是长度较短的道路,而误选道路长度都比较长,整体上满足形状保持、疏密合理的要求。在没有制图综合知识的情况下,用户能够自己通过该平台高效地完成道路网的自动选取过程。经统计,徐汇区的道路路段数量为1 101条,删除琐碎数据并进行相关预处理后,构建stroke数目为107条,误选8条,误删6条,选取结果见表1,选取准确率达到86.92%,选取错误率为13.08%,选取结果比较接近期望的标准地图。由图6可以看出,误删道路的长度都比较短。而误选道路的长度比较长。分析选取结果产生偏差的可能原因,道路的长度对选取结果产生了决定性的影响,选取参数中长度的影响比较大。后期可以考虑对参数系统进行改进,对各参数进行研究,设置权重,以避免因为一个参数影响全局选取结果的情况。


表1 选取结果表


采取同样的选取参数,相同的训练样本和实验样本,利用BP神经网络算法进行道路网提取,比较两种算法,比较结果见表2。本文采用的RBF神经网络方法,相比于BP神经网络算法,选取结果更加稳定,准确度更高,且运行速度更快。由于道路网自动选取系统平台的灵活性,用户也可以根据所选道路网区域的特点以及实际的选取要求,选择不同的参数和算法进行尝试,以获得最佳的结果。


表2 RBF和BP选取结果比较表


四、结语


OSM道路网自动选取系统的研究实现在电子地图学应用广泛的当下,具有重要的研究意义,能够满足信息产生迅速的时代迫求。而RBF神经网络算法为该平台提供了更为高效精准的选取过程,缓解缺少制图综合知识情况下进行不同比例尺制图的难题。通过将参数计算和神经网络训练进行封装,用户的操作更为简便,对于普通受众更为友好。针对选取结果存在的偏差情况所分析的原因,后期将考虑结合OSM道路网数据的特点改进参数体系,解决道路选取中长度参数影响较大的问题。也可在平台中集成其他地图元素的自动综合过程,推广平台的适用范围,以期为该研究领域提供更全面的服务。

责任编辑:林冬娜、邓小云

文章来源:地理信息世界GeomaticsWorld


点击查看联盟会员单位详


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存