其他
65周年 | 刘纪平:互联网泛在地理信息感知融合技术综述
本文内容来源于《测绘学报》2022年第7期(审图号GS京(2022)0495号)
2. 西南交通大学地球科学与环境工程学院, 四川 成都 610031;
3. 武汉大学资源与环境科学学院, 湖北 武汉 430079;
4. 北京邮电大学现代邮政学院(自动化学院), 北京 100876基金项目:国家重点研发计划(2017YFB0503601)摘要:互联网数据中蕴含丰富的地理信息, 其无处不在、形式与结构多样的特征决定了感知和融合面临许多技术难题。本文在分析互联网泛在地理信息分类和特征的基础上, 系统研究其感知和融合技术的总体现状, 总结了服务快速准确发现、深层网络数据高覆盖度采集、非结构化文本中位置信息提取和关联图像空间语义提取等感知技术发展现状, 分析了异源几何数据匹配关联、地址标准化处理、同名实体语义对齐、地理实体关系构建等融合处理关键技术; 在此基础上, 总结和展望了互联网泛在地理信息感知融合技术在开放地理数据网络、城市治理与应急管理、网络监测与地理空间情报等领域的应用前景。关键词:互联网 泛在地理信息 信息感知 数据融合
引 言
互联网自诞生以来,其交互模式从以信息发布为主的web 1.0,发展到以在线交互信息生产为特点的web 2.0,目前正在向与物理世界孪生和人文社会世界深度互动为核心的web 3.0演进;其信息服务也从最初的网页,逐步发展出应用web、服务web和语义web等新形态[1]。随着“人机物”三元世界在网络空间(cyberspace)中彼此交互融合,由此产生的在互联网上可获得的大数据被称为互联网大数据[2]。互联网蕴含丰富的地理信息,地理信息门户、位置服务网站等发布了大量基础地理信息、专题地理信息和POI,网页中的文本、图像及音视频中蕴含丰富时空语义[3-4],自发地理信息(volunteered geographic information, VGI)、众包数据(crowdsource data)则大大提升了地理信息的更新效率和语义丰富程度[5]。随着技术进步和应用深入,互联网地理信息已成为地理信息更新、城市画像分析、灾害监测应急管理、地理空间情报等领域的重要信息来源。互联网地理信息具有无处不在、形式与结构多样的“泛在”特征,因而无法采用传统的集中管理模式对其进行感知融合。在感知方面主要存在的问题包括:大多数地理信息服务对网络搜索引擎不可见,搜索引擎无法在没有明确指示访问目录的情况下自动发现数据服务和抽取地理实体信息;网页文本、图像中蕴含丰富位置参考或场景语义,但多粒度对象发现及语义抽取的召回率和准确度有待提高。在融合方面主要存在的问题包括:不同来源地理数据在句法、模式和语义方面差异巨大,可访问性和互操作性较差,难以采用空间数据基础设施(spatial data infrastructure, SDI)信息的发现、转换与调用技术实现互联网多源数据集成;互联网泛在地理信息通常以半结构化或非结构化的形式进行表达,想要从这些海量的、多类型、异构的泛在数据中抽取出地理实体关系和结构化地理信息是非常困难的。针对以上问题,本文总结分析了现有的发展现状和关键技术。同时,列举了互联网泛在地理信息在智能互联的开放地理数据网络、融合社会感知的城市治理与应急服务、网络内容监测与地理空间情报等典型应用,并展望了未来互联网泛在地理信息感知融合技术的发展趋势。
1 互联网泛在地理信息
1.1 信息类型在互联网问世之初,人们便以文本或图像形式通过网络共享位置、地名、场所等地理信息;自20世纪90年代以来,以美国国家空间数据基础设施SDI[6]、欧洲空间信息基础设施INSPIRE[7]为代表,各国开始建设基础地理信息和科学数据共享平台并提供互联网信息服务。图 1是欧洲建设的基于互联网的基础地理信息共享基础设施框架。21世纪初,web 2.0催生了以在线众包生产、位置社交等为代表的互联网地理信息服务新模式和新产品,使得公众可通过VGI形式贡献出更多反映本地化社会经济特征的地理信息。近10年来,在电子政务和智慧政府建设的驱动下,作为最大的大数据拥有者,各国政府陆续开启数据开放(open data)计划,互联网上可公开访问的官方地理信息资源也大大超出了以测绘遥感数据为主的专业范畴。当前,互联网已成为全球最大的可开放访问的地理信息仓库,数据互联、催化知识已成为互联网地理信息服务发展的新方向[8]。图 1 基于互联网的欧洲基础地理信息共享基础设施框架 Fig. 1 Web-based European basic geospatial information sharing infrastructure framework 图选项
从来源看,互联网泛在地理信息可分为科学共享地理数据、政府开放地理数据、商业地理信息服务、公众自发地理信息和web隐含地理信息五类[9-11]。其中,来源于政府机构和研究部门的地理信息包含了大量人口、资源、环境、经济和公共服务等基础信息,数据质量较高但一般粒度较粗、属性偏少;商业地理信息服务内容主要涵盖位置导航、生活服务等,其数据粒度较细、体量庞大、更新快速,但大多以深度网络形式提供服务,可发现性不高;公众自发地理信息是web2.0的产物,主要由具有特定目的应用或特定偏好的用户驱动、通过在线方式创建和管理地理数据或位置信息,地理对象的属性较为丰富、通常具有特定的领域或应用场景特征;web隐含地理信息也常被作为地理位置关联数据,由互联网上最为庞大的网页所“被动”产生,其可访问性最好、内容主题涵盖物理世界和人类社会的各个方面,但地理实体粒度差异大、数据分布的地域非均衡性和属性特征的异构特征明显。表 1列举了以上五类互联网泛在地理信息具体主要特征。
表 1 互联网泛在地理信息分类及主要特征Tab. 1 Classification and main characteristics of web-based ubiquitous geospatial information
表选项
按数据结构化程度,互联网泛在地理信息可分为结构化、半结构化和非结构化三类[12]。结构化地理数据指采用标准或通用格式存储的空间数据,具有明确的空间参考和标准化的矢量、影像、栅格等存储模型;半结构化空间信息主要为结构化文本化形式表示的、带有明确定位信息(如有明确空间参考的地理坐标,或地址描述)的地理实体集合,如以表格形式表达的企业位置、具有明确定位坐标的微博短文本等;非结构化空间信息最为丰富,大量存在于网页中的非结构化文本、文档、图片或视频中,多用于描述地名、场所位置、事件事故或地理现象。1.2 主要特征相比专业部门生产的测绘遥感地理信息,互联网泛在地理信息具有如下特征。(1) 采集方式和类型多样化。传统的地理信息采集多为专业任务,强调几何精确性与完整性,以测绘遥感为主要采集手段;泛在地理信息采集则面向数字空间,不以几何精确性和完整性为限制,强调语义相关、多源获取和持续积累,因而获取方式更加多元化[13]。泛在地理信息内容涉及自然环境、政务信息、民意调查、商业信息、社会动态、人口流动等丰富主题,大量信息以半结构化和非结构化形式存在。(2) 数据海量涌现,更新频繁。随着移动互联网和物联网技术的发展,互联网泛在地理信息的体量呈指数级增长。2020年前全球数据量保持40%以上的增长速度,大约每年翻一番[14]。据统计,欧洲INSPIRE项目中已有15万个可访问地理数据集,开放街区地图OpenStreetMap平均每日更新超过2000千条道路信息,腾讯地图全球位置数据超2亿,高德地图POI数量超过6000万、道路数据超过790万千米。(3) 模糊性与不确定性广泛存在。文献[15]指出所有地理信息不可避免地受到不确定性的影响。传统地理信息产品追求数据的准确性(微观),而泛在地理信息允许数据的混杂性、不确定性(宏观)[16]。这种不确定性一方面源于客观世界固有的复杂性、不稳定性和人们对其认识的不完备性;另一方面,由于数据生产目的、生产方式、技术规范的不同,非均衡性和有偏性在互联网地理信息中更加明显。(4) 新感知模式蕴含巨大信息价值。web2.0时代,随时随地通过用户带有空间参考或位置描述的泛在地理信息,实质上形成了一种实时、移动、分布式的“社会传感网”,这种“社会传感网”能够弥补物理传感器的不足,可持续提供涉及经济、社会、文化、国家安全乃至政治和个人的地理信息和时空位置语义[17],涵盖了物理世界和社会经济的广泛主题和丰富内容,是具有战略意义的大数据宝库[2]。2 泛在地理信息感知技术
2.1 地理信息服务和数据发现从互联网中快速准确地发现并定位地理信息服务和数据,是互联网泛在地理信息利用面临的一大挑战。传统搜索引擎基于网页超链接分析模型,仅能发现shp、GML、GeoTIFF等以连接数据(linked data)形式发布的地理数据或元数据,而无法自动识别目录服务、OGC WMS/WFS、地理查询API等通过面向服务架构(service-oriented architecture, SOA)和面向资源架构(resource-oriented architecture, ROA)方式发布的动态信息资源,如图 2所示。此外,由于可能的元数据缺失,传统搜索引擎也难以生成服务、集合、要素和实体地理信息的数据特征描述。图 2 地理信息服务的3种典型形态及特征 Fig. 2 Availability characteristics of different web-based geospatial data 图选项
目前,互联网地理信息多通过在搜索引擎架构上扩展地理信息数据和服务识别特征来实现,主要有基于特征词匹配和基于本体两种方式。如基于地理空间操作和本体的地理信息服务发现[18];结合普适思想的上下文感知的地理信息服务多级发现与匹配框架[19];支持接口多态性的本体语义地理信息服务发现研究[20]。以上方法在增强连接数据的特征描述、发现和描述OGC标准数据服务方面取得了较好效果,但是仍然难以发现地理数据目录服务、自定义地理查询API等动态地理信息资源。2.2 网络地理信息采集按照在web中的蕴藏深度,互联网泛在地理信息可被分为浅层网络(surface web)地理信息和深层网络(deep web)地理信息[21],深层网络地理信息的数据体量远远超过浅层网络。浅层网络地理信息可在通用网络爬虫基础上扩展地理信息解析器进行采集(harvest),可以有效获取连接数据、隐含地理信息的网页文本等地理信息,但难以采集位于地理数据服务、地理查询API等深层网络中的地理数据。深度网络地理信息采集主要通过构造模板化特征词、空间过滤条件参与爬行过程来实现,目前在POI、AOI等地理实体数据的深网获取方面取得了初步进展[22-24]。文献[24]提出的基于检索词优化与空间自适应的深层网络POI数据获取框架如图 3所示;但是,未来还需要在服务的可搜索性分析、查询条件生成、时空爬行模式构建、成本可控的最大覆盖逼近方法等方面深入推进理论和方法研究。图 3 基于检索词优化与空间自适应的深层网络POI数据获取[24] Fig. 3 Deep web POI data acquisition based on search term optimization and spatial adaptation [24] 图选项
2.3 地名地址识别与位置解析地名地址和位置描述是隐含在互联网网页中体量最大的地理信息,对其进行准确识别和解析是抽取web隐含地理信息的基础要求[25]。地名地址与位置信息解析其核心是通过地址要素切分、识别、分类和匹配等关键步骤,从非结构化文本数据中识别和抽取出具有地理空间位置表达能力的地址和位置信息。目前,地名地址与位置信息解析方法主要有以下两类。一是基于地名地址特征和语料库的解析方法,如根据地址要素的构词特征和句法模式的中文地址解析[26];通过定义地名地址在文本中出现位置的前后特征词来实现地址提取[27]。二是基于机器学习与规则的解析方法,如基于支持向量机与规则相结合的地名地址解析方法[28];基于条件随机场与规则相结合的地理命名实体识别方法[29]。但是,以上这些方法在地名地址信息和位置信息解析过程中大多依赖于标准地址库,或者利用特征词及统计规则匹配的方式进行解析和识别,这使得提取地址数据存在语义上的模糊和歧义,同时构建标准地址库的人工代价太大。如今,随着自然语言处理技术(NLP)的快速发展,可以尝试通过基于NLP技术实现地名地址识别与位置解析,如基于深度学习的多任务语义分析[30-31]、基于自学习的地址要素库构建[4]等。2.4 图像空间语义提取地图、实景影像等图像信息中蕴含大量位置信息和空间语义,地图自动识别和场所语义提取是互联网图像语义提取的两个关键任务。地图自动识别实现方法方面,机器学习方法包含支持向量机、决策树、随机森林、K-Means算法、K近邻等[32-34],因为需要人工设计特征才能提取浅层信息,所以在语义信息丰富的图片中识别精确率表现欠佳[35];深度学习方法进行地图识别主要包含图像分类、地理目标检测和地图语义分割等三部分[36],目前已经可以达到与人类相当甚至更胜一筹的水平,相较于机器学习方法有明显的优势[37]。场所语义理解主要面向街景地图、共享照片等实景影像,其场所语义提取包括空间对象检测和场所语义分割,基于深度学习的空间对象检测需从特征多样性的角度出发关注更多与目标相关的语义信息,利用卷积神经网络提取对象特征,实现实景图像内容的结构化,将栅格数据转成带有语义的空间对象数据;场所语义分割可通过语义分割和边缘检测任务分别建模[38],使用相关性更强的语义边缘检测任务作为辅助任务降低显著的物体内部特征对边缘区域特征的影响。
3 多源地理信息融合技术
3.1 矢量信息融合VGI、众包数据与传统SDI数据相结合,可以快速发现与基础地理信息数据中形状和位置等矢量信息的差异,有效帮助提高基础地理信息数据质量,加快数据更新过程。矢量信息融合需要重点解决不同来源互联网矢量数据的要素匹配、变化发现和连接合并问题。要素匹配是数据融合的基础,主要通过实体间的几何特征相似性判断数据是否描述同一地理要素,常用特征包括距离、拓扑、方向、形状等[39-41], 为了提高匹配的准确性,往往还会考虑要素的邻域上下文环境[42]、社会经济属性[43]等信息。对于相对复杂的线状、面状要素,可以利用降维的方法,将线要素匹配问题转换为线的节点匹配问题,将面要素的匹配问题转换为面的骨架线或骨架网眼的匹配问题。泛在数据海量、异构的特性为要素匹配带来了一定的挑战,为了提高匹配时的搜索效率,可通过编码技术[44-45]快速找到在空间位置上相邻的点。此外,对于复杂的多对多匹配问题,可以利用正反双向匹配策略[46]、面积叠置率[47]等方法提高匹配精度与匹配效率。获取不同数据集之间的匹配部分和变化部分之后,进一步分析变化部分的变化类型,并分别采取不同的策略对数据进行融合。对于新增和消失要素,可对基础数据进行增加或删除处理;对于变化要素,可以进行更新、合并处理,例如道路延长、水系改道、居民地扩建、绿地变化等。3.2 地址信息一致化地址信息一致化是建立地址编码服务的基础要求,也可有效支持多源地理实体消除语义差异并建立空间连接。其核心是将各类不规范、不完整的“非标准”地址信息以符合常见地址表达模型的方式进行规范化处理和表达。地址信息一致化要求在理解地址表达模型的基础上,处理地址要素简化、缺失、错误描述等问题[48]。目前,已有的中文地址标准化方法主要分为两类。一是基于中文地址表达模型与地址匹配相结合的中文地址标准化方法[49-52],该类标准化方法虽然具有较高的准确率和匹配效率,但是高度依赖于人工构建标准中文地址库,对于地址要素的缺失和不完整问题不能很好地解决。二是基于自然语言处理与深度学习相结合的方法[53-54]。虽然该方法取得了较高的准确率和匹配效率,但是存在以下两个不足,一是提取中文地址语义特征时忽略了地址的空间信息;二是没有可以参考的地址表达模型,导致生成的某些地址表达不符合正确的地址描述。未来可以尝试将以上两类方法进行融合,并在提取中文地址语义特征时对不同地址要素添加不同的权重,以体现不同地址要素的重要程度。3.3 同名实体识别与语义对齐同名实体识别与语义对齐是互联网泛在地理信息数据融合的关键[55]。同名实体识别要求从多源数据中发现语义意义上的相同地理对象,语义对齐则将分散异构信息进行模式和语义的一致化处理并连接至相应同名地理实体,从而基于多源数据产生地理实体并在地理位置、空间形态、名称表达、地址描述和属性特征方面进行合并或建立关联。地理实体匹配是建立同名实体的核心,主要包括以下三类方法:一是基于空间属性的匹配方法,如基于定位信息的空间距离匹配[56];二是基于文本属性的匹配方法,如基于名称属性的文本相似度匹配[57];三是空间属性与文本属性相结合的匹配方法,如多属性特征加权的相似度匹配方法[58-59]、多约束条件下的属性匹配方法[60]。但还存在着以下问题:一是文本属性的相似性度量方法一般是基于编辑距离的计算方法,然而,编辑距离更适合计算纯文本的差异;二是这些匹配方法需要根据预先设定的相似性阈值判断是否匹配,而阈值大小将直接影响匹配精度。针对这些问题,未来可以尝试使用基于深度学习的方法来解决这些问题,如通过BERT(arXiv: 1810.04805, 2018)、Text-CNN(arXiv: 1408.5882, 2014)、Word2Vec[61]等模型提取文本的复杂语义特征;基于RNN(arXiv: 1406.1078, 2014)、LSTM[62]、GRU[63]、注意力机制(arXiv: 1606.01933, 2016)等模型解决不同属性之间的相互依赖关系;基于ESIM(arXiv: 1609.06038, 2017)模型将匹配问题转换成二分类问题,避免了人工相似度阈值的设置等。3.4 地理实体关系构建基于海量互联网地理信息,可构建地理实体间的位置关联、隶属联系等丰富关系,从而形成地理实体关联知识并可支持推理和挖掘[64]。地理实体关系构建主要包括空间关系挖掘和语义关系挖掘两种,其中对于包含、相邻、相离、共现及方向等关系主要通过矢量数据空间运算进行计算;对于隶属等语义关系,主要通过实体关系词利用规则约束、机器学习等方法进行推测。从本质上讲,以上方法均基于规则,难以支持更深层次的隐含关系抽取。近年来,本体和知识图谱技术在互联网泛在地理信息实体关系构建管理中得到应用。如基于社区专家构建的通用内涵属性面板维护地理本体,以支持进行地理实体的关系推理[65];基于“地理概念-地理实体-地理关系”三层地理知识图谱,可用于面向互联网泛在信息的地理实体语义关系推测[66]。基于本体和知识图谱可以通过语义查询方式对地理实体关系进行提取,还可推测隐含的实体关系,但需要重点突破本体和知识图谱构建成本较高的瓶颈。
4 典型应用
互联网泛在地理信息感知技术大大降低了传统行业数据采集制作的成本,提高数据采集的效率和质量,丰富数据的内容和形式,是对现有地理信息数据的一个很好的补充和完善。从海量多源数据中获取地理信息,能够促进地理信息资源开发利用,避免地理信息资源重复建设,从而为全社会提供精细化服务;可实现跨地区多尺度地理信息数据资源集成应用,通过多源数据融合技术手段消除因分级管理、各部门信息资源难以共享造成的信息孤岛、数字鸿沟,解决现有地理信息获取与处理过程中技术难度大、建设成本高、开发周期长等不足,最终促进地理信息资源共享,从而为政府、企业和公众提供网络化地理信息公共服务。本节围绕智能互联的开放地理数据网络、融合社会感知的城市治理与应急服务、网络内容监测与地理空间情报三个典型应用展开说明。4.1 智能互联的开放地理数据网络可发现性、可访问性与互操作性是网络开放数据高效使用的核心要求,也是未来10年全球地理信息管理的发展方向。通过地理数据桥接、开放搜索API扩展以及地理聚焦搜索引擎,SDI门户、专业地理信息服务、社交媒体和web网页等成为可发现和可访问的地理数据;语义网络构建地理本体支持不同来源的地理数据实现实体连接和关联推荐,扩展时空语义的搜索适配使得网络服务更准确地理解地理数据和用户需求的语法和模式,使得不同地区、不同部门的松散SDI和开放服务实现高效聚合和动态互联,形成智能互联的开放地理数据网络,为全球可持续发展提供“任务就绪”数据服务目标。4.2 融合社会感知的城市治理与应急服务智慧城市与应急管理已成为可持续发展的重要方向,覆盖完整、语义丰富和更新及时的时空信息对于城市治理和应急管理尤其重要。面向智慧城市的互联网泛在城市治理和应急管理方面的框架及应用如图 4所示,图中右边部分从上往下分别展示了互联网泛在信息在地理知识图谱构建、工商实体精确画像和城市楼宇融合分析等方面的应用。通过互联网泛在地理信息采集处理,可从政府公开信息中获取各类机构和工商企业的注册信息及地址,构建和更新交通、学校、医疗、公安、消防、商业等城市基础设施信息,从签到、评价及实景图像中提取场所及周边的建筑外观、绿化状况、生活成本、社会活动强度等丰富特征,并在第一时间通过新闻和社交媒体跟踪事故灾难的位置及实况信息。对不断涌现的互联网泛在地理信息进行持续监测,形成面向城市的社会感知能力,可对城市环境、基础设施和事件信息进行低成本跟踪和多维度画像,为解决SDI在支持产业分析监测、空间格局优化、灾害应急管理工作中的“数据之困”提供有效途径。图 4 面向智慧城市的互联网泛在城市治理和应急管理方面的框架及应用 Fig. 4 The framework and application of web-based ubiquitous urban governance and emergency management for smart cities 图选项
4.3 网络内容监测与地理空间情报快速发现互联网上的可访问地理信息并与权威数据进行内容融合和联合分析,已成为大数据时代地理空间情报(GeoINT)的重要发展方向。一方面,基于地理信息搜索引擎和时空语义智能分析方法,从网站、新闻和社交媒体中提取地理实体及时空属性,对文本、图像、视频进行自动分类、目标识别和语义标注,可对互联网上发布的地图和地理信息进行内容监测和合规性分析,维护大数据时代网络信息服务的国家安全和公众利益;另一方面,广泛接入开放地理信息(open data)、志愿者地理信息和众包数据,并与权威地理数据进行合并和融合,可为地理空间情报系统赋予快速验证不同来源地理数据的可信度、利用本地化信息丰富权威地理数据内容、持续集成以提高时空态势感知等新能力。
5 结论与展望
地理信息越来越成为政府、机构、企业和公众开展决策的基础设施。随着技术进步和应用深入,互联网不仅成为信息分发和共享的渠道,也已成为迄今为止最大的开放地理信息资源库。今天,互联网泛在地理信息在数量、规模、速度、多样性和复杂性方面已经超出传统SDI技术体系所能处理的范畴。系统研究泛在地理信息的搜索、提取、分析、合并和协调技术,对显著提升互联网地理大数据的可发现性、可获得性和互操作性具有重要意义;同时,泛在地理信息感知融合技术也可在构建智能互联的开放地理数据网络、优化城市治理和应急管理的空间数据支持、提升网络地理信息内容管理和地理空间情报智能等方面催生全新应用,因此准确把握其技术发展趋势更具有前瞻性和实际应用价值。未来,随着物联网、数字孪生、元宇宙等新技术和新应用成熟,倾斜三维、全景图像、视频地理信息等新型地理信息等不断涌现,地理信息与物理世界和社会系统的交融更为广泛和深入,互联网地理信息的体量和异质性将进一步提高,其“碎片化”趋势将更为突出。同时,随着新型基础测绘快速推进,传统SDI与泛在地理信息融合不可避免。因此,需要在以下几方面拓展研究。(1) 多重语义自动提取和深度理解:目前研究多停留在实体抽取、要素发现等低层语义特征方面,对于文本、图像中蕴含的位置特征、实体关系、场景特征、地理事件等高层语义特征还缺乏高效稳健的提取算法。通过人工智能技术实现将空间语义从语法/像素/要素的抽取,进入到高层时空场景的识别推测,从而支持计算机“看清”“读懂”泛在地理信息包含的丰富时空语义。(2) 网络感知融合数据质量评估与控制:目前针对数据质量的评估与控制主要体现在数据逻辑性、可信度及有效性等方面,无法有效度量和处理多源网络感知时空信息的非均衡性和不确定性特征。为此,需要深入研究网络感知地理信息的有偏性与模糊性,构建不确定性描述特征和检测模型,建立数据可融合性能力评估与交叉验证方法,实现多源大数据协同纠偏和联合增强。(3) 数据谱系构建与细粒度属性溯源:随着时空信息广泛关联和深度融合,数据融合成果中要素属性和记录/实体信息不断丰富和扩充,多源泛在地理信息处理过程呈现谱系化、非线性的复杂特征。对多源时空信息的数据特征及其迭代融合过程进行有效管理,形成以“数据谱系”为核心的管理架构下,并支持多粒度信息的溯源能力,是互联网泛在地理信息管理和应用的未来发展方向。(4) 数据安全与位置隐私保护:随着人类社会与互联网的进一步融合,互联网地理信息也面临着泄露国家秘密和个人隐私信息、非授权访问与数据滥用等重大的风险和威胁。互联网泛在地理信息安全与隐私保护有大量问题急需解决,具体包括:空间大数据的内容风险评估、时空信息脱敏与去标识化、时空数据加密与安全传输、互联网环境下的地理信息可信共享与溯源、分布式时空安全协同计算等。作者简介
第一作者简介:刘纪平(1967—),男,博士,研究员,研究方向为时空大数据分析挖掘、政府地理信息服务、应急地理信息服务等。E-mail:liujp@casm.ac.cn
通信作者:王勇, E-mail: wangyong@casm.ac.cn
引 言
互联网自诞生以来,其交互模式从以信息发布为主的web 1.0,发展到以在线交互信息生产为特点的web 2.0,目前正在向与物理世界孪生和人文社会世界深度互动为核心的web 3.0演进;其信息服务也从最初的网页,逐步发展出应用web、服务web和语义web等新形态[1]。随着“人机物”三元世界在网络空间(cyberspace)中彼此交互融合,由此产生的在互联网上可获得的大数据被称为互联网大数据[2]。互联网蕴含丰富的地理信息,地理信息门户、位置服务网站等发布了大量基础地理信息、专题地理信息和POI,网页中的文本、图像及音视频中蕴含丰富时空语义[3-4],自发地理信息(volunteered geographic information, VGI)、众包数据(crowdsource data)则大大提升了地理信息的更新效率和语义丰富程度[5]。随着技术进步和应用深入,互联网地理信息已成为地理信息更新、城市画像分析、灾害监测应急管理、地理空间情报等领域的重要信息来源。互联网地理信息具有无处不在、形式与结构多样的“泛在”特征,因而无法采用传统的集中管理模式对其进行感知融合。在感知方面主要存在的问题包括:大多数地理信息服务对网络搜索引擎不可见,搜索引擎无法在没有明确指示访问目录的情况下自动发现数据服务和抽取地理实体信息;网页文本、图像中蕴含丰富位置参考或场景语义,但多粒度对象发现及语义抽取的召回率和准确度有待提高。在融合方面主要存在的问题包括:不同来源地理数据在句法、模式和语义方面差异巨大,可访问性和互操作性较差,难以采用空间数据基础设施(spatial data infrastructure, SDI)信息的发现、转换与调用技术实现互联网多源数据集成;互联网泛在地理信息通常以半结构化或非结构化的形式进行表达,想要从这些海量的、多类型、异构的泛在数据中抽取出地理实体关系和结构化地理信息是非常困难的。针对以上问题,本文总结分析了现有的发展现状和关键技术。同时,列举了互联网泛在地理信息在智能互联的开放地理数据网络、融合社会感知的城市治理与应急服务、网络内容监测与地理空间情报等典型应用,并展望了未来互联网泛在地理信息感知融合技术的发展趋势。
1 互联网泛在地理信息
1.1 信息类型在互联网问世之初,人们便以文本或图像形式通过网络共享位置、地名、场所等地理信息;自20世纪90年代以来,以美国国家空间数据基础设施SDI[6]、欧洲空间信息基础设施INSPIRE[7]为代表,各国开始建设基础地理信息和科学数据共享平台并提供互联网信息服务。图 1是欧洲建设的基于互联网的基础地理信息共享基础设施框架。21世纪初,web 2.0催生了以在线众包生产、位置社交等为代表的互联网地理信息服务新模式和新产品,使得公众可通过VGI形式贡献出更多反映本地化社会经济特征的地理信息。近10年来,在电子政务和智慧政府建设的驱动下,作为最大的大数据拥有者,各国政府陆续开启数据开放(open data)计划,互联网上可公开访问的官方地理信息资源也大大超出了以测绘遥感数据为主的专业范畴。当前,互联网已成为全球最大的可开放访问的地理信息仓库,数据互联、催化知识已成为互联网地理信息服务发展的新方向[8]。1 互联网泛在地理信息
从来源看,互联网泛在地理信息可分为科学共享地理数据、政府开放地理数据、商业地理信息服务、公众自发地理信息和web隐含地理信息五类[9-11]。其中,来源于政府机构和研究部门的地理信息包含了大量人口、资源、环境、经济和公共服务等基础信息,数据质量较高但一般粒度较粗、属性偏少;商业地理信息服务内容主要涵盖位置导航、生活服务等,其数据粒度较细、体量庞大、更新快速,但大多以深度网络形式提供服务,可发现性不高;公众自发地理信息是web2.0的产物,主要由具有特定目的应用或特定偏好的用户驱动、通过在线方式创建和管理地理数据或位置信息,地理对象的属性较为丰富、通常具有特定的领域或应用场景特征;web隐含地理信息也常被作为地理位置关联数据,由互联网上最为庞大的网页所“被动”产生,其可访问性最好、内容主题涵盖物理世界和人类社会的各个方面,但地理实体粒度差异大、数据分布的地域非均衡性和属性特征的异构特征明显。表 1列举了以上五类互联网泛在地理信息具体主要特征。
表选项
按数据结构化程度,互联网泛在地理信息可分为结构化、半结构化和非结构化三类[12]。结构化地理数据指采用标准或通用格式存储的空间数据,具有明确的空间参考和标准化的矢量、影像、栅格等存储模型;半结构化空间信息主要为结构化文本化形式表示的、带有明确定位信息(如有明确空间参考的地理坐标,或地址描述)的地理实体集合,如以表格形式表达的企业位置、具有明确定位坐标的微博短文本等;非结构化空间信息最为丰富,大量存在于网页中的非结构化文本、文档、图片或视频中,多用于描述地名、场所位置、事件事故或地理现象。1.2 主要特征相比专业部门生产的测绘遥感地理信息,互联网泛在地理信息具有如下特征。(1) 采集方式和类型多样化。传统的地理信息采集多为专业任务,强调几何精确性与完整性,以测绘遥感为主要采集手段;泛在地理信息采集则面向数字空间,不以几何精确性和完整性为限制,强调语义相关、多源获取和持续积累,因而获取方式更加多元化[13]。泛在地理信息内容涉及自然环境、政务信息、民意调查、商业信息、社会动态、人口流动等丰富主题,大量信息以半结构化和非结构化形式存在。(2) 数据海量涌现,更新频繁。随着移动互联网和物联网技术的发展,互联网泛在地理信息的体量呈指数级增长。2020年前全球数据量保持40%以上的增长速度,大约每年翻一番[14]。据统计,欧洲INSPIRE项目中已有15万个可访问地理数据集,开放街区地图OpenStreetMap平均每日更新超过2000千条道路信息,腾讯地图全球位置数据超2亿,高德地图POI数量超过6000万、道路数据超过790万千米。(3) 模糊性与不确定性广泛存在。文献[15]指出所有地理信息不可避免地受到不确定性的影响。传统地理信息产品追求数据的准确性(微观),而泛在地理信息允许数据的混杂性、不确定性(宏观)[16]。这种不确定性一方面源于客观世界固有的复杂性、不稳定性和人们对其认识的不完备性;另一方面,由于数据生产目的、生产方式、技术规范的不同,非均衡性和有偏性在互联网地理信息中更加明显。(4) 新感知模式蕴含巨大信息价值。web2.0时代,随时随地通过用户带有空间参考或位置描述的泛在地理信息,实质上形成了一种实时、移动、分布式的“社会传感网”,这种“社会传感网”能够弥补物理传感器的不足,可持续提供涉及经济、社会、文化、国家安全乃至政治和个人的地理信息和时空位置语义[17],涵盖了物理世界和社会经济的广泛主题和丰富内容,是具有战略意义的大数据宝库[2]。
2 泛在地理信息感知技术
2.1 地理信息服务和数据发现从互联网中快速准确地发现并定位地理信息服务和数据,是互联网泛在地理信息利用面临的一大挑战。传统搜索引擎基于网页超链接分析模型,仅能发现shp、GML、GeoTIFF等以连接数据(linked data)形式发布的地理数据或元数据,而无法自动识别目录服务、OGC WMS/WFS、地理查询API等通过面向服务架构(service-oriented architecture, SOA)和面向资源架构(resource-oriented architecture, ROA)方式发布的动态信息资源,如图 2所示。此外,由于可能的元数据缺失,传统搜索引擎也难以生成服务、集合、要素和实体地理信息的数据特征描述。目前,互联网地理信息多通过在搜索引擎架构上扩展地理信息数据和服务识别特征来实现,主要有基于特征词匹配和基于本体两种方式。如基于地理空间操作和本体的地理信息服务发现[18];结合普适思想的上下文感知的地理信息服务多级发现与匹配框架[19];支持接口多态性的本体语义地理信息服务发现研究[20]。以上方法在增强连接数据的特征描述、发现和描述OGC标准数据服务方面取得了较好效果,但是仍然难以发现地理数据目录服务、自定义地理查询API等动态地理信息资源。2.2 网络地理信息采集按照在web中的蕴藏深度,互联网泛在地理信息可被分为浅层网络(surface web)地理信息和深层网络(deep web)地理信息[21],深层网络地理信息的数据体量远远超过浅层网络。浅层网络地理信息可在通用网络爬虫基础上扩展地理信息解析器进行采集(harvest),可以有效获取连接数据、隐含地理信息的网页文本等地理信息,但难以采集位于地理数据服务、地理查询API等深层网络中的地理数据。深度网络地理信息采集主要通过构造模板化特征词、空间过滤条件参与爬行过程来实现,目前在POI、AOI等地理实体数据的深网获取方面取得了初步进展[22-24]。文献[24]提出的基于检索词优化与空间自适应的深层网络POI数据获取框架如图 3所示;但是,未来还需要在服务的可搜索性分析、查询条件生成、时空爬行模式构建、成本可控的最大覆盖逼近方法等方面深入推进理论和方法研究。
3 多源地理信息融合技术
3.1 矢量信息融合VGI、众包数据与传统SDI数据相结合,可以快速发现与基础地理信息数据中形状和位置等矢量信息的差异,有效帮助提高基础地理信息数据质量,加快数据更新过程。矢量信息融合需要重点解决不同来源互联网矢量数据的要素匹配、变化发现和连接合并问题。要素匹配是数据融合的基础,主要通过实体间的几何特征相似性判断数据是否描述同一地理要素,常用特征包括距离、拓扑、方向、形状等[39-41], 为了提高匹配的准确性,往往还会考虑要素的邻域上下文环境[42]、社会经济属性[43]等信息。对于相对复杂的线状、面状要素,可以利用降维的方法,将线要素匹配问题转换为线的节点匹配问题,将面要素的匹配问题转换为面的骨架线或骨架网眼的匹配问题。泛在数据海量、异构的特性为要素匹配带来了一定的挑战,为了提高匹配时的搜索效率,可通过编码技术[44-45]快速找到在空间位置上相邻的点。此外,对于复杂的多对多匹配问题,可以利用正反双向匹配策略[46]、面积叠置率[47]等方法提高匹配精度与匹配效率。获取不同数据集之间的匹配部分和变化部分之后,进一步分析变化部分的变化类型,并分别采取不同的策略对数据进行融合。对于新增和消失要素,可对基础数据进行增加或删除处理;对于变化要素,可以进行更新、合并处理,例如道路延长、水系改道、居民地扩建、绿地变化等。3.2 地址信息一致化地址信息一致化是建立地址编码服务的基础要求,也可有效支持多源地理实体消除语义差异并建立空间连接。其核心是将各类不规范、不完整的“非标准”地址信息以符合常见地址表达模型的方式进行规范化处理和表达。地址信息一致化要求在理解地址表达模型的基础上,处理地址要素简化、缺失、错误描述等问题[48]。目前,已有的中文地址标准化方法主要分为两类。一是基于中文地址表达模型与地址匹配相结合的中文地址标准化方法[49-52],该类标准化方法虽然具有较高的准确率和匹配效率,但是高度依赖于人工构建标准中文地址库,对于地址要素的缺失和不完整问题不能很好地解决。二是基于自然语言处理与深度学习相结合的方法[53-54]。虽然该方法取得了较高的准确率和匹配效率,但是存在以下两个不足,一是提取中文地址语义特征时忽略了地址的空间信息;二是没有可以参考的地址表达模型,导致生成的某些地址表达不符合正确的地址描述。未来可以尝试将以上两类方法进行融合,并在提取中文地址语义特征时对不同地址要素添加不同的权重,以体现不同地址要素的重要程度。3.3 同名实体识别与语义对齐同名实体识别与语义对齐是互联网泛在地理信息数据融合的关键[55]。同名实体识别要求从多源数据中发现语义意义上的相同地理对象,语义对齐则将分散异构信息进行模式和语义的一致化处理并连接至相应同名地理实体,从而基于多源数据产生地理实体并在地理位置、空间形态、名称表达、地址描述和属性特征方面进行合并或建立关联。地理实体匹配是建立同名实体的核心,主要包括以下三类方法:一是基于空间属性的匹配方法,如基于定位信息的空间距离匹配[56];二是基于文本属性的匹配方法,如基于名称属性的文本相似度匹配[57];三是空间属性与文本属性相结合的匹配方法,如多属性特征加权的相似度匹配方法[58-59]、多约束条件下的属性匹配方法[60]。但还存在着以下问题:一是文本属性的相似性度量方法一般是基于编辑距离的计算方法,然而,编辑距离更适合计算纯文本的差异;二是这些匹配方法需要根据预先设定的相似性阈值判断是否匹配,而阈值大小将直接影响匹配精度。针对这些问题,未来可以尝试使用基于深度学习的方法来解决这些问题,如通过BERT(arXiv: 1810.04805, 2018)、Text-CNN(arXiv: 1408.5882, 2014)、Word2Vec[61]等模型提取文本的复杂语义特征;基于RNN(arXiv: 1406.1078, 2014)、LSTM[62]、GRU[63]、注意力机制(arXiv: 1606.01933, 2016)等模型解决不同属性之间的相互依赖关系;基于ESIM(arXiv: 1609.06038, 2017)模型将匹配问题转换成二分类问题,避免了人工相似度阈值的设置等。3.4 地理实体关系构建基于海量互联网地理信息,可构建地理实体间的位置关联、隶属联系等丰富关系,从而形成地理实体关联知识并可支持推理和挖掘[64]。地理实体关系构建主要包括空间关系挖掘和语义关系挖掘两种,其中对于包含、相邻、相离、共现及方向等关系主要通过矢量数据空间运算进行计算;对于隶属等语义关系,主要通过实体关系词利用规则约束、机器学习等方法进行推测。从本质上讲,以上方法均基于规则,难以支持更深层次的隐含关系抽取。近年来,本体和知识图谱技术在互联网泛在地理信息实体关系构建管理中得到应用。如基于社区专家构建的通用内涵属性面板维护地理本体,以支持进行地理实体的关系推理[65];基于“地理概念-地理实体-地理关系”三层地理知识图谱,可用于面向互联网泛在信息的地理实体语义关系推测[66]。基于本体和知识图谱可以通过语义查询方式对地理实体关系进行提取,还可推测隐含的实体关系,但需要重点突破本体和知识图谱构建成本较高的瓶颈。3 多源地理信息融合技术
4 典型应用
互联网泛在地理信息感知技术大大降低了传统行业数据采集制作的成本,提高数据采集的效率和质量,丰富数据的内容和形式,是对现有地理信息数据的一个很好的补充和完善。从海量多源数据中获取地理信息,能够促进地理信息资源开发利用,避免地理信息资源重复建设,从而为全社会提供精细化服务;可实现跨地区多尺度地理信息数据资源集成应用,通过多源数据融合技术手段消除因分级管理、各部门信息资源难以共享造成的信息孤岛、数字鸿沟,解决现有地理信息获取与处理过程中技术难度大、建设成本高、开发周期长等不足,最终促进地理信息资源共享,从而为政府、企业和公众提供网络化地理信息公共服务。本节围绕智能互联的开放地理数据网络、融合社会感知的城市治理与应急服务、网络内容监测与地理空间情报三个典型应用展开说明。4.1 智能互联的开放地理数据网络可发现性、可访问性与互操作性是网络开放数据高效使用的核心要求,也是未来10年全球地理信息管理的发展方向。通过地理数据桥接、开放搜索API扩展以及地理聚焦搜索引擎,SDI门户、专业地理信息服务、社交媒体和web网页等成为可发现和可访问的地理数据;语义网络构建地理本体支持不同来源的地理数据实现实体连接和关联推荐,扩展时空语义的搜索适配使得网络服务更准确地理解地理数据和用户需求的语法和模式,使得不同地区、不同部门的松散SDI和开放服务实现高效聚合和动态互联,形成智能互联的开放地理数据网络,为全球可持续发展提供“任务就绪”数据服务目标。4.2 融合社会感知的城市治理与应急服务智慧城市与应急管理已成为可持续发展的重要方向,覆盖完整、语义丰富和更新及时的时空信息对于城市治理和应急管理尤其重要。面向智慧城市的互联网泛在城市治理和应急管理方面的框架及应用如图 4所示,图中右边部分从上往下分别展示了互联网泛在信息在地理知识图谱构建、工商实体精确画像和城市楼宇融合分析等方面的应用。通过互联网泛在地理信息采集处理,可从政府公开信息中获取各类机构和工商企业的注册信息及地址,构建和更新交通、学校、医疗、公安、消防、商业等城市基础设施信息,从签到、评价及实景图像中提取场所及周边的建筑外观、绿化状况、生活成本、社会活动强度等丰富特征,并在第一时间通过新闻和社交媒体跟踪事故灾难的位置及实况信息。对不断涌现的互联网泛在地理信息进行持续监测,形成面向城市的社会感知能力,可对城市环境、基础设施和事件信息进行低成本跟踪和多维度画像,为解决SDI在支持产业分析监测、空间格局优化、灾害应急管理工作中的“数据之困”提供有效途径。4 典型应用
5 结论与展望
地理信息越来越成为政府、机构、企业和公众开展决策的基础设施。随着技术进步和应用深入,互联网不仅成为信息分发和共享的渠道,也已成为迄今为止最大的开放地理信息资源库。今天,互联网泛在地理信息在数量、规模、速度、多样性和复杂性方面已经超出传统SDI技术体系所能处理的范畴。系统研究泛在地理信息的搜索、提取、分析、合并和协调技术,对显著提升互联网地理大数据的可发现性、可获得性和互操作性具有重要意义;同时,泛在地理信息感知融合技术也可在构建智能互联的开放地理数据网络、优化城市治理和应急管理的空间数据支持、提升网络地理信息内容管理和地理空间情报智能等方面催生全新应用,因此准确把握其技术发展趋势更具有前瞻性和实际应用价值。未来,随着物联网、数字孪生、元宇宙等新技术和新应用成熟,倾斜三维、全景图像、视频地理信息等新型地理信息等不断涌现,地理信息与物理世界和社会系统的交融更为广泛和深入,互联网地理信息的体量和异质性将进一步提高,其“碎片化”趋势将更为突出。同时,随着新型基础测绘快速推进,传统SDI与泛在地理信息融合不可避免。因此,需要在以下几方面拓展研究。(1) 多重语义自动提取和深度理解:目前研究多停留在实体抽取、要素发现等低层语义特征方面,对于文本、图像中蕴含的位置特征、实体关系、场景特征、地理事件等高层语义特征还缺乏高效稳健的提取算法。通过人工智能技术实现将空间语义从语法/像素/要素的抽取,进入到高层时空场景的识别推测,从而支持计算机“看清”“读懂”泛在地理信息包含的丰富时空语义。(2) 网络感知融合数据质量评估与控制:目前针对数据质量的评估与控制主要体现在数据逻辑性、可信度及有效性等方面,无法有效度量和处理多源网络感知时空信息的非均衡性和不确定性特征。为此,需要深入研究网络感知地理信息的有偏性与模糊性,构建不确定性描述特征和检测模型,建立数据可融合性能力评估与交叉验证方法,实现多源大数据协同纠偏和联合增强。(3) 数据谱系构建与细粒度属性溯源:随着时空信息广泛关联和深度融合,数据融合成果中要素属性和记录/实体信息不断丰富和扩充,多源泛在地理信息处理过程呈现谱系化、非线性的复杂特征。对多源时空信息的数据特征及其迭代融合过程进行有效管理,形成以“数据谱系”为核心的管理架构下,并支持多粒度信息的溯源能力,是互联网泛在地理信息管理和应用的未来发展方向。(4) 数据安全与位置隐私保护:随着人类社会与互联网的进一步融合,互联网地理信息也面临着泄露国家秘密和个人隐私信息、非授权访问与数据滥用等重大的风险和威胁。互联网泛在地理信息安全与隐私保护有大量问题急需解决,具体包括:空间大数据的内容风险评估、时空信息脱敏与去标识化、时空数据加密与安全传输、互联网环境下的地理信息可信共享与溯源、分布式时空安全协同计算等。5 结论与展望
作者简介
第一作者简介:刘纪平(1967—),男,博士,研究员,研究方向为时空大数据分析挖掘、政府地理信息服务、应急地理信息服务等。E-mail:liujp@casm.ac.cn
初审:张艳玲复审:宋启凡
终审:金 君
终审:金 君
往期推荐
资讯
○ 调整资助标准和申报周期!2023年中国博士后科学基金资助指南发布
○ 好书 | 测绘科技经典著作·空间大地测量学——卫星导航与精密定位
○ 会议通知 | 关于延期举办2023年陆地遥感产品前沿动态及数据使用学习大会的通知
○ 测绘通报 | 郭泽:基于Cesium的铁路线路三维场景空间信息服务