论文推荐|王勇:顾及位置关系的网络POI地址信息标准化处理方法
针对互联网POI(兴趣点)地址信息中广泛存在的地址要素不完整、文字表达不一致等不规范现象,提出一种顾及位置关系的网络POI地址信息标准化处理方法,首先对POI信息进行切分提取并逐层匹配地址树模型;然后基于4种位置关系从标准POI库中选出相应集合,作为丰富和修正非标准POI地址要素的候选;最后通过最小粒度地址要素的回溯,实现POI地址信息的快速标准化处理。试验表明该方法可以获得较高的准确率,尤其适用于在互联网数据环境中的POI地址信息标准化。
近年来,随着互联网地理信息服务的蓬勃发展,网络POI已经成为大数据时代一种重要的空间信息资源。在我国,网络POI主要来源于地图服务商和用户标注,不同地图数据提供者对于同一个地址的文字表达不尽相同,而用户标注中的地址信息也经常以口述和简化表达的方式来描述,使得同一个地址可能出现多种不同的文字表达,导致来源不同的POI数据融合困难,难以发挥多源信息的聚合作用。
地址标准化处理是网络POI数据清洗、融合与分析的重要内容,是实现地址编码(geocoding)等网络服务的重要基础[-],其核心是将不规范、不完整的“非标准”地址信息以符合常见地址表达模型的方式进行“规范化”处理和表达。现有的商业化地址标准化处理工具如ArcGIS的Address Geocoding、MapInfo的MapMarker、Oracle的Spatial Geocoder等,均基于内嵌判别规则来实现地址标准化[-];文献[]通过构建专家系统实现中文地址的标准化;文献[-]通过构建多层地址规则实现地名地址向标准化表达模型的转化;文献[]采用决策树模型实现地址模式匹配。以上方法均需要构建大量领域规则或基于规则形成专家系统,这些方法能较好地满足英文地址信息的标准化与位置匹配要求,但对于中文地址信息处理效果较差,且规则构建过程需要大量人工参与。相比而言,机器学习方法可以基于大量标准化地址样本自动构建出地址要素间的组合规则,从而支持非标准化地址信息的标准化处理[-],因而可移植性更强。文献[]利用机器训练后获得的地址语料库及相关规则,通过局部模糊匹配实现地名地址解析与标准化;文献[]利用半监督机器学习方法,基于HMM训练模型实现地名地址标准化;文献[]通过总结中文地址模型的内部规则与空间约束关系,提出基于可扩展地址树的标准地址提取方法。然而,由于汉语言文字固有的地址描述信息不带分隔符等特点,使得基于机器学习的方法也存在样本需求较大、训练周期较长、标准化准确率较低等弊端。
以上基于规则和基于机器学习的地址标准化方法,侧重从纯文本(地址文本)分析角度挖掘地址信息的组合规则,而对POI的位置属性却未充分加以利用。本文试图提出一种顾及空间位置关系的网络POI地址信息标准化处理方法,以可扩展中文地址树模型为指导,首先基于特征词对待处理POI的地址信息进行地址要素切分、识别并与地址树模型逐层匹配,其次将待处理POI的地理坐标与标准参考库进行位置关系计算并形成参考对象库,最后根据最佳匹配结果完成待处理POI地址信息的标准化处理。
中文地址模型是一种基于层次关系的排列模型,可分为政区级地址要素、街区级地址要素、门牌级地址要素3个层级,其中:政区级要素可细分为国家名、省名、市名、区\县名、乡镇名等;街区级要素一般表现为道路、街巷、住宅区等基础限定物;门牌级要素一般表现为楼牌号、单位名称、标志物等局部点位置描述。针对中文地址的结构特征,以及目前我国地址模型存在多套标准的现状,本文设计了一种包含行政区划、基础地址限定物、局部点位置描述的3层地址树模型,如所示。
地址树模型的构成
一个完整的中文地址由政区级、街区街、门牌级等3层要素构成,各层要素还可细分为不同的级别。对于某个具体的地址实例而言,上下级地址要素实例需要遵循一定的限定关系(通常为行政或管理意义上的隶属关系),如所示。这种要素实例的限定/映射关系普遍存在,是实现地址标准化尤其是缺失地址要素补全的重要依据。
地址要素组合关系图
本文提出的POI地址信息标准化处理流程为:首先基于特征词典实现要素识别与切分,将输入的地址信息分割为多个地址要素;其次,通过匹配地址要素,构建各级要素的层次关系,形成地址树;再次,通过位置关系计算筛选出与待标准化POI紧密相关的参考样本;最后利用最小粒度回溯法,基于参考POI实现地址信息中缺失要素自动填充与标准化。
本文提出一种顾及空间位置关系的网络POI地址信息标准化处理方法,该方法基于可扩展中文地址树模型,首先在对POI地址信息进行要素切分和匹配,其次通过基于地理坐标衍生的4种位置关系从标准参考库中抽取出参考对象库,最后根据共点、共线、共面等不同情况完成待处理POI地址信息的细粒度要素匹配和缺失要素填充。与传统地址标准化方法相比,该方法充分利用了POI的坐标信息及其衍生位置关系,能够明显改善机器学习、规则匹配方法等传统方法训练和归纳成本较大、耗时耗力等问题,尤其在具有大量参考POI样本资源的互联网数据环境中具有更好的适用性和更高的准确率。目前本方法使用的位置关系较为简单,相关阈值设定也主要为经验取值,在后续工作中将考虑增加更多的位置关系(如通达性),并就相关阈值设置进行更多的讨论,以使筛选出的候选目标对POI地址标准化具有更好的参考价值。
基金项目:国家863计划(2012AA12A402;2013AA12A403);国家自然科学基金 (41471384);国家测绘地理信息局公益科研专项(201512021;201512032)
第一作者简介:王勇(1976-),男,副研究员,研究方向为网络地理信息获取与挖掘。
E-mail:
全文内容请点击下方“阅读原文”
更多精彩内容:
学术前沿|张过:卫星视频处理与应用
大师周江文|杨元喜:周江文先生深邃的学术思想是我学术进步的一盏明灯
学术前沿|张新长教授领衔主讲《地理信息系统概论》MOOC课程正式开课!