多源空间大数据的获取及在城市规划中的应用
点击图片上方蓝色字体“慧天地”即可订阅
作 者 信 息
裴莲莲1,2,唐建智1,2,毕小硕1,2
(1. 北京市测绘设计研究院,北京 100038;2. 城市空间信息工程北京市重点实验室,北京 100038)
“【摘要】在当前数据爆发式增长的背景下,通过对互联网大数据的获取、处理,将数据成果更好地应用于城市规划研究中。通过对互联网数据获取、清洗、存储及在城市规划中的应用,使数据的获取方式和手段更加的多样化,对城市规划的研究起到了基础的支撑作用。不同数据源、不同数据精度和不同数据模型的地理数据融合理论与方法的研究,对于降低地理数据的生产成本,加快现有地理信息更新速度,提高地理数据质量有着重要的现实意义。对于改进传统的城市规划理念,以及科学的指导城市规划有重要的意义。
【关键词】互联网;城市规划;空间大数据;GIS;数据融合
【中图分类号】TU984.11 【文献标识码】A 【文章编号】1672-1586(2019)01-0013-05
”引文格式:裴莲莲,唐建智,毕小硕. 多源空间大数据的获取及在城市规划中的应用[J].地理信息世界,2019,26(1):13-17.
正文
0 引 言
随着智能手机的普及和移动互联网的快速发展,大众点评、携程、百度地图、高德地图、微信、微博等各种手机APP横空出世,满足人们各种各样的生活需求,城市生活也在浩浩荡荡地进入移动时代。手机改变了人们的生活,正在成为人们的生活本身,很少有人能脱离手机生活。各种APP在方便人们生活的同时,其后台也积累了大量的用户数据,如用户的位置、时间、评论、流量等信息。通过对各类互联网开放数据的获取,将各类数据进行融合处理,提取其空间信息并对其进行分析、可视化,对城市问题进行剖析,辅助城市管理者对城市的状态进行评估,以便对城市治理问题开出“良方”。
城市是一个坐落在有限空间地区内的各种经济市场,是住房、劳动力、土地、运输等相互交织在一起的网络系统。城市的出现,是人类走向成熟和文明的标志,也是人类群居生活的高级形式。随着我国城镇化建设的不断推进以及城乡发展水平的两极分化,人口逐渐从农村迁移到城市。到2015年,共有12个城市的中心城区人口超过500万。分别是北京、上海、广州、深圳、天津、重庆、武汉、南京、成都、杭州、郑州、沈阳。其中,北上广深4个一线城市城区人口超千万,属于超大城市行列。另外8个城市城区人口介于500到1 000万之间,处于特大城市行列(数据来源于第一财经)。北京,作为一个超大型城市,拥有着超过2 170万(数据引用自2017年统计年鉴)的人口数量。人口的涌入、现代化水平的不断提高,导致城市的规模越来越大,随之也出现了很多问题:交通拥堵、环境恶化、能耗增加等,给城市的管理造成了极大的困难。
城市的治理需要对症下药,因此,想要治理一座城市,首先需要了解其问题所在,再根据表现出的症状,探寻合理的梳理之道。城市是一个复杂的网络,每一个痛点其背后的原因往往是多重的,各个原因之间环环相扣,牵一发而动全身。
1 多源数据整合
在当前数据爆发式增长的背景下,通过对互联网大数据的获取、处理,将数据成果更好的应用于城市规划研究中,以弥补传统城市规划中对数据掌握的空缺。不同数据源,不同数据精度和不同数据模型的地理数据融合理论与方法的研究,对于降低地理数据的生产成本,加快现有地理信息更新速度,提高地理数据质量有着重要的意义。本文通过研究与城市发展相关的互联网多源空间数据的获取及融合,阐述互联网开放数据的获取技术,将获取到的各类大数据进行空间转换处理,并融合各类数据处理后的结果,对空间数据的转换、融合过程及方法进行研究,最后探究空间数据可视化方法。最终,将空间大数据的采集、存储、清洗、转换、融合、可视化等一整套流程归纳总结,为城市规划应用在数据采集、应用等方面提供技术、方法参考。技术流程如图1所示。
图1 总体技术路线图
Fig.1 The technology roadmap
通过互联网方式获取城市数据主要分为三大步骤,首先对静态或动态页面解析,通过抓包等方式,获取城市相关原始数据;然后经过坐标格式转换、坐标转换,对文本转换成矢量数据,对点、线、面数据等进行转换,从而实现对多种数据的融合;最后结合城市规划管理领域的专业模型,对城市管理中某个领域进行建模分析,如通过空间插值分析、二三维一体化展示等,对融合后的数据以图表等形式进行展示,从而直观展示城市发展现状、资源分布现状,由此辅助城市规划、管理等。
2 城市开放数据获取
城市数据获取方式可以分为主动获取和被动获取。被动方式即将传感器安装到被监测物体上,利用通信技术,将传感器采集到的数据,实时地传输给数据中心,数据中心对于收集到的数据进行处理和存储。如当前很多的出租车管理系统,在出租车上安装GPS,通过GPS技术实现对车辆的追踪和车辆管理,自动记录行程数据并生成里程报告,为用车单位和个人提供智能解决方案。被动获取方式不需要人的参与,只需要将传感器安装好,之后传感器就会不间断地对采集到的数据进行传输,因此,被动方式对硬件的依赖性比较大,是一个系统的工程,往往比较耗费时间和财力。主动获取即对已有的数据进行获取,经处理后,转换为符合实际业务需求的数据格式。目前在城市规划中,数据往往是来自于需求方,但传统的数据,由于掌握在不同部门手中,各部门数据采集手段各异,更新频率不同,所以往往存在数据格式不统一、数据质量、实效性、可靠性低不能满足要求等问题,而此时往往可以借助互联网,利用网络爬虫按照一定的规则,自动地抓取万维网信息的程序和脚本,采集目标页面内容,通过对互联网开放数据进行采集,获得海量的与城市规划相关的数据,经清洗、处理、挖掘后,为城市规划所应用。
2.1 静态网页数据获取
互联网数据采集过程即对互联网展现的网页数据进行提取,保存到本地。根据网页渲染方式不同,分为静态网页数据采集和动态网页数据采集。静态网页是单纯的HTML(Hypertext Markup Language,超文本标记语言)文本,页面上的文本、图片等内容预先写入HTML文本,不同页面分别拥有各自独立的HTML,页面间的切换也是整个页面的刷新,在前端页面渲染时,静态网页一次性加载完成后,便不会与后台数据库进行数据交换,因此对静态网页数据的采集比较简单,只需要对加载后的HTML源代码进行解析,提取出需要的数据文本即可。
2.2 Ajax数据获取
Ajax,全称为AsynchronousJavaScript and XML,即异步的JavaScript和XML。利用Ajax技术的页面一般称之为动态网页,动态界面往往有交互功能如百度地图、高德地图很多页面便是通过该方式实现的数据加载。在Web2.0的时代,站点页面中出现了越来越多的动态页面,这些动态页面中的代码执行会改变页面的信息以及结构,但并不改变页面的URL(Uniform Resource Locator,统一资源定位符),一些重要的信息要通过用户交互之后才会出现在页面中,因此,需要对传统的网络爬取程序作出一些优化和改进,用以适用爬取动态页面信息。同一个主题下的动态页面往往利用相同的HTML框架,各个页面共享同一个URL,通过指定的API(Application Programming Interface,应用程序编程接口),将数据库数据加载到页面显示出来。因此,对于动态页面的解析,往往需要分析前端与后台交互的数据包,找到相应的API后,调用API直接获取到现成的数据,如Json(JavaScript Object Notation,JS 对象简谱)格式,而不需要像静态界面那样解包。因此静态界面的获取,难点在于HTML文本的解析,而动态界面的获取,难点往往在于数据包分析上,抓到与后台交互的API,即可获取数据。
2.3 动态渲染页面获取
Ajax数据的获取是动态界面的一种分析方式,适用于API解析比较容易,并且返回的数据为最终获取目标的情况,但还有一部分页面,类似淘宝这种页面,返回的API接口中含有多个加密参数,需要在前端借住JavaScript进一步处理。对于此类API的处理,思路一般有两种:(1)直接分析JavaScript处理逻辑,模拟客户端JavaScript运行机制,破解加密参数,最终获取数据。(2)不分析JavaScript脚本,直接模拟浏览器,我们在浏览器看到的即使我们获取的数据,而不用去分析页面内部JavaScript的处理逻辑,简单易行。
以上两种方法在获取动态渲染页面时各有其优缺点,方法一对于获取人员的技术水平要求较高,需要深入分析JavaScript,破解参数。前期分析工作较多,但破解后,直接运行代码,数据获取的速度较快。方法二技术水平要求较低,只需要使用现成的工具,如Python中的Selenium绑定Phantomjs浏览器,进行数据的获取,简单易行,但比较耗费计算机性能,并且数据获取速度较慢。在实际应用中,可根据当前技术储备,来选择合适的方法。
3 空间数据融合
3.1 空间数据获取
多源数据融合贯穿于“数字城市”建设的始终,数据整理是多源数据融合的基础和前提,直接关系到数据的整合质量。一般从互联网上获取到的信息为文本格式数据,如常见的兴趣点数据,通过互联网公共地图提供的API,可以解析得到兴趣点的经纬度及兴趣点名称、兴趣点编号等相关的属性值。当获取公交线路或小区范围等数据时,数据的组织格式为坐标串的形式,如互联网公交线路数据获取后的组织形式,如图2所示。
图2 互联网地图公交线路数据格式
Fig.2 The bus line data format from web map
3.2 空间数据转换模型
信息时代时空要素和流动性变化,需要从地理空间的视角去认识智慧城市的出现和发展。在城市规划应用分析中,对城市格局分析时,通常是利用空间数据,利用空间分析模型,对智慧城市研究和城市规划的制定提供决策支撑。因此在实际应用中,需要将文本类的数据转换为空间数据类型,在多源数据集成中,数据、集成软件及规则是3个必备的条件。如图2的公交线路数据,可以利用FME空间数据转换工具,对数据转换进行建模,将文本类型的原始数据转换为空间线状数据,建模过程主要分为4个步骤:
1)提取坐标串文本中的X,Y;
2)将X,Y 坐标生成点数据;
3)根据线路名称,将点数据聚合为线状数据;
4)筛选或重新生成需要保留的属性。
利用FME可以零编码实现上述转换流程,并可以进行批量转换。具体转换模型如图3所示。
图3 FME空间数据转换模型及成果
Fig.3 The model and results of spatial data conversion in FME
3.3 空间数据坐标转换
通过对互联网公共数据的获取,并对其进行转换,可以为城市规划研究提供基础的地理信息数据,但基础地理信息数据关系到国土安全,属于涉密数据,因此各互联网地图服务商在发布互联网电子地图之前,需要按照国家相关政策将数据进行加偏处理,各电子地图服务商在满足国家对于保密的基本要求基础上,又采取了各自独立的加密方式,对电子地图进行了加密。因此,通过互联网获取的开放数据,在与现有数据结合使用时,需要验证各数据的坐标系是否一致,如果空间数据在不同的坐标框架下,还需要对数据进行坐标转换。
在利用互联网数据进行分析时,首选需要判定空间数据的坐标系统,统一坐标框架,只有在同一坐标系统下分析出来的成果才会有意义。当前互联网地图主流平台即百度地图、高德地图、腾讯地图等,各平台所采取的坐标系统也各不相同。
高德地图采用的坐标系统为GCJ02,即国家测绘局专门针对互联网地图所采用的加偏后的坐标系统,我们常说的火星坐标系即GCJ02坐标系。百度地图在GCJ02的基础上,进一步对地图进行加偏,得到BD09坐标系统,腾讯地图所采用的坐标系统与高德地图相同也为GCJ02。
各互联网电子地图数据之间进行相互转化时,各电子地图平台提供了相应的转换API,用户只需要根据使用规则,调用相应的API,即可完成各电子地图间的数据转换,如百度地图坐标转换接口的使用,可参考链接:http://lbsyun.baidu.com/index.php?title=webapi/guide/changeposition。
但是在实际应用中,规划、测绘行业各部门当前数据坐标系统一般为国家坐标系,如北京1954、西安1980、WGS84坐标系统,根据国家测绘地理信息主管部门的规定,为了保证国土安全,各电子地图平台均不得提供由GCJ02、BD09等互联网地图坐标系转换为国家坐标系统的服务,因此在实际应用中,需要自定义坐标转换工具,以实现互联网电子地图坐标系到国家坐标系的数据转换。
由高德坐标到WGS84坐标转换,涉及到坐标的旋转、平移、缩放等变换,通常二维坐标的转换一般为四参数转换模型、二维七参数转换模型及二维多项式转换模型。利用FME,可以快速地将各类转换算法封装为坐标转换工具,转换步骤分以下4步:
1)提取待转换多边形的节点坐标;
2)对X ,Y 点利用坐标转换算法转换为对应坐标系下的X,Y 值;
3)根据X,Y 坐标数据生成空间数据及属性属性;
4)根据原始面状数据标识,将点数据重新聚合为面状数据。
坐标转换工具及成果如图4所示。
图4 坐标转换工具及成果
Fig.4 The model and results of coordinate transformation
4 开放数据应用
对空间数据的获取及转换方法,在实际工作中,可以选择某一方面的主体进行应用。本文以房价数据为例,对数据进行分析展示。通过房地产服务网站获取到指定区域内的一、二手房销售数据,利用空间分析方法,对区域房价进行空间插值分析、核密度分析、三维分析展示等,通过对房价数据分析,可以辅助政府相关管理部门的市场管理工作做到更为精准的决策。下面分别通过插值模拟和核密度估计方法对研究区域中的房价数据进行分析和可视化。前者能够基于空间自相关性构建研究区内整个表面的房价分布情况,强调连续性分析与可视化表达;后者则通过概率函数推算出房价在局部离散区域的空间分布特征,注重离散性分析与三维可视化呈现。从而刻画研究区域内房价的空间分布特征。
4.1 二维数据分析
以北京市东城区为例,获取到房地产服务平台的房价数据(如房屋的在租、在售数据)和互联网电子地图的空间数据(如小区范围、公交线路、城市道路),应用本文的方法,将房价属性数据根据坐标信息进行格式转换为空间数据,并将不同互联网电子地图门户的空间数据进行坐标系统一。并且将房价数据与地图数据进行融合,采取相应的空间分析方法,进行进一步分析。
在插值分析方法中,IDW(反距离权重)是局部精确性插值方法,适用于采样点与预测值保持一致的应用,极值与采样点相一致的应用中,IDW内插结果较好,并且,IDW插值方法顾及空间自相关,遵循地理学第一定律,即局部相似性原则,房价本身由于受到环境、交通、区位等因素的影响,也存在潜在的局部相似性,这进一步反应了在插值模型选择方面的合理性。本文利用IDW方法,根据采样点得到整个区域内房价的分布连续表面,结果如图5所示。从图中可以看出,北京东城区北边呈高房价分布,而南侧则相反。如果从更小的尺度考察,会发现在整个东城区的西北侧,形成了显著的高房价核,并且以此高房价核向北方扩散。整体而言,北京东城区的房价在空间上层级明显,呈现南低北高阶梯式的空间格局。
图5 IDW分析结果
Fig.5 IDW analysis results of house prices in Beijing
4.2 三维数据分析
密度分析是基于空间平滑及空间内插技术的统计分析过程。比较原始散点图对空间现象分布的简单表达,密度可以作为更准确的空间分析工具对空间特征分布做深层次的特征规律挖掘。对采样点的房价进行核密度分析,将采样点数据在ArcScene中对房价属性数据进行三维拉伸,可以在颜色和大小上对房价的分布进行渲染,直观地表达出主题信息。三维展示分析效果如图6所示。
图6 密度分析三维展示效果图
Fig.6 3D visualization by the density map
从图中可以看出,房价普遍较低的西南侧并没有出现高房价的异质性区域,但反观位于北侧的高房价聚集区,则在高房价高度集中的各小区中,嵌有低房价的小区。这说明在此区域中的部分小区可能由于其周围环境不佳、小区房源年代久远而导致房价偏低。
绿地、城市中的湖泊等公共设施一定程度能够改善临近小区人们的生活环境,相应地也会影响到其周围房价的上涨。但从图中可以看出,研究区西南侧的大片绿地和东南侧的湖泊邻近的小区房价并没有呈现高值聚类,这说明相比东城区南侧,整个北侧片区房价还处于较低的水平,显著受到宏观区位的影响。
5 结束语
本文介绍了数据获取、数据坐标转换的方法,并以房价数据为例,展示多源空间数据获取的应用,可以看出互联网开放数据种类多,能够短时间内低成本快速获取,大数据提供了从“小样本分析”到“海量呈现”,从滞后化到实时化,从“专家领域”到“公众参与”等多维转变的可能。在城市规划的制定研究中,可以利用互联网开放数据扩充数据源种类、增加分析专题,更好地辅助城市规划工作。
来源:地理信息世界GeomaticsWorld(版权归原作者及刊载媒体所有)
欢迎大家关注《慧天地》同名新浪微博
微博ID:慧天地_geomaticser
荐读
点击下文标题即可阅读
大数据时代我国个人位置隐私保护浅论——新体制下测绘地理信息工作新思考之八
大数据在城市规划中的应用研究综述
中国城市科学研究会理事长仇保兴:智慧城市整体规划设计需要加上信息空间
高端论坛|深圳大学校长李清泉教授:新型传感器与时空大数据在城市规划与管理方面的应用
编辑 / 肖紫寒 审核 / 肖紫寒 盛兆阳
指导:万剑华教授