查看原文
其他

规划师大数据技能—基础篇

李洁雅 GIS前沿 2021-06-14


导读


疫情当前,大数据的热度又被推上高潮。近期习近平总书记充分肯定了大数据在疫情防控人民战争、总体战、阻击战里的重要支撑作用。随着城市变得越来越复杂,城市发展面临的挑战不断增加,大数据等新兴科技能够精准助力解决城市问题。本篇章将回归数据本源,深度认识大数据,对大数据在规划研究情景下的类型及获取渠道进行简要分析,以期对于规划师的技能提升有所帮助。



关键词:大数据 开放数据 数据类型 数据采集

全文字数:4278              阅读时间:13分钟

识清

数据


传统数据vs新兴大数据


传统数据主要概括为空间数据和社会经济数据,空间数据包括地形图、遥感影像、相关规划图纸,社会经济数据则主要包括人口、经济等传统统计年鉴。其数据来源大多为政府部门,不但获取过程耗费大量时间、人力和物力,而且数据源极其封闭,其繁杂的申请流程和机构之间的数据偏私使得相关研究过程举步维艰。

大数据作为传统数据的补充,在多源主体,多行业参与上体现了优越性。在信息技术飞速发展的时代下,采集互联网和物联网产生的海量数据资源与传统统计方法相比具有更强的动态性、时效性和可操作性。

事实上,传统数据与大数据之间的界限并非不可逾越,当一个项目甚至一个规划编制机构大量多元异构的数据形成空间数据库,其体量也已经基本达到了“大数据”的级别[1] 。

图:传统城市数据和新型大数据对比(笔者绘制)

基于Web GIS 技术对传统年鉴数据形成可查询和可视化的年鉴空间数据库,基于智能手机和平板电脑等移动终端开发的两步路户外助手、六只脚等商业APP和同济规划野外调研、控规移动调研等规划院主导开发的规划调研APP,调研中将产生的照片、文字、语音信息上传至同一服务器,形成基础地理信息的空间数据库。其轨迹信息既可以侧面反应该区域地理条件,而且产生的KML数据可支持在ArcGIS平台和Google Earth上查看和分析,同时与其他POI兴趣点、开源地图等数据进行综合分析也可得到意想不到的结果。传统数据经过重新组织,也可以成为大数据,或者与大数据协同完成新的任务[2]。其中技术平台的建设起到至关重要的作用,5G时代即将来临,云数据库的发展也为规划工作创造更好的技术环境。  


开放数据vs大数据


开放数据和大数据的关系可以用样本和近全样本来区分。开放数据指的是一种经过挑选与许可的数据,这些数据不受著作权、专利权以及其他管理机制所限制,可以开放给社会公众,任何人都可以自由出版使用,不论是要拿来出版或是做其他的运用都不加以限制[1]。其中开放数据运动带来了开放政府、开放知识、开放获取、开放应用程序接口(开放API)等一系列来自民间组织、政府、学术机构、商业公司的响应。  

图:百度地图开放平台(城市数据师手册)

来源:http://lbsyun.baidu.com

图:环境云开放数据平台

来源:http://www.envicloud.cn/pages/product.html

图:开放数据集合(城市数据师手册)

来源:http://www.dashuju123.com

通常意义上我们在研究中所使用的数据大多是开放数据,也是广义上的大数据。如今大数据成为一种资本,在政府、大型企业和机构中发挥着越来越重要的作用。狭义上的大数据不对公众开放,需要资格认证、有偿获取或者同数据提供方达成合作协议,如手机信令数据、公交IC卡数据等。因为大数据没有明确的定义,基于网络开放数据的城市研究都被贴上“大数据”的标签,其一,诸如社交签到数据、社交评价数据都来源于商业网络的数据库;其二,这些数据的研究方法与大数据大体一致,都以数据挖掘为核心 [1]。茅明睿曾将开放数据和大数据的关系比作矿石和矿产,矿石的内部结构和原矿结构保持一致,亦可表现原矿的特征。在一定的容错率下,开放数据可以真实反映城市的现状或区域关系,但不排除某些条件下(如样本数量不足和样本质量不完善)开放数据只是大数据的冰山一角,使研究失去原本的价值。


数据

类型


大数据的类型有很多,不同的研究角度下其分类标准不同,如王鹏基于智慧城市的背景将大数据分为智慧城市感知数据和来自公众参与平台与社交网络(LBSN)数据等新媒体的数据[2] ;龙瀛等人则从城市生命周期角度、几何形状角度、空间形式角度区分城市典型数据的特性[3]。而城市规划的数据几乎都与空间相关联,以可实现空间落位为前提,面向城市研究需求,笔者更认同刘浏根据大数据所包含的不同信息将其分为大分布、大迁移以及大评价等三种信息类型[4] 。本文针对上述三类数据进行补充说明,介绍在规划领域中比较典型的数据。由表可知,不同的研究方向所使用的数据可能来自同一数据源,不同的数据源表现为不同的信息结构,但无一不包含位置属性。面向不同的研究需求和研究条件时,我们可以有针对的选择合适的数据进行相关研究。

图:三类数据对比(根据[3]、[4]理解绘制)

01 大分布数据



大分布指在特定时空内某一客观特征基于大量样本采集之后呈现的空间分布[4] 。该数据的结果通常作为基础信息与其他数据结合分析,因其特定时空的特征,多运用于帮助研究者进行空间识别,如城市功能空间识别、城市中心活力区识别、城市边界识别等研究。其基础表现为点状信息的集合,比较典型大分布数据就是POI数据。单条POI数据包含对应实体的名称、经纬度、地址、联系方式等信息,反映了实体经济所承载的人类活动及地理位置的相互关联性。POI主要包含电子地图POI(高德、百度、天地图)、LBS签到POI(论坛、微博、大众点评)和手机信令POI(联通、移动、电信公司)三种类型,其简单的信息结构不但应用广泛,而且可以复合其他大数据进行研究,称为入门级大数据的最佳代表也不为过。

图:POI数据的空间配置及信息结构(图片来源于[5])

图:POI数据研究方法及应用领域(图片来源于[5])





02 大迁移数据



大迁移数据是带有时空维度的大分布数据[4] ,表达不同时间维度下的空间、人或物的演变特征,主要应用于研究城市空间的联系度。大迁移数据源的筛选更为挑剔,静态固定的大分布数据通常不适合作为实际的研究对象,如公共设施、商铺的分布等,而动态变化的诸如公交刷卡数据、手机信令数据、联通智慧足迹数据才能发挥有价值的研究。研究大迁移数据无非是研究人的迁移、经济活动的联系,其数据的基础表现为多段连线的集合,不仅能表现对象之间的关联程度,也可分析两者之间的发展趋势。

典型数据为手机信令数据,手机信令数据通过手机用户在基站之间的信息交换来确定用户的空间位置,能相对准确的记录人流的时空轨迹。接近全样本的高覆盖率和直接反映空间位置的高精度,在分析职住空间、城市间关联度、区域出行特征、区域人口动态分布有着突出表现。

图:手机信令数据工作机制及数据形式

(图片来源于网络,表格来源于兴趣小组)

图:深圳市基于手机信令数据研究城市间关联度

(图片来源于[6])


但是这种能精确表现迁移特征的数据往往较难获取,研究者将目光转向别处,新浪微博的签到数据成为了平价替代品。新浪微博向用户及开发者提供了一个开放的数据获取、交流、服务与共享的平台(网页地址:https://open.weibo.com/),促进了大数据研究的普及性,其用户的广度和较高的用户活跃度为研究奠定良好的基础。  

图:微博签到数据工作机制及数据形式

(图片来源于[7],表格来源于兴趣小组)

图:南京市基于新浪微博签到的人群活动迁移图

(图片来源于[4])






03 大评价数据



大评价数据是带有感情维度的大分布信息,将客观实在的大分布信息,替换为主观评价信息。它与大分布信息的区别在于以人为本的出发点,反映了个人对于城市空间的认知与感受。大评价数据大致分为三种,一种是基于大众点评、美团、马蜂窝、穷游等APP对城市POI点的打分评价;其二是基于新浪微博、大众点评等社交网站语义信息的情感词提取;其三是基于两步路户外助手、Flickr等带有位置属性的公共照片发布平台进行空间识别评价。利用大评价数据既可以对特定时空的空间进行评价,也可以识别特定地域的空间评价演变特征,从而了解空间使用者的情感趋向,拓展规划工作中公众参与的渠道。目前学术界对于大评价的数据研究和利用较少,主要原因是数据处理工作困难,对语义信息、图片信息等非结构数据难以转译。

图:成都基于Flickr公共照片识别街道绿化水平

(图片来源于[8])





数据

采集


数据的采集主要包含三种渠道:一是企业、政府提供的开放平台API,通过注册授权调用数据,二是借用第三方工具如八爪鱼、火车头、后羿等软件简单抓取数据,高阶选手则是通过Python编写代码爬取数据,第三是通过有偿购买或者与政府、企业运营商合作申请。

图:数据采集渠道

(图片来源于兴趣小组)

除了最后一种方法有较高的门槛,其他两种方法都有较强的实操性。第一种方法虽然操作简单,但缺乏灵活性,难以满足大范围内的数据获取需求,大多数开放平台API对开发者访问次数和数据量施加限制,需要较多的备用账号以供申请。第二种方法是大多数研究人员倾向的途径,随着商业平台的不断升级,反爬虫机制更加严格,八爪鱼、火车头等工具往往具有时效性,该方法不仅受到的限制多,而且数据采集的范围有限、程序设计更加复杂、数据采集周期更长。所以近年来Python对规划工作人员产生重要影响,利用Python可以爬取互联网上公布的大部分数据。作为学生、城市研究者,多源数据背景下加入新技术、新方法获取和分析数据作为研究支撑,对其研究成果大有裨益。在国土空间规划背景下, GIS类软件是规划师的必备技能,Python则是ArcGIS最好的协作伙伴,用好Python这种实用高效的工具,能够夯实研究基础,增强研究的技术性和创新性。

图:火车头采集界面

图:后羿采集器采集界面

图:Python工作界面

数据

反思


回顾往昔,大数据早于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,然而当前大数据应用在城乡规划领域尚处于初级阶段,实际规划项目中更是少之又少。究其原因,笔者以为大数据面临以下两种境况:

1.大数据渗透不足。在往日笔者参与的课题、项目实践中,真正能参与实践大数据的案例实在罕见,所以大家没有必要花时间去知其所以然。而且一项成熟规划编制过程并不需要大数据的参与,也可以达到预期的成果。同时现有的规划编制陷入流水线生产套路,路径依赖造成思想惰性,加固了大数据应用的藩篱。

2.数据难以获取。一些公共数据具有政治敏感性因而被政府垄断,其余如手机信令数据、公共交通刷卡数据等近全样本的大数据价格昂贵,准入门槛高,只有少数研究机构和规划单位能够获取,个人研究更难以为数据买单。更重要的是,有影响力的研究往往是利用非公开、独有数据,其数据规模、研究深度和成果可用性上比其他研究更受各规划设计单位和规划师青睐[1] 。数据开放和共享,道阻且长,实现海量多元异构数据源的统一管理更是难上加难。


结语

笔者对于大数据和GIS的学习尚在入门阶段中,在理解中难免存在粗浅或者不当之处。本文提及到数据的分类和获取,事实上大数据催生的数据可视化工具也非常重要,它不但能够辅助我们得出结论,在城市规划领域,实现数据可视化的过程也是与群众交互的过程。对于数据可视化感兴趣的读者们,可以持续关注北斗大数据兴趣小组的后续精彩!!!



参考文献


[1]茅明睿.大数据在城市规划中的应用:来自北京市城市规划设计研究院的思考与实践[J].国际城市规划,2014,29(06):51-57.

[2]王鹏. 大数据支持的城市规划方法初探[C]. 中国城市规划学会.城乡治理与规划改革——2014中国城市规划年会论文集(04城市规划新技术应用).中国城市规划学会:中国城市规划学会,2014:331-351.

[3]龙瀛.城市大数据类型与典型数据介绍PPT分享.https://mp.weixin.qq.com/s/O8uK5KabW8TnnIvHlV1pFQ

[4]刘浏. 城市规划实践中的大数据思维[C]. 中国城市规划学会、贵阳市人民政府.新常态:传承与变革——2015中国城市规划年会论文集(04城市规划新技术应用).中国城市规划学会、贵阳市人民政府:中国城市规划学会,2015:607-623.

图片来源:

[5]薛冰,李京忠,肖骁,谢潇,逯承鹏,任婉侠,姜璐.基于兴趣点(POI)大数据的人地关系研究综述:理论、方法与应用[J].地理与地理信息科学,2019,35(06):51-60.

[6]钮心毅,王垚,刘嘉伟.基于手机信令数据的深圳与周边城市的空间关联分析[J].城市建筑,2018(15):34-38.

[7]《城市规划大数据理论与方法》龙瀛、毛其智著北京:中国建筑工业出版社341页,56.00元ISBN:978-112-22592-7 

[8]龙瀛,周垠.图片城市主义:人本尺度城市形态研究的新思路[J].规划师,2017,33(02):54-60.


文章转载于北斗城乡规划
作者:李洁雅
版权归原作者所有,如有侵权请告知删除


- END -


国土空间规划中的GIS应用——通识篇
经历SARS和新型冠状病毒两次公共卫生事件引起的十点思考 | 来自城市大数据、规划新技术、新城市科学和未来城市的视角
倾斜实景三维辅助BIM+GIS在城市轨道交通规划选线中的应用
CityEngine与城市规划应用
BIM+GIS的集成应用

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存