【大数据专栏】茅明睿:大数据时代的城市规划
【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】
文 / 茅明睿,北京市城市规划设计研究院规划信息中心副主任,本文为茅明睿在中关村大数据产业联盟“大数据100分”论坛上的分享实录
我是一名非典型规划师,我很少做具体的规划设计项目,在北京规划院工作近15年,入行之初遇到了数字城市建设大潮,参与了数字北京的先发工程——数字绿化带,群里的@王国良的武大吉奥公司就是当年主要的合作伙伴。
2000-2010年从事的工作都围绕以地理信息系统、遥感、三维仿真、数据建库为核心的数字规划技术体系的构建,为北京的规划工作建立数据基础和GIS应用基础。2010年开始,基于10年的基础积累,我们开始把视线放到数据挖掘,城市定量研究或者说城市计算上来。
群里都是高大上的技术大牛、上市公司老总、参与国家级智慧城市顶层设计的大拿,所以我没有能力也没有意义去说顶层设计、战略的事情,甚至会主动回避智慧城市这个概念。我及规划行业做类似研究的同行们在过去几年里做了些有点趣味的小研究、小应用。
所以我这里都是案例,基于这些案例,我在过去的一个月做了一些总结、提炼和思考,但不敢说这个就能算智慧城市的某个层次的内容了,算是自下而上的探索。
今天的介绍我先集中从我的论文里摘抄一些关于大数据在城市规划行业应用的段落,以及案例和截图,然后留出时间跟大家交流,我也有很多需求希望能从群里获得资源或者寻求合作。
规划行业是个小众、公共性强、综合性很强的行业,规划人圈子很紧,也相对比较开放,近年来规划改革的方向也很多,基于信息技术和数据科学的城市定量研究是其中非常受关注的一个方向。在城市规划及相关领域,以柴彦威、甄峰、刘瑜、郑宇等城市规划、地理、计算机等学科的研究者开展了一系列基于大数据的城市研究,在规划行业形成了当下的一股热潮。
我今天的介绍首先会介绍这个热潮的背景,然后会介绍城市规划行业大数据应用或者大数据的几个标志性相关事件,接下来会简介一些城市定量研究的案例以及我们的一些思考。
首先要理解为什么城市规划行业会形成大数据热潮。
除了智慧城市和大数据火热的大背景以外,还有两个背景;
1、开放数据运动——规划师大多都是数据控
2、互联网上的规划圈
中国的城市规划和城市研究长期受制于数据的获取,规划工作的数据基础高度依赖官方的测绘数据、统计资料以及政府的行业主管部门的官方数据。作为一个日益依赖数据的综合学科,规划师一直都处于数据饥渴状态,进而大多有点数据控倾向。
开放数据运动开始改变这个局面。开放数据的概念大家比较清楚,我就不介绍了,百科里也有。
从民间和学术组织看,近年来国际上知名的开放数据组织都陆续在中国建立了本地化小组或分部,比如共享知识(CreativeCommons)、开放知识基金会(OpenKnowledgeFoundation)、开放获取(OpenAccess)、开放街道地图(OpenStreetMap),同时中国本土也产生了若干个致力于促进数据开放的网站和虚拟合作组织,比如开放数据中国(OpenDataChina)、城市数据派(UrbanDataParty)等;
从政府看,中国政府也在积极推动政府信息公开的工作,政府的开放程度逐步提高,2011到2013年陆续上线的国家数据(NationalData.gov.cn)、北京市政务数据资源网(BjData.gov.cn)和上海政府数据服务网(DataShanghai.gov.cn)都是中国政府数据开放的典型代表;
从商业公司看,大批互联网公司开始在一定程度上开放自己的数据,或者提供开放的API,将自己的商业平台转变为开放或半开放平台,比如新浪微博(Weibo.com),大众点评网(DianPing.com)、百度(Baidu.com)等,此外还诞生了以数据堂(DataTang.com)为代表的数据共享商业平台。
上述这些开放数据组织、网站的出现极大的改变了城市研究开展的数据基础,大批基于开放数据以及通过开放API抓取自商业网站的半开放数据的城市研究成果密集涌现,研究者们利用开放的地理数据、社会化网络数据、签到数据、浮动车轨迹数据等进行了不同尺度、不同视角的研究,既有宏观如城市形态、区域联系度研究,也有微观如个体行为模式的研究。虽然这些研究所使用数据并不100%都属于大数据范畴,但在当前的大数据概念热潮下,它们往往被打上了大数据的标签。大数据本身的概念都很模糊,而阿里云的技术总监薛桂荣对大数据时代最典型特征的判断我深表认同,即“数据的可获得性”,正是这种可获得性奠定了大数据时代的城市研究基础。
开放数据运动是大数据应用于城市规划、城市研究的重要数据基础,而规划人对社会化网络的热衷则为大数据迅速对城市规划行业造成冲击构成了传播基础。与其他行业相比,规划行业规模较小,相互间的联系较紧;而规划话题则社会性、公共性较强,规划编制工作也开始强调开放性,扩大公众参与,所以从2009年新浪微博上线以来,规划师群体是高度活跃、互动性较强的群体,这个群体因其话题的特殊性和自身的活跃度曾引起了《南方周末》等传统媒体的关注,并进入大众视野。
自媒体的自身特性以及处于转型和改革中的城市规划行业特性决定了与规划相关却又新颖的内容更容易引起这个规划师群体的关注并获得转发,比如与空间有关的大数据及可视化内容。龙瀛、刘行健、王江浩、李栋、吴康等一批青年规划师和地理研究者利用微博平台陆续发布了一系列国内外基于大数据、开放数据所做的城市研究案例和自己的研究成果,在规划师群体中得到了广泛的传播,并使这些草根青年规划师和地理学人在规划圈里收获了一定的影响力。
2012年我在新浪微博平台创办了微刊《大数据与小规划》,将上述资料、案例和研究成果进行了汇总发布,使其成为城市规划主题的微刊中订阅量排名第一的微刊。
2013年我根据微博上的人脉关系利用聚类规则抓取了16000名微博上的规划圈成员(主体为规划师)的ID信息及社交关系,并通过聚类分析实现了对微博上规划圈的人脉全貌、影响力、规划群体的空间分布和增长趋势等特征的分析和可视化。考虑到规划行业从业者规模也就在15-20万人之间,所以这次研究基本上覆盖了整个规划行业的微博用户。
2013年11月,北京市城市规划设计研究院策划并承办了2013年中国城市规划年会的“大数据时代的城乡规划与智慧城市”自由论坛,论坛采用线上和线下联动的方式,将大数据的有关概念和城市研究在更广阔的范围进行了扩散。
2013年末,北京规划院龙瀛博士发起了一个名为北京城市实验室(BeijingCityLab,BCL,http://longy.jimdo.com/)的网络型实验室,BCL专注于运用跨学科方法量化城市发展动态,开展城市科学研究。BCL是中国第一个开放的城市定量研究网络,通过邀请学者发布其工作论文(workingpaper)等形式阐释其对城市研究的最新见解,通过数据分享行为为科研群体提供开放的城市定量研究数据。BCL的诞生使微博上以及线下松散的跨学科研究群体得以汇聚,形成了一个具有一定组织性的虚拟社区。
接下来展示一些研究案例
1、对开放数据的获取
针对大数据矿产、开放数据资源,2012年BICP在院内利用自有资金立项开展了《多源社会数据的获取与规划应用》课题,我对互联网上的主要开放和半开放数据资源进行了探索和分类,吴运超针对不同网站特征收集和开发了若干抓取工具,进行了比较系统的数据获取工作。
针对OSM数据、企业黄页、房产交易网站、各政府网站的空间数据或者带有位置描述的非空间数据,吴运超等人系统性的抓取和整理了一套结构化数据表,并对获取的数据利用各种地图API进行了地址匹配,针对我国独有的坐标偏移问题,对火星坐标系、百度坐标系、北京经信委坐标系进行了函数拟合,纠正坐标偏差,形成了一套针对不同坐标系的空间数据进行坐标纠偏转换的工作流程;最后对获取的数据资源进行了同一化处理,形成了从点到线到面的一套包括了POI信息、建筑信息、地块信息、道路信息的空间数据成果。
2、基于开放地理数据的研究
BCL开展了多项面向全国所有大中小城市的大模型研究,如地块尺度的全国城市扩张模拟、城市建成区识别、地块边界与开发类型和强度重建模型、中国城市间交通网络分析与模拟模型、中国城镇格局时空演化分析模型,以及目前正在开展的地块尺度的全国各城市人口数据合成和居民生活质量评价、空气污染暴露评价、主要城市都市区范围划定以及城市群发育评价等。
3、针对微博数据的获取和研究
前文所述,我根据人脉进行了规划行业的成员抓取,同时聚类识别出了几个主要规划院的成员和人脉结构,接下来我与中规院李栋等人正在抓取规划圈成员在微博上的微博内容和位置信息,并且利用北规院、中规院在近几年的城市规划知识管理、本体构建和语义分析工作基础,对抓取的规划人的发言内容进行语义分析,给它们打上语义标签,如此便能对规划行业、每个规划院的话题进行整理分类和监测。此项工作刚刚在前期技术准备中。
事实上微博数据的主要用途是表征人的活动信息,规划师和地理学人做了大量利用微博签到数据的研究。BCL成员,中国规划院的李栋抓取了全国1000多万条带有位置信息的微博,并通过识别发送设备得到了全北京的安卓和苹果手机用户的空间分布。
绿色的是安卓用户占上风的区域,红色的是苹果,咱们IT人用安卓的多,CBD的金领们则是一边倒的iOS。作为商务人士云集的首都机场也是苹果占上风。
中科院地理所王江浩抓取了更多的微博数据,并以此得到了全国各省市的人类活动强度和区域联系度。龙瀛则利用签到数据分析了全国各个城市的地块功能混合度。
4、针对公交IC卡的分析
我们获取了全北京08、10各一周的公交IC卡刷卡数据以及13年以来每季度一周的刷卡数据,每批数据大约在50G左右,约8000万条记录。
利用IC卡刷卡数据我院龙瀛、张宇、喻文承等分析了城市的职住分布、居住与就业特征、居民的通勤轨迹。
目前我的团队正在开发Oracle和Hadoop两个数据处理和计算平台,拟对公交IC卡提出诸如“通勤分析、职住分析、人的行为分析、人的识别、重大事件影响分析、规划项目实施评估分析”等若干个计算与可视化服务,并形成功能服务菜单,规划设计人员可以通过菜单选择所需服务,并定制分析范围、分析时间段和分析对象。
公交卡刷卡记录是实实在在的大数据,我们规划师有分析城市问题的研究思路,我们欠缺的是将思路快速形成分析平台,提供定制化服务的数据处理,数据库优化和分析工具化的开发能力。这也是我们规划行业进行大数据应用的主要问题之一,是我与群里各位数据科学家,IT精英们的结合点,互补之处。与其把精力浪费在讨论智慧城市概念,标准上,不如大家跟我们携手将具体的问题,研究,应用做起来,真真正正的用数据来解决城市问题,自下而上的推动智慧城市的进步,我上述所有研究都没有财政经费或者项目支持,研究成本加上BeijingCityLab的网站,一起花了人民币10000元。
黄明峰:数据采集如何保证?
茅明睿:不能保证。但是从过去三年的进展看我们的开放数据资源日益爆炸式丰富,上述研究除了公交卡,其余基本全部基于这两年获取的开放数据。我相信,以后开放数据会越来越多,商业平台也会更加开放。当然类似公交卡,手机信令数据之类的还必须有官方协调。
Victor:目前这种数据服务有付费的用户吗?
茅明睿:还谈不上数据服务,都处于研究阶段,没有商业模式。今天群里分享的无锡手机信令数据研究也是规划行业的典型案例。
黄明峰:规划不需要实质性数据。
赵刚:人口、企业、交通等数据也要协调。
徐琪:但是微博抓取数据是很有启发意义的。也看到你们设计数据源的专业。
Brainlai:手机信令数据是从运营商提供的吗?基站A-bits口?
茅明睿:规划部门是无锡规划编研中心,数据挖掘是由云砥公司提供的服务,信令数据需要运营商支持。
老波:落地,实。赞!如何可持续与协同发展,如何形成真正“大”的大数据研究应用?
Brainlai:数据的可获得性-的确是大数据第一步。
黄明峰:我在想一个问题,大数据的快速这个特征定义是不是有问题?
茅明睿:我觉得应该是高频。我觉得高频是大数据与数字城市时代的海量低频数据最本质的区别。
张涵诚:这一种实践可推广在零售企业的客户时实动态图不?
黄明峰:陈秘书长,其实建立一个数据的交易机制的确是破冰的途径。
陈新河:4v中2V不是必要条件--大和速度
黄明峰:北京有这种数据采集的末端,其他城市就没有
茅明睿:规划可以容忍几个小时甚至几天才出来,毕竟,规划院搞不起高大上的架构,养不起牛逼的架构师,但是我确实需要一个DBA。还望诸位推荐。
黄明峰:现在各个城市共同的末端采集就是视频监控。
赵刚:现阶段,数据获得,一方面寄希望,政府开放基础数据。更多,还得靠各种信息基础设施中的各种技术性合法获得,如日志、信令、抓取、视频等。
茅明睿:我们这种跨界的半拉子,自己做做研究成,搞实时服务就很困难。我手上有上千个图层的空间数据以及这两年搞定量研究获取抓取的数据资源,做完研究后如何变成普通规划师可用的分析系统,提供定制化的服务,还有困难。
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:添加微信号:sophie0306,并注明“申请入群”+所在单位+职务+真实姓名+联系方式(微信号码+手机号码),科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。
点击下方“阅读原文”直达犀牛财经网