查看原文
其他

【论文放送】基于北京公交刷卡数据和兴趣点的功能区识别

2016-09-10 韩昊英 于翔 龙瀛 北京城市实验室BCL
摘要:城市在其发展过程中逐渐形成居住区、工业区和商业区等不同的功能区。识别这些功能区并理解其分布特征,对于把握城市结构以及制定和使用科学合理的规划具有重要作用。本研究基于2008年4月北京市连续一周的7797余万条公交IC卡刷卡数据,将其转换为每个公交站台流量的二维时间序列数据,结合居民日常出行行为研究,利用数据挖掘技术,构建了基于公交刷卡数据和兴趣点的城市功能区识别模型,并将识别结果在交通分析小区尺度上汇总。研究结果显示,利用城市功能区识别模型,通过冗余数据的筛除和特征的创建实现对数据的有效降维,并选用期望最大化算法对处理后的数据进行聚类分析,结合居民日常出行相关特征和兴趣点分布数据对聚类结果进行诠释,可以快速有效地识别出与北京市土地利用现状地图具有一定匹配度的北京市各功能区。本研究的方法可以辅助规划人员和公众有效识别和理解复杂的城市空间结构,对城市地理及规划研究具有重要的理论和实践价值。
关键词:公交IC卡刷卡数据;兴趣点;出行行为;功能区识别;北京
1 数据

本研究的数据主要为北京市2008年4月连续一周(4月7日至4月13日)的公交IC卡刷卡数据(该数据不包括轨道交通刷卡数据),其中共涉及超过600条公交线路(上下行计算共计1287条,其中一票制线路566条,分段计价线路721条),约3.7万个公交站点(stop)和8691个公交站台(platform)。图1为北京市公交站台(platform)的分布图。


图1 北京市公交站台分布


同时,为了研究的方便,北京市被划分1118个交通分析小区(traffic analysis zone,TAZ),如图2所示。

图2 北京市交通分析小区分布

本研究所使用的公交IC卡刷卡数据中的每条记录主要包含以下基本信息:持卡人的基本信息、卡类型、每次刷卡的时间和地点等。该研究数据共包含77976010次乘客刷卡记录,共对应着北京市8549072张一卡通。鉴于非技术原因,本文所使用的公交IC卡刷卡数据不包括祥龙公司的运输线路数据和城市轨道交通数据。北京市公交线路按照计价方式主要分为两种:分段计价线路与一票制线路,本研究为了统计各公交站台上下车流量,所用数据主要为分段计价刷卡数据,共37649207条。
本研究中所使用的兴趣点数据(POI)为北京市2010年兴趣点数据,共有113810条,来自新浪微博地理服务平台,如图3所示。

图3 2010年北京市兴趣点空间分布

不同类别的兴趣点数量如图4所示。

图4 2010年北京市兴趣点分类统计

2 研究方法
本研究以LBS技术所提供的城市公交IC卡刷卡数据和兴趣点数据为基础,利用数据库系统对这些数据进行预处理,使之成为能被数据挖掘工具所直接使用的数据;之后构建城市功能区识别(discovery zones of different functions,DZoF)模型,通过聚类分析和模式识别实现对城市功能区的识别,本研究的整体技术路线如图5所示。

图5 技术路线

3 结果
1
公交站台聚类结果及TAZ尺度汇总
利用EM算法对公交站点依据流量数据进行聚类,分别得到6个不同的簇(每一个公交站点唯一地属于一个簇,C0~C5)。利用公交站台和交通分析小区的空间从属关系,对每一个交通分析小区进行统计,分别统计各小区中从属于不同簇别的公交站台数。
现实情况下,商住、产住等混合用地是广泛存在的,土地区块在功能上往往呈现多元化,为了方便表征及可视化,本文选取分布最多的簇别作为该交通分析小区的类别,将聚类结果在交通分析小区的尺度上汇总(Sparse为未分类区域),如图6所示。

图6 北京市功能区域

2
功能识别
2.1 POIs模型建立
依照公交站台聚类结果,对各聚类所得簇(C0~C5)分别建立POIs数据模型,计算各功能区的频数密度值和类别比排名(rank of categoryratio,RCR)值,如表1所示。

表1 EM聚类所得功能区的兴趣点特征值(FD:频数密度,RCR: 类别比排名)

2.2 居民出行时间流量特征
由EM算法聚类得出的簇(C0~C5)在一周内的工作日、休息日出行时间流量特征(上下车人数),如图7~图10所示。

图7 EM聚类所得各簇的工作日上车流量

图8 EM聚类所得各簇的工作日下车流量

图9 EM聚类所得功能区的休息日上车流量

图10 EM聚类所得功能区的休息日下车流量
2.3 识别结果
针对EM算法聚类结果进行功能识别:
成熟居住区(C0)
该区域内住宅兴趣点分布较广,商务住宅比例较高(FD值为-0.073),且为居民生活服务的医疗卫生服务、住宿服务和教育服务等兴趣点配套均衡,是典型的居住区兴趣点分布。
同时通过一周流量数据分析,可以发现该区域工作日最大的出发流量高峰是在清晨(7∶00-8∶00点的上班时段),返程流量高峰出现在傍晚(17∶00-19∶00点的下班时段),是典型的居住区出行模型。
待开发区(C1)
该区域兴趣点主要为摩托车、汽车服务,分布较多的汽车4S店、摩托车销售、汽车摩托车维修点等,周边基础设施建设尚不健全。
风景名胜区(C2)
该区域分布比例最高的兴趣点是风景名胜点,在该类别相较于其他区域具有较高FD值(FD值为0.042)。同时为游客服务的餐饮服务(1/20)、住宿服务(8/20)等在外部排名(RCR)中也较靠前,而且该区域工作日、休息日出行流量差距不大,每天不同时段出行相对平均,休息日出行流量高于工作日流量。

商业娱乐区(C3)
从该区域兴趣点数据分布特征可以看出:餐饮服务、购物服务、生活服务的FD值较高,在所有簇中分别排名第2、第1和第1。与此同时,餐饮购物信息点在区域内部所有信息点中占比例较高(CR值较大)。例如,餐饮服务类的簇内CR值排名第7,购物服务类的簇内CR排名第3。同时,通过流量特征图,可以看出该区域工作日下班时段(17:00-19:00)会出现下车流量高峰,说明很多居民在该区域消费购物,以及参加休闲娱乐活动。
公共管理及科教文化区(C4)
该区域分布比例最高的兴趣点是政府机构及社会团体,相较于其他区域具有较高FD值(FD值为0.22),该类型兴趣点占该区域中兴趣点数的9.7%,RCR值排名为第二。并且该区域内科教文化兴趣点较多。同时交通服务设施、体育休闲服务、住宿服务等在外部排名中也较靠前。
新兴居住区(C5)
该区域的兴趣点数据结构和C0类似,按照各类兴趣点数量占该区域内中兴趣点总数的比例进行排名,住宅类位列第5,同时该区域内医疗保健第3、生活服务类第7,是典型的居住区兴趣点分布结构。
另一方面,从工作日、休息日站点流量数据可以看出,该区域工作日最大的出发流量高峰是在清晨(7∶00-8∶00点的上班时段),返程流量高峰出现在傍晚(17∶00-19∶00点的下班时段),是典型的居住区出行模型。但是该区域流量相对于C0区域较少,日流量为C0的1/4左右,这说明该区域人流量不大,尚处在发展阶段。

未分类区域(Sparse)
由于山地、森林、河流等原因,部分区域无公交流量数据,本文将该类区域归为一类。
根据功能区识别结果,对各功能区内的交通分析小区数目及面积进行了统计,如表2所示。

表2 各功能区信息统计

3
识别结果的检验
为了检验城市功能区识别模型识别结果的准确性,本研究将实验得到的北京市不同功能区域图与北京市城市总体规划(2004-2020)中的用地现状图以及谷歌地图进行对比。此外,我们还将研究结果与详细的北京市各交通分析小区土地利用数据,进行分析对比(原始数据包含各个交通分析小区内的各类型用地的面积),以检验识别的总体准确率。根据公共用地面积(具体包含公共设施用地和市政用地)占该交通分析小区总面积的比例大小,对1118个交通分析小区由大到小进行排序,选取前50个公共交通分析小区,除去无公交IC卡刷卡信息的分析小区,共有44个分析小区。其中有28个被模型识别为公共管理及科教文化区,准确率达63.6%。采用同样的方法,对居住用地进行分析对比,准确率为58.06%,对比结果如表3所示。

表3 识别结果与交通分析小区用地情况对比分析

综合考虑北京市商住、产住高度混合的用地现状与研究对比分析,DZoF模型对于北京市主要的功能区能有效地加以识别,具有一定的准确度。
4 讨论和结论
基于能够获取的城市公交刷卡数据和兴趣点数据,本文通过构建DZoF模型,进行了北京市城市功能区的识别,共得到6个类别的功能区,分别为公共管理及科教文化区、风景名胜区、商业娱乐区、成熟居住区、新兴居住区和尚未分类区域。本研究基于北京市的公交IC卡刷卡数据和兴趣点数据,通过数据采集、数据预处理、聚类和模式诠释等一系列工作对北京市城市功能区进行了识别,并对识别结果进行了检验。
总体而言,研究结果显示DZoF模型对于北京市城市功能区特征具有一定的识别能力,更重要的是验证了基于大规模的人类活动数据,利用计算机数据挖掘分析技术并结合传统调查统计而开展城市空间结构研究的可行性。
本研究的结果能够更好地帮助人们轻松地理解一个复杂的城市的空间功能结构,辅助城市规划者基于人类活动和兴趣点开展不同城市功能区的规划,对城市规划具有指导和参照价值,也可以为房地产开发的选址等具体实践提供重要的决策支持。同时,研究中所使用的方法可以为未来城市空间结构的研究提供借鉴和参考。
本研究仍有很多不足之处,需要在未来的研究中加以改进。 ※本节内容仅选取《基于北京公交刷卡数据和兴趣点的功能区识别》文章的简短概要,全文详见《城市规划》2016年第6期。 

延伸

北京城市实验室官网Bus Landscapes 专栏

Beijing City Lab,Projects3 Bus Landscapes(http://www.beijingcitylab.com/projects-1/3-bus-landscapes/)

中国主要城市公交站点服务范围及其空间特征评价

在城市公共交通系统发展过程中,公交站点的覆盖情况是评价公交系统服务水平的重要指标。基于全国313个主要城市精细化的公交站点数据,计算了其城市城镇建设用地范围内公交站点覆盖率,其中全国281个地级及以上城市的公交站点覆盖率平均值为64.4%。还发现公交站点覆盖率与人口密度和公交站点密度、万人公交服务调用次数与万人拥有公共汽车辆数和市区人均GDP两组变量呈显著相关。基于公交站点覆盖的空间特征,将313个城市聚合为五类,试图找到中国城市公交服务的一般模式和规律。进一步,基于Flickr照片、位置微博和兴趣点数据,对公交站点500m服务范围的人的活动及设施情况进行分析,结果显示,该服务范围内包括了94.4%的设施和超过92%的人类活动,即我国城市公交站点布局,满足了大多数人的活动需要和设施需求。本文兼顾宏观尺度与精细化的分析单元,是对利用精细化数据和分析方法探讨宏观尺度问题的“大模型”研究范式的一次尝试,分析结果也为城市公共交通服务优化与“公交都市计划”的有效推进提供了支撑。
基于公共交通智能卡数据的城市研究综述

基于智能卡的公共交通自动计费系统的广泛应用产生了大量的基于个体的微观时空数据。这种数据不仅记录了持卡者的出行行为,同时也在个体维度揭示了城市空间的使用模式。由于其时空信息丰富、成本低、样本量大的优势,公交卡数据受到了越来越多的城市/交通规划研究者的青睐,开始在城市规划研究中发挥着日益重要的作用。本文主要总结了公共交通智能卡数据在定量城市研究中的应用,综述并比较了国际国内基于公共交通智能卡数据研究的最近进展。综述涵盖了(1)数据处理与起讫推算,(2)公共交通系统的运行与管理,(3)城市空间结构分析,以及(4)出行行为与社会网络等四个方面。最后,总结了已有研究,简要介绍了隐私保护和信息获取等问题,并指出未来可能的研究方向。

基于公共交通智能卡数据的社区发现

分析职住关系与通勤出行

城市功能区识别

极端出行者

北京市公交线路和站点

利用北京公共交通刷卡数据(SCD)研究城市贫困问题

北京地铁票价查询系统

流动性与稳定性

走出象牙塔

北京市公共交通智能卡其他相关研究

BCL在GeoHey上开设了科研成果和数据可视化门户,欢迎品尝

(https://geohey.com/gallery/bcl/dataviz)


※获取更多相关内容及资料下载,请点击“阅读原文”访问官网。


更多内容,请点击微信下方菜单即可查询。

请搜索微信号“Beijingcitylab”关注。

Email:BeijingCityLab@gmail.com

Emaillist: BCL@freelist.org

新浪微博:北京城市实验室BCL

微信号:beijingcitylab

网址: http://www.beijingcitylab.com

责任编辑:橘子

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存