聚焦︱基于感兴趣点和滴滴数据的打车需求分析
The following article is from 地理信息世界GeomaticsWorld Author 地理信息世界
导读
近年来,随着网约车技术的发展,打车已成为大部分城市居民出行的常规方式。本文利用打车数据和感兴趣点挖掘人们出行规律,刻画工作日和周末不同时间段内打车需求的聚集区域差异,揭示打车数据与POI类型间的关联关系,以期为拓展城市居民出行行为研究、智能化网约车等提供一定的参考价值。
人类发展经历了数千年前的经验范式,几百年前在科学实验基础上模拟归纳形成了相应的规则和理论;几十年前采用模拟仿真方式验证理论及方法的正确性的计算科学范式等阶段。现如今进入联合理论、实验和模拟一体的数据密集计算范式阶段,即对庞大数据进行数据挖掘,探索数据关系,发现规则。王家耀提出大数据带来科学研究思想的转变,转变为以数据为主,进行数据分析,数据挖掘发现以前科学方法发现不了的新模式、新知识、新规律。
大数据包含生活的各个方面,如个人的微信、脸书、打车数据、共享单车、公交刷卡数据等包含地理信息的数据。而这些数据冗余复杂,难以分析出更深层的人们出行目的、方式、聚集类型等特征。随着网约车技术的发展,打车已成为大部分城市居民出行的常规方式。打车需求量反映的是从该地点到其他地方的需求单数,用户下单就表示下单时他处于打车点或附近,除非有突发状况,用户都会选择在该地等车。打车需求量反映用户的出行需求。中国支付清算协会2014年的问卷调查数据统计显示,72.3%的滴滴用户月均收入在3 000元以上,69.8%的用户每周都有打车行为。
打车需求原因多样,包括赶时间、恶劣天气、公共交通工具停运、地理位置较偏、乘坐舒适等。本文利用打车数据和感兴趣点(Point of Interest, POI)分析人们出行规律,刻画工作日和周末不同时间段内打车需求的聚集区域差异,揭示打车数据与POI类型间的关联关系,对于提高打车活跃时间段判定区域精度,合理安排空余车辆满足不同时间段打车的需求具有重要价值,并且研究城市感兴趣点也有助于理解城市功能。
国外研究多基于POI和用户行为、社会影响、地理因素、时间变化对用户下一个签到地点进行预测的分析。为提高下一个签到点(POI)预测的精度,Liu提出GT-BNMF(Geographical-Topical Bayesian Non-negative Matrix Factorization)模型,将话题空间转化为潜在空间抓取观察特征和话题事件的关联。Cheng C提出factorized personalized Markov chains Localized Region(FPMCLR)模型,只考虑周围9个栅格值,得出下一位置可能签到的概率推测下一时间POI的签到位置。Lian D提出地理因式矩阵法(Geographical Modeling and Matrix Factorization,GEOMF),解决了签到位置的稀疏性,用投影梯度下降法解决边界限制的最小平方问题。
国内关于POI的研究主要有POI分布特征,结合道路的POI网络核密度分析城市功能区和城市行业分布,结合人类移动模式、签到人数、微博签到数据、道路网络、Smart Card Data(SCD)和POI数据识别出城市的功能区以及分析商圈分布、零售业聚集空间分布。如陈蔚珊根据核密度估计法估计商业中心扩散趋势,以街区为单元,进行零售业集聚区空间分布分析。ShenY提出“3-D”模型,利用道路可达性密度、网络可达多样性和社交媒体传送效率作为一个整体来划分城市功能区。Zhi Y提出低秩逼近法,可以同时投影时间空间特征在相同的子空间,还可直观展现功能区域和人类活动的关联。也有学者研究了城市间边界地区协同模式的挖掘,不同类型POI的协同关系也有助于城市结构的分析。
近年来,国内也有学者结合SCD、浮动车数据、人员出行轨迹、车辆轨迹分析人们的出行规律,对车速和上下车刷卡数据进行了研究,在周末和工作日高峰时间和非高峰时间的浮动车速度变换引起的时间动态变化,目的地和出发地的识别。程静结合时间序列距离度量和事件序列自身相关性的聚类方法分析人们出行规律,Yuan J应用了LDA和MDR等方法进行挖掘信息。工作日和周末的差别也反映出人们出行的特征,会影响人们打车的需求量。
POI的协同定位,聚类分析和时间的分析可以帮助人们分析城市结构和人们的出行规律。之前关于POI的研究是针对按照道路网络进行POI的个数核密度网路分布显示,没有考虑POI功能类型,本文方法考虑到POI类型,以及结合POI和滴滴打车需求数据进行协同分析挖掘人们出行规律。区分周末和工作日,对一天内打车活跃时间段早高峰、中午、晚高峰、夜晚进行了分析。有关结论对于拓展城市居民出行行为研究、智能化网约车等具有一定参考价值。
本文数据为滴滴网上公布的公开数据,收集了北京市2016年8月6日到8月12日的滴滴打车数据,其中6~7日为周六周日,8~12日为工作日,文件中包含0:00~23:00每个时刻打车点需求量信息,每时刻包含500左右个打车点数据。属性有经纬度、打车需求量,时刻信息。总体上包含80 000个点的打车需求信息。统计发现,打车需求量在4~4 477人,清除数据中很大的异常值,即对结果造成不准的数据,保留了4~486人的数据,文本使用了数据中的xy 坐标。此外还有北京市的街区和北京市道路矢量数据,总体数据如图1所示。
图1 北京市功能区、街区、主要道路和8月10日10:00打车需求点地图
对滴滴打车需求数据时间分段统计结果见表1,其中概率分布为几个时间段的打车需求量占一天总体打车需求量的比例。从表中可以看出,打车需求量在0:00~6:00、7:00~9:00、10:00~11:00、12:00~13:00、14:00~16:00、17:00~19:00、20:00~21:00、21:00~23:00几个时段聚集较为集中,周末几个时间段打车需求所占比例相差不大,较多的时间段为14:00~16:00为17.2%、17:00~19:00为16.4%、21:00~23:00为17.1%。工作日的时间段分布较大,早高峰平均占比为20.8%,夜晚打车需求平均占比为28.9%,其次是14:00~16:00为11.4%,17:00~19:00为14.5%。针对上下班和中午和夜晚4个打车人数较多的时间,文本选取7:00~9:00、12:00~13:00、17:00~19:00和21:00~23:00共4个时间段进行打车时间段的分析。
表1 8月6日~12日各时间段打车需求所占比例划分
究其原因,工作日出行主要目的为工作,周末出行目的也包含娱乐休闲。住宅区在城市周围分布较广工作日期间7:00~9:00时间段这些地区的住宅区区域打车需求量较大。商业办公区大多分布在城市商业中心(CBD)附近,这些区域活跃时间段主要有两个:17:00~19:00时间段和21:00~23:00时间段。周末主要活动为休闲娱乐,由于周末时间较为自由,周末早上打车需求量与工作日相比较小,相反中午12:00~13:00时间段和傍晚17:00~19:00时间段的打车需求量就会较大。按照工作日与非工作日的人们出行目的不同划分,可挖掘出人们的出行习惯,以及对商业区、住宅区等功能区的识别。本文对时间进行了划分,7:00~9:00时间段早高峰,12:00~13:00时间段午餐休息时间,17:00~19:00时间段晚高峰、21:00~23:00时间段晚上加班娱乐社交活动。
2.2.1 核密度估计原理
核密度估计(Kernel Density Estimation),由Rosenblatt(1955)和Emanuel Parzen(1962)提出,是概率统计中估计未知密度的函数。采用平滑的峰值函数来拟合观察点,根据点的真实概率分布进行拟合,地理中观测点根据最近的数据点计算该数据分布特征,一般地,数据点相聚越近,产生的密度值越大。
概率密度函数一般形成为:
K()为核函数(不为0、积分为1,均值为0)。主要的核函数有uniform,normal,triangular,biweight等。h >0,平滑参数,称为带宽。h越大,函数越尖锐,反之越平滑。
高斯核函数的表达式为:
式中,xc 为核函数中心,x 为滴滴数据,σ 为函数的宽度参数。
本文利用二次核函数(高斯核函数),核密度分析展现了数据的聚集状况,本文使用核密度对滴滴数据进行聚类,针对不同的时间段,具有不同的聚集区域。
2.2.2 打车需求的核密度分析
如图2所示,每个时刻打车需求点的分布都为均匀分布而且平均最近的两个打车需求点间隔1 000 m左右,所以每个点的影响范围在500 m内。因为打车需求分布为均匀分布,同一地区某个时刻可能在该地区没有打车时刻信息,而打车时刻信息不能采用一般地理插值方法进行插值,打车时刻信息与打车点周围的POI有关。本文要得到打车最大的时刻信息,没有打车时刻的地区就要通过其周围500 m范围内其他打车需求点最大的打车时刻赋值,这样每个地区都得到了最大打车时刻信息,就像栅格图层一样。然后对最大打车时刻进行聚类,得到最大打车时刻区域。为避免个别时间因为活动造成对整体平常打车需求的影响,所以整合了几天数据进行聚类分析。
对每个打车点赋上该点500 m范围内最大打车需求量的时刻属性,代表一天24个小时这个点打车需求量是最大的时刻。当前打车点i 在8:00时刻打车需求数为50人,若是打车点i 的500 m范围内有打车点j 为在9:00时刻打车需求数为100人,打车点i 的最大打车时刻属性就赋为9:00时刻信息。
图2 8月10日不同时刻打车需求分布
对所有打车点进行时刻属性重新划分,然后将时间分为4个打车时段,对4个时段的打车点进行聚类;针对周末与工作日的打车集聚区域不同,按照每个时间段进行核密度估计,输出栅格单元为50 m×50 m,搜索半径为500 m,得到每个时间段的核密度估计栅格图像。然后栅格转面得到工作日和周末的不同时间段聚集区域,如图3、图4所示。
图3 工作日不同时间段打车需求聚集区域(绿色代表早高峰,红色代表中午,蓝色代表晚高峰,紫色代表夜晚)
图4 周末不同时间段打车需求聚集区域(绿色代表早高峰,红色代表中午,蓝色代表晚高峰,紫色代表夜晚)
如图3所示,工作日主要打车时间段为早高峰,晚加班两个时间段早高峰打车需求聚集区域分布较广,主要的街道有太阳宫、小关、香河园、安贞、花园路、北下关、紫竹苑、八里庄、广外、东花市、潘家园、六里屯等北京市周边住宅分布较多的区域,人们早晨为了赶上班选择打车出行;晚高峰打车需求聚集区域主要是市区中团结湖、建外、东直门、东华门街道、建国门、朝外、海淀镇、中关村、望京等较为繁荣商业工作区,说明有很大一部分人们会在晚一点的时间选择打车回家,这个时刻地铁公交等交通工具有很大一部分已经停止运行;晚高峰打车需求聚集区域有金融街街道、羊坊店、西罗园、花乡等商业区和农贸市场等地区,说明晚高峰东西单繁荣和农贸市场人们较为聚集,有一部分人们在这个时间下班并选择打车回家,或是从农贸市场购买农贸产品回家;工作日当中午休时间聚集区域较少,主要在月坛金融街,以及周边燕园、高碑店、卢沟桥乡等地区,工作日期间人们主要出行需求是上下班,所以中午午休间的打车需求较少。
如图4所示,周末和工作日相比最大的不同是早高峰打车需求变少了,中午时间段打车需求区域变多,包括了学院路、丰台、方庄新街口、景山、和平里、亚运村、奥运村、来广营、酒仙桥、高碑店、三间房等景点、特色产业园区等偏娱乐而且距离也较市区较远的地区;而晚高峰分布也比较广,海淀镇、曙光、紫竹苑、望京、酒仙桥、大屯、展览路、金融街街道、建外、六里屯;说明周末期间人们打车需求在周边地区以及是商业中心,人们周六加班早点回家,人们晚上聚会活动;晚上活动期间打车需求主要聚集在商业中心,包括西长安街、椿树、大栅栏、建国门、崇外、东花市、呼家楼、团结湖、八里庄、马家堡,马家堡辖区内拥有很多大型购物娱乐餐饮商业设施,以及汽车销售,写字楼和政府部门,周边分布着很多住宅小区。
分析打车活跃区域内打车点与POI的关联关系,打车人数根据人口聚集场所的类型而有所不同,如公司、学校、住宅区、景点、商铺都是人数聚集较多的场所,而这些POI类型的活动时间不同,导致打车时间不同。因此本文对打车点的五类POI进行统计,分析打车的活跃时间段。
在打车活跃的区域统计打车点附近公司、住宅、商铺、景点、学校5个POI类型个数,统计在打车点附近100 m范围内POI的个数,同时记录下不同区域内的打车平均需求量,以及打车点个数。
统计每个区域内的打车点100 m范围内的POI,得到工作日(表2)和周末(表3)主要区域内五类POI的平均个数,打车点个数,平均打车人数,表2中Id与图3和图4中的区域编号一一对应。
表2 工作日POI类型及打车需求统计
表3 周末打车点附近POI类型及打车人数统计
通过观察打车活跃区域得出晚上21:00~23:00打车聚集区主要是CBD地区西单、东单,工作日会在望京、中关村、东直门以及北部较远的上地街道很大需求量,这些地区都是公司较为聚集的主要工作区,周末会在八里庄(朝)、马家堡、南苑、平方街道的某些地区打车需量加大。如表2、表3所示:工作日当中市中心CBD、东西单、中关村的打车需求量在200人次以上,这些地区的公司(50~100人数)个数在50个左右,周末当中市中心东西单(表3中的Id为5,22的地区)的公司个数为20个,原因是周末人们分布比较分散,区域较大,打车点分散较大。由于北京市望京地区、上地地区、麦子店地区也分布着大量公司、学校,是正在发展的经济地区,打车点附近公司分布较少,同时离市中心较远,所以这些地方21:00~23:00时间段打车需求量较大。
周末时马家堡、平房、八里庄(朝)等街道,打车人次分别为25、48、76人次,马家堡分布着大型的购物商场,平均商店购物服务点为3个,八里庄(朝)地区属于北京CBD东部延长线上的商业区和住宅区,由之前的纺织厂发展而来的经济开发地区,同时这里分布着寺观庵堂,如红庙、延静寺、慈云寺、甘露庵等,公司个数大约为20个,学校个数为4个,景点个数为1个以及平房街道的朝阳大悦城娱乐地区,因此这些娱乐休闲地区在周末21:00~23:00时间段打车需求量较大。
早上7:00~9:00时间段在工作日当中主要的打车活跃区域在北京北部奥运村、亚运村、太阳宫、香河园、紫竹院、北下关、八里庄、八里庄(朝)、呼家楼、劲松、东花市、广外街道等距市中心三环到五环的住宅区,打车点的需求量大多在20~60人次之间。周末的7:00~9:00时间段活跃区域较少,集中在北太平庄、安贞、六里屯、三间房、卢沟桥乡街道附近,且打车需求量在40以下。周末人们早上出行较少,较远地区的早上打车需求量较多。
工作日中17:00~19:00时间段在工作日当中集中在市中心的建外、金融街、羊坊店、陶然亭和较远的花乡附近,建外、金融街等经济繁荣地区的打车需求量在100~160人次之间,羊坊店、花乡打车需求量在30人次左右。周末17:00~19:00时间段分布较广,包含海淀镇、中关村、奥运村、展览路、金融街、建外、望京、酒仙桥、通州等街道旅游景点和购物区,通州和建外的打车需求量在100~130人次之间,海淀镇、中关村、紫竹院、望京地区的打车需求量在50人次左右。紫竹院和展览路的打车人数在30人次左右,周末人们晚高峰期间,奥运村、中关村、望京地区,人们游玩购物。无论周末还是工作日当中,通州地区的打车需求量都大,周末为127人次,周日为72人次,说明人们在周六周日期间到该地区的人数较多。
12:00~13:00时间段周末分布较多,包含学院路、景山、和平里、亚运村、高碑店、方庄、三间房、丰台、展览路等街道包含市中心故宫景山和周边的旅游景点,其中打车需求量较大的地区为学院路、展览路、景山、方庄地区,打车需求量为50人次,学院路地区分布着很多商铺,展览路附近有北京动物园,景山地区的分布着很多景点,方庄地区附近有龙潭公园、北京娱乐园、方庄体育公园,区域内娱乐设施和酒吧餐馆分布较多,这些地区都靠近旅游景点、商场等休闲场所。工作日当中12:00~13:00区域打车活跃区域较少,主要集中在月坛,燕园、高碑店、卢沟桥乡、来广营、丰台、颐和园等地区,月坛、燕园、颐和园附近的打车需求量在30人次左右,来广营、高碑店、卢沟桥乡、西国贸汽配城的打车需求量在10~16人次之间,这些地方离市中心较远。
同一区域工作日和周末打车活跃时间段会发生转变,其中转变较为明显的是北部地区的奥运村、亚运村、中关村、紫竹院等地区,打车活跃时间段都从早高峰和夜晚时间段转变为白天活动时间段(中午、下午),表明这些区域为复合区,周末在奥运村、亚运村地区游玩的人们较多,工作日中居住的人们较多,区域功能因是否为工作日而发生改变,因此打车需求时间因是否为工作日而异。
本文首先对一周进行周末、工作日划分和一天内时间的划分,主要分为打车活跃的4个活跃时间段:早高峰、中午、晚高峰、夜晚。然后用核密度分析方法得到不同时间段的打车聚集区域,分析每个聚集区域内打车与POI关联类型关联情况。早高峰北部太阳宫紫竹院和潘家园打车与住宅区POI关联较大,晚高峰东西单地区打车与商铺POI较大,夜晚中关村和CBD望京与公司POI关联较大,CBD、中关村等核心区域活动持续时间较长一般能持续到夜晚23:00时刻。北京市北部地区太阳宫、亚运村、和平里在工作日打车集中在早高峰时间段和周末集中在中午和晚高峰时间段。打车活跃时间段在同一区域会因为是否为工作日而发生变化,结合POI的属性和打车时间段更容易提炼出人们出行目的,更精确地在合理的时间段安排那些区域的出租车数量。
文本结合POI属性来提高打车需求量的分析,对打车高峰时间段进行了区域聚集,找到主要的打车聚集区域,将时间、区域、城市结构结合起来分析人们打车需求和目的分析。本文分析了打车点周围POI个数,但有的POI在空间上是属于一栋大楼。今后应考虑如何将三维高层楼宇定义聚集场所人数,POI展现了城市结构,需要分析不同类型POI的聚集人数,通过聚集不同POI类型聚集人数得到总体人数,更易分析不同地区的打车需求差异。
责任编辑:林冬娜、邓小云
文章来源:地理信息世界GeomaticsWorld