城市数据实践:出租车数据的处理与可视化展示
【城市数据研习社——优秀学员作品展示】
出租车数据的处理与可视化展示
前言:本期数据实践栏目,来自城市数据研习社社员魏小帅的实践案例,学号A40。
魏小帅目前就读于同济大学城市规划系,于2016年8月报名参加了由国匠城和城市数据团共同举办的《面向规划实践的数据能力增强计划》,是城市数据研习社苏州分社成员,具备城市数据综合分析能力,特此颁发认证,以资鼓励。
本栏目将持续推出城市数据研习社社员作品,并作为课程考核环节,为达到实践能力的社员,提供在线能力认证,证书网址:www.caup.net/cert ,也可在公众号菜单中查询。
往期回顾:
大家好,我是小帅,人同其名,如果帅是一种罪,那我已经罪恶滔天,本帅目前就读于同济大学城市规划系,研究生三年级。本期,我将为大家分享一下如何处理城市出租车数据。
在城市级交通大数据中,较为常见的有地铁刷卡数据、常规公交刷卡数据、出租车GPS数据。另外,还有在互联网浪潮的推动下兴起的滴滴打车GPS数据以及Mobike行车记录的GPS数据等。
但是一直以来,对于出租车GPS数据的应用主要集中在两个方面。第一,作为出租车运营管理中心监控使用,可以实时获知每辆出租车的位置信息、载客状态等。第二,通过出租车不断上传的GPS数据,包括运营速度字段,推算城市道路的拥堵情况。但是,利用出租车GPS数据分析客流需求以及出租车司机群体的运营路线,这样的研究还较少。
关于出租车GPS数据研究较少的原因,本帅斗胆臆断一下。
首先,出租车作为交通工具受到人们的重视程度不如地铁和常规公交。地铁和常规公交的乘客人次也远远高于出租车。其次,相对于地铁和常规公交而言,出租车没有固定的站点和线路,导致研究问题不易聚焦。
最后,出租车GPS数据的数据结构相对复杂,数据处理难度也相对较大。
于是,本帅怀着强烈的好奇心,开始着手处理上海市某日的出租车GPS数据,看看能玩儿出什么花样。
Step1:提取载客状态
原始数据中,每辆车每隔一段时间(一般为秒数级)就会上传一条状态数据,包括 taxi_id,time,lng,lon,speed,state。根据运营状态(state)的切换区分空驶状态与载客状态,并识别出每一单行程的路径。
随机抽选一辆出租车,识别出了运单42次。这一步是为了将无序的GPS数据处理成了有序地,并增加了trip_id字段,以下为上海某一老司机一天之内的订单形成轨迹图:
这位出租车师傅,一天共接42单,主要活动在徐汇区和黄浦区。
Step2:打车需求空间及时间分布
将step1得到的数据,取每次载客的起点,即可得到打车需求的空间分布。
从空间分布上看,打车需求主要集中在外环线以内的地区,以及市级对外交通枢纽,如虹桥综合交通枢纽、浦东机场。在中心城区内,淮海中路、人民广场、陆家嘴、徐家汇、五角场等商业中心的打车需求明显高于其他地区。
从打车需求的时间分布上看,中午12点至13点是打车需求最旺盛的时间段。此外,晚上20点至21点也存在一个明显的小高峰。
当然,也可以进一步得到去特定地点的打车需求。例如,打车去浦东机场的空间需求分布。
去浦东机场的打车需求主要集中在中心城区,特别是淮海中路、人民广场及陆家嘴地区。
Step3:出租车OD空间分布
在step1所得到的有序的载客记录中,选取每次载客的起点和终点,即可得到出租车出行的OD空间分布。
可以明显看到,市级商业中心与交通枢纽等人流密集地之间的打车需求较大。特别是虹桥枢纽与淮海中路和人民广场的联系很强。
由这万余辆出租车所描绘出的轨迹中,我们可以看到这座城市清晰的结构。虹桥--市中心、五角场、陆家嘴等等。似乎所有出租车的可能性都已标注在一张巨大的城市蓝图上,不再有改变的空间。
Step4:出租车全天绩效分析
前三步都是从城市规划的角度所做的一些分析。但是,无法遏制的好奇心将我带到了出租车运营状况的问题上。以出租车为单位,统计每辆车每天的接单数、载客里程、运营收入、平均载客里程、全天总行驶里程、夜间接单数等等指标。通过这些指标,可以勾勒出出租车司机群体的工作状态。
辛苦工作的出租车司机接单数主要集中在30-45之间。当然,极少数老司机能突破60。
出租车司机一天的运营收入(毛收入)的平均值为1130元,而在运营收入在1000元至1400元之间的占到40%以上。
Step5:出租车江湖门派分类
数据越玩越有劲儿!于是,本帅以出租车司机不同的接单策略,总结出了出租车江湖的五大派别。
可以看到:
1,接单王以平均1566元的运营收入在高手间的角逐中,率先败下阵来。看来只靠苦力努力以及暴力刷单,在套路深厚的老司机流派中显然是没有太大前途的。
2,另辟蹊径的夜行侠和盘踞区域的稳定僧,分别以1599元、1616元的成绩位列第二梯队。只要在特定的时间和空间上找到属于自己的领域,就算竞争再激烈也有自己的一席之地。
3,而高手中的高手,将在效率帝和长途哥中间产生。在最后的决斗中,效率帝凭借1710元的运营收入,以微弱的优势战败了长途哥,获得了年度最佳老司机流派的殊荣。
虽然在各类老司机中,效率帝的平均收入最高,但是大家都知道高手之间过招,胜负往往在一念之间。
因此,在不同的预期目标下,最优策略可能会有所不同。请看下图:
可以看到,长途哥和效率帝这两条曲线在不同的预期收益之间来回波动,交替上升。当预期收入设定在1500元时,长途哥会占据上风,而在1500元至1870元之间,则是效率帝胜出,但假如要拼极限收入能力,最后还是长途哥独领风骚。
五大派别策略的详细介绍,请参看城市数据团《老司机的江湖》。
一个数据分析师的自我修养
在做了这么多数据分析工作之后,我来想谈谈自己的感触。
1.基本的分析数据、处理数据、数据可视化的能力。这些技能层面的东西是基本工,必须掌握,且要不断进步、更新。
2.对数据所包含信息的敏感性。什么样的数据有价值,什么样的数据能做到何种深度的研究。这种直觉性需要慢慢培养。从事数据分析的经验越多,我们的直觉判断就越准。这可以保证我们不会在一堆破烂儿数据中做无用功。
3.保持强烈的好奇心。我很多时候在分析数据的过程中,真的是完全停不下来。因为自己特别好奇会得到什么样的结果。数据结果是否会符合自己的预期?如果不符,又是什么原因造成了。
就在这环环相扣的好奇心驱动下,我不断深入探寻数据以及数据背后的故事。所以对我来说,每一次分析一批数据都是一次奇妙的探秘之旅!
推广:
[*] 城市数据研习社是国匠城、城市数据团共同举办的持续性学习组织,社员将享受到持续更新的数据课程,免费使用的数据插件,以及社群内的交流答疑。
目前,城市数据研习社开启了“千人计划”,希望能够从规划师中首先招募1000人,作为社群的中坚力量,助推规划师个人发展。
城市数据研习社咨询群:413942566
长按识别二维码,腾讯课堂
报名加入城市数据研习社
社员机构列表