他们已产出全国5亿用户通勤方式数据,是如何进行挖掘分析的呢?
今年最后一期!点击上图,查看报名12月课程
本报告由百度地图慧眼与中国城市规划设计研究院联合研究发布,双方发挥各自的资源、技术优势,形成一系列具有行业前瞻性、实用性的研究成果,并促进研究成果的转化与应用。双方联合研究的领域包括:城镇化发展动态监控与政策支持、城市空间诊断、评估与模拟、人工智能与城市智慧管理、城市空间决策支持与业务咨询等。
本文作者介绍
阚长城,百度地图资深研发工程师
马琦伟,中国城市规划设计研究院学术信息中心博士
1 前言
交通问题是国内外城市共同面临的棘手问题,治“堵”已成为我国许多城市迫切需要解决的关键任务之一。在城市生活的各个时段中,以上下班通勤交通为主的“早高峰”和“晚高峰”时段,无疑是交通问题的“重灾区”。解决了上下班时段的通勤交通问题,就在很大程度上解决了城市的交通问题。
如果我们将城市的通勤流比作河流,那么要相对准确的分析、预测“水位”的消长,河流走势(通勤的OD数据)和水源情况(通勤方式数据)是我们需要获取的基本数据。在传统交通调查中,这两项数据都通过抽样方式得到,采样的覆盖度、均衡性和空间精度难以充分保证。
在大数据时代,通勤OD数据已可通过各类位置服务数据如手机信令数据、移动端定位数据等聚合得到,但通勤方式数据的获取仍是难题。这是因为,与OD数据相比,通勤方式数据是隐式的,除了直接的抽样调查,我们只能通过其它线索来推断通勤方式。这意味着,我们需要既覆盖海量个体,又具有丰富特征的“大而深”数据,才能做出较为正确的推断,而我们知道,数据的广度和深度往往是一对悖论。另一方面,针对这种“大而深”的数据,采取何种方式来推断最为精准,同样悬而未决。总之,数据源和推断方法,构成了解析通勤方式的两个主要难点。
图 1 社会研究中常用的观测集和数据集及与本研究数据集的对比
(1:现实挖掘数据;2:社会演变数据;3:朋友和家庭数据;4:志愿者数据;5:社会学印记研究;6:Midwest field station数据;7:Framingham Heart 研究数据;8:大规模通讯数据;9:上帝视角的全数据;10:百度慧眼通勤挖掘数据)
横轴代表数据集的时间跨度,纵轴代表特征数量,圆的大小代表数据集的规模。
从本图可见,本研究使用的数据集在既有各类数据集中较接近“全数据”。百度地图慧眼团队通过数据整合和算法集成,形成了范围覆盖全国、准确率达到近84%的通勤方式分类数据。
关键技术有两项:
l 整合多源数据,提取出高达60个分类特征,数据的广度和深度均有保障。
l 综合比选多种机器学习方法,最终选取精度最高的分类模型。
2.1 构建兼具广度和深度的数据集
通勤方式的挖掘主要基于百度地图位置大数据。从已有的调查结果可以发现,对于采用不同通勤方式的用户而言,他们在位置大数据中可能呈现出迥然不同的特点,而这些差异正是我们提取特征、构建分类数据集的基础。
图 2 样本通勤距离差异分析图
以通勤距离的分布为例,驾车、地铁、公交、骑行和步行样本之间存在明显差异,骑行和步行的通勤距离偏短,公交和地铁的通勤距离偏长,驾车通勤的距离分布则较为均衡,如上图所示。据此,可以将通勤距离作为分类的一项特征。
采取这一思路,共提取出高达60项特征,为后续的推断工作提供了充足的线索。
2.2 分类模型选择
在构建了数据特征后,通过以下技术流程完成通勤方式挖掘。
(1)利用贝叶斯、支持向量机、决策树和随机森林等算法进行模型训练。
(2)模型训练完成后,对各算法整体的准确和召回率进行评估,对各分类的精确率和召回率进行评估。
(3)最后基于训练好的模型对全量的通勤数据进行分类,产出全国的通勤方式数据。
图 3 通勤方式挖掘的技术路线图
在模型选择方面,由下图可以看出,随机森林整体的准确率和召回率都是最高的,最终我们使用随机森林模型进行分类。
图 4 不同分类模型的分类精度评估比较图
确定分类模型后,对全国主要城市中的用户通勤数据进行分类,产出每一个用户的通勤方式数据。将个体数据按照一定的空间单位进行聚合,便可以统计出每一空间单元中各类通勤方式的人数和比例。此处抽取北京部分区域通勤数据如下表:
表 1 北京市部分地区通勤方式数据一览表
根据上述数据,我们统计全北京市各种交通方式的占比。由图可知,经过多年的管控和引导,北京市的通勤结构已有所优化。目前驾车占比已降至24%,公交出行优势明显。此外,骑行占比已攀升到15%,共享单车功不可没。
图 5 北京市通勤方式占比图
3 空间特征探讨
3.1 通勤方式的空间分布特征
从空间分布来看,在北京市中心城区,不同交通方式存在明显的差异。就机动车通勤而言,距离城市主中心越远,比例越高,且城市东部和北部地区的机动车通勤比例明显高于城市的南部和西部地区;与之相反的是,距离城市中心越远,慢行交通的通勤比例越低,城市南部、西部地区的通勤比例要高于城市的东部和北部地区。
由此可以看出,机动车通勤和慢行通勤的分布都同时遵循同心圆和扇形两种空间分布模式,表明通勤方式的空间分布具有距离衰减性和空间异质性。其它通勤方式的分布也呈现类似的特征。
图 6 机动车通勤比例空间分布图
图 7 慢行通勤(自行车通勤和步行通勤)比例空间分布图
3.2 通勤和出行方式与其它空间要素的相关性
理解各类通勤和出行方式与其它空间要素的关系,有助于通过优化城市空间布局,实现更高效、绿色的交通组织。借助上文的分类结果,我们将初步探讨用地混合、道路布局和轨道交通服务三类要素与通勤和出行方式分布之间的关系,论证低碳交通规划的一些观点。
需要注意的是,通勤是以上下班为交通目的,出行则包含各种交通目的。后续的调查数据表明,通勤方式与出行方式高度相关。因此下文的部分讨论将结论从通勤方式推广到出行方式。
(1)高用地混合度可以有效压缩机动车出行率
由下图可以看出,北京市中心城区中用地混合度高的地区,其机动车出行率普遍偏低;反之用地混合度较低的地区,其机动车出行率则相对较高。这表明土地混合利用对压缩机动车出行率是卓有成效的。正如低碳交通规划所指出的,合理的土地混合利用可以将一系列相互关联的功能紧凑的安排在同一区域内,从而大大缩减交通距离,减少交通成本,提高步行比例,压缩机动车出行率。
图 8 用地混合度(上图)与机动车出行比例(下图)的对比
(2)供应充足时轨道交通服务可以压缩机动车通勤率,不足时效果不显著
轨道交通建设对出行方式的影响显得更为复杂。从北京的情况来看,大致以地铁10号线为分界,内外呈现不同的相关性。在10号线以内,地铁站点的覆盖度较高,此时地铁通勤的比例与地铁站点的密度正相关,机动车通勤的比例则与地铁站点密度呈负相关;而在10号线以外,情况则正好相反,地铁站点建设对压缩机动车通勤作用不显著,甚至站点周边地区机动车通勤率更高。
这或许可以部分归结为通勤成本问题。考虑通勤成本主要由时间成本、经济成本、舒适度成本等部分组成。10号线以内地区可以获取相对快捷的地铁服务,且乘车环境较好,区位较居中,而机动车交通则比较拥堵,因此地铁通勤成本相对较小;在10号线以外地区,地铁建设成为大型住区建设的驱动力,地铁站点周边集聚了大量通勤人口,而地铁服务能力相对滞后,使乘坐地铁的舒适度大大下降,候车、换乘时间变长,外部效应的存在使得地铁通勤成本反而高于机动车通勤成本,造成了站点周边地区机动车通勤率“逆增长”。
图 9 地铁通勤比例与地铁站点密度的关系
图 10 机动车通勤比例与地铁站点密度的关系
(3)高路网密度鼓励慢行交通
与用地混合类似,高路网密度会压缩机动车出行比例,并对慢行交通产生激励。其中一部分原因是路网密度较高的地区沿街界面较多,功能混合度一般比较高;另一部分原因可能是高密度的路网提供了更多的慢行交通选择,而大量的道路交叉口会显著降低机动车速度。
图 11 机动车出行率与路网密度的关系
图 12 慢行出行比例与路网密度的关系
4 小结
回顾全文,我们在百度地图大数据的基础上,进行多源数据整合,构建高维的特征矩阵,并选择准确率最高的随机森林算法作为分类算法,对用户的通勤方式进行了挖掘,取得了较高的准确率。
在此基础上,我们对各类通勤方式的空间分布特征进行描述,进而探讨了通勤方式的空间分布与用地混合、轨道交通服务、路网密度三个要素之间的相关性。结果表明,高用地混合、充足的轨道交通服务和高路网密度可以有效的压缩机动车出行比例,并鼓励慢行交通方式。
目前,百度地图慧眼已产出全国5亿用户的通勤方式数据,数据洽谈合作请联系huiyan@baidu.com
这里有好多大数据干货,
快到城市数据派官网看去