【慧眼读城】第六辑——百度大数据与多源数据的人口校核分析
“大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动”。日前,习近平总书记在主持国家大数据战略进行第二次集体学习时,深刻分析大数据发展现状和趋势,提出要懂得大数据,用好大数据,增强利用数据推进各项工作的本领,使大数据在各项工作中发挥更大作用。(人民日报,2017.12)
通常认为,只有拥有准确的人口数据,才能进行科学的城市规划,而且随着城市规划的日益精细化,城市规划不仅需要人口的总体规模和结构,还需要从个体的角度精确了解人口的时空分布、资产情况、消费偏好和出行偏好等社会学特征,以此来更全面的分析城市需求,从而使得制定的规划更加合理、科学、严谨。当前的几种人口获取方式中,每十年一次的人口普查无疑是最权威的,但调查间隔的周期过长,且无法观测实时人口的变动趋势。而手机信令数据,作为大数据时代一种具有客观性、连续性、覆盖度高、较易获取等优点的数据形式,可以提供丰富的个体时空信息,为人口的真实数量分析动态变化提供了可能性,但其在进行人口总量扩样及人口特征描述中有一定的局限性。百度大数据依托百度地图全球每天相应的800亿次定位需求,覆盖6亿部设备以及115万开发者和65万app及网站,通过多种分析方法可以得到区域的常住人口,而在业界受到了越来越多的关注。为了分析各种人口数据之间的相互关系和准确性,百度慧眼青岛规划联合创新实验室借即墨撤市划区之际,选取即墨区作为本次人口校核的区域,分别从宏观、中观、微观三个层面进行了校核检验。
1、校核区域的选择
本次校核选定即墨区作为研究地段主要有四个原因:首先,即墨常住人口和工作岗位在青岛市各行政区中仅次于城阳区、市北区、黄岛区,居第四,是青岛常住人口和工作岗位大区;其次,即墨地域广阔,常住人口城乡分布差异大;最后,城市的人口数据误差往往具有环状扩散性特征,即墨区本身具有较强的经济活力,既具有内部性的中心辐射环状人口聚集特征,同时也与青岛中心城区的交互多。
2、样本的选择
为了校核百度人口与实际居住人口的差别,我们在即墨区选取了20个居住小区以及外围多个村镇进行走访,分布于即墨中心城区的环秀街道、通济街道、经济开发区以及大信镇、段泊岚镇、灵山镇等。在进行综合比选后,我们选取了17个区域进行分析。这些区域分别是代表了外围乡村的李戈庄村、王家庄村;建设年代较长的和平二区;代表了新建小区的康馨苑、环秀雍苑、新民小区;代表了居住人口密度较大的和平四区、观澜国际;代表了城中村的八里庄一村、八里庄二村、八里庄三村;以及周边工作岗位较多的隆福名居、景瑞名都、颐欣苑、鹤翔小区、环秀苑、阳光竹林等。
3宏观比对——人口总量校核在进行具体调研之前,我们首先将统计年鉴数据与百度数据进行总量的对比,分析其存在的差异及原因。百度数据2017年第二季度青岛市总常住人口为1036万人,青岛市2017年统计年鉴中青岛市常住人口为920万人,两种数据源从总量上相差116万人,百度数据比年鉴数据多12.5%。通过对比各行政区人口分布,发现李沧、崂山、城阳三个行政区人口差异最大,这主要是由于2017年年鉴人口是基于2010年第六次人口普查数据,随后逐年进行小样本抽查数据获取各年份常住人口。而2010—2017年这7年间,李沧、崂山、城阳这三区由于工业外迁和大量增建公共服务设施,居民住房等因素,新增大量常住人口,而逐年小样本调查难以获取如此大的变化。
另外通过分析比重差来分析百度人口与年鉴人口的分布差异,发现市内六区百度年鉴比重差均为正值,在4%以内,其中市南区人口百度数据和年鉴数据最为接近,比重差仅0.02%。即墨区、胶州市、平度市、莱西市百度年鉴比重差均为负值,其中平度市绝对值最大,达-6.89%,其他市区百度数据与年鉴数据人口比重差均在-4%以内。总体上看,百度人口数据与年鉴人口数据比重存在一定差异,但近些年随着城镇化水平的加快,人口往中心城集聚的趋势明显,中心城区百度年鉴比重差为正值,而外围的平度、莱西百度年鉴比重差为负值的趋势符合城镇化总体发展态势。
Figure2 百度年鉴人口比重差示意图
通过宏观上的总量对比,我们发现百度人口的常住人口量较多,但是符合实际规律,最大的原因是市内主城区聚集了大量的工作岗位,吸引了外来的非户籍常住人口,而传统数据较难监测。
在确定宏观角度上百度大数据的人口规模之后,我们从中观尺度了解人口的空间分布是否符合规律。通过对传统数据的人口网格化方式,可以对百度大数据进行中观层面上的分布对比。我们建立了约2100个300米尺度的覆盖即墨区的格网作为基准单位进行人口分布校核。
Figure3 即墨区域用地网格化
而后,使用了中国科学院地理所往年使用的定量空间模型,结合《2017年青岛市统计年鉴》数据,得到即墨市不同的居住用地与商业用地性质所拥有的人口密度权重,并对即墨的300m网格进行了赋值。
之后,我们将每个人口网格的折点导出为坐标折点文件,将折点坐标导入了百度慧眼系统,得出了百度的人口、岗位等数据,制成csv并挂接至GIS,与年鉴人口的渔网进行对比。
Figure4 百度人口分布
Figure5 统计年鉴人口分布
通过对比发现,二者在外围城镇的人口聚集分布以及中心城区的高值聚类范围有明显差异。具体来说,年鉴数据较百度大数据人口热力图反映出田横镇、段泊岚镇、灵山镇、金口镇都具有更显著的人口高值聚集特征。不足的是,通过单纯的对比,峰值区域,如即墨中心城人口密集区的热力无法直观的反应出两个数据源峰值规模的差异。为了更直观的找出到统计年鉴数据与百度大数据统计的差异性,使用Anselin Local Moran's I(安瑟伦局部莫兰指数-聚类与异常值分析法)来找到差异的规律性。
下图是利用百度数据与年鉴数据的网格化差值进行的对比。从中发现,百度大数据与统计年鉴数据在人口分布上体现出了明显的圈层核心差异特征。
Figure6 针对人口差值的安瑟伦局部莫兰指数
即墨中心城区出现了明显的高值聚类圈层,数值远高于统计年鉴的圈层,半径约为10KM。原因是该区域内有大量非户籍常住人口,百度数据对非户籍常住人口的追踪性远好于传统数据,导致了百度人口大于统计年鉴人口的高值聚类现象。
第二个圈层为宽度2KM左右的“隔离带”式非明显聚类圈层,这代表着在该带状区域内,百度大数据与统计年鉴数据没有呈现出具有趋势性的差异值。这些区域距离即墨中心城区较近,通勤比较方便,且一些经济较强的区域具有一定量的工作岗位,非户籍常住人口较少。
第三个圈层为以段泊岚、灵山镇、田横镇以及王圈水库附近的村庄聚落为核心的人口凹陷带。这些区域的共同点在于具有较大量的户籍人口,但因距离即墨中心城区相对较远,且缺少密集型的产业设施,人口外流严重,与百度大数据造成了较大的人口差值,产生了蓝色的低值人口聚类特征。
通过对百度大数据进行安瑟琳莫兰指数分析,我们解析出了与年鉴数据的区别:核心-过渡区-凹陷区的人口差异特征。百度人口分布情况比传统的人口分布核算方法更加符合实际认知,印证了大数据在测算常住人口等方面具有更好的准确性与时效性。
5微观层面——影响因子分析为了减少调研的真实数值误差,本次调查采集了多源传统数据与百度大数据进行校核。其中包括了小区用水用电数据、老年人津贴数据、小区内普查的常住人口数据以及统计的各乡村人口数据。作为补充,还对互联网上的小区建造时间、小区二手房价等信息进行了抓取。
Figure7 各小区的统计情况
注:图中虚线区域采用数据为居民用水用电数据估算的人口数据
经过了基本的对比发现本次被调的小区中,50%以上的小区平均误差值在5%以内,精度较高;有85%的小区误差在15%以内。抽样的区域平均数据误差小于10%,可以说百度的大数据精度较高,可以满足绝大部分规划工作的严谨测算。同时也对可能引起人口误差的因素进行了分析,发现老龄化人口比例越高,引起人口误差的可能性越大,房价、房龄等对人口误差基本没有影响。
综上所述,百度人口的平均误差不到10%,优于传统人口统计方式,而其具有的时效性、多元性也强于其他数据来源,能够精准的为规划工作提供强有力的支撑。
6结论本次校核验证了百度大数据在规划行业中应用的可靠性,其提供的人口统计、特征分析、人口分布分析等功能的精准度可以满足大数据时代的规划需求,为规划项目的科学性与定量性提供一个更加精准的支撑。而受限于手机的使用强度与覆盖人群,老龄化人口是造成可能误差的主要因素。
另外,用水、用电等市政数据对于居住区的小区人口估算经过试验也比较可靠,市政数据核算的人口与百度数据的人口的拟合程度超出预想。在今后的规划工作中我们可以更多的考虑使用大数据+多源传统数据相互配合的校正体系。