收录于话题
#城事数说专辑
24个内容
前不久得知腾讯迁徙数据已经不能随便使用了,正好数读菌这里有2019年春节前两周(2019年1月底至2月初)的数据,所以准备写一系列文章(没错又开坑了)
整体上想法是分为两部分,第一部分是基于腾讯迁徙数据的一些分析,第二部分是对于处理腾讯迁徙数据并用它来进行分析的一些思考并提供数据供大家一起探讨,总共大概写6—8篇文章。大体框架如下:- 那些人口流失的城市他们有什么特点?——人口迁徙视角(2)
- 外出的人们用什么交通工具回到家乡?——人口迁徙视角(4)
- 人口迁徙数据的处理与使用思考(6—8具体数量待定)
每篇文章大概3000—4000字,更新进度未定--我还是那句话,不要太期待。(==今天第一篇就超出了我的预计写了8500多字,那都是我秃掉的头发啊)
上面那些话叫做“写在前面”
下面开始就是正文了
首先是腾讯迁徙数据的简单介绍
一、迁徙群像:宏观上研究各城市的迁入迁出,得到总迁入量、总迁出量、净迁入量等指标,以及寻找最繁忙的城市联系关系;
二、大城市的人们都回哪去了?选取北上广深四个大城市,细化观察他们的人口在春节前都流向了哪里,随时间变化的趋势是怎么样的。
三、一些比较:选取北上广深联系紧密的城市比较各自的迁出特点。
腾讯有个神奇的网站(58同城!一个神奇的网站!==不好意思,串台了)叫做”腾讯位置大数据“(https://heat.qq.com/)
呐~这个网站上有一个叫做”人口迁徙图“的页面,可以查到每个城市迁入迁出的信息(现在只剩下北京可以查询),同时通过数据接口也可以获得更详实的迁入迁出数据(貌似据说现在无法获取了)。但是数据的不足还在于,不管是迁出还是迁入,只有前10的城市可以显示。
网页上的“热度”估计是经过某种算法得到的,通过接口获取的数据会有一个姑且称之为“量”的值,对于迁出来说,这就是迁出量,对于迁入来说,这就是迁入量,很显然没有证据表明这个值就代表实际人数,下面的表述中为了防止误解,我会把它称之为“XXXX个迁徙单位”。从逻辑上来说,“从A城市迁出到B城市的量”应该是与“由A城市迁入到B城市的量”应该是一致的,只不过主语不同,实际上经过验证,这两个值也确实相等。所以在实际使用中不用“迁入”“迁出”搞不清,而是把它作为“迁移量”来处理,统一成“A—B”的“迁移量”,意为从A迁移到B的迁徙单位数量。(各种细节还是在之后的技术思考的文章中统一写吧==)
我们迫切想要知道的是三个较为宏观的量:迁出总量、迁入总量和迁移量。乍一看像是在玩文字游戏,但是这三个数却代表不同的含义。迁出总量是以出发城市为统计基准计算的总量,而迁入量是以迁入城市为统计基准,迁移量突出的是具备“方向”要素的两个城市之间的关系。
由于腾讯迁徙数据每个城市只提供排名前10的“相关城市”数据,因此不管是迁出总量还是迁入总量都不止是把在这些城市的“迁徙单位数量”加总这么简单,一个思路是,统计“迁出总量”要从“迁入”城市来着手。(这边暂且不引申,留到最后技术探讨的文章里再一起交流)
总而言之,通过数据处理可以得到适合统计的起点终点城市的迁移数量。首先我们来看看,将起点终点相连得到的“城际迁徙热度图”是什么样子的:
图上我们可以看到,春节前两周,人口迁徙联系量较多的还是大城市之间,一方面是因为两周的汇总数据包含了大量的商务出行而不只是返乡人群,另一个更为主要的原因是大城市人口的基数较多,还有一个十分重要的原因是这些大城市作为区域内的中心城市,有大量的中转人口。暂且不表,我们先来看看排名前20条的“繁忙”路线分别是哪些:
有些城市存在感非常的强,比如:上海、重庆、北京、广州、深圳。除了大城市间频繁的联系,有一些城市连线更显示出区域性特点:“广州&佛山”、“深圳&东莞”、“西安&咸阳”、“北京&廊坊”。这些都是公认的具有强联系的城际关系。仅从量上来看,“广州&佛山”可能是最为成功一体化的地区,互相间的迁入迁出都具备较高的量。(之后结合非春节时期的数据再进行分析)将迁徙数据进行汇总统计后可以得到每个城市的总迁出量。这里还是要强调一下的是,这边的“量”不代表实际的人口单位,而只是一个处理过的“迁徙单位”。虽然不是实际的人,但在一定程度上可以反映出迁入迁出量。好了,我们现在把每个城市的总迁出量落到地图上看一下空间分布:
迁出总量空间分布
我们可以看到的是,主要的迁出城市还是一线大城市和省会城市。特别是东部三大城市群的中心城市:北京、上海、广州、深圳。现在我们需要通过更为具体的数值来比较排名情况:
总迁出量排名前20的城市依次为:北京、上海、深圳、广州、成都、重庆、杭州、东莞、南京、苏州、武汉、西安、郑州、佛山、昆明、长沙、天津、宁波、厦门、贵阳。这其中,既有一线大城市(北上广深),又有省会城市(成都、南京、西安等),还有东部经济活力较强的城市(苏州、东莞、宁波等)。即使是在前20的城市中,彼此差距也是较为明显的。更多的分析要结合后面的迁入量来进行。
与迁出总量相类似,我们把迁徙数据进行汇总统计得到总迁入量,并在地图上加以展示:
迁入总量空间分布
迁入总量的空间分布虽然还是显得以大城市为主,但是有两个变化值得注意:一是东部大城市数值的相对减小,重庆数值的相对增长;二是与迁出量空间分布相比,中小城市开始密集的显示出存在感。我们再来看一下头部前20迁入量的城市:
总迁入量排名前20的城市依次为:重庆、北京、上海、成都、广州、深圳、西安、武汉、郑州、南京、杭州、贵阳、长沙、哈尔滨、昆明、合肥、咸阳、南宁、苏州、长春。乍一看还是以大城市为主导,只不过是具体排名有所变化。但是我们现在可以通过“迁出量-迁入量”得到“净迁入量”的数据了,这会有什么变化?净迁入量=迁入量-迁出量;这个很好理解,就是说一个城市迁入量减去迁出量,值为正则代表净迁入,值为负代表净迁出。结果如下:
春节前两周各城市净迁入迁出量
图上“0”(迁入=迁出)的位置在色带的白色部分,红色代表净迁入,蓝色代表净迁出,颜色越深,意味着净迁入或者净迁出量越大,颜色越淡代表迁入迁出越平衡。从总的量上来看,春节前人口大量净迁出的城市主要还是北上广深以及省会城市。其中,省会城市被包围的特征较为明显,而长三角区域,整体上属于人口返乡的流出区。众所周知的,东北显然属于春节前返乡人口流入的主要区域,但是沈阳、大连作为区域内较为重要的中心城市,总体上还是返乡人口流出城市;哈尔滨却是返乡人口流入的主要城市之一。
图上看起来,中部城市其实是返乡人口流入的主要目的地。重庆虽然在总量上迁入迁出的值都很高,但是这么算下来,还是以返乡人口流入为主。排名前20的返乡人口流入城市为:重庆、周口(河南)、信阳(河南)、商丘(河南)、黄冈(湖北)、驻马店(河南)、南充(四川)、毕节(贵州)、邵阳(湖南)、怀化(湖南)、南阳(河南)、遵义(贵州)、黔东南(贵州)、哈尔滨(黑龙江)、阜阳(安徽)、茂名(广东)、湛江(广东)、岳阳(湖南)、衡阳(湖南)、恩施(湖北)。在这20个城市中,河南省出现了5次,湖南省出现了4次,贵州省出现了3次,湖北省出现了2次。排名前20的返乡人口流出城市为:深圳(广东)、北京、上海、广州(广东)、东莞(广东)、杭州(浙江)、苏州(江苏)、成都(四川)、佛山(广东)、南京(江苏)、宁波(浙江)、天津、厦门(福建)、昆明(云南)、金华(浙江)、中山(广东)、无锡(江苏)、郑州(河南)、武汉(湖北)、青岛(山东)。可以发现,除了北上广深毫无疑问的前四外,广东省和江苏省上榜城市相当之多,而剩下的就是一些省会城市,emmmm青岛和厦门==你们让济南和福州老脸怎么搁。春节前的净迁出量反应出的是这些城市外来务工人员的相对数量,可以相信,这些城市也会是春节后返工人群的主要流向地,区别就在于,北上广深吸引的是全国各地追逐梦想的人们,而各大省会城市承载了大量省内务工人群对于更美好生活的向往,像是江苏省、广东省这样的经济强省,自然也就吸引了周边省份的人们通过双手建设未来的壮志。
让我们把目光聚焦到大城市,以北上广深作为代表更细致地研究下他们的外来人口在春节前都回到了哪里。根据官方数据,2018年底北京市常住人口2154.2万人,其中外来常住人口764.6万人。通过以北京为出发城市,春节前两周的迁徙数据,我们来看一下这些人可能来自于哪里。由于数据不是全样本,经过清洗整理最后只留下257个城市,而我们的分析也只能基于有数据的这些城市。基于迁入迁出,统计迁徙单位净迁入量:
返乡目的地城市净迁入量排前十的城市依次是:哈尔滨(黑龙江)、邯郸(河北)、保定(河北)、长沙(湖南)、武汉(湖北)、信阳(河南)、重庆、石家庄(河北)、长春(吉林)、廊坊(河北)。北京的人口腹地主要在华北、东北和华中地区。
虽然由于不是全量数据,汇总得到的省级人口迁入总量会有一定偏差,但是总体上还是可以反映一些信息,我们来看下以省为单位的北京返乡人群的空间分布:
北京的返乡人群主要去向了河北、河南、黑龙江、湖北、湖南。北京与河北、河南、湖北、湖南由京广铁路相连,也难怪京广线成为春运最繁忙的铁路线之一了。(结合交通方式将会在之后的文章中详细分析)
流向不同省的人们,分别占了北京净流出量的多少?想知道这个,就需要将各省与北京之间的净流入量汇总,再与北京的净流出量比较,结果如下:
北京迁出的人口中大概有17%的人(由于百分比是个相对量,这里将迁徙数据的百分比量默认为人口的百分比)去向了河北,而有大概14%的人回了河南,约有11%的人回到了黑龙江,7%的人回到了湖北,这四个省包揽了北京净流出人口的50%。
数读菌尝试用更为精细的时间剖面来看看北京返乡人口的迁出情况,以天为单位汇总各省迁徙数据,形成随时间变化的“彩虹图”(建议横屏):
从时间变化来看,人口流出随时间不断增加(这不废话吗),在1月25日、1月26日的时候,由于周末,并且还未到法定假日的时间,有所回流,之后就一路高歌猛进,要说看出什么嘛==很多人可能不是坚守到最后一天就回家了吧~
选取了河北、河南、黑龙江、湖北、湖南这五个净流入量最大的省,制成了以时间为横轴的折线图以及热力表:
从折线图可以发现,净流入量最大的河北省并不是每天都最高,25日、26日突然增加后27日又突然减少,考虑到这三天分别是周五、周六、周日,这部分的波动很有可能是因为周末回河北然后还是要回北京上班呢~从市级数据来看,廊坊和保定的量非常之高。比起别的省,河北的曲线更为陡峭,一个可能的解释是由于空间距离北京较近,河北的人们不那么着急返乡。从热力表上或许可以佐证这个判断,由于距离的不同,返乡的路途时间也会有很大差别,导致了返乡高峰开始显现的时间段和距离的远近成反比。说人话就是,离家乡越远,越早早准备回家过年。
上海
官方口径下,2018年末,上海的常住人口2423.78万人。我们来看下以上海为出发城市,春节前两周的迁徙数据显示出的人口都流向哪里。基于迁入迁出,统计迁徙单位净迁入量:
返乡目的地城市净迁入量排前十的城市依次是:重庆、长春(吉林)、西安(陕西)、滁州(安徽)、合肥(安徽)、南通(江苏)、六安(安徽)、遵义(贵州)、徐州(江苏)、盐城(江苏)。上海的人口腹地主要在华东、华中和西南地区,或者说上海的人口腹地主要是长江流域。
长江经济带地理位置示意图
上海的返乡人群主要去向了安徽、江苏、河南、湖北、陕西。有四条铁路大通道在其中发挥了重要的作用:京沪通道、陆桥通道、沿江通道、沪昆通道。(同样地,交通方式有关的后面的文章再仔细写)
流向不同省的人们,分别占了上海净流出量的多少?通过将各省与上海之间的净流入量汇总,再与上海的净流出量比较,结果如下:
上海迁出的人口中大概有16%的人去向了安徽,而有大概14%的人回到了江苏,约有9%的人回到了河南,7%的人回到了陕西,6%的人回到了湖北,这五个省包揽了上海净流出人口的52%。
选取这五个净流入量最大的省,绘制以时间为横轴的折线图以及热力表:
折线图与热力表显示出和北京类似的特点,江苏省之于上海就和河北省之于北京,但是,江苏省对于上海的人口输送显然没有河北省对于北京那么强势,所以总量上来说,安徽省才是上海最大的人口腹地。不知道在上海工作的小伙伴都是什么时候回家过年的,至少在图上显示,最大的返程高峰是先于国假的。广州
官方口径广州2018年末常住人口1490.44万人。我们来看下以广州为出发城市,春节前两周的迁徙数据显示出的人口都流向哪里。基于迁入迁出,统计净迁入量:
返乡目的地城市净迁入量排前十的城市依次是:衡阳(湖南)、湛江(广东)、重庆、茂名(广东)、清远(广东)、韶关(广东)、赣州(江西)、梅州(广东)、揭阳(广东)、郴州(湖南)。广州的人口腹地主要在华南、华中和西南地区。作为广东省会,广州对广东省的掌控力是较为强大的,净回迁量排前十的城市中,广东省内有六个。但是还有一点是值得深思的,同样是在广东省内的深圳、珠海、中山、东莞,基于数据统计,在春节前与广州的交换量中是净迁出的,也就是说这些城市回广州过年的人比广州回这些城市过年的人要来的多,或者说,广州虽然吸引了这些城市的一部分人,但广州自身却向这些城市城市输出了更多人口。我们不妨来假设下可能性:深圳不消多说,全国性经济中心城市和国际化城市,吸引力应该是很强的;东莞作为“世界工厂”,大量的劳动密集型产业,自然也具备“以量取胜”的优势;中山和珠海==我是真不熟。
广州的返乡人群主要去向了广东、湖南、河南、广西、湖北。有2条铁路大通道在其中发挥了重要的作用:京港澳通道、广昆通道。
流向不同省的人们,分别占了广州净流出量的多少?通过将各省与广州之间的净流入量汇总,再与广州的净流出量比较,结果如下:
广州迁出的人口中大概有22%的人去向了广东,而有大概18%的人回到了湖南,约有10%的人回到了河南,9%的人回到了广西,这四个省包揽了广州净流出人口的59%。
选取这四个净流入量最大的省,绘制以时间为横轴的折线图以及热力表:
折线图与热力表显示出同样有趣的事实,家乡离不远,回家过年都不用赶早。广州回流到广东省内的返乡人群与湖南省对比,可以看到回广东的人们一步一个脚印的增长,而在国假前的最后一天,回乡人流开始减少,广东省内虽说也有所减少但还保留较多,湖南省的返乡人群在最后一天就减少的比较多,看来是前几天已经走得差不多了呢。深圳
官方口径深圳2018年末常住人口1302.66万人。我们来看下以深圳为起点,春节前两周的迁徙数据显示出的人口的净流向(仅统计迁入迁出均有数据的情况):
返乡目的地城市净迁入量排前十的城市依次是:西安(陕西)、赣州(江西)、梅州(广东)、重庆、揭阳(广东)、衡阳(湖南)、成都(四川)、广州(广东)、河源(广东)、岳阳(湖南)。深圳的人口腹地乍一看与广州类似,主要在华南、华中和西南地区,但深圳拓展了华东沿海的“份额”。
深圳的返乡人群主要去向了广东、湖南、河南、湖北、四川。这些省分别占了深圳净流出量的多少?通过将各省与深圳之间的净流入量汇总,再与深圳的净流出量比较,结果如下:
广州迁出的人口中大概有26%的人去向了广东,而有大概13%的人回到了湖南,约有10%的人回到了河南,10%的人回到了湖北,这四个省包揽了广州净流出人口的59%。
现在我们可以把北上广深四个超大城市排名前20的人口回流地放在一起比较了。首先来看一下,以北上广深为迁出地,哪些城市在春节前的净迁入量最高呢?
返乡目的地城市净迁入量排前十依次为:重庆、西安(陕西)、衡阳(湖南)、信阳(河南)、武汉(湖北)、郑州(河南)、赣州(江西)、长沙(湖南)、哈尔滨(黑龙江)、茂名(广东)。主要的返乡目的地城市很大量的集中在京广线沿线,我们回到“比较”,将北上广深净迁出量排前20的城市放在一起进行比较:
目前可能还看不出什么,只是一个排列组合而已,那么我们把这些前20的城市按照省来归类:
同样是迁入地排名前20的城市,按照省来汇总后,北京对于河北省的吸引力就很明显了,前20城市有7个属于河北省,而上海对于江苏省和安徽省的吸引力看上去没那么明显,这也可能是由于江苏省本身较为强劲的实力留住了相当一部分劳动力,因此反而是安徽省更多;广州作为广东省会吸引的人口很大一部分来自于省内,有八个城市属于广东省,同时也吸引了大量邻省湖南的劳动力,前20中湖南省的城市有6个;深圳流出目的地城市前20中有10个是来自省内。
重庆作为一个北上广深前20流出目的地均入选的城市,我们来看下随着时间变化,各大城市与重庆的迁入迁出关系:
图中看来,在上海工作的重庆人可能比北京、广州、深圳要多;广州和深圳类似,要说的话,可能还是广州的多一些;北京和上海的重庆人返乡曲线较为类似,都是在较晚的时间开始显著增长。我们在选取一些对于北上广深具有特殊意义的“小老弟”城市(没有贬义,只是公认的这些城市与各自的中心城市联系紧密),再对比一下同样离中心城市很近的一些“总迁出”人口较大的城市。选取的是:北京-廊坊,北京-保定,广州-佛山,广州-清远,深圳-东莞,深圳-惠州,上海-苏州,上海-南通。
城市迁徙关系随时间变化的层叠面积图
在1月27日的时候北上广深的迁入量或多或小会有一个”回峰“,是否可以理解成这些”小老弟“城市的周末迁徙人群?同样是广东的城市,”广州-佛山“和”深圳-东莞“的图形较为类似,高迁出高迁入代表着这里面的数量变化很难被理解成”返乡“,或者说,在某种程度上已经实现了一定的”一体化“,每天都存在着”返乡“(职住)的迁徙人群,特别是,随着春节临近,不管是迁出还是迁入都线性减少,看来是由于放假了也没必要两个城市跑了。比起东莞,惠州作为同样和深圳联系密切的城市,除了日常的联系,看来也还是有较多的“返乡需求”的。这点在清远之于广州身上,体现的恐怕是更为明显。如果说广州和佛山是互相合作,那广州对于清远来说,更多的恐怕是劳动力吸取。同样的故事发生在上海、苏州、和南通之间。离春节较远的时期,上海与苏州、上海与南通的互相来往还算是平衡,随着时间推移,返乡的脚步越来越近了,南通显示出来的特征就是以“返乡流动”为主了。同理可以对比“北京-廊坊”和“北京-保定”之间差距。我们把“迁出”-“迁入”得到“净流出量”,对比下这些城市的折线图:
净流出量随时间变化趋势
看来,北京对保定的“劳动力”吸取是相当高的啊,而广州与佛山之间的关系看来算是比较和谐了。
写了挺多的了,应该到这里就结束了,不然没完没了了。
先来说一下显著的问题,由于非全样本数据,省一级的汇总会有较大的误差,北上广深流回各省的人口比例仅供参考,不过市与市之间的流动关系应该是较为准确的(我这里说的准确仅仅是说基于腾讯迁徙数据的准确,并不意味着我说数据本身准确)北上广深各自的人口腹地的地域性还是相当明显的,中部地区可能是所有这些大城市的人口腹地==
京广线或者说是京港澳通道沿线可能是人口输出的主要区域之一,京港澳通道是贯通南北的运输大通道,也或许可以说它是输出人口的大通道。
沿着长江流域(沿江通道),形成了内陆省份像沿海人口输出的轴线,与纵向的京港澳通道形成了一横一纵的“返乡期望线”。
啊==今天这篇文章写得真的是,又臭又长啊,很感谢看到这里的你们~时隔好久终于算是写了篇公众号的“初心”系列文章==END>