城市数据团

被微信屏蔽
经济

股市大跌那天,面碗里的鸡腿被换成了卤蛋

近些年来,“消费降级”的说法不绝于耳。但是,“消费降级”到底是什么?如何从数据中看到“消费降级”?要说明这点并不容易。▍怎样才算“消费降级”?最常被用来作为“消费降级”论据的,是统计局公布的社会消费品零售总额走势。下表列出了上海市2024年上半年的消费零售情况,各门类与去年同期相比均为负增长。北京市的消费品零售总额也出现了类似的同比下滑。这样的消费品零售总额下降,算不算一种“消费降级”呢?不一定。由于一部分年轻劳动人口近年来从一线城市回流到三四线城市,也带走了消费能力。在北京上海的消费下滑的同时,中西部省份的消费有所上升,全国层面的消费仍然处于正增长的状态。因此,北京上海的消费下降,也许可以看成一种“消费转移”——人们仍然消费,只是转移到了别处,全国加起来总量也许还上升了,不算降级。不仅仅是宏观经济数据,即使在一些看起来很小的观察里,“消费转移”也常常使得真实的情况难以识别。比如一家店之前门庭若市,现在门客罗雀,营业额下降了,这是因为“消费降级”吗?不一定,可能是原本常来这家店的顾客,现在改去别的地方了,这只是一种消费转移。又比如某家店有一个常客,之前每次来的时候消费50元,现在每次来消费30元,这是“消费降级”吗?可能性大了一些,但也有例外。例如附近开了一家店销售类似的商品,这位老主顾在比较后将另外20元消费放在了另一家店中,这同样是消费转移。那如果一家餐馆的老顾客,每天中午都准时来吃一顿午饭,之前每次消费15元,现在消费12元,这是“消费降级”吗?可能性当然更大了一些,但是也可能有“消费转移”。比如,他可能原本在这家店就餐时会配一杯3元的冰红茶,但是现在选择自带冰红茶——虽然冰红茶就是从隔壁便利店买的。这依旧是消费转移。即使是微观消费数据,只要消费需求仍然有可以分割、转移的余地,那么就可能发生“消费转移”,并让人误解为“消费降级”,这是消费行为的复杂特性导致的。但是,如果是下面这种情况呢?情况A:某家面馆的老顾客,每天中午准时到店吃一顿午饭,之前每次消费15元,其中10元是一碗面,而5元是一个鸡腿;但现在每次消费12元,其中10元还是一碗面,另外2元则买了卤蛋。情况B:某咖啡店的常客,工作日每天下午到店购买一杯咖啡,之前会每次购买18元一杯的拿铁,而现在则购买13元一杯的美式。(拿铁要加奶,而美式不用,一般更便宜)当消费数据精确到了消费者——店铺——商品级别时,“消费转移”就不那么容易出现了:吃面还是要加浇头,但是浇头变便宜了。咖啡还是在喝,但是咖啡也便宜了。因为一顿午饭的能量需求、一杯咖啡的咖啡因需求,都是难以分割、转移的。那位花了更少的钱购买咖啡的顾客,你很难想象他是把从拿铁到美式省下来的5元钱去另一家店买了另一杯咖啡。把鸡腿换成卤蛋的顾客,也不可能是把省下的3元到了别的饭店买了一份外带浇头。这里减少的5元和3元,就是实实在在地支出减少,是真正的“消费降级”。于是我们就可以给出“消费降级”的定义——在满足不可分割不可转移的特定需求时,人们愿意支付的总价格出现下降,在这类需求上便算是出现了“消费降级”。▍如何计算“消费降级”的程度?但是,这样严格定义的“消费降级”指数对数据精细度的要求很高,真能找到这样的数据吗?有。在这篇文章中,我们参考“收钱吧”等数据,来研究中国的消费问题。收钱吧是国内领先的数字化门店综合服务商,它的点菜、收款系统在全国所有城市范围都覆盖了大量的餐饮店与零售店。统计部门周期性发布的社会零售、消费等宏观指标往往侧重于较大规模的企业,而收钱吧更大比例地覆盖了海量的小微经营实体,在与宏观数据具有趋势一致性的基础上,更加贴近人们日常生活场景,是宏观数据的有益补充。分析示例如下(以下所有示例均不含消费者个人信息):上表显示了某一个顾客(个人信息已脱敏)在某一家店消费的情况,这名顾客在这家店消费次数达到了300次以上,上表只显示了最近的消费和较早的一些消费。可以看到,每天11点30分到12点之间,这名顾客会在这家店消费一顿午餐。在2023年年初时,这名顾客每顿会消费10到12元,包括一碗榨菜肉丝面,有时还会购买一瓶康师傅冰红茶。而在刚刚过去的2024年7月的最后几天,这名顾客每天只消费7到9元,7月24日消费了煎蛋面,其中从7月25日到7月28日这四天,消费的都是青菜面,只要7元。很显然,这名顾客在这家餐饮店,经历了明显的“消费降级”。(有意思的是,这家店铺的菜单价格在这几年内并没有变化)接下来,我们通过这几个步骤来计算这个例子中这名顾客的消费升级/降级指数:1,保留这名顾客每天11:00到12:00之间的午餐消费,保证每天的消费都是为了满足同一个可比需求。2,去除饮品等,只留下主食消费——正如我们前面提到的,零售瓶装饮料等消费是可能被转移到其他店铺的,将它们去掉才能更准确地计算消费升级/降级。3,计算这名顾客在这家店每天午餐主食消费的平均价格,将这名顾客每天的主食消费价格除以这名顾客在这家店消费的平均价格,得到这名顾客每天的消费比平均值高或者低的程度,即这名顾客在这家店的“消费升级/降级”指数。这名顾客在这家店从2022年12月到2024年7月的用餐消费升级/降级情况如下图所示:上图中,0以上代表的是这名顾客在这段时间吃主食消费比平均值更高,为升级;而0以下则代表吃得更便宜,为降级。不难看出,这名顾客的用餐情况出现了一定波动,但在2024年4月之前,除了春节以外,这名顾客的消费还是越来越“升级”的,2024年4月时,他的消费升级已经达到了0.12——即这个月的消费比这名顾客在这家店的平均消费高出12%。但从2024年5月开始,这名顾客的消费开始大幅度降级了,2024年5-7月,这名顾客的消费都要低于他的平均消费,其中5月偏低了25%左右,6月略微反弹,只比平均值偏低5%,到了7月再度下滑,比平均值偏低12%。通过这种方法,我们可以较为准确地看到每个人的消费升级/降级情况。使用相同的方法,我们计算了样本中所有消费者在所有店内的消费升级/降级指数,再按照消费单数进行加权平均,就可以得到更大范围内“消费升级/降级指数”,其中全国指数以及其同比变化如下所示:可以看到,全国消费升级/降级情况(蓝线)在2023年1月达到最高值,随后震荡走低,目前连续4个月在0以下,意味着在最近四个月,人们在某家餐馆消费时,其消费平均价格是低于他们这三年来在这家餐馆消费的平均值的。此外,该指数有着明显的季节趋势,在春节期间总会比较高,如果计算该指数的同比变化(橙线),观察它的变动趋势,那么可以看到,从2023年10月开始到2024年7月,全国的消费升级/降级指数的同比差异已经连续出现了10个月低于零的情况。这意味着消费者在餐饮、零售的消费品类上,消费确实在出现降级,而且降级程度正在加深。更重要的是,从今年2月开始,走低的幅度一个月比一个月更大——消费者不仅花钱越来越少了,花钱减少的幅度还越来越大了。分城市看的结果如上图所示,在我们从全国抽取的32个城市中,消费比去年上半年有所升级的只有7个城市,包括合肥、重庆、温州、济南、肇庆、南宁、南京,其他25个城市全部出现了大小不一的“消费降级”,包括北上广深等一线城市和大量二线、三线城市。从数据上看,“消费降级”,不再是某类现象的含混概括,而是确实在发生的事实。▍“消费降级”与什么相关?“消费降级”与什么因素有关呢?最容易想到的因素自然是收入。俗话说“量入为出”,收入低了,人们的消费也会相应减少。使用数据团在之前若干篇文章中提到过的招聘数据,我们能够算出不同城市在不同月的招聘平均工资,用来度量不同城市的不同时间的平均收入情况。那么,收入对“消费降级”的影响究竟是怎样的?下图画出了不同滞后月份的工资变化对当地消费升级/降级指数的影响。其含义是这样的——横坐标表示滞后月数,横坐标为0表示用每个城市每个月的招聘平均工资环比变化来回归当月的消费升级/降级指数,这个系数的含义便是工资变化和当月的消费升级/降级之间的相关关系。在图片右半边,横坐标大于0的部分,比如滞后月份为1,表示,工资变化和下个月的消费升级/降级之间的相关关系。灰色部分表示95%置信区间。从上图可以看到,这条系数曲线唯一显著大于零的地方,便是滞后月数为0的时期,在滞后时期为1到2的时候也接近显著。即工资变化,会与当月的消费升降级之间有显著的正相关关系,和滞后月数为1到2个月的消费升降级之间有接近显著的负相关关系。因此,工资与消费升降级确实相关,但是该相关性是相对短期的,如果这个月工资增加,那么只会观察到当月的消费会升级,但并不会持续,而且会在下两个月接近显著的反方向效应中被打掉一些折扣。这也是一种正常的心理状态,收入提高了的当月,许多人会选择多花钱,但是如果这个收入提高不可持续,那么
8月15日 上午 11:01
其他

从小学一年级到复旦交大,要走过多少路口?

2024年的高中招生正在进行,高校招生已经进入尾声。随着上海市各项招考结果的公示,我们不禁好奇这样一个问题——一个在上海就读小学一年级的学生,有多大可能性经过12年的过五关斩六将,最终在高考中被复旦大学或者上海交通大学综评录取?根据历年上海市统计年鉴给出的真实数据,我们不难从过去12年的历史入学数据中画出这样的链条:1310除以172297,等于千分之7.6。每1000个在2012年时上海就读一年级的小学生,2024年时会有7到8个孩子综评录取复旦或者交大。对于一个跨度长达12年,低至千分之7.6概率,人们缺乏直观认知,更遑论作为子女教育规划的参考了。人们需要的是一个更加短期的具体目标,以及两三年内可以做出的选择和每种选择未来去向的情况。为了完成这个目标,我们决定画一张最为详细的路线图。上图显示的是一个2023年9月入学的上海一年级小学生,需要过哪些路口和关卡,才能在12年后被综评录取复旦交大?为了计算这张图表,我们使用了综评名单公示数据(正因如此,我们无法画出前往清华北大的路线图)、摇号公示数据、高中预录取和自主招生公示数据等公开信息。除此之外,我们使用了另一项重要的升学数据,该数据的杨浦区版本可以在之前的推文中看到,目前该数据已经包括了上海六个较为有代表性的区县。通过这些数据,我们计算出了图中每一条升学路径的比例和概率,并推算出相应的人数。从图中,我们不难看到两类线路。一类线路,初期选择人数最多,但后续快速收窄。从18万人的公办小学,走向16万人的公办初中。如果选择继续在上海中考,且考试成绩没有达到同学中的前20%,就会走向11万人的中专,或者市重点以外的高中。走上这条线路,那么被复旦或者交大录取的概率会直接收窄到零。中考排名再靠前一些,达到了前6%到前20%(这已经算是成绩挺不错了),就会从公办初中走向排名30名以外的普通市重点,人数缩小到2万,此时录取复旦交大的概率不再是0,而是千分之8.8——比起最开始计算出的千分之7.6已经强一些了,但也很有限。如果排名再靠前一些,达到了公办初中的前6%,那么其中三分之二学生会进入八大五虎(上海第三个层次的高中,排名16-30左右)的统招生班级,综评录取复旦交大的概率更提高了一些,达到了2.3%。无论怎么选,最后的路都越走越窄。另一类线路,初期选择人数较少,但收窄得很慢。从民办小学,到民办初中,再被四校、实验、四校的分校或者七宝中学(上海第一层次和第二层次的高中,排名1-15左右)自主录取。这条路的最后一步,录取复旦交大的比例仍然高达30%以上。从公办初中当然也可以走这条路,但是其概率要比从民办初中低得多。确切说,从民办初中进入这条道路的概率是公办初中的五倍以上。如果没有能够考好,到了第三层次的高中八大五虎,民办学校的学生也相对更有可能进入这类学校的自招班而非统招班,在这些班级,录取复旦交大的概率依然是同校其他统招班同学的四倍以上。不像公办学校的学生需要考到前6%才能保住前往复旦交大的概率,民办学校的学生只要在参加中考的同学之间排名前四分之一,便可以达到相同的目的。看到这里,读者可能已经有了满肚子疑问,而其中最大的两个问题可能是这样的——都是进入同等档次的高中,为什么自主录取渠道考入的学生最终考上复旦交大的概率,要比通过名额分配渠道考入的学生概率高4倍以上?同一个学校对不同渠道录取的学生会有区别对待吗?民办已经摇号入学了,大家都随机入学,为什么进入最好的高中的概率,仍然比公办学校高5倍以上?难道民办学校真的能点石成金?▍自主录取渠道的考生为什么高考表现更好?先来解释第一个问题。为什么在同等档次的高中,自主录取渠道进来的学生比起名额分配的学生,有着更好的高考表现?这就要说到提前自主录取和名额分配招生之间的差异。自主录取,是高中通过每一所初中提供的每一个学生在初中四年的具体表现,以及根据高中自己出的考试题目,来决定是否招收一个学生。名额分配,无论是名额到校还是名额到区,归根到底都是通过中考分数来区分学生。只要中考分数在校内或者区内靠前,就可以通过名额到校或者名额到区的渠道录取。听起来都是靠分数录取,但中考的分数,和每一所初中所给出的学生表现的具体分数,在区分学生差异上,信度完全不同。虽然上海市并没有公布具体的一分一段,但是北京、天津等地呈现蘑菇状的中考分数分布早已屡见不鲜,且逐年加剧。绝大部分人集中在同一个高分段内,这使得中考的区分度变得毫无意义,高分和低分之间,运气的差异要大于学生学习水平的差异。但是自主录取的学生,则能够通过更难的试卷、更长期的观察,得到有效的分层。而在那些教学更为严格,课程内容更难的民办初中,学校对于学生的分层,其有效性、可信度都更高,更高层次的高中,也就愿意更多地从这些民办初中挑选学生。这样的选拔方式,也得到了事实的回馈。最终综评录取了复旦交大的学生,正是更多来自由高中自己挑选的学生,而非通过中考分数录取的学生。而为了将自己挑选的生源的优势强化到高考,无论是在四校、四分,还是八大五虎高中,几乎所有高中都将自主录取的学生通过中考分数录取的学生分开教学,也就是所谓的"区别对待"。下图是南洋模范中学2024级各班级录取情况,横坐标为班级中有多大比例的学生是三年前预录取的,纵坐标为这个班级综评考入复旦交大的比例。可以看到,预录取学生占比更高的8、9、10班,其综评录取复旦交大的比例,就要远高于预录取学生较低的1-7班,概率差异正是4倍左右。当然,在高三阶段进行分班,录取渠道早已不再作为依据,还是以高中成绩来划分的,因此我们能看到确实有一些预录取的学生最终被划分到了1-7班中。但正因如此,这一件事实才能够得以再次确认——高中自主录取的学生,并不是因为身份的特殊而被专门分在“火箭班”、“尖子班”中,他们的校内成绩和最终高考成绩,都要比通过中考分数录取的学生好得多。高中的自主录取,确实比中考能够更有效地选拔优秀生源。▍民办初中升学情况为什么更好?再来看第二个问题——为什么民办初中即使是摇号入学,也比公办初中进好高中的概率大得多?2024年的到校分数线已经公布,一些传统的民办初中到重点高中的名额到校分数线并不高。有人据此说,摇号后,民办初中的生源优势消失了,升学优势自然也会消失。事实真的是这样吗?当然并非如此。我们在前面的分析中已经讲到,进入顶级高中有两条路径中,自主录取的路径要比名额分配的路径重要得多。因此名额到校分数线高低并不能完整呈现生源质量。如果我们去观察各校被自主录取的名额,则是另一番景象。下表列出了在2024届徐汇区学生中,民办初中学生被不同档次高中的自主录取比例是公办学校学生的倍数。上图给出了三个档次的学校的预录取情况。可以看到,在排名越高的学校,民办学生被录取的概率相对于公办学生差距越大,在第一层次的四校或者实验,徐汇区民办学生被录取的概率是公办学生的十多倍。有必要强调一遍,民办的自主录取情况远好于公办初中的结果,是第一届摇号学生的真实情况,它不仅出现在徐汇区,在我们能够获取详细升学数据的地区,都不同程度地出现了。四校、四分对于民办初中的学生录取概率,是对公办学生录取概率的4-10倍左右,八大五虎的概率倍数则在3-6倍左右。即便是摇号学生,仍然更受到顶级高中的自主招生青睐。难道真的是因为民办学校教学质量远超公办学校吗?有这个可能,但在教学质量之前,还有两个重要因素。第一个因素,当然是自选择。四年前摇号政策发布时,某些学校还曾经专门发布过文章《到XX初中读书,你真的想好了吗?》之类的文章,意图吓阻“普通”的学生参与摇号。因此,选择参与摇号的学生,平均能力是要高于未参与摇号的学生的,在最优秀的学生群体里,这样的自选择效应更为明显。第二个因素,就是民办学校仍然有大量绕过摇号的方法,保证最优秀的学生的摇号风险被降低到最小,来保证最优秀的学生可以放心地选择本校
7月19日 下午 7:01
其他

200 万高考生被张雪峰改变

有史以来报考人数最多的2024年高考即将出分,全国1300万考生即将进入志愿填报环节。而在近两年的志愿填报中,考生和家长们很难避开的一个人物便是——张雪峰。尽管早已作为考研老师成名,但张雪峰真正爆红全网,还是在上一个高考季。下图显示从2019年到2023年的高考季期间,“张雪峰”一词的抖音搜索指数,2023年达到了2022年的11倍,2021年的34倍,更达到了2020年和2019年的200-300倍。在2023年高考志愿填报期间,他的视频切片也随处可见,屡有惊人之语并冲上各大媒体热搜,比如“孩子报新闻就打晕拖走”,“普通家庭女孩不要读金融”等。铁口直断的风格以及明确的建议与指向,受到不少家长的欢迎,同时也引发了社会关于专业选择和就业前景的广泛讨论。那么,张雪峰的爆火和他的言论,真的对高考录取产生影响了吗?网络言论到底会在多大程度上改变家长和考生的决策呢?使用2017年到2023年共7年的高考录取数据,我们进行了一项研究。▍张雪峰点名的专业,录取位次确实出现了下降在每年高考前后,考生们总能拿到一本厚厚的志愿参考书,给出了近一年或者几年高考的录取情况,其中包括每一所学校、每一个专业的录取最低分以及平均位次。要检查每一个专业的相对热门程度是否变化,最简单的方式就是计算该专业每一年的平均录取百分位。将每个专业的最低分在总体考生分布中所处的位置,代表了这个专业的“录取百分位”,例如90%的录取百分位表示该专业最低录取分数的名次高于90%的考生。再将所有学校、专业的“录取百分位”按照专业求平均,便得到了每一个专业的“平均录取百分位”。将同一个专业在不同年份的录取百分位相比,便能知道这个专业的录取情况发生了什么变化。平均录取百分位越来越高,说明这个专业能招收到的考生排名越来越靠前。下图列出了从2017到2023年这七年间四个典型专业的录取百分位变化:可以看到,数学类专业的录取位次在不断提升,已经比2017年提升了4到5个百分位。计算机类从2017到2021年的录取位次有所下降,但2022和2023年再度提升。金融学类自2017年起录取百分位就在下降,和数学类走势相反,已经比2017年低了4个百分位。新闻学原本保持了稳中有降的趋势,但是2023年出现了大幅度下降,降幅比起之前的六年更大。2023年相对于2022变化录取百分位变化最大的专业如下两图所示:美术学类、公安学类、兵器类、生物医学工程类和动物医学类等专业,相对2022年录取百分位大幅度提升。美术学、公安学和兵器类,提升幅度都超过5%——相当于在100名考生当中,该专业原本只能录取到第N位,现在可以录取到第N-5位。天文学类、经济学类、图书情报与档案管理类、艺术学理论类和基础医学类的录取百分位下降最快。新闻传播学类和金融学类的降幅也在2%,进入下降最快的专业行列。所以,张雪峰点名的新闻学和金融学专业,确实在2023年高考招生中出现了较大幅度的下降。▍专业录取位次变化,和张雪峰有多少关系?但是,新闻/金融等专业的平均录取百分位下降,和张雪峰有没有关系呢?在2023年各校放榜后,我们不难发现类似这样相互矛盾的言论——财经类的专业录取下降有目共睹,但是其中张雪峰起到了多少作用,大家意见并不一致。有人认为是张雪峰的影响直接改变了考生家庭的认知,使他们避免选择某些专业;另一些人则认为,即使没有张雪峰的言论,考生们的选择也不会有什么不同,张雪峰的言论只是当前录取变化的注释,并非原因。到底谁是对的呢?我们首先可以回答这样一个问题——张雪峰影响力更大的地方,这些专业的平均录取百分位是否有了更大的变化?为了识别张雪峰的影响,我们从抖音的星图平台获得了张雪峰的直播观众分布。将该分布与各地区2022年末人口放在一起,可以画出下面的散点图。上图的横坐标为各地区人口,纵坐标为张雪峰直播观众在各地区的分布。可以看到,各地区张雪峰观众的比例存在一定程度的差异。——图中靠近右下角的点,观看张雪峰直播的人口占总人口比例较低,比如贵州、广西、云南等。——靠近左上角的点,例如天津、山东、吉林等地,观看张雪峰直播的比例较高。不同地区观看张雪峰直播的人口密度差异较大,较高地区可以达到较低地区的5倍之多。我们把直播观众占总人口的比例称为“张雪峰密度”,用它来表征张雪峰在不同地区的影响力差异。将各地区的“张雪峰密度”,和各地区2023年的金融学、新闻学专业的录取位次下降放在一起,可以得到下面的散点图:以上两图的横坐标均为“张雪峰密度”的对数值,纵坐标为各省2023年的新闻学和金融学专业的录取百分位相对于2022年的变化。(图中的科类已经对应了最新的地方高考改革,例如黑龙江-物理实际上指的是2023年的黑龙江-理科,下同)不难看到,新闻学和金融学的平均排位变化,都与这些地区的“张雪峰密度”呈现显著的负相关关系,其中新闻学的负相关显著性为0.047,金融学的负相关显著性为0.007。因此,张雪峰观众越密集的地方,2023年新闻学和金融学专业的平均录取百分位下降更多,这个命题完全正确。但是这样的相关性,不足以确定张雪峰是否真的对志愿选择存在直接的影响。因为有这么一种可能,不是因为看了张雪峰直播,家长和考生才不选新闻学/金融学,而是本来就不喜欢新闻学/金融学的家长和考生,更有可能成为张雪峰的粉丝。很容易就能发现,相比于西南地区(广西、云南)的观众,北方观众(天津、吉林、河北)看张雪峰更多。这种差异可能来自许多因素,比如经济社会环境的不同,语言习惯的差异,以及对不同职业、行业的认知态度差异等。如果是这些地区上的差异,导致某些地区的考生本来就不愿意选择金融/新闻专业,那自然就会与张雪峰的相关议论产生共鸣,更多观看张雪峰的视频。在这种机制中,上图中“张雪峰密度”和新闻学/金融学的录取百分位变化的负相关性也同样会出现。为了排除这种因素,最简单的方式,是检验上图的负相关现象是否在张雪峰爆红(2023年)之前就出现了。下图给出了2022年的结果:可以看到,在2022年,各省的金融学/新闻学录取平均百分位变化和“张雪峰密度”之间不存在统计上的显著关系。也就是说,不同地区的“张雪峰密度”,在张雪峰爆红之前,和这些地区的新闻学和金融学专业的录取百分位变化并没有关系。张雪峰密度,只在2023年才和专业录取变化相关,但在2022年时并不相关,这排除了前面说到的这种“某些地区原本就不喜欢金融/新闻因此才与张雪峰有共鸣”的可能性——“张雪峰密度”较高和较低的地区之间,对金融学/新闻学专业的好恶原本是没有显著差异的,在张雪峰爆红后,这样的差异才出现。因此,在金融学和新闻学专业上,张雪峰的影响,是确实存在的。在张雪峰密度最高的地区中,2023年金融学和新闻学专业的录取百分位平均降低了4%。▍张雪峰影响了多少专业?上文提到的新闻学和金融学,只是张雪峰最为广泛热议的言论中提到的两个专业。张雪峰的直播中,避雷或推荐的专业远不止这两类,难以一一记录。那么,我们应该如何确定张雪峰的言论到底影响了哪些专业的报考呢?参考上面验证金融学和新闻学的方法,我们可以对2017到2022年每一年,计算每一个专业在各地区的报考名次变化的该地区的“张雪峰密度”的相关性,再使用2023年数据做同样的相关性计算。如果某个专业的录取存在和“张雪峰密度”的相关性,我们称该专业存在“张雪峰效应”。如果某专业在张雪峰爆火之前就存在了所谓的“张雪峰效应”,那么只能说明是地区特征差异导致了专业选择的差异。从2017年到2022年,各地区存在
6月22日 上午 11:47
其他

从租售比出发,我们如何看待房产市场?——新房改系列之二

▍写在前面本篇是新房改系列的第二篇,基于过去几年间数据团持续推进的一项深度研究。房地产市场会走向何方?这是过去一年乃至几年中,很多人都在关心的问题。稳预期一直是重要的政策目标,毕竟“信心比黄金还要宝贵”,可预期又是最捉摸不着、难以度量的事物,从“不行了、崩溃了”到“稳了,不用担心了”,就像过山车,上下翻转只在一瞬,来来回回扣人心弦。利率下调和首付比例降低会有什么样的效果?传说中的“以旧换新”和回购房产,能算得过来账吗?想得到问题的答案,既需要时间,也需要数据。我们一直相信,房产市场存在一些基本逻辑,未来的答案就在过去的数据中。本篇我们就将从“租售比”或者“租金回报率”这个角度出发,试着度量市场对未来的预期,并在同一套逻辑中,将近期的政策进行梳理和讨论。▍理想中的“房住不炒”是怎样的?在进入实际的数据分析之前,我们先来讨论这样一个理想的情况,真正“房住不炒”的市场,会有些什么样的特征?我们不妨来做一个思想实验。买房和租房向来被认为是两个不同的市场。因为买房除了居住之外,也是大部分普通家庭最重要的一笔投资,是很多家庭唯一一次加杠杆的机会;而租房往往被认为是买不起房、或是不想买房时的一种权宜之计,具有更纯粹的居住目的。那么,如果剥离买房中的所有投资机会,抛开所有的房产升值或贬值的预期,买房和长租除了租约延续的不确定性之外,似乎并没有太大区别?也许会有读者提到"落户"、"上学"这些字眼,但它们并不算“居住需求”,并且可以通过推动租购同权等方式来解决。所以我们就得到了理想中的“房住不炒”的一个特征:买房约等于长租,那么对于给定的居住区,房价应该反映长期的租金水平,租金是房价的“锚”。如果“房住不炒”意味着房价锚定于租金,那么“租售比”这个指标应该可以用来衡量房价是否偏离合理的定价。▍租售关系如何均衡?如果房屋的价格锚定在租金上,那么这种锚定关系是通过何种机制确定的呢?假设房屋只具有居住功能,而不存在升值或贬值预期,如果去除买房相对租房带来的确定性(安稳感)溢价,买房和租房在本质上都是购买“住房服务”。在同一个小区内(相同地点、差不多的房型),房价和租金的关系就会像很多其他的耐用商品一样。我们对比一下此时的买房成本和租房成本:如果买房成本高于租房成本,人们就更倾向于租房而非买房,这会导致房价下降、租金上升,反之亦然。最终买房成本和租房成本会达到均衡。但上面的式子和很多现实变量之间的关系还不够直接,所以我们选择将这些成本均摊到分析期内的每一年,将买房的成本转化成持有成本这个流量概念,并且都除以现时的房价进行标准化:于是,我看到更多大家都很熟悉的变量:首付比例、存贷款利率、房屋折旧率、物业费、各种交易税费等等。让我们代入一些数值,感受一下:以下是前些年限购场景下一种可能的参数组合:房屋年折旧率2%,物业费和各种税费摊至每年按1%计算,稳定性溢价1%。首付比例35%,存款利率1.5%,年还款比例6.3%(按照4.8%年利率,30年期限,等额本息计算),于是买房每年持有成本占房价的比率是8.62%,那么均衡时的租售比应该也是8.62%,也就是说,房价应该折合11.6年,或者约140个月的租金。不难看出,在这套均衡逻辑中,降低贷款利率、降低税费等方式,都可以降低房屋的持有成本,使得人们在租买均衡中更倾向于买房而非租房,使得房价相对于租金的比率提高。那么现实中,上海的租售比分布是怎样呢?下图是2016-2023年期间各小区经过成交量加权的售租比分布,可以发现,中位值在700个月左右,远高于上面算出的140个月。是房价存在400%的泡沫吗?▍升值预期:未来在当下的投影要回答上面的疑问,就不能仅从理想情况出发。现实中,房价往往存在波动,人们也会对房市涨跌有自己的想法。如果持有房产若干年后,房价上涨了,那么房产升值带来的资产收益就可以冲抵持有成本,反之,房价下跌的时候,资产减值损失会增加持有成本。于是之前的买房成本式子里要加一项:这就和股票有了相似之处:当人们相信未来价格会上涨时,强烈而一致的预期就会直接抬升当下的价格,反之,当人们对未来存在悲观的一致预期时,也会直接导致当下的价格下降。我们再用前面的例子来说明,其他参数不变,不同的房产升值预期下,买房的持有成本会相应变化,对应的均衡房价月租比值也会相应变化,如下表所示:可以看到,房价升值预期越高,均衡时房价与月租金的比例就会越高,且这个比值上升会越来越快。而当房价升值预期超过折旧、资金成本、税费等等总和的时候,持有成本变成了负值,此时无论租金如何变化,只要首付条件允许,无脑买买买都会是更好的选择。房市也就转入了疯狂,房价与租金这个锚就脱钩了。对应上表,上海的小区售租比大多处在300-1200的范围,是不是意味着,普遍存在着每年7-8%的升值预期呢?也不尽然,因为在中国的房产市场,房子又不仅仅是用来住的。▍当房子不只是房子一直以来,尤其在大城市,房子还存在一些与居住属性并无直接关系的社会功能,比如:落户、孩子公立学校入学等等。其中公立学校入学权是最重要的一个功能,公立学校基本实行就近入学,但并不是学区内所有常住居民的孩子都有入学权,而是需要一套自有住房,有些城市甚至还需要这套住房业主近五年内没有入学儿童,也就是所谓“学位”制度。在这张“门票”价格的基础上,还会根据对口公立学校的教学水平,产生学区溢价。这些非居住价值,虽然看起来并没有明面上的标价和市场,可最终都会资本化到相应的房屋价格内,且租房并不能获得。因此在前面的公式基础上,我们又要进一步修改:上面的式子可以理解为,入学权等非居住价值起到了和房价升值预期一样的作用,会提高房价-月租金比例。而且因为这部分价值相对稳定,客观上会造成学区房更容易涨更难跌,又正反馈到升值预期中,形成了正向循环,这也就是那些超高单价学区房出现的基本逻辑。这部分溢价该怎么计算?在之前一篇推文中,我们曾经对杨浦区的学校做过简单的计算,采用相似的方法,我们通过观察学区对于范围内小区租售比的影响,来估算这部分价值占房价的比例,结果如下表所示:由于各小区的房屋面积和均价情况不同,因此折算出的金额也存在较大的差异。越是口碑突出的学校,其资本化的非居住价值越高。总体来看,学区价值代表的非居住价值,在房产整体价格中占比中位值在6-7%,折合现金价值5-115万元不等。值得注意的是,学区价值只能代表非居住价值中的一个部分,下文以这个数值代替了非居住价值,如果算上落户、享受公共服务等市民权利,非居住价值会更高,根据既有的学术研究,在不同的城市,市民权利的价值少则数万元,多则数十万元。▍梦该醒了:升值预期都能实现吗?在大致测算出房屋的非居住价值之后,我们就可以通过租售比,对于之前几年中人们对房产的升值预期做一个估算了。方法如下:其中,首付比例、存贷款利率等各项基础参数数值如下表所示:计算得到的各年度的年均升值预期如下:总体来说,计算得到的升值预期在每年6-7%之间小幅变化,2017年一度超过7,之后几年缓慢回落,2021年又一次出现了接近2017年的高点,之后出现了较快回落,2023年的数值已经接近2016年的水平。那么,是不是所有的升值预期,最后都能变为现实呢?我们将每个小区2016-2023年之间每年的升值预期,与这期间房价每年相对于上一年的实际增长率放在同一张图里:图中的红线是我们添加的参考线,红线上方代表实际增幅超过预期,而下方代表增幅不及预期。上图可以看到一个残酷的现实,并不是所有的涨价预期都能实现。在下表中,我们给出了样本中每一年跑赢预期的小区数量占比,并按照每个小区的总房屋套数,计算了跑赢预期的房屋套数占比。从上图可以看到,随着房产市场的冷暖程度不同,跑赢预期的小区和房屋比例在不同年份之间存在剧烈的变化,在2017和2021年,市场热度远超预期,而2022年开始,房产市场出现了较为剧烈的降温,2023年时能跑赢预期的房屋已不足10%。▍美好的预期到处相似,但空间的价值并不相同让我们回过头来思考,房产的升值预期代表着什么?代表了一切与所在区位有关的未来,本地的产业能否发展,本地的配套设施能否落地,本地的长期规划能否实现,这个社区未来是否能健康运营……选择买房的人,都在用真金白银买入一张代表本地的“股票”,怀着美好的期待,希望能够从本地未来的发展中分享一份收益。在我们上面的分析中,针对的都是同一小区的租售关系,所以并没有讨论房价和租金受到哪些因素影响,就好像股票分析中的技术分析,并没有讨论企业的基本面。而涉及到房产,这个基本面仍然是区位。上图中,我们选取了所有2019年以后的样本,横轴是到市中心(人民广场)的距离,蓝线代表升值预期的空间分布,红线代表实际房价增长的空间分布,可以看到,人们对于房子的升值预期,在空间上并没有显著的分布差异,但最终房价的涨跌,与空间位置仍然息息相关,总体来说,市中心区域的房产,升值快于外围。不难理解,虽然对于“股民”来说,希望每一只股票都能天天上涨,但现实的情况就是,不同的个股之间存在着巨大的差异,所有人都需要为自己的选择买单。▍租售关系为什么值得讨论?在上文中,我们从房屋租售之间的相互关系出发,讨论了买房的持有成本和租金之间的关系,进而测度了人们对房产的升值预期。这些计算都是为了能为我们对房产市场的观察,提供更加合理的指标。买房的持有成本,近年来受到越来越多国际组织和研究机构的重视,持有成本与居民收入之间的关系,相对于传统指标中的房价收入比,能够更好地在动态上反映住房成本对居民生活产生的压力。同时,这个指标能够将首付比例、利率等多种政策变量,与市场的表现和预期直接建立联系,非常适合作为政策评估的工具。另外,近期也看到部分地区尝试由政府收储住房,并转化为保障性住房的方式,缓解房地产库存压力。在这个过程中,无论是地方政府作为产权人长期持有,还是通过REITS等金融工具完成资金退出,由于底层资产的现金流仍然是租金收入,在不考虑空置的前提下,收储房产的租金收益率是一项核心指标。最后,关于租售均衡的讨论,也启示了我们,预期在价格形成中的作用,以及预期管理的重要性。就像股票市场一样,在房产市场上,任何一致性的预期都会直接反映到当期的价格上去,在房价上行时期如此,在房价下行时期也同样如此。而预期的管理,就成为了稳定价格,防止发生系统性风险的重要一环。对于稳定预期的形成,各种短期政策作用都存在局限,需要依赖更加长期的制度建设和规律认知:未来人口分布的变化是怎样的?城市体系的发展有何规律?居民购房或租房的权益是否能得到长期稳定有效的法律和制度保障?经济发展和不同阶层居民收入是否能继续逐年稳步增长?▍一些其他的思考在中国,房子不只是房子,所以关于房子的讨论,还涉及房产领域之外的话题。其中一个话题是市民权利与房产的关联。一直以来都有这样的吐槽:“房市好的时候,总是有户籍才能买房;房市差的时候,总是买房送户口。”当市民权利被捆绑在房产上,会使得房价中包含非居住价值,客观上推高了房价,也形成了学区房的涨价预期,从而降低了房产的租金回报率。近年来,一些城市开始尝试推行租购同权去缓解这个问题,但也有学者对此表示了担忧,因为这可能会使得部分条件较好的家庭为了追逐公共服务,挤出了有居住需求家庭的房源。因此,真正需要的也许是将公共服务等市民权利从房产上剥离出来,让房子只是房子。另一个话题是共同富裕。正如上文提到的,买房实际上相当于买了一张所在区位的“股票”,买房人通过房产价值的变动,来分享这个区域发展的成果。看起来这应该是一件公平的事,考验的是个人眼光,愿赌服输。可实际却不尽然,下图展示了不同单价的房屋,其实际房价变动和升值预期的情况。可以看到,越是单价高的房产,在过去四年中的增长也是越快的,而这部分房屋的数量却在总体样本中属于少数。由于房产构成了中国家庭资产中的主要部分,这可能也意味着不同家庭之间的资产差距扩大了。从共同富裕的角度来看,也许我们需要思考,如何让城市内的居民更加公平地分享城市发展的成果?在限购政策逐渐放松的背景下,如何防止因此导致的不同群体资产差距进一步扩大?▍下篇预告在本系列的前两篇,我们梳理了一些基本事实和逻辑,进行了一定的讨论和数值测算,下一篇,我们将围绕三大工程中的城中村改造和平急两用基础设施建设展开讨论,各方主体如何算各自的账?短期建设完成后,长期维护能够收支平衡吗?
5月24日 下午 5:15
其他

大模型正改变劳动力市场,以未曾设想的方式

2023年3月15日,在GPT-4震惊世界后,OpenAI的3月17日发表的论文《GPTs
5月11日 下午 8:19
其他

用什么买到教育——分数,还是钱?

一年一度的义务教育阶段学校报名即将开始。在民办学校摇号入学、提高名额到校比例、双减等一系列政策出台数年后,义务教育阶段各校的学业格局有了什么样的变化?在这篇文章中,我们使用上海市的教育大区——杨浦区的各种数据,进行一个简单的分析。▍识别每所学校的“升学成绩”我们使用的第一项数据,是2023年杨浦区各校的升学数据。这项数据包括了每一所学校2023届毕业生的去向,包括每一所小学有多少学生去向了每一所初中,以及每一所初中有多少学生去向了每一所高中。(具体数据可以在我们目前发布的小程序“在哪上学好”中看到,目前仅有杨浦区,在今年内会加入徐汇区等更多区域的学校。)通过这项数据,我们可以算出每一所学校的升学成绩。对于初中来说,它的升学成绩等于其2023年所有毕业生到各个高中的升学人数与这所高中在杨浦区的中考分数线的加权平均。杨浦区初中的排名如下表所示:小学的“升学成绩”看起来没有那么直观,因为小学并没有毕业考试,但是我们可以通过“穿透”的方式,将每一所小学到每一所初中的入学人数,乘以这所初中本身的升学成绩,便能加权平均得到每所小学的升学成绩。杨浦区小学的排名如下所示,个别小学因为我们暂时没有能掌握其完整升学数据,或者因为刚刚开始招生而没有毕业生,因此没有放在下表中。当然,这里的计算假设了不同小学的学生到了初中后会完全均质化,比如A小学和B小学都对口至C初中,那么A、B两校的毕业生在C初中的升学情况会完全相同。这可能是一个过强的假设,在未来我们掌握更多毕业数据之后将会对此有所修改。▍生源情况是如何影响升学成绩的有一种说法,很多“好”学校之所以成绩好,是因为它汇聚到了更多的“好”生源。决定升学成绩的因素有很多,其中最重要的一项因素当然是生源情况。而生源的情况则可以通过父母教育程度、家庭财富情况等数据来进行一定程度上的表征。我们使用杨浦区2010年、2015年的人口普查微观数据,以及通过人口合成得到的2020年虚拟人口在各个小区的平均教育年限(人口合成的方法可以参考我们之前的这篇文章)。结合每一所公办学校的招生地段,算出了每一所学校对口地段的教育水平,精确到每一个小区。为了更好地模拟生源所在年龄段的父母教育,我们仅计算了每个对口小区30-40岁人口的平均教育年限。将所有公办小学(民办小学没有对口招生地段)的升学成绩与这所小学招生地段的平均教育年限放在一起,可以得到下图:可以看到,对口地段的平均教育年限与小学的“升学成绩”基本上是正相关的,升学成绩最好的复旦大学第二附属学校、复旦科技园小学、上海音乐学院实验学校、杨浦小学等,其对口地段的平均教育年限也是所有社区中最高的。值得注意的是,在对口地段平均教育年限较低的一些小学,例如民星路小学、中原路小学分校等,其升学成绩也有不差的表现,社区教育程度与社区的升学情况走出了一条“V”形。如果说平均教育年限和升学成绩之间还存在一些反转的区间,导致某些教育水平不那么高的地区也能够有更好的升学成绩,那么财富水平和升学成绩之间的关系就更牢固了。我们用对口地段内的房屋交易总价的中位数来衡量地段内家庭的平均财富情况,可以看到下图:上图中可以看到,对口地段的二手房交易总价,和这所学校的升学成绩,呈现了高度正相关,拟合程度达到了40%以上,无论是显著程度,还是拟合程度,都要远高于教育水平和升学成绩之间的关系。因此,用这两个指标,我们可以在很大程度上刻画每一所学校的对口地段的“生源质量”。接下来,使用这个回归,它的残差就可以理解为每一所学校与“生源质量”无关的“教学质量”
4月11日 下午 9:11
其他

出生人口下降,但这届年轻人已经尽力了

▍写在前面如果说全国人民的春节联欢晚会在除夕夜,那么统计数据的春晚,就是每年1月的国民经济运行情况新闻发布会了。这场数据春晚每年准时为大家提供一年一度的新谈资,在各种数字中,最让大家翘首以盼的数字可能并不是GDP增长率,而是人口,或者说,出生人口。每年正式公布出生人口之前,往往各路人马都会拍脑袋猜一猜最终公布的数字。在这一片热烈祥和的竞猜气氛中,2023年的人口数据出炉了——2023年全年出生人口902万人,人口出生率为6.39‰,年末总人口比2022年末下降208万人。在这些数字公布之后,往往都会直接冲上各大平台热搜,引来无数专家学者的“热议”,并霸占各大媒体版面前排位置。数据团也曾在两年前的此时,发布了一篇讨论出生人口的文章。实际上,两年之后再来讨论出生人口现状,我们的观点几乎没有变化。但城市数据团编辑部同仁们仍然认为有必要用更新、更全面的数据,再一次分享我们的观点。“人口焦虑”大可不必,接受现实,放弃幻想,积极应对。▍发布会的人口数据,只是暂时的数字诚然,如果将2001到2023年历年在国民经济运行情况新闻发布会人口出生数字画在一张图上,视觉冲击确实很大。出生人口在1600万-1800万之间保持了16年后,从2016年开始骤然下降,到2023年的短短7年,出生人口下降几乎一半。在如此强大的视觉冲击和数字佐证下,人们很难不用各种负面词语来描绘当前的人口出生图景,进而引发热烈讨论,甚至是人口焦虑。但需要注意的是,“在国民经济运行情况新闻发布会”上发布的出生人口、同时也是历年统计公报发布的出生人口,仅仅只是诸多人口统计口径中的一种。这个数字,是根据每年11月1日的人口动态抽样调查数据推算出的每年出生人口。每年的抽样调查样本约为全国总人口的千分之一。这个版本的出生人口数据,会在整十年的人口普查后经历大幅度的修订,甚至在普查修订前,人们就已经发现了这些数据存在与客观事实的偏差。举个例子,该口径统计数据与后续修订的最大偏差,出现在2012年。2012年,统计局的国民经济运行情况新闻发布会和稍后发布的《2012年国民经济和社会发展统计公报》都明确显示,2012年,中国全年出生人口1635万人,出生率为12.10‰。7年后,2012年出生的人口上应该小学了,奇怪的事情出现。由教育部发布的《2019年全国教育事业发展统计公报》却显示,2019年小学招生1869.04万人。在2020年普查中,2012年出生的人口在当年为8岁,因此普查的8岁人口应当和2012年出生人口数字差不多。但在《中国人口普查年鉴》的短表3-1中,8岁人口为1935.37万人。从1635万,到1869万,再到1935万,2012年出生人口如何越活越多,甚至多出来三百万人?必定是有一个数字错了。而随着2012年出生的这批孩子进入幼儿园,进入小学,再进入初中,越来越多的现实数据表明,错的正是2012年在国民经济运行情况新闻发布会上通报的这项全国人口。于是我们便看到了人口出生数据的修订。在《中国统计年鉴2013》中,2012年的人口出生率为12.1‰。经过第七次人口普查调整后,《中国统计年鉴2022》中的2012年人口出生率,已经变化为14.57‰。按照这个出生率计算,2012年出生人口等于1980万人,是2010年到2020年之间出生人口最多的一年。所以,如果你要问2012年出生人口到底是多少,这个答案可能会有很多。在2013年伊始,我们曾经以为它是1635万人,但2023年回头再看,它似乎应该是1980万人。未来会不会继续修改呢?很有可能。因为每年都有人口动态抽样调查,每十年、每五年还会进行大小普查,这些调查也总会引入新的调查手段,这些新的统计手段也会使得新的人口数据出现变化。下图列出了使用不同数据来源计算的1986年到2022年每一年“人口出生数”,其中虚线表示的是当年的统计公报报告的初始数值,两条粗线表示2010年和2020年两次人口普查的分年龄人口,可以推算出的当年出生人口,其余细线表示2011到2022年历次人口动态抽样调查的分年龄人口可推算出的人口数据。不难发现,统计公报值(虚线)在1990年到2004年的出生人口统计显著高于后续的普查和抽样调查推算出的对应年龄人口数。但在2004年到2015年,又显著低于普查数据对应年龄人口数,两者的差异动辄上百万,甚至数百万。不仅如此,抽样调查与抽样调查之间,抽样与普查之间,甚至是普查与普查之间,人口出生数的差异也不小。——2010年六普中,2008年和2009年出生的1岁和2岁人口为1570万人左右,但在2020年七普中,同样是2008年和2009年出生,只不过成长到了11岁和12岁的人口,就上升至1738万和1772万,后者比前者高出近200万人。人口统计数据,是一个会变化的数值。由于技术手段的变化,我们可能会不断修正对真实人口的计算,并且随着时间推移,得出全新的结论。最近一个可能让我们认知更新的数字更新案例,就发生在过去两年。——2021和2022年的统计公报分别显示,2021年的出生人口为1062万,2022年出生人口为956万人,2022年的出生人口比2021年低106万人。但《中国人口和就业统计年鉴2023》却显示,在人口动态抽样调查中,2023年的1岁人口(2022年出生)的占比要比2岁人口(2021年出生)的占比更高,用抽样调查计算出的分年龄人口占比乘以当年总人口,2022年出生人口比2021年出生人口多103万人。2022年的出生人口,是比2021年下降了100多万,还是比2021年回升了100多万?就算只过去了短短一年,我们可能就有了更新的结论。因此,每年在公报发布后讨论出生人口的百十来万的变化,实在没有必要。▍出生人口总量下降,但个体生育意愿其实还在提升分析人口出生数据,我们往往会陷入总量的对比中,并在其中得出一些毫无意义的结论。比如常有人说,出生人口暴跌了,是因为人们“不想/不敢/不愿”生孩子了。举个例子,在某一个状态下,某个人要生2个孩子,在状态改变后,这个人改变了主意,打算只生1个,甚至不生了,这个变化,可以归结为“不敢/愿/想生”。但“不敢/愿/想生”的因素,在人口出生下降的过程中,到底起到了多大作用呢?第一,正如之前在《人口生命周期的力量》一文中提到的,人口的周期是会自我复制的,因此讨论出生人口的变化一定要首先观察25年前的人口变化,尤其是其中女性数量的变化。上图显示了2020年人口普查数据中历年出生的女性人口数据:1990年出生(当前34岁)的女性人口为1251万人;在短短9年后,1999年出生(当前25岁)的女性人口就只剩654万人;2003年出生(当前21岁)的女性人口甚至进一步降低到了633万人。近30多年前的出生人口在短短9年中快速减半,那么当这些人口进入生育高峰期窗口时,即便每个出生人口的生育行为完全不变,出生人口也必定减半。这并不涉及“不敢/愿/想生”的因素,而是一个简单的数学计算,也是一个20年前就可以完全预期到的,必然到来的现实。第二,如果排除了人口总量的影响,每个人“不敢/愿/想生”的因素,在最近十年来的人口出生锐减中,又到底起到了多大的作用呢?我们可以首先想象这样一个问题——有两个人,其性别、年龄、婚姻状况、教育程度、既往生育等特征完全一样,只是一个生活在2010年,另一个生活在2022年,那么这两人眼下的生育行为,是否会有差异?只有回答了上面的问题,我们才能排除所有的总量、结构指标,看到人们的微观生育选择。我们使用2010年人口普查微观数据以及CFPS数据完成这一项计算。2010年人口普查的长表中对15-50周岁女性的生育状况有较为详细的问题,见下图。在上图的基础上,我们可以计算出每一名被调查女性的当前人口特征、过往生育情况、过去12个月的生育选择。另一套数据来自2010-2020年的中国家庭追踪调查数据(CFPS),CFPS数据的家庭关系表详细记录了每个人的个人特征和子女特征。此外,我们还可以通过每个人的被访问时间以及是否有子女、每个子女的出生时间等信息还原出被访问者在过去12个月内的生育选择。举个例子,如果一个人的被访问时间是2023年7月,且有一名出生于2023年1月的子女,那么这个人在过去12个月内就有过生育。接下来,我们将2010年人口普查与CFPS数据合并,并用probit模型估计下式:可以得到以下回归结果:上述结果中有几项比较值得注意:首先,在其他特征相同的前提下,教育水平越高,过去12个月内生育的概率越低。在其他个人特征相同的前提下,相对于未受过教育的人口,受过高等教育的人口的12个月内生育概率会降低一半左右。这也是家庭经济学中的经典结论之一——教育水平越高的女性,生育的机会成本越高,因此会更减少生育。其次,如果之前曾经生育过一个男孩,那么12个月内生育的概率会降低61.3%,如果曾经生育过一个女孩,那么12个月内生育的概率只会降低35.6%。这显示了在已有男孩/女孩的前提下,人们是否会多生一个孩子的决策还是会有很大差异。已经有男孩的家庭会比有女孩的家庭更不倾向于生育二孩。第三,也是本文想要讨论的最重要一点——不同时间范围内的生育决策。从上图可以看到,从2010年到2020年,在其他个人特征全部相同的前提下,人们的生育概率事实上是先提升,再下降的,最高点在2018年,随后在2020年快速下降。2014到2018年的生育概率上升,可以理解为从单独二孩到全面二孩等政策改变造成的存量生育意愿释放,而2020年的下降,则是政策变化的存量红利耗尽,生育水平回到了正常水平的结果。而从图中我们可以看到,2020年的生育概率数值,比起2010年和2012年更大。这说明什么呢?我们可以打一个比方:某人他在2020年做了一个生育决策;平行宇宙下,各项特征完全一样,但穿越到了2010年或者2012的另一个他,也做了一个生育决策。两者相比,身处2020年的他,将会比身处2010年、2012年的他,有着更高的生育概率。正如我们前面提到的,在统计数据修正后,2012年出生人口达到了1980万人,而2020年的出生人口1202万人,2020年的出生人口要比2012年低39%。但前文的计算结果告诉我们,如果要比较同样特征下每一个人口的生育概率,反而是2020年要比2012年更高。这意味着,从2012年到2020年的人口出生快速下降,起到最主要作用的,依然是30年前的那条人口曲线,而不是我们每年都在讨论的
1月18日 下午 7:32
被微信屏蔽
其他

2023年,一线城市人口没有回流

众所周知,2022年,北上广深四座一线城市的常住人口同时下降。人们说,是因为疫情缘故,许多外来人口选择提前返乡,造成人口下降。那么,2023年呢?当一切都回到了正常的轨道,这些人回来了吗?在
2023年12月28日
其他

实体店铺正在受到直播电商的挤压吗?——城市餐饮与生活服务商业数据研究之三

2023年以来,中国经济走势一波三折。在消费领域,我们经历了狂欢的第一季度,收缩的第二季度,暑期久违的跨省出行旅游带来了复苏的第三季度,第四季度一切又趋于稳定。从某知名火锅品牌门店每天的平均排队情况,我们可以看到上述趋势的具体表现:可以看到,在刚刚结束的11月,该品牌门店全国平均排队桌数约为128家,是4、5两月触底反弹以来最高的一个月份,但距离年初时的每天166桌排队的盛况依然有一定差距。全国生活服务店铺的也出现了类似的变化。如果我们观察10月底和1月底的全国各类型商铺的增加与关闭,得到每一类型商铺的净变化,则能得到下图:除了酒吧、运动健身、景点旅游、休闲娱乐以及丽人类型的商铺仍然在增长外,其他所有类型的商铺都出现了不同程度的下降。其中家居、酒店、亲子、购物和学习培训类型的商铺减少最快,减少幅度都达到了10%以上。▍电商与商铺变化之间的关系实体商铺的不景气,除了世界和中国经济本身的运行周期造成固有波动以外,舆论中也有一种看法认为,电商,或者说直播电商的崛起,是重要原因之一。关于电商对就业或者对经济的影响,相关的争论早在淘宝等最早一批电商平台出现伊始就已不绝于耳,而中国在过去十多年来稳定的经济增长让该争论失去了发酵的土壤。但是,随着经济增速放缓,各类零售商铺的不景气,以及印度、马来西亚等国在不同程度上使用“保护实体经济”为由禁止直播电商,电商和实体店铺之间关系的讨论再度摆上台面。那么,电商和实体店铺之间到底存在怎样的关系呢?我们使用每个城市的电商销售额数据以及各城市的实体店铺数据,可以画出下图:可以看到,无论是电商用户数还是电商销售额,都与该城市的店铺数变化之间存在统计上显著的负相关关系,其中用户数变化的负相关程度更为显著,达到万分之一,t值为5.76,系数大小为-0.161,其含义为,当电商的用户数每增加1%时,会同时观察到当地的线下店铺数0.161%的减少。以上两张图画出了不同品类的生活服务店铺,与电商发展相关系数的情况,置信区间与红线相交的表示统计上不显著,在左侧和右侧分别代表该品类的店铺数量与电商消费金额/用户数的存在负相关/正相关关系。可以看到,除了酒吧、K歌、生活服务(指的是维修、保洁、清洗等类型的生活服务店铺,更接近家政服务)等类型店铺与电商不存在显著相关关系,其他的店铺的情况或多或少都与电商增长存在负相关。其中酒店、运动健身、休闲娱乐、丽人、宠物等品类的生活服务店铺会随着电商销售额的增加而减少;酒店、学习培训、丽人、美食、景点等品类生活服务店铺会随着电商用户数的增加而减少。从上图看,我们似乎很难用几句话来概括电商和实体店铺之间的关系。不管是“I人店铺/E人店铺”/
2023年12月1日
其他

我们合成了一整座城市的人口信息——城市餐饮与生活服务商业数据研究之二

在上一篇文章中,我们针对个体店铺,研究了什么样的店铺有着更强的存活能力。而对于一个区域来说,餐饮、生活服务店铺的消失并不一定是一件坏事,若是同时出现一些更有活力的新店铺,形成店铺的健康迭代,对于保持这个区域的商业活力将更有好处。因此,在这篇研究中,我们将同时考虑旧店铺的“消失”和新店铺的“出现”,看看什么样的区域里店铺正在净增长。▍店铺净增长的街镇有哪些?将店铺数据归集到上海和成都共487个街道中,计算从2023年1季度到2023年2季度各区域的店铺变化,下表为上海市和成都市的店铺净增率最大和最小的20个街镇:从以上两张表格我们可以得出一些初步印象——1,上海市店铺增长最快街镇,大部分集中在郊区。例如松江区和浦东新区在前20名中均占据5席,其中浦东新区的5个街镇均分散在距离市中心30公里以上的远郊区。在外环以内的高速增长街镇,只有普陀区的长寿路街道,和静安区的天目西路街道两个。2,上海市店铺增长率最慢,或者是净减少最明显的街镇,基本都出现在市中心,前四名分别是静安区的宝山路街道、黄浦区的老西门街道、虹口区的凉城新村街道以及黄浦区的小东门街道,这些街道的商铺均出现了7%以上的净减少。3,成都市增长最快的街道基本分布在双流区和郫都区,分别处于成都市市中心的西南与西北部,青羊区的康河街道则处于成都市中心的正西方。4,成都市商铺减少最多的区域则集中在崇州市、彭州市、大邑市、邛崃市等区域,这些区域同样处在成都市中心的西南到西北方向。虽然净减少最快和净增长最快的区域所处方位类似,但经济中心自西向东移动的趋势十分明显。另外,虽然表格中没能完全显示,成都市中心靠东的地区,包括简阳市、龙泉驿区等地区,不少街镇的商铺增长也名列前茅。▍一种合成虚拟微观人口的新方法如果只是从方位、区域研究街镇增长背后的成因,结果可能更难具有预测性以及操作性。每个区域的人口年龄性别结构、教育、婚育、就业、家庭构成等一系列人口特征,才是一个地区商业变化的基础推动力量。但若我们要将人口特征纳入街镇层面的研究时,又会碰到新的问题,那就是人口数据的缺失。人口普查数据存在着4个层面的公开数据,分别是全国范围内的《中国人口普查年鉴》;在各省、直辖市与自治区层面的各地人口普查年鉴;县层面的《2020中国人口普查分县资料》以及街镇层面的《2020中国人口普查分乡、镇、街道资料》,均从加总层面给出该区域的汇总人口特征。然而,越是细颗粒的地理层级,数据字段越少。2020年的街镇层面数据仅有三段人口年龄结构、65岁以上人口数量,以及在本乡镇街道人户一致人口,一共5个指标可用,用五个指标来解释一个城市内动辄上百个街镇的增长差异,就有一些力不从心了。为了从汇总指标中反演微观人口数据,规划学、地理学的学者发明了一系列虚拟人口合成方法。举个例子,人口普查给出了100万人口的汇总性别比例、年龄结构、教育分布,那么研究人员就可以根据这些信息,生成100万条虚拟人口数据,每一个虚拟人口均有其性别、年龄和教育变量,且这100万条虚拟人口数据的性别、年龄和教育的汇总结果和人口普查给出的汇总数据完全一致。将这100万条微观人口数据分布在空间上,成为100万个可以独立行动的个体,便可开展行为模拟,例如交通模拟、公共设施使用模拟、公共卫生事件模拟等,帮助进行更复杂的研究。但是,虚拟人口合成的方法高度依赖于数据的可得性,使用的汇总数据维度越多,样本的联合分布信息越丰富,那么虚拟人口的合成才能更接近真实。以100万人口的人口合成为例,如果仅有汇总的性别比例、年龄结构、教育分布,却没有年龄与教育的联合分布,合成的人口中可能就会包含“3岁男孩已经是研究生”等失真组合的虚拟人口。因此,在人口普查给出的汇总数据指标基础上,我们还需要加入一系列微观数据,并使用这些微观数据得出的联合交叉分布,才能使合成出的虚拟人口更加贴近现实中的人口。使用目前为止可获得的最丰富的数据,我们合成的虚拟人口包括以下指标生成过程:1,使用人口普查的个体微观数据,确定在每一街镇内的人口年龄、性别、教育程度各自的分布以及联合分布。2,使用人口普查的家庭微观数据,确定每一街镇内的家庭构成逻辑,包括夫妻间的年龄、教育程度的联合分布;子女的年龄与教育程度和夫妻特征的联合分布。3,使用人口普查微观数据、人口普查分区县的职业、行业数据以及招聘数据的分布,确定不同年龄、性别、教育程度的人口在不同居住地点和工作地点的职业、行业从事情况,并能够在每个虚拟个体的性别、年龄、教育、职业、行业基础上计算其收入状况。4,使用住房与社区数据,包括租金、房型、房龄以及人口普查微观数据中不同特征的人口和家庭在与不同房型和房龄和租金的联合分布,在街镇内将虚拟人口分布至每一居委或社区内,为虚拟人口加入居住情况属性。5,使用从CFPS、CHFS中获得的人口面板数据以及人口普查微观数据中的一年和五年迁移概率,计算不同个人特征、家庭特征的人口每年的死亡率、婚育行为、就业与教育的变迁矩阵和迁移矩阵,使得人口可以人口与家庭为单位模拟各项决策,包括出生、成长、受教育、就业、与其他虚拟合成人口婚配、购买何地何种住房等。该方法使得人口合成可以动态演进,在通过2020年普查数据合成人口后,动态演进到2023年仍然保持与现实数据的高度一致性。使用这些数据,我们已经形成了全国重点城市的人口合成结果,包括北京、上海、广州、深圳、杭州与成都,在这些地区,形成了在宏观、微观与时序上均和现实人口特征相一致的“人口元宇宙”。囿于篇幅所限,本文将直接使用通过该方法算出的上海与成都市各街镇的人口年龄性别结构、教育结构和收入结构,我们将在未来的文章中对构造人口元宇宙的方法进行详细介绍。▍店铺净增长的街镇有哪些特征?我们使用上海和成都共455个街镇的店铺增长率与每个街镇的人口特征交互,可以得出下列结果。▍人均年收入80000元——街镇消费增速的顶点如果去观察世界上所有国家的经济增速,我们不难发现,最发达的国家和最不发达的国家增速往往较低,而处在弯道超车阶段的发展中国家的增速会更高。街镇的商业同样如此。我们将各街镇的人均年收入、人均教育年限和各街镇的商铺净增率进行对比,可得以下两张图。可以看到,随着这两项和人均GDP最相关的指标上升,街镇的商铺净增率呈现了明显的倒U型,其顶点出现在人均年收入80000左右(2020年口径)和人均教育年限10.3年左右。两图的蓝点和橙点分别表示成都和上海的街镇,可以看到,成都大部分的街镇仍然处在倒U型的左半边,仍有许多街镇有着高速发展的空间;上海的大部分街镇则已经越过了高点,随着各类人均指标的进一步增长,增速开始下滑了。街镇的成长,就和人们自身一样。在刚开始工作收入较低时,消费欲望的上升甚至能超过收入的上升,每多收入一元恨不能当成两元来花;而当越过某一个高点时,这样的消费欲望便减退了。▍哪些人群可能带来更高的消费力?使用从0到80岁、每5岁区间的分性别人口占比,我们可以计算不同年龄、性别的人口和当地商铺增长率之间的关系。上图中,横坐标为年龄、纵坐标为与当地商铺净增率之间的关系,蓝色实线表示男性,红色实线表示女性。在红色虚线上方的部分,表示这个年龄、性别的人口对于当地商铺净增起到了正向作用,反过来则表示负向作用。从上图不难发现,当一个街镇的0-9岁儿童越多,以及15-34岁青年占比越高时,这个地区的商铺越倾向于增长。35-44岁的人口和50岁之后的人口占比越高,则会使该街镇的净增率更低。年龄越大,对于街镇商铺的负影响也越为明显。一个80岁老人使得街镇商铺减少的比例,几乎要二到三倍于25岁年轻人带来商铺增长的比例。另外,从上海与成都共同计算的这张图中,我们也不难发现男性和女性之间存在明显区别。如果将这个图表的纵坐标,称之为不同年龄、性别人口的“消费力”,那么在0-9岁,男孩的消费力要大于女孩,而在25-29岁,女青年的消费力要高于男青年。我们再将上海与成都分开计算,可以得到以下两图:可以看到,两个城市的不同年龄、性别人口的消费力趋势总体相似,都是儿童、青年会带来正的消费力,而老年人带来负的消费力,但是在性别关系上则存在较大差异。在上海,女性的消费力从20岁到60岁均高于男性,其差异在25岁和40岁时达到顶峰。而在成都,反而是男青年的消费力高于女性,尤其是在35-44年龄段。男性的消费力达到女性的两倍以上。不同年龄、性别人口为街镇商业带来的消费力差异,其实指向了类似的角度。老年人始终带来负的消费力。而青年人口,尤其是25-40岁阶段的人口,带来的消费力提升是最显著的。有的城市可能男性更大,而另一些城市可能女性更高,这和当地的产业环境与文化环境可能相关。此外,0-4岁的人口增加也能带来一波消费力提升,在这个年龄段中,男孩带来的消费力提升似乎稳定地高于女孩。也许是男孩太皮了所以带来的消费更多?总之,这也是挺有趣的一个现象。▍未来增长的街镇有哪些?人口变迁视角比起收入、教育、产业等指标,人口指标在各个地区是相对稳定的。一个街镇的40-44岁人口,如果不迁徙,也没有死亡,那么5年后就自然成为这个街镇的45-49岁人口,从而带来不同的消费力。那么很显然,如果一个地区的人口都是20岁,那么5年后他们25岁时,就会给当地带来更多的消费力提升。如果一个地区的人口都是60岁,那么5年后他们65岁时,带来的就是更多消费力下降。根据这个逻辑,计算每个年龄段在当前和未来五年的变化,我们就能算出5年之后上海和成都的各街镇消费力提升最高和最低的20名,见下表。(由于出生人口难以预测,我们这里的研究仅仅考虑了人口的跨街镇迁徙以及各年龄死亡率。)可以看到,无论是上海还是成都,未来五年由于人口结构变动带来的消费力变迁上涨最快的街镇,基本以郊区为主,例如上海的金山、奉贤,成都的大邑、蒲江。虽然郊区的增长更明显,但上海市区也并非没有增长的空间。在上海市,普陀区的长风新村街道、真如镇街道,五角场、徐家汇、虹口嘉兴路等街道,在五年之后依然能因人口结构的变化带来更多消费能力。此外,上海市一共有11个街道会因为人口结构的变化带来消费能力的下降,包括地处市中心的半淞园街道、湖南路街道等。相比之下,成都的情况就要好得多,没有一个街镇会因为人口结构变化而出现消费力下降。即便是成都消费能力提升最低的地区,成华区的青龙街道和武侯区的桂溪街道,消费力提升虽然只有0.1左右,同样的数字在上海已经能够名列前20。▍结语使用一种全新的人口合成方法,我们合成了上海和成都的4600万人口,他们在街镇、区县和总量上的各项指标的分布与联合分布均与现实一致。使用这些人口信息,我们计算了不同街镇商铺增长率和人口指标之间的关系,发现了一些有趣的特征。第一,随着街镇的人均教育年限、人均收入上升,街镇的商铺增长率会先上升再下降,其转折点出现在人均年收入80000元左右。上海大部分街镇已经超过了这个转折点,而成都的大部分街镇仍然在转折点之前。第二,不同性别、年龄的人口隐含着不同的“消费力”,其中儿童与青年人口的消费力更高。在儿童阶段,男孩的消费力高于女孩;在青年阶段,上海市的女青年消费力高于男青年,而成都市则相反;在老年阶段,年龄越大,拉动商铺增长的消费力负值越高。第三,随着人口变迁,成都市各街镇的消费力会在五年后出现较大增长,但上海的各街镇消费力提升已经不明显,还有若干区域会出现人口拉动的消费力下降。人口结构的变化,尤其是青年人口的变化,在中国未来几年的消费贡献中,将越来越成为一种不得忽视的力量,即便是在街镇层面,我们依然能看到这种力量带来的潜在变化。P.S.我们做了一个小工具一——开闭店查询,对任意空间(包括商圈、商场、区县、街镇围栏)范围开闭店进行分析,可以按照类别、价格、楼层、热度等查询分析,希望为店铺选址、加盟选品、品牌拓店等业务需求提供分析支持。目前小工具开通了上海地区的测试,点击“阅读原文”,留下联系方式就有机会参与测试哦~
2023年10月12日
其他

消失的店铺——城市餐饮与生活服务商业数据研究之一

当我们打开各种APP,查找周末下午要体验的剧本杀,晚饭要去的餐厅,旅游要逛的景点,有时会突然想起一些久远之前的名字。而当我们兴冲冲在搜索框键入记忆中的那个名字,却没有返回任何信息,只有一些笔记,只鳞片爪地留下了这份记忆的真实性。店铺会出现,也会消失。这些消失的店铺,为何会消失?在接下来一段时间里,数据团将使用微观店铺数据(包括上海市与成都市两个城市)、中国第七次人口普查的分乡镇街道数据(该数据已在2023年7月正式出版),以及其他高频数据,通过一系列研究,来看看什么样的店铺能够“活下来”。▍找到“消失的店铺”要找到消失的店铺,我们必须在不同的时间点获取当前存在的店铺数据,并进行对比。以2023年3月31日与2023年6月30日为标准时间点,我们分别获取了上海市与成都市在这两个时间点存在的店铺,而其中在2023年3月31日出现,却在2023年6月30日没有出现的店铺,就是我们要分析的“消失的店铺”了。上表显示,从2023年3月31日到6月30日,在沪蓉双城,店铺的总量都是在增长的。上海有15.6%的店铺“消失”了,成都有10.7%的店铺“消失”,与此同时,上海又新“出生”了16.9%的店铺,而成都的店铺“出生”率则为16.7%。我们将在之后研究新出生的店铺,并在此基础上研究店铺的净增长率。这篇文章的焦点还是其中消失了的那一部分。下表列出了不同大类的店铺在上海和成都的消失率。在上海,“消失”最快的店铺大类要属亲子、美食、购物、家居和酒吧。其中亲子类和美食类的2023年2季度消失率都达到了24%以上,接近四分之一的店铺在这个季度消失。而在成都,则是酒吧、金融服务、美食、亲子和运动培训这几个大类的店铺有最高的消失率,其中酒吧的消失率达到21.7%,超过五分之一。这些店铺为何会消失?是因为价格过高导致了客人的离开?还是因为他们的服务不被客人喜欢?抑或是他们处在了不合适的位置?接下来,我们将对其中占比最大的餐饮类店铺进行研究。▍沪蓉双城,什么价位的餐饮店更容易活下来?根据各个餐馆的人均消费,可以画出上海、成都两地的消费分布。(为了便于观察,我们对坐标轴进行了缩放)总体来说,100元以下的平价店铺占绝大部分——成都91.53%的餐饮在人均100元以下,上海人均百元以下的餐饮店铺也占总数的79.8%。上海最贵1%餐饮的门槛约为573元,意味着人均消费574元以上的店铺,只占上海所有餐饮店的1%。而成都的最贵1%餐饮门槛仅为257元。将餐馆的价格划分为十元一个档次,例如人均消费从100元-109元为一档,110元-119元为一档,计算其中每一个档次的店铺的存续率后,再经过平滑处理,我们可以画出下图。可以看到,不同价格的餐饮店存续率有着较大差别,呈现出倒V字型。从最便宜的餐饮点,到人均消费高达590-599元的中高级餐饮,店铺的存续率显著提升,从91%提升至98.6%。在人均价格超过600元之后,店铺的存续率再度下降,在均价为750-760的区间,仅有92.5%的存续率。在人均价格超过760元后,餐饮存续率再度提升。若是将上海和成都的数据区分开,那么可以得到下图:上海的价格-存续率曲线出现了两个明显的高峰,一个在590-599元,另一个出现在830-849元之间,价格处于这两个区间的餐饮店都有着高达98%以上的存续率。而成都的价格-存续率曲线则出现了“一波三折”的现象,在人均120-129、370-389的这两个区间,分别出现了明显高于相邻价格区间的存续率。在沪蓉两地,高价餐厅的占比都不算很大,难以画出更为平滑的价格-存续率曲线,但从总体趋势上看,我们不难得出结论——高价的餐厅,总体来说比起低价餐厅有着更高的存续率。这个现象在成都比上海更为明显。虽然在某些价格区间似乎存在小的存续率波峰,但是在价格超过500元的高价餐厅,存续率竟然达到了惊人的100%。当然,这些图表只能代表价格与存续率存在相关关系。这些变化背后的原因到底是什么?是高价餐厅更能应对市场波动,还是小餐厅船小好掉头?很难直接给出答案,我们需要更多的数据。▍口味、环境与服务,哪个对店铺存续更加重要?在我们的数据中,每家餐饮店铺都包括口味、服务与环境这三项评分,我们将用这三项数据,对于该店铺在2023年2季度是否能够存活进行probit回归,公式如下:Φ−1(P(存续=1))=β0+β1×口味+β2×服务+β3×环境回归结果如下所示:上图显示了三组点以及他们的置信区间。在红线右边,代表的是这个部分的评分提高,对于存续有正的影响。例如无论是上海、成都,还是两个城市加总的所有数据,“口味”评分对于这个餐饮店是否能够存续,都有极为显著的影响,其系数大小约为1.5,表示该店铺的存续率会上升1.5个标准差,即存续概率在边际上有26%到30%左右的提升。不难发现,在两个城市,虽然口味的提升都能显著提高店铺存续的可能性,但“服务”评分的提升却会显著降低店铺存活的可能性。“服务”评分每上升1分,该店铺的边际存续概率会下降13%-19%左右。在“环境”评分上,上海和成都出现了差异,在上海,“环境”评分每上升1分,该店铺的边际存续概率会上升5.4%,而在成都则会下降3%。这可能也体现出了两座城市在餐饮习惯上的些许不同。总之,如果仅仅是为了餐饮店铺的营业可以更久,更不容易关门歇业——而非挣得更多,或者其他目标——那么口味永远是最重要的,更为优良的环境对餐饮存续的影响并不大,但在上海有些许正向影响,在成都则是负的。需要注意的是,更好的服务,永远会和更高的关门概率绑定在一起。这个结果并不算出人意料——更高水平的服务往往也意味着更高的用人成本,这对餐饮存续并不算好事。我们进一步对不同品类的餐饮计算了这三项评分的影响,大于零表示该变量的提升对于存续有正向作用,小于零则表示相反的含义。上图从高到低显示了“口味”对餐饮存续的重要性。对口味最敏感的餐饮品类,即“口味”系数图中排名最靠前的,是小龙虾、家常菜与农家菜。在这些品类,口味评分在很大程度上决定了店铺是否能够继续开业,这些店的口味稍微差一点,就不会再有人品尝。相比之下,自助餐、水果生鲜、咖啡厅和西餐的存续不太受到口味的影响。上图呈现了“服务”评分对不同种类餐饮的存续影响系数。可以看到,服务几乎对任何品类的餐饮都没有正向影响,即使是排名第一的粉面馆,服务的提升对餐饮的正影响也并没有达到统计上的显著。反过来,在鱼鲜、特色菜、食品滋补和湘菜等品类,服务越好,反而店铺关门的概率会更大。上图呈现了“环境”对于不同品类餐饮存续的影响。可以看到,不同的餐饮存在着很大差异。在特色菜、粤菜、本帮江浙菜和咖啡厅等品类的餐饮中,环境更好,存续概率会有显著提升。而在家常菜、烤肉烤串、小龙虾、北京菜等品类中,环境较差的店反而有更高的存活率。口味、服务和环境,在不同种类的餐饮中,影响方向也会有较大差异,正说明了每一种餐饮所能吸引到的人群存在显著差异。到粤菜馆、江浙菜和自助餐用餐的人们,希望这家店的环境能够更好,但对口味的要求低一些。到小龙虾、烤肉烤串店用餐的人们则完全相反,他们只在乎好不好吃,却对环境毫无要求。如果一家店环境太好,可能反而带来更贵的价格,导致客人离去。因此,每一家店周边的人口特征,将是我们分析不同的餐饮店铺存续的关键变量。▍人口特征与存续率如何找到每家店铺周边的人口特征?这里,我们需要用到2023年7月刚刚出版的《中国第七次人口普查的分乡镇街道数据》。第七次人口普查的乡、镇、街道资料包括了上图呈现的这些变量,即总人口、三大年龄段人口(其中老人年龄段包括60岁及以上和65岁及以上两个口径)以及居住在本乡镇街道,户口也在本乡镇街道的人口。通过这些变量,我们可以为每一个乡、镇、街道生成这些地区的人口特征。上海和成都两地,共有487个乡、镇、街道,我们将所有店铺按照位置匹配到了每一个乡镇街道,并将上一个部分使用的probit公式改为下式:Φ−1(P(存续=1))=β0+β1×口味+β2×服务+β3×环境+β4×人均店铺数量+β5×少年人口占比+β6×青壮年人口占比+β7×外来人口占比+价格、位置变量除了之前的口味、服务、环境评分外,我们进一步加入了人均店铺数量(即该地区餐饮店铺数量除以人口总数)、少年人口占比(0-14岁人口占总人口比重)、青壮年人口占比(15-59岁人口占总人口比重)、外来人口占比(用1减去户口在本乡镇街道的人口比重)。(由于老年人口与少年人口、青壮年人口存在共线性,我们在这个回归中暂时不加入该变量。)同时,我们还控制了店铺的价格和位置(用到市中心的距离表示),进一步排除人口特征和其居住位置和店铺特征之间的关系。将上述变量在各个品类的餐饮中的影响绘制出来,结果如下:上图显示,少年人口能够带来更高存活率的餐饮,主要包括面包/饮品类、私房菜、食品滋补、家常菜、烤肉等类别。除了“其他美食”品类,少年人口即使没有显著的正向影响,也少有负向影响。上图显示,青壮年人口占比(15-59岁人口占比)提高仅会对水果生鲜、食品滋补类别产生显著为正的存续率影响。对其他大部分品类,青壮年人口更多,其影响反而是负的,尤其是粤菜、西餐等品类皆是如此。与少儿人口的结果对比,青壮年人口呈现出的结果稍微有些出乎意料。在我们的直觉中,一个地区的工作人口比例越多,似乎应该会有更高的消费能力,但对餐饮存续的分析显示,在其他人口特征类似的情况下,上班族占比更高,反而会成为一个餐饮业的负向信号。上图给出了户口在外乡镇街道的人口占比对不同品类餐饮的存续率影响。从图中可以看到,粤菜、粉面馆这两类餐饮,会在外来人口占比更多的地区更好地经营下去。而特色菜、水果生鲜、食品滋补、面包饮品、火锅、川菜等品类,则有相反的趋势。需要注意的是,本文中用到的“外来人口占比”与通常语境中不太相同,严格来说是人口普查中的户口不在本乡、镇、街道的人口占比。户口在外乡镇街道,既包括上海、成都以外的人口,也可能包括上海成都的其他区县,或者本区县其他乡镇街道的人口。在一般的情况下,这两个数值的有很强的相关性,因此这里将“户口在外乡镇街道的人口占比”,近似地认为是“外来人口占比”,来度量本乡镇街道迁入人口的情况。上图呈现了人均餐馆数量对不同品类餐饮店铺的存续影响。人均餐馆数量,表示的是该地区该种类餐馆的密度。理论上说,一个地区如果同类餐饮个数过多,那么这类餐饮会有更强的竞争,导致每一家的存续概率都更低,例如烤肉、小龙虾、湘菜、烤串等品类,都呈现了这样的现象。但是,在北京菜、私房菜、粤菜、自助餐、鱼鲜和日本菜品类,这种现象不仅不存在,反而呈反向出现——人均餐馆越多,越容易存续。在这些品类的店铺,同行开在隔壁,可能并非是坏事,正如产业园区可能为企业带来集聚效应一样,某类餐馆在一些街道的“扎堆”,反而能够打出品牌,降低成本,留存顾客,让这些店铺更容易开下去。▍结语什么样的店铺更容易存活?更好吃的店铺总是更容易存活,而其中某些品类的餐饮受到口味的影响更大——例如小龙虾、家常菜。而某些餐馆的存活与否却和口味没有什么关系——例如自助餐。更好的环境,则并不一定能够带来更高的存活率。在上海可以,在成都不行。在粤菜馆可以,在小龙虾店则不行。而更好的服务,却基本上总是和更低的存活率相关。在人口特征上,少年人口占比提升对存续率的影响更为正面。青壮年人口占比的提升常常与更低的存活率相关。外来人口占比的提升,可能会让该地区的粤菜馆和粉面馆更容易生存下去,但却使特色菜、水果生鲜等品类的存活率降低了。在人均店铺这一竞争性指标上,一些品类体现了更强的竞争性,例如小龙虾、烤肉,一个地区有一家就够了,有你没我。另一些品类则似乎从集聚中获得了更多好处——一个街道开了更多北京菜馆子,反而使想吃北京菜的人们更多地来到这个街道,弥补了竞争的损失,让每一家店的存活率都更高了。所以,如果你知道某一家店,地处没有小孩且上班族云集的地方,口味一般,环境还不错,服务还特别好,那么赶紧再去打卡一次吧,可能它什么时候就关门了。在下一篇文章中,我们将在消失的店铺之外,进一步分析店铺的“出生”,更详细地讨论上海和成都的具体街道和商圈的情况。
2023年9月20日
其他

上海,有科创吗?

创新是发展的第一驱动力,城市间的竞争总是围绕着金融、贸易、科技、文化等领域展开,最后却都可以归结到创新。而科技创新,无疑是其中决定性的一环。如果我们用相对客观且便于量化的专利申请数据来观察,6年时间国内专利申请数量增长了600%。中国城市在科技创新方面具有怎样的空间格局?上海,又在其中处于什么样的位置?高校、研究院所、政府、企业……又是谁在支持着上海科创?▍中国城市专利创新的空间格局根据国家知识产权局公布的专利申请信息,按照时间和申请人/单位所在的城市,我们对各个城市历年的专利申请数量和增长情况进行了汇总统计。(为了排除疫情影响,分析的时间窗口选在了2014-2020年。同时为了尽量贴近“科技创新”这个概念,下文在分析时排除了所有外观设计类的专利申请项目。)从每年专利申请的数量来看,从2014-2020的几年间,国内专利申请数量达到了6倍以上的增长。而专利申请的空间分布其实颇为集中,每年前20强城市的专利申请数之和,就已经超过了当年全国总量的一半。下表我们列出2014年和2020年的前20强城市,并列出了各个城市的这几年的增长幅度和位次变化情况从专利申请数量来看,北京、深圳、上海和苏州是稳定的第一梯队,广州和杭州在2014-2020年经历了高速追赶,正在逐渐接近第一梯队。榜单的中后段,武汉、东莞、佛山和郑州,虽然专利申请总量与第一梯队仍有差距,但增速也十分亮眼。有意思的是,与以金融、时尚等产业发达的大众固有印象不同,上海作为第一梯队的成员,具备非常强力的科创底蕴与动能。在科创圈流行着这么一句话:“在中国,只有上海这座城市,既能造飞机,又能造汽车,还能造火箭和大型邮轮。”在直观的专利申请数量之外,更多的掩藏在水下。以基础研究为例,截至目前,目前上海布局的国家重大科技基础设施共17个,2021年,全社会基础研究投入达177.73亿元,占研发投入的比重近10%,较5年前翻了近一番。在产业方面,也有别于刻板印象,集成电路、人工智能、生物医药三大产业正在成为上海的创新高地。集成电路工艺、装备材料等关键核心技术加速突破,并不断涌现着创新成果。尽管发展水平上参差不齐,但上海拥有研发、制造、销售、应用、全球要素配置能力等创新链上的几乎所有功能。多种因素汇聚之下,上海似乎探索出了一条有别于其他城市的科创新路径。此前,在“十四五”规划中明确提出,上海要建设具有全球影响力的科技创新中心,从数据来看,具有非常坚实的基础。然而,要高效完成这个目标,仍有几个基本问题需要厘清,才能真正看清这座城市的科创现状。谁在支撑上海的科技创新?目前上海的创新效率如何?上海的创新格局有何特点?▍谁在支撑上海的科技创新?科技创新和专利申请,谁是主力军?从专利的申请人来看,主要分为三大类:个人、企业和高校科研机构。在传统观念中,高校科研机构代表了基础科学的前沿和部分前沿科学的实际应用,应该是科技创新中的基础力量。而各种科技企业面对的是激烈的市场竞争环境,投入科创和专利研发,有助于在竞争中杀出重围,应该也是科创中的生力军。那么数据上的表现是怎样的呢?先来看看国际上的普遍情况,根据国际知识产权组织(WIPO)2020年的报告,专利申请者中企业都是绝对的主力,全球平均占比超过85%。图片来源:WIPO:
2023年9月6日
其他

青年失业率上升,受伤的究竟是谁?

2023年6月,中国16-24岁人口的失业率上升至21.3%,达到了统计局公布该数据以来的最高数值。对国内大部分读者来说,青年失业率,是一个近年来才出现的统计口径。在短短的五年之前,当人们谈论失业率时,说的还都是“登记失业率”。登记失业率,反映的是在劳动保障部门登记的失业人员总数占城镇从业人员总数的比例,和劳动力市场的供需变化关系并不大。国家统计局在2018年开始系统进行劳动力月度抽样,之后开始发布“调查失业率”。利用入户的方式,每个月统计人员都对约34万户家庭进行月度劳动力调查,直接汇总结果算出各项失业率,这也是我国在失业的计算口径上首次与国际接轨。从2018年1月到现在,中国城镇调查失业率的波动如下图所示:一般稳定在5%左右,在2020年的2月达到了6.2%,在2022年4月达到6.1%,这两个月份正是疫情影响范围最大的时期。从上图能看到,从2022年4月之后,中国的调查失业率趋势总体波动向下的,目前连续3个月维持在5.1%,达到了近一年半以来的低点。青年失业率则呈现另一种特征,从下图可以看到,中国的16-24岁人口失业率(下文统称“青年失业率”)在2018年劳动力月度调查刚刚开始时就达到11%,并在随后几年波动上升,在2023年6月达到了21.3%的最高水平。全国总体的调查失业率在近一年来稳中有降,但青年失业率却不断攀升,两者的差异产生的原因众说纷纭。有人认为是数据错误,甚至是数据造假;有人认为是短期宏观因素冲击,也有人认为存在更长期的结构问题。无论哪种说法,我们都需要对这个指标进行更细致地分析。▍国际比较:多高的青年失业率才算“很高”虽然青年失业率在我国还算一个新指标,但却早已出现在各类“国外水深火热”的新闻中了。从百度搜索2013年到2017年的新闻,可以看到这样一系列结果,分析各国的青年失业率为何如此之高。而在这些新闻中可以看到,韩国青年失业率虽然创新高,但也只有10.7%左右,而澳大利亚的青年失业率一度达到过27.1%;部分欧盟国家的青年失业率则非常之高,希腊和西班牙甚至达到过50%以上。可见这个指标在不同国家之间的差异也相当大。从下图我们可以看到从1980年到2022年间各国每年的青年失业率:从上图不难发现,在许多经济增长并不慢的国家或地区,青年失业率也常常会突破10%、甚至20%。在南非、希腊、西班牙等地区,青年失业率长期位居30%以上。在上图的43个国家,从1980年到2022年的43个年度,一共记录了1454次年度青年失业率数据,其中1104次达到10%以上,占所有数据点的75.9%;有449次达到20%以上,占所有数据点的30.9%。考虑到青年失业率与学生是否在校紧密关联,因此有较强的周期性,月度数据会包括更多信息。下图21个有青年失业率月度数据的国家,在过去的40年一共记录有8600次数据,达到10%以上的次数有6595次,占所有数据点的76.7%;达到20%以上的有2674次,占所有数据点的31.1%。下图记录了每一个有月度数据的国家的青年失业率最大值。中国青年失业率的历史最高点为21.3%,从低到高位于第七位,有14个国家的青年失业率最大值高于中国。从国际比较来看,青年失业率达到10%以上可以说是稀松平常,达到20%以上也绝非罕见。中国的数值虽然近来上升较快,但与其他国家相比,还是处在较低的三分之一区间。因此,看到青年失业率的数值较高,而担心宏观经济“崩盘”,这种心态大可不必。但这是否意味着面对当前上升的青年失业率,什么都不用做呢?并不是。可以看到,加勒比地区的国家,意大利、西班牙、葡萄牙、希腊,青年失业率都经历过40%以上的高值,虽然在之后也逐渐回落,但很难再度下降到20%以下。因此,我们仍需要警醒,防止短期经济波动的冲击变成长期的问题,对于青年失业率问题,仍需要更深入的探究其原因。▍青年失业率上升:受伤的是谁?看完上面的图,一定会有很多读者会说:“21.3%这个数字一定有水分!我看身边情况绝不止20%!”在各种网络平台,我们确实时常可以看到一些文字或图片,向公众述说着这样一个情况:每一届应届本科毕业生都在面对“史上最难就业季”。但总体失业率却呈现稳中有降,这种认知上的矛盾究竟是如何产生的?为了解答这个问题,我们需要进一步分析失业率数据,对不同的失业群体进行分拆。先看年龄,上图呈现了16-24岁人口失业率和25-59岁失业率的变化。可以看到,在青年失业率屡创新高时,25-59岁人口的失业率在2023年6月仅为4.1%,达到了该口径出现以来的最低值。再看学历,上表呈现了四类学历人口从2023年2月到6月的失业率变化。不难发现,初中以下学历、高中学历的失业率,在近几个月出现了明显下降。大专学历的失业率也呈现稳中有降的趋势。唯一保持失业率上升趋势的,正是本科及以上学历的人口。很遗憾,我们并不能获取青年人口中分学历失业率的具体情况。但综合上述两张图的特征,不难做出这样一种推断:总体失业率的下降,和青年失业率的上升,两者同时存在可能并不矛盾,而是反映了宏观经济波动的背景下,就业市场的结构性问题。经济波动中,似乎在就业市场上主要受伤的都是高学历的青年人。为了进一步支持上面这个推断,我们试图从招聘数据中找到答案。在以前的文章中提到过,数据团拥有从2015年到现在绝大部分招聘网站的招聘广告数据。每一条招聘广告,常常会包含经验要求和学历要求。在2023年7月的招聘广告中,排除教育、经验没有明确需求的招聘,我们使用的招聘数据一共包含大约500万个岗位的招聘,他们的教育-经验要求分布如下:从上表中可以看到,招聘数量最多的教育-经验组合,是1-3年经验的大专学历劳动者,其次是有3-5年经验的本科学历劳动者,以及1-3年经验的本科学历劳动者,和3-5年经验的大专学历劳动者。合并起来看,对经验在1-5年的大专或本科学历劳动者的需求,占据了所有招聘岗位的66%左右。那么16-24岁的高学历青年人口,在上述的表格中处在什么位置呢?我们用红框突出了这样的人群,包括没有经验或者是仅有1年以下经验的本科或硕士学历的劳动者。这部分岗位,占全社会当月总招聘的3.96%,不到4%。接近4%的比例,是高还是低?我们需要从历史数据中观察,寻找参照。下表列出了2021年7月时的情况:可以看到,2021年7月时,红色方框内的招聘,占总招聘的5.6%。对年轻高学历人口的招聘占所有招聘的比例,从2021年7月到2023年7月减少了29%。当我们将数据进一步向前推至2018年7月时,下表出现了更明显的变化。在2018年7月,方框内的比例高达8.2%。对年轻高学历人口的招聘占所有招聘的比例,从2018年7月到2021年7月减少了32%。从占总招聘的8.2%,下降到不到总招聘的4%,对年轻、高学历但是没有经验的劳动力的需求不断下降。那么,对哪些人群的需求增加了?年轻、高学历,但有经验的人口。学历需求为大专的招聘,在总招聘中的占比从2018年的39.22%下降至2023年的38.47%,看似只减少了0.75%,没有多大变化。但在经验结构上,无需经验或者只需要1年以下经验的比例却减少了4.96%,要求3-5年经验或者5-7年经验的招聘占比却逆势上升了4.66%。学历需求为本科的招聘,在总招聘中的比例从2018年的35.5%上升至2023年的50.79%,有15.29%的上升,但是无需经验或者只需要1年以下经验的招聘比例却逆势下降了4.62%,只有需要经验的岗位的比例在快速上升。下图列出了学历需求为本科的岗位中,各类不同经验需求的岗位比例。可以看到,越是需要经验更多的岗位,需求比例也上升越快。没有经验的岗位需求下降了72%,十年以上经验的岗位需求上升了211%。从2018年到2023年,所有岗位的平均经验需求,从2.42年上升至3.41年,几乎上升了整整一年。给学历很高但没有经验的年轻人留下的位置,越来越少了。到这里,我们发现了总体失业率和青年失业率背离的一个重要的结构性原因:市场仍然需要劳动力,对高学历劳动力的需求也还在增加,但越来越看重工作经验,对没有经验的高学历青年劳动力需求反而在下降。▍结构性问题:学历信号的减弱包括西班牙、葡萄牙、意大利、希腊和加勒比各国在内的不少国家,都曾经历过20%以上的青年失业率,在总结历史经验教训之后,各国普遍都得出了下面这个结论——解决青年失业,关键在于如何让年轻人获得第一份稳定的工作而获取经验。如果一个年轻人能够找到第一份工作,那么他之后的失业率就会骤降;但若是这个年轻人迟迟无法找到第一份工作,只能通过非正式就业(零工、兼职)来维持生计,就会无法积累正式工作的经验,同时出现学历的贬值,无法与更年轻的人竞争,从而距离正规劳动力市场越来越远。这种现象,被加勒比各国的学者们解释为“无经验的陷阱”,即一旦你无法获得经验,就会越来越缺少找到工作而必备的工作经验。聪明的读者想必已经发现,这里有一个悖论:“社会新鲜人”们想要更好就业,第一份可以积累经验的稳定工作是关键。可是企业又越来越不需要没工作经验的求职者。(图片来自网络)所以,让年轻人“放平心态放低身价”之类的谆谆教诲,对青年失业率问题的缓解并没什么价值。我们要研究的是一个动态,“无经验的陷阱”始终是存在的,但为什么这个陷阱正在变大?这些年来,企业为什么越来越倾向于有经验的劳动力,为无经验的高学历年轻人留下的位置却越来越少?为了解释这个问题,我们做了一项回归,用每一份工作的教育需求和经验需求,去解释这份工作的工资,回归式如下:我们使用从2015年到2023年每一年的招聘数据进行以上回归,记录每一年的两个系数,即教育和经验的回报率。分别表示每多受到一年教育/多获得一年工作经验时,工资能够增长的幅度,如下图所示:从上图可以看到,2015年到2023年,教育的回报率始终在下降。在2015年时,招聘广告的教育需求每增加一年,该职位提供的工资上升超过8%。到2018-2021年,每增加一年教育需求,工资上升的幅度下降到5%。这个上升的速度到2022、2023年再进一步下降至2%-3%。与此同时,经验的回报率却呈现上升趋势,2015年时,招聘广告每要求多一年工作经验,会提供5%左右的工资上升。这个数字在2019年后上升至8%到9%左右。如果将招聘广告提供的工资理解为劳动力市场上的一个均衡价格,图上的两条线代表的正是教育和经验分别对于劳动生产率提高起到的作用。教育回报率下降,开始低于经验的回报率,说明企业与其选择一名学历很高但是没有经验的劳动者,宁愿选择学历相对低一些,但是经验更丰富的劳动者。一句话——企业不再依赖学历选择人才了。这种现象,可以将其称之为“学历信号的消失”。高等教育在劳动力市场上能够起到两种作用,一种是培训作用,使得你的劳动技能更高,工作能力更强,干活儿干得更麻利,可以为企业带来更多收入;另一种是信号作用,企业在不清楚求职者真实能力的情况下,通过教育水平(学历or文凭)去筛选求职者,毕竟能从千军万马中考上更好学校,获得更高的学历的人,大概率都不简单。但是,随着人口结构的变动和高校扩招,学历的信号作用正在减弱。下图我们画出了从2003年到2022年的高考录取率,每一个点代表的是当年的高考录取人数除以18年前的出生人数,比如图中的最高点2021年,代表的就是2021年的高考招生人数997万,除以2003年的出生人口数1373万(按照2020年人口普查的分年龄人口回溯),等于72.6%。2003年出生的人口,有72.6%将能够获得高等教育,而这个比例在十多年前还不足20%——1985年出生,2003年高考的人们,当年的高等教育录取率只有19.5%。原本希望通过学历来判断应聘者能力的企业,会发现他们的办法越来越不灵了,之前能够判断一个人是否属于能力前20%的指标,目前只能说明这个人是否属于前70%。所有能力迥异的劳动者完全混杂在了一起,企业要从中找到一个高能力的人才,也就只能通过其他指标——包括高于岗位要求的学历、更名牌的学校等等,又或者更加简单直接一些,看是否有工作经验。在这个充满摩擦的劳动力市场上,每个劳动者能够发送的信号是有限的,而企业能够接受到的信号也是有限的。如果劳动者发送的信号不够强,无法让企业辨别出来,那么他就必须提高自己发送信号的能量,直到被听到为止。要么是延迟走出教育体系的时间,在本科毕业后为自己武装上硕士学位甚至是博士学位,然后只是为了找一份本不需要研究生学历的工作。要么是早早地在大学一年级暑假就进入实习,以此来积累经验,让自己能够在毕业时从占本届人口70%的高等教育毕业生群体中脱颖而出。对于前一种选择,考研热潮正是其体现,与之相伴的是一些传统认知中并不需要研究生的职位,出现了名校研究生扎堆申请的情况。而对于后一种选择,不少企业也发现,一些以往没有人想要做的枯燥工作,现在竟然成了实习同学眼中的香饽饽。上面这两种情况,在当下的媒体中,常常会简单以“卷”来形容。可我们必须理解背后的无奈:当学历逐渐失去了信号作用的时候,年轻的高学历劳动者,如果不“卷”,便会在劳动力市场上逐渐失去他们的位置——这批人中的大多数当然最终还是能够找到工作的,但是正在被抛下的人们不断增加,这正是青年失业率逐年增高所反映的现实。▍结语:最好的应对时机在十年前,其次是现在青年失业率快速上升,但总失业率却稳中有降。结合招聘数据可以发现,受伤的主要是这样一群人——高学历、刚毕业、没有工作经验的青年人。与其将青年失业率的高企归因为单纯的短期宏观经济波动,我们更关注背后的“学历信号减弱”问题。在长期人口变化和教育供给增加的共同作用下,高等教育在人口中的覆盖率快速扩张,学历的信号作用在近年来逐渐消失,使得劳动力市场匹配效率下降。一方面是高学历没经验的青年人失业,另一方面是企业招不到合适的人才。在这样的背景下,青年人想要增强自己的发送的信号,选择了“卷”,卷考研、卷证书、卷实习。而企业则仍然无法从刚毕业的青年人这里接收到足够区分能力的信号,因此选择了更保守的招聘策略,他们放弃了学历信号,优先考察工作经验。在双方的博弈下,“无经验的陷阱”被扩大了,没有卷出头的年轻人们,越来越可能落入其中,难以脱身。要应对青年失业率快速提高的现象,短期内一揽子经济刺激政策并不是完全正确的答案。因为相比于短期经济波动,青年失业的问题更可能来自长期和结构性的各类因素,最好的应对时机或许是在十年前甚至二十年前。往者不可追,那么我们必须在当下做出足够的对策,来应对今年已经积累下来,明年规模可能更大的青年失业人群。例如建立职业技能培训体系,提高劳动者与企业的匹配率;或是对雇佣校招年轻人的企业进行各类税负减免甚至补贴等等。一旦被市场抛下这批高学历青年劳动者在进入社会的头几年总是无法找到正式工作,那么未来回到正式劳动力市场的可能性就将进一步降低,经验的回报被在正式就业市场找到工作的幸运儿们不断拉高,学历的信号作用则在这个过程中进一步降低,“光有教育没用,得有经验才能有生产力”将成为不断自我实现自我增强的论断,“无经验的陷阱”会进一步扩大。从前文的图中可以看到,意大利、西班牙、葡萄牙、希腊和加勒比诸国,青年失业率一度高企后,就再难回到较低的水平。短期的问题不能妥善应对,就将转化为长期的顽症,成为刺激经济也无法解决的问题。这样的未来,比起短期的经济波动,更需要我们重视与规避。
2023年7月31日
自由知乎 自由微博
其他

摇号时代的民办初中

7月16日,上海市中考分数开放查询。在北京、上海等许多城市,中考的不确定性甚至大于高考。高考的分数线,不同的学校之间差异高达上百分甚至几百分,能够去什么层次的学校,往往在考试前很久就已心中有数。
2023年7月18日
其他

朋友圈阳了好几个,第二波疫情来了吗?

编者按:这篇推文原本计划发布于4月21日,原标题为《第二波疫情还有多久到来?》,因不可抗力延迟两周发布。恰在5月5日,WHO宣布了新冠疫情不再构成“国际关注的突发公共卫生事件”;今天,国务院联防联控机制新闻发布会提到,近期“出现区域性规模性疫情的可能性不大”。对大部分人来说,疫情的阴影渐渐远去,生活已经回归常态。但国内刚刚经过五一长假的天量人口流动,关于第二波疫情的担忧仍然存在。数据团编辑部决定将这篇推文更新数据后,修改标题重新推送,希望帮助读者辨析一些概念,同时展示相关数据。大流行终有结束的一天,推进公众对公共卫生事件的科学认知和相关数据监测体系的建设,是三年疫情期间留下的宝贵经验。在2022年底的一波疫情快速过峰后,第二波疫情什么时候到来,便成为人们非常好奇的一个问题。在去年12月政策调整之前,我们能看到一些倾向于继续封控的自媒体在不断地教育人们——共存也不会有好日子过,三个月来一波疫情,所以千万不能共存呐。这样的“教育”,至今仍然在持续。当中疾控的每周疫情统计在4月8日时出现了检测阳性率上升(从3月30日的0.7%上升至4月6日的1.4%时),部分自媒体便开始了“第二波疫情已经出现并即将达峰”的宣传。目前,最新的监测阳性率已经达到了4月27日的4.4%,第二波疫情似乎近在眼前了。那么,下一波疫情到底什么时候才会到来呢?如果来了又会有多严重?使用目前为止的各个国家疫情数据,我们可以做一个大致判断。▍超额死亡率与两波疫情间的间隔下图列出了从2022年1月开始到2023年3月各个国家/地区的超额死亡率情况。上图的国家/地区都存在一个特点,那就是他们都是在2022年奥密克戎变异开始流行后才逐渐进入全民感染阶段(其中新加坡、日本等地在德尔塔变异的流行阶段的感染率并不高)。从图中可以看到,当这些地区进入了全民感染,与病毒共存的阶段后,超额死亡率都会比较高。例如韩国在2022年3月的超额死亡率达到了70%以上,台湾地区在2022年6月时超额死亡率为44%,新加坡在2022年3月和7月也分别达到过39%和29%的超额死亡率。从这一张图来看,我们似乎很难否认,新冠疫情正是“一波跟着一波”的。但需要注意的是,上图的各条曲线中,有一条曲线未被呈现在其中,那就是中国香港特别行政区。当香港特别行政区的各月超额死亡率被放入图中时,不难发现它与其他地区之间有着明显差异。第一个差异,出现在2022年3月。香港特别行政区,是2022年感染和死亡最严重的发达地区之一,在2022年3月的超额死亡率达到180%,1个月死亡了近3个月的人口,成为彼时「绝不能放开疫情的严格管控」的最大数据支持。在2022年3月大规模首次感染后,在2022年的8、9月,12月,也都有疫情出现,造成了一些死亡。但我们不难发现香港特别行政区的超额死亡率和其他的几个国家/地区有所不同——它完全没有出现所谓的“一波跟着一波”的疫情。从超额死亡率来看,香港特别行政区从2022年5月一直到2022年12月的整整8个月时间内,超额死亡率始终在这些国家/地区中排名最后一位,这8个月的时间,平均超额死亡率仅有-2%,即死亡人数不仅没有增加,反而每个月都比正常情况还要减少2%左右。虽然香港特别行政区在2022年的8、9月间也曾出现奥密克戎变异BA.5的流行,但是这一波流行,完全没有使香港的超额死亡率出现大幅度变化。直到2023年1月,香港的超额死亡才重新出现,达到了31%。在香港特别行政区这样经历了一波较高的超额死亡过后,出现了至少8个月的平静期。在这8个月中,超额死亡没有出现,疫情没有再度爆发。从这张图看,每一波疫情都只感染了部分群体的国家/地区,两波疫情之间的间隔越短。第一波感染得越严重的国家/地区,后续的平静时间越长。▍理解超额死亡率与疫情之间的关系但是,我们应当如何理解超额死亡率呢?比如,有一种说法认为,超额死亡率不高于零,不意味着当时的疫情不严重,也并不意味着当时的疫情没有造成死亡。这类说法的支持者认为,当短期出现了超额死亡后,正常情况下,后续的死亡率应当会偏低于正常值,超额死亡率应当为负值,参考下图的模式:按照这个逻辑推演,如果疫情之后超额死亡率只是归零,而不是一个和超额死亡类似规模的明显负值,那么说明疫情仍然造成了一定死亡。也就是说,香港特别行政区在2022年5月到12月,超额死亡率基本为零,但不是负值,说明这8个月香港依然有疫情,依然有大量超额死亡。真的是这样吗?香港在2022年的5月到12月之间,真的依然有很严重的疫情吗?不难发现,这个说法的背后存在一个非常强的假设——每个因新冠死亡的人口,要是不罹患新冠,也只能再多活一年。在这种前提下,我们才能够在死亡曲线上,看到一个明显的“搬运”,比如一些本可能在2022年死亡的人口,其死亡数字因新冠爆发而被“搬运”至2021年,或者从2023年“搬运”至2022年。也只有在这种前提下,我们才能在超额死亡之后的一段时间中,看到一个明显的“死亡深坑”。那么,因新冠而死亡的人口,平均余命真的只有一年吗?2023年2月,Nature杂志上发表了这样一篇论文《Assessing
2023年5月8日
其他

中国1639种职业的GPT替代风险分析——5亿条招聘信息中的职业生涯密码:后篇

▍GPT来了,我会被它替代吗?关注我们前两篇推文的读者会发现,我们所使用的招聘数据,截止时间是到2022年年末。但2023年,似乎进入到了一个新的纪元,各种生成式AI的快速推出,带来了前所未有的冲击。生成式AI中最有代表性的,要数OpenAI的大语言模型——ChatGPT,很多人通过亲身尝试,在被科技震撼的同时,也都感到了深深的危机,似乎自己的工作很容易就能被AI替代。这种情绪迅速地被各类媒体和营销号捕捉到,通过个案的采访,以及文学化的解读,又被传播放大到了妇孺皆知的程度。但是,迄今为止,关于生成式AI(或者狭义到大模型)对就业市场影响的真正的严肃研究还屈指可数。目前比较有参考意义的研究,其实还是来自OpenAI自身。OpenAI在他们最新的工作论文《GPTs
2023年4月8日
其他

打工十年,共得几钱?——5亿条招聘信息中的职业生涯密码(中篇)

在上一篇文章中,我们将2015年到2022年的5亿条招聘数据,映射到了中国的标准职业代码中。这些数据,已经全部可以在数据团小程序中查到。应该如何解读这数亿条招聘数据?从这些数据中,我们能看到哪些现象?在本篇中,我们会为大家一探究竟。▍招聘数据和真实就业数据的关系首先要说明的是,并不是所有职业都能找到对应的招聘数据,例如在第一大类“党的机关、国家机关、群众团体和社会组织、企事业单位负责人”中,绝大部分职业都不会在网络上进行招聘。在“办事人员和有关人员”中,许多职位也只会通过公务员或者事业单位考试招聘,同样不会出现在招聘网站中。类似的情况还出现在警察、军人、农林牧渔业相关岗位中。因此,招聘数据呈现的结果,其实更接近我们常说的“打工人”范畴,在这个范畴中,共有357类职业能找到与之映射的招聘数据。那么,招聘数据到底能在多大程度上与实际的就业数据相关呢?将2015-2022年的招聘数据与2020年第七次人口普查的分职业人口数据对比,得到下图。
2023年4月7日
其他

5亿条招聘信息中的职业生涯密码:前篇

▍写在前面这是城市数据团“职业生涯”系列推送的第一篇,这个系列的主题是打工人们的职业生涯发展,我们将会从现有的招聘数据出发,通过科学的数据处理手段,为读者呈现当下不同职业在不同城市的职业收入成长曲线,同时也结合近期的舆论热点,对AI可能产生的职业替代进行测算。作为系列的第一篇推文,先从这个系列研究使用的数据和对“职业”的分组开始介绍,希望各位读者了解完这些基本信息和方法后,对后续的职业薪酬和AI替代率等具体数据榜单有一个更准确的了解。▍与中国互联网同龄的招聘数据如果要问,在各类互联网数据上,什么类型的数据既容易获得,又有非常大的信息量,回溯时间也比较长?我的回答就是——招聘数据。时间回溯到20多年前。彼时大部分普通家庭都没有自己的电脑,遑论网络,而最吸引人的上网行为是什么呢?不是“上网冲浪”,也不是“聊天室聊天”。2000年9月13日,《科技日报》的一篇文章提到:”随着我国经济的快速发展,网络逐渐为大众所接受。据调查统计,在目前上网的人群中,以求职为目的的上网者占上网人群的一半。”2000年10月9日,《互联网周刊》的一篇文章《未来职业何处寻?招聘网站大比较》一文引用了CNNIC在2000年7月的调查,人们上网获取的信息中,招聘求职信息占26.11%。1997年,中华英才网(chinahr)、智联招聘(zhaopin.com)成立;1999年,前程无忧(51job)成立。2005年,58同城、应届生求职网(yingjiesheng)成立。2010年后的移动互联网时代,各类招聘网站和App如雨后春笋一般出现,猎聘、Boss直聘、拉勾……将招聘数据的维度再次扩张。上至名校学子梦寐以求的高薪offer,下至家政服务、蓝领工人的短期零工,招聘数据沉淀的,不仅是一代代打工人的故事,更是中国经济这二十多年来的缩影。招聘数据,从千禧年之初就与中国第一代互联网用户一起出现、成长,是一份与中国互联网几乎同龄的数据。▍招聘数据:代表性问题与辛普森悖论招聘数据也是非常难使用的数据。只通过简单的处理,难以呈现出口径一致、有代表性、有价值的信息。代表性问题,一直是招聘数据的老大难。什么样的企业上网招聘,什么样的企业选择从其他渠道招聘?一直以来,互联网企业、外资企业等,使用招聘网站的频率都要远高于国有企业、制造业企业,这使得通过招聘数据汇总得到的总招聘量、总简历投递量以及平均工资等指标,都与真实的全国平均值有不小的偏误。不同招聘网站的招聘情况也有着极大差异。例如下图是BOSS直聘的热招职位截图:下图来自58同城的上海招聘热搜职位截图:可以看到,两个网站的招聘信息类型、方向完全不同,当我们仅使用其中一个,或者几个招聘网站的信息时,难免挂一漏万,无法输出有效的结论。除此之外,招聘数据的分类难度极高,也提高了它的使用门槛。当我们使用各类大数据时,常常需要将这份数据按照合适的分类标准和国家统计局的数据相匹配,得到类似口径的数据,方便我们验证数据的有效性。但对于招聘数据来说,尽管在过去的八年中,我们通过数据合作伙伴从多个招聘网站来源,一共收录了5亿条招聘数据和12亿个招聘空缺,但如果只是将这些招聘岗位汇总,无论按照企业、行业还是地域进行划分,在与官方统计数据对比时都十分困难。为什么海量的数据却并不能得到有效的结论?首先,这些数据的历年获取数量、来源、公司数量都有极大差异。从下图可以看到,招聘数量最高的2019年,全国所有的招聘广告的所有招聘岗位空缺总和共有3.4亿人,但2022年下降到3400万人,数量整整相差十倍。但招聘网站上的招聘数量的变化,其实并不能完全和企业对劳动力的需求一一对应起来。在经济景气时,员工流转更快,业务更多,企业对于未来的预期更好,甚至同一条招聘信息的多次调整重复,都会使得企业的招聘数量产生比真实劳动力需求更大的波动。其次,招聘数据的工资也是一个混杂的变量。下图呈现了从2015年至2022年的分年度平均工资。可以看到,其中平均招聘工资最低的年份是2017年,约为4360元/月。2015年、2016到2017年,中国出现了招聘工资的连续两年下降,随后才重新回升。但招聘工资真的在2015-2017年出现了下降吗?并非如此。造成招聘工资下降的第一个原因,是招聘结构中的社招、应届生招聘的比重发生了变化。当应届生招聘比例的网站数据量增加时,平均工资下降;对于有多年经验的社会招聘职位数据量增加时,平均工资又会上升。第二个原因,是招聘网站向二线、三线城市的下沉,以及对于之前招聘较少的工种人群的渗透——例如对于蓝领工人、家政服务等工种,近年来越来越依靠网络招聘。而这部分工种的工资,要比之前就主要通过网络招聘的程序员等工种的工资要低得多,从而拉低了总体平均工资。著名的辛普森悖论告诉我们一个结果:即便两组均值都在上升,其加总的均值却有可能下降。在下面的例子中,分开计算时大学A和大学B的男生录取率都高于女生,但在录取率较低的女性正在其录取率更高的那一组人数更多,导致汇总后,男生录取率却低于女生。一些招聘网站使用自己的数据定期发布薪酬报告,也囿于其网站数据结构,与国家统计局的标准行业、职业结构也存在较大差异,难以与其他招聘网站对照,也难以与统计数据结合,得到一个可比较的口径。因此,要从海量数据中识别出正确的趋势,真正把十多亿条招聘数据这一数据金矿用好,用足,关键在于我们能否对这组数据进行更正确、更标准化的分组,能否对每一条招聘数据,进行更细致的特征识别。在过去的一个多月中,我们进行了一次尝试。▍破解辛普森悖论:如何标准地分组职业我们先用ChatGPT的GPT4模型生成下面这样一条典型的招聘广告:可以看到,职位本身从事的职能,以及其需要的学历、经验,与这个职位的工资有着极大关系。学历与经验相对来说更容易从文本中分离出来,即“计算机相关专业、本科、3年以上”但我们如何对于这个职业进行分类呢?我们怎么把一个Python工程师,与其他类型的岗位分开,从而控制住这个岗位的内在能力需求呢?第一种方式是,使用招聘网站本身的职位分类。以下的三张截图,分别来自BOSS直聘、智联招聘和58同城,其类别都包括了“人事/行政”。可以看到,两者的职业分类存在不少交叉和差异。BOSS直聘的“薪酬绩效”,在智联招聘被划分为“薪资福利”与“绩效考核”,在58同城中,不仅薪酬、绩效是合并为一类的,“员工关系”也被包括在其中。而当我们点击进某一类职业时,某一个岗位又往往“身兼数职”,或者只存在着资历的差别,并没有职能的差异。不同招聘数据的划分差异,使招聘数据的使用更为困难。为了进行统一口径的比较,自然需要更权威、更标准的职业划分。我们使用了《中国职业大典》作为职业划分的依据。《中国职业大典》是国家统计局、人力资源和社会保障部等在统计各类职业时使用的职业划分类目。历次中国人口普查、人口动态抽样调查等,都使用《中国职业大典》作为每个被调查劳动者的职业划分依据。最新的2022版本《中职业大典》包括了大类8个、中类79个、小类449个、细类(职业)1639个,是对于中国职业最完整、权威的划分。例如我们要从中找到“程序员”的分类,就可以通过下表这样的层级来查找:这样的职业划分,在最大程度上保证了职业之间的交集最少,而并集最大。我们将尝试把所有的招聘数据映射到这1639个职业中。但是,如何划分和映射呢?光是“计算机程序设计员”这一个职位,在招聘网站上的职业名称就可能包括JAVA、Python、Ruby、Golang、Node.js、C++……等一系列关键词。这还是笔者相对熟悉的职业,我们可能还可以通过关键词映射的方式来遍历这一类职业。但一些相对不熟悉的职业,比如“课程顾问月入过万上升空间大”,你还能够将他准确地分类到标准职业代码的“营销员”的类别上吗?因此,我们使用了一种文本学习的方法,首先让计算机学习每一种职业的具体工作,再通过每一个职位的职位描述进行匹配,见下图:通过前期标注,将每一个职业的具体工作与该职业名称结合,计算职业-职能的高频率词对。再从招聘广告描述的工作职能出发,使用贝叶斯概率计算对应的可能是哪一种具体职业,像完形填空一样计算每一个职业的具体分类。这样的方法具有极高的准确性,下面是我们分类到“计算机程序设计员”的一组例子,可以看到,即便在职位的标题中没有“程序员”的关键词,我们可能也无法遍历各种程序相关的关键词,也可以通过其岗位职能,准确地对这个岗位进行分类。通过这样的方法,我们将从各类招聘网站获取到5亿条、包含12亿个招聘人次的招聘数据,高达1800万种职业,分配到了1500余种标准职业中,形成了一个从2015年到2022年全国各城市的标准职业数据库。▍职业密码初窥,招聘数据“矿井”建成有了标准职业数据库,我们就可以控制住每一个岗位的招聘时间、地点、经验要求、教育要求以及职位类型等信息了。当我们再使用这些数据时,已经不会再出现辛普森悖论类似的偏差问题。举个例子,在此基础上当我们再次计算每一年的招聘工资时,便可得到下图:此时,我们便能看到一条稳定向上的工资增长曲线,并未出现突然的下降。同样招聘时间、地点、经验要求、教育要求以及职位类型的一份工作,2022年的招聘工资比2015年要高出2385元。这也意味着,这个包含着数十亿招聘数据的“金矿”,终于不再是一片混乱的露天野矿,而已经被建成为一个品质稳定可控的工业级矿井了。接下来需要做的,就是从中挖掘冶炼出各种宝贵的足金信息了。▍下篇预告在这一篇推文,我们弄明白了怎样把招聘广告上的职位对应到更标准的职业分类中去,从而避免因为分类不正确导致的数据误判。这只是完成了“招聘数据矿井”的建设工作。在系列第二篇推送中,我们将会进入挖矿(数据分析)的主体部分,看看对于各个城市、各个职业类别的从业者们,在职业生涯中,收入是如何随着时间和经验的积累提升和变化的。对于希望亲自操作的读者,我们也会在数据团+小程序上同步更新本系列所有研究相关数据(包括大家关心的AI替代率)的查询模块,供读者自行查询探索。关于不同职业AI替代率的计算,则会在第三篇推送中详细介绍。还请大家持续关注我们!【重要!】基于现有公众号推送规则,对数据团推文感兴趣的读者们如果想更及时收到我们的推送,还请将“城市数据团”公众号添加星标,并多多点赞和“在看”,感谢大家的支持~
2023年4月6日
其他

为什么《流浪地球2》票房不如《满江红》?

2023年春节档,《满江红》、《流浪地球2》等7部影片收获了67.58亿元票房,1.29亿观影人次,均比起2022年有明显上升。但2023年的好成绩也只是至今以来的春节档第二名——2021年,共有78.22亿票房,共1.6亿人次,这才是我国春节档票房和观影人次的第一名。疫情快速过峰,为什么春节档票房还没能赶上2021年呢?我们的经济复苏情况到底怎么样?使用全国一万多家电影院分厅分场分影片的实时数据(感谢加州大学圣迭戈分校(UCSD)杨阳提供相关数据),我们进行了一些研究。▍供给侧:消失的影院,减少的场次上图显示了从2019年1月1日到2023年1月28日每天营业的影院数量。2019年春节档期,中国的影院数量为10300家,这个数量持续上升,到2020年初,营业影院达到了10900家。在2020年初的疫情一直到2020年7月全国逐渐恢复影院营业,中国的电影院数量并未出现显著减少,在2020年10月左右,开业影院就基本回到了疫情前的状态,约为10700家,仅比疫情前高点减少200家。2021年后,营业影院数量持续上升,2021年的大年初一,营业影院数量达到了11200家。这个数字一直维持到2021年5月底,其中2021年5月1日,是全国营业影院数量的高峰,有11353家影院同时营业。从2021年下半年,到2022年初,各地疫情接踵而至。先是2021年的张家界疫情、江苏疫情、西安疫情,再到2022年初的天津、安阳疫情,全国影院数量不断受到疫情影响,但并未出现显著下跌。2022年大年初一时,全国营业影院依然有11305家,与2021年基本持平。然后,奥密克戎来了。2022年3-6月,中国的营业影院数量大幅减少,最低仅剩6000家,40%的影院处于关闭状态。2022年7月,疫情暂时消失,此时的营业影院数量仅剩下了10000家。有1000多家影院,熬过了2020年上半年长达半年的关闭,却在2022年消失了。2022年下半年,疫情再度出现,营业影院数量再次下跌。2022年11月30日,全国只剩5188家影院在营业,大约只有高峰时期的一半。接下来的事情,我们之中的大多数人都已经亲身经历过。疫情管控全面放开,进入2023年,在一个月左右的疫情快速过峰后,中国基本上所有地区的营业影院数量都恢复到了2022年下半年的高点。但在2023年大年初一,中国的营业影院数量也仅有10463家。上图列出了从2017到2023年(2020除外)历年春节档从大年初一到初六营业过的影院数量,可以看到2023年的营业影院数量为10488家,比2021年的11240家,少6.7%。上图画出了2023年春节档相对于2021年春节档的开业影院数量和观影人次的变化对数值。可以看到,两者之间确实存在高度相关,全国300多个数据完整的城市中,有210个,近70%的城市相比于2021年出现了开业影院和观影人次的双双下降。不难发现,上图中仍然有48个城市在电影院上升的同时也出现了观影人次下降,其中还有一个重要的原因,便是2023年春节档的电影时长,要远超2021年。2023年占据市场主要地位的两部电影,《满江红》长159分钟,《流浪地球2》长173分钟。而2021年的《唐人街探案3》时长136分钟,《你好,李焕英》时长128分钟。2023年的平均时长,要比2022年高出25%,这直接会造成电影场次减少四分之一。上图可以看到,当我们将不同城市的场次和人次变化放在一张散点图中后,他们之间的相关程度变得更高了,全国有300个城市,同时出现了场次和人次的下降。影院消失,场次减少。供给侧的减少,是中国2023年春节档票房低于2021年最主要原因。▍需求侧:人口大回流但是,即便在同样影院、同样场次的情况下,计算场均观影人次,2023年春节档的场均人次为50人,依旧落后于2021年春节档的场均人次55.6人。这个下降来自哪里?人口流动,是另一项重要原因。下图列出了北上广深四个城市在2019、2021、2022和2023年春节前20天的人口流动情况。来自百度迁徙指数,低于0表示认人口的净流出。可以看到,2023年春节迁徙,北上广深这几个一线城市都出现了大幅度人口流出,程度基本与2019年一致,其中深圳的流出程度更是超过2019年。他们的共同点是——2023年春节前的人口流出,全部远超2021年。这意味着在2023年春节时,几个一线城市,正处在实时人口远少于2021年的状态,从而给这些城市带来更低的经济活动状态。从另一项来自百度地图的“百度市内出行强度”指数也可以看到以下四张图——一线城市除了广州以外,其他三座城市2023年春节从大年初一到初八(由于初七、初八是周六周日,许多人选择在这两天继续请假休闲,因此在图中纳入)的出行强度指数,都要远低于2021年的数值。从一线城市流出的人口,自然带走了在这些一线城市的经济活跃程度,这些活跃并未消失,而是重新分配在了中国大地上。下图列出了河南信阳、河南周口、安徽阜阳和广东清远几个典型的人口流出城市在近几年春节间的情况:从上图可以看到,这四个城市2023年的市内出行强度,都要远高于2021年、2022年。许多2020、2021、2022年未能回乡的人们,终于在癸卯年春节回到了故乡。一线城市今年的春节或许有些冷清,换来的是人口流出城市在春节期间重归繁荣。阔别三年的人口流动,同样也使得中国的电影票房重新分配。下图将2023年相对于2021年多流出的人口比例与2023年相对于2021年的观影人次变化放在一张图中。可以看到,两者之间存在显著的相关关系,最左下角的深圳、东莞、中山、苏州、佛山等,在2023年人口相对2021年大幅度流出的同时,观影人次也同比显著下降了。人们从影院密集的大城市,流向没有那么多影院的小城市或村镇,这构成了需求侧的流动和总量降低。这是2023年春节档电影票房落后于2021年的第二个原因。▍空间结构:下沉,才能赢在春节档即便考虑到供给侧的减少和需求侧的流动,控制住影院、场次的变化以及人口流动的影响,2023年的观影人次,仍然及不上2021年。比如在上一张散点图中,第四象限有许多城市,虽然在2023年相比2021年有了更多人口流入,观影场次却依旧更低。从2021年到2023年,到底还有哪些变化,使得人们踏入电影院的次数减少了呢?答案是:电影本身。今年的春节档,有一项争论几乎引发了所有人的关注——所有的自媒体、朋友圈,大家都说《流浪地球2》的质量要远好于《满江红》,可是《流浪地球2》在票房上领先《满江红》的时间却只持续了一天。从大年初二开始,《满江红》的场次、票房均持续领先《流浪地球2》,其差距已经累计了近7亿元。这是为什么?为了解答这个问题,我们计算了每个城市《流浪地球2》和《满江红》在大年初一到初六之间的观影人次之比,并使用第七次人口普查数据,使用LASSO方法,看看哪些人口方面的指标,能够最好的解释每个城市观看《流浪地球2》的人次多于/少于《满江红》的程度。这四项指标和观影人次之间有这样的关系,下面的每一张图中的每一个点代表一个城市,横坐标代表四项指标中的一项,纵坐标代表这个城市《流浪地球2》观影人次高于《满江红》的程度:可以看到,每一个指标都与各地区的观影人次差异有着很强的线性关系。这四个指标放在一块儿,可以解释观影人次差异在不同城市方差的60%。因此,如果一个城市年轻未婚男性更多、男性比女性多的幅度更多、60-64岁老年妇女更少,那么这个城市就会更倾向于去看《流浪地球2》。反之,则会选择看《满江红》。而在上图中,特异性指标最强的一项,却并不是这些人口画像变量,而是“有洗澡设备的家庭户占总家庭户的比例”这一指标,这一项指标就可以解释观影人次差异的40%——所有洗澡设备占比不足90%的城市,全部选择了更多观看《满江红》;只有90%以上的家庭都有自己的洗澡设备时,这个城市才有可能更多地去看《流浪地球2》。这说明什么呢?说明《流浪地球2》对于有洗澡设备的观众有着独特吸引力吗?当然不是。家庭内洗澡设备的普及,正是每个城市发达程度的最有代表性的注脚之一。包括人均GDP,人均教育年限、城市化率等一系列指标,都与“有洗澡设备占比”这一指标指向了同样的结论——一个城市越是不发达,人们越是更会去看《满江红》。有意思的是,前阵子有种说法很流行,“在农村陪爸爸妈妈看《满江红》,回城后再看《流浪地球2》”,这与我们算出的两部电影的观影人群画像和城市画像,恰好吻合。接下来,我们将2019年到2023年一共21部春节档电影(删除了熊出没系列、喜羊羊系列、小虎墩等面向儿童的影片)一起放进模型中,计算每一部电影的城市发达程度和观影人次之间的关系,并以2019年的《流浪地球》作为基准,结果如下:上表右列的数字表示一部电影相对于《流浪地球》更偏向发达地区观众的程度。这个数字大于0时,说明更发达的地区相比《流浪地球》会更喜欢这部电影;数字小于0时,意思相反,说明更不发达的地区相比《流浪地球》会更喜欢这部电影。从上表可以看到,《流浪地球2》的结果是0.077258,意味着比起《流浪地球》第一部,第二部电影可能需要更高的观影门槛,因此更受到发达地区观众的青睐。而《满江红》的系数是-0.86646,是近几年来的春节档中第三受到欠发达地区观众青睐的电影。在这份榜单上,而最受到欠发达地区观众青睐的前两名电影分别是《你好,李焕英》和《唐人街探案3》。他们正是2021年春节档的两部最主要的影片,也是至今以来,在春节档中获得了最高观影人次的第一名与第二名(《长津湖之水门桥》、《流浪地球》等影片在春节档内的票房并不算最高,他们主要依靠春节后的延续票房获得了较高总票房)。因此,当我们解答了《流浪地球2》与《满江红》的票房问题后,也同时得到了2023年春节档票房不如2021年的最重要原因——下沉。当电影的观众只有发达地区的那几个市中心辖区时,电影的叫好和叫座是统一的。但中国的影院建设已经遍布了全国几乎所有区县,此时叫座的电影,不一定是最“好”的,却一定是最下沉,最受到欠发达地区居民欢迎的电影。而2023年春节档的这两部电影,在“下沉”这点上,离2021年的《唐人街探案3》与《你好,李焕英》还有一些差距。例如《流浪地球2》,虽然在很多发达地区人口大量流出的情况下,依旧创下观影人次记录和“自来水”,但同时也造成了欠发达地区在2023年的观影人次大幅低于2021年,总票房也就和2021年出现了差距。▍写在最后疫情后的第一个春节档,我们看到的春节档票房距离预期还有一定差距,特别是还落后于2021年。但是,这些差距并非是经济活力还未完全恢复导致的。在2022年接连不断的疫情和封控中,供给端大量凋亡,是导致票房不达预期最重要的原因。供给端不足带来的消费上升不够,不仅仅出现在电影上,在餐饮上亦是如此。春节期间,许多商场一些餐馆已经关门大吉,而另一些顾客大排长龙。但供给端的不足非一日之寒所致,其恢复也需要一段时间。2020-2022年三年的人口流动大量减少,以及2022年底的疫情快速过峰,造成2023年发达城市人口在春节前夕人口快速流出,全国所有城市的人口净流出/流入人数不仅已经超过了疫情三年,更已经超过2019年。这样的超预期人口流动,使得消费从高消费/消费密集地区向低消费/消费稀疏地区转移,是总票房减少的第二个原因。春节档主流电影本身内容的下沉度不够,造成许多欠发达地区虽然有比2021年更多的出行流量、餐饮销售,但却没能获得比2021年更高的电影票房,是总票房不及2021第三个原因。将供给和需求在合适的维度上匹配起来,对电影来说是一门学问,也是一个矛盾。当发达城市的人们高呼电影酣畅淋漓、暗线烧脑、细节颇多时,这部电影可能已经失去了那些洗澡设备拥有率在90%以下地区的观众。这不是电影的错,当然也不是观众的错,中国的现实正是如此复杂。接受现实的复杂度,接受人们需求有着极大差异,将更有利于我们看到事物的真相,做出当下更正确的判断与决策。
2023年2月3日
其他

向前看

在过去的一个月中,我们的小程序数据团+使用几个平台的搜索指数,每天更新各个城市的疫情进展估测。以北京为例,2022年12月1日,开始出现大面积社会面感染,“发烧”搜索指数出现异动;2022年12月17日,北京越过“发烧”搜索的顶峰。同时根据北京青年报在12月23日的报道,从12月15日以来,北京几家医院的发热门诊量就开始呈现下降趋势了。(https://beijing.qianlong.com/2022/1224/7922925.shtml)从开始到过峰,17天,这个速度相比世界上其他地区的疫情如何呢?上图列出了六次疫情,包括2020年3月到5月的美国纽约原始毒株疫情,2021年3到6月印度德里的Delta毒株疫情,2022年日本、香港特别行政区和台湾地区的三次典型疫情,和北京2022年12月的疫情。每次疫情我们均使用同样的标准,以Cox-Stuart统计量作为标准定义疫情开始时间。在这几次疫情中,北京的疫情过峰速度,是最快的。速度快的城市不仅仅是北京,许多城市在12月10日初次计算时显示会在2023年1月之后才过峰。譬如上海,在我们12月10日计算的版本中,显示在2023年1月14日才过峰,虽然北京此时已经有了极大面积的感染,但上海的大规模感染还未开始。但仅仅4天过去,在12月14日更新的版本中,上海市的过峰时间就提前到了12月24日,比初始版本提前了20多天。这个日期才与最终上海的过峰时间基本吻合。随着福建龙岩、广东梅州这两个城市在12月27日的数据中显示过峰,所有数据量较为充足的城市(一些少数民族自治州数据不足,过峰计算不一定完全准确)都已经过峰。整个中国,300多个城市,在2023年前都已经迈过了每日新增病例逐渐增加的阶段。之后的一段时间,由于病情本身的进展和不同时间感染者的年龄结构不同,一些城市还会持续一两周的重症高峰,但本轮疫情整体规模消退的趋势,已经显现。▍“阳康”后,各城市经济恢复如何度量?在疫情过峰后,一些城市的“阳康”们开始走出家门。一些城市的地铁客流量、拥堵指数等都呈现出了上升的态势。我们从百度获取了各城市近两年来的“出行强度指数”,该指数表示每一天每个城市内有出行的人与居住人口的比值,可以从更全面的角度呈现全国范围内的人们出行强度变化。下图呈现了全国各省相对于2022年11月30日的“出行强度指数”的变化幅度。选择11月30日作为基准点,是因为在这一天,孙春兰副总理在国家卫健委座谈会上提到“我国疫情防控面临新形势新任务”。从这一天之后,中国的大部分城市便开始陆续进入了一个新的状态。可以看到,截至12月29日,全国有25个地区的出行强度指数高于一个月前,只有上海、江苏、浙江、福建、海南、广东这六个地区的“出行强度指数”低于11月30日。这主要是因为这些城市在11月30日时基本没有进行封控,人们的生活较为正常,从而基数较高;同时疫情开始较晚,进展更慢,以至于达峰时间更晚,导致许多人仍然处于自我隔离中,从而导致了比一个月前更低的出行强度。如果我们将疫情达峰时的出行强度作为基准,则这六个地区都出现了不同程度的恢复。上海虽然才过峰一个多星期,但出行强度已经超过了疫情达峰时近44%。福建由于大部分城市刚刚越过疫情峰值,出行强度还没有出现明显恢复。此时只有云南一个地区的出行强度教疫情达峰时更低。“出行强度指数”度量的是人们出行的状况,但人们出行究竟去了哪里?是两点一线当打工人,还是去餐饮、娱乐?电影院的开业情况和票房比例变动情况给我们提供了度量经济恢复的另一个角度。(感谢加州大学圣迭戈分校(UCSD)杨阳提供相关数据。)下图列出了从2022年1月1日到12月30日每日开业的影院数量。不难发现,两个低谷分别出现在今年4月与11月底到12月初。12月6日时,开业影院数量一度低至3473家,为疫情恢复全国电影营业以来最低的一天。12月7日的“新十条”扭转了该局面,随着《阿凡达:水之道》等电影的上映,全国开业影院数量在本月大幅度上升。下图列出了北京市观影人次在全国总观影人次中的比值。该比值越大,说明当地的经济活力相对于全国平均水平来得越高。可以看到,从12月中旬开始,北京市的观影人次占全国比重在12月24日达到了7.52%,为半年以来最高。随后随着四川、广东等地区开始复苏,北京的观影人次占比有所下降。观影人次占比可以很好地度量一个地区的经济活力相对水平,同时可以不受到影片质量本身的影响。使用分城市每天的电影票房数据、电影院开业数据以及来自百度的“出行强度指数”,我们构建了一套度量不同城市经济活力恢复状况的指数。下表列出了人口最多的60个城市目前的经济活力恢复状况,以及按照目前恢复速度,恢复到疫情前的水平所需要的天数。其中,经济活力恢复状况,等于这个城市的出行强度与电影院开业数量和人次占比相对于当地疫情前基准水平的比例平均值,“到疫情前水平还需恢复时间”等于距离基准值相差的水平除以疫情过峰后当地的恢复速度。从上表中可以看到,目前恢复水平最高的城市是成都、邢台、石家庄、保定、重庆、洛阳、武汉、邯郸、天津、唐山、沈阳、北京,这些城市的恢复水平都在疫情前基准值的一半以上。目前需要恢复时间最短的城市分别是成都、重庆、石家庄、邢台、保定、洛阳、武汉、天津、广州。这些城市按照目前的恢复速度,只要不到十天就能达到疫情前的水平。泉州市在这里显示为0%,主要是因为福建大部分地区刚刚过峰,因此出行强度仍然处在低位。在我们之前的一篇文章中,我们能看到很多城市在动态清零的时期尽管没有疫情没有封控,消费水平却依旧难以回来。在群体感染后,消费的恢复速度远快于预期。▍中国城市的经济恢复,为何比世界更快?使用Google
2022年12月31日
其他

“第一次冲击”,我们真的准备好了吗?

“二十条”发布后,我们应当如何应对疫情?到底还能不能控制住疫情?如果疫情无法控制,我们应该怎么办?这样的话题在社会上形成了又一轮新的讨论。这一系列问题的答案,从两年前到现在,都落在了同一个关键点上——如果中国和世界其他地区一样经历一次新冠疫情的群体感染,会有什么样的后果?对于这个问题的回答,决定了每个人对于疫情防控的态度。一些人认为,病毒虽然在改变,但是传播力仍然很强,中国放松疫情管控后一定会出现如2020年5月的纽约、2021年4月的印度、2022年2月的香港那样大面积感染、大面积死亡的惨状。无论目前的防控付出了多么大的代价,都无法与这样的惨状相比,因此放开管控始终是不可讨论的。另一些人认为,病毒的毒力已经降低,比流感高不了多少甚至更低的程度,而且中国的疫苗接种率已经很高,此时放开管控,虽然可能会带来大量的感染和一些死亡,但绝不会击穿医疗资源底线。在这个前提下,随着病毒传播力提升,防控成本越来越高,我们应该考虑改变当前的疫情防控政策了。到底谁才是对的?一直以来在公共平台都缺乏数据层面的测算和讨论。因此,数据团使用了目前为止最完整的公开数据,试图对这个问题进行回答。▍中国的医疗资源供给每一个中国城市,都有多少医疗资源供给?在城市和区县级别的统计年鉴上,我们可以找到各地区的医院数、以及医生数量。中国的“床位数”和人口比重,其实并不算低。这两年的封控中我们也不乏这样的新闻:“某个城市又创造了新的奇迹,在短短XX天内改建了XX个隔离点,包含了XX个床位”。但床位和床位之间,还是有很大区别的。有些床位配套医疗设施较为齐全,另一些床位则仅作无症状或轻症患者隔离使用。考虑到大部分新冠患者都能够自愈,真正能在疫情中挽救一个个重症和危重症患者生命的,不是普通床位,而是ICU。中国一共有多少ICU,各地区又有多少ICU呢?我们并没有现成的数字,最近一次ICU普查是2015年进行的,各种研究也只能对中国ICU数量进行估计。例如2021年发表在《中国卫生资源》上的《我国医院卫生资源短期配置情况预测》写道:每10万常住人口综合ICU床位数为4.37张,地区综合ICU床位配置数量与地区人口密度成正比,综合ICU的医护数、呼吸机数和ECMO数明显不足。按照“每10万人4.37张ICU”的估计,中国2021年时ICU个数约为6.1万个。但是这些ICU都分布在哪里?从宏观数据就难以了解了。因此,我们获取了中国所有的医院名单、床位数以及级别,从微观角度来补全这项工作。考虑到《重症医学科建设与管理指南(2020
2022年11月23日
其他

人口生命周期的力量——第七次人口普查分县数据报告(八)

▍人口高峰当我们将2020年人口普查按照年龄作图时,不难看到这样几座山峰。第一座人口山峰,出生于1963和1971年之间,目前在51到59岁左右;第二座人口山峰,出生于1986和1991年之间,目前在31到36岁左右;第三座人口山峰出生于2008年到2015年之间,目前还未成年,在7到14岁左右。不难发现,第一座人口山峰,是对中国而言,最大,也是持续最久的一次婴儿潮。即便比后两座人口出生高峰更早,也经历了更多的死亡和坎坷,第一次人口高峰仍然保持了中国出生人数最多的一个年份纪录——1968年出生的人口,在第七次人口普查中仍然有2610万人在世,比现在每年的出生人口高出一倍之多。这座人口高峰是中国许多周期性变化的最重要原因。当这座人口高峰进入工作年龄,开始生产,开始积累,开始消费,中国也就正式迈向了发展的快车道。而未来十年,这一批人口高峰将走向他们的另一个里程碑——离开劳动力市场,进入退休状态。本文是人口普查分县资料系列文章的最后一篇,我们从老龄化问题切入,谈一谈人口生命周期的力量。▍我国的老龄化才刚刚开始虽然老龄化问题已经提了几十年,看起来已经很严重了,但是如果跨时间比较就能发现,比起未来十年即将伴随第一代婴儿潮退休带来的老龄化,之前几十年的种种“老龄化”,只是小意思。上面两张图表分别列出了中国2020年时65岁以上人口占比的前30名与后30名。前30名城市主要集中在四川、江苏、辽宁等地,其中又以四川的老龄化程度最为领先。65岁以上人口比例超过五分之一的一共有九个城市,资阳、自贡、南充、德阳、内江、眉山——四川在其中占据了三分之二。老龄化程度最低的城市包括两大类,第一类是少数民族地区,这类地区出生率、死亡率都比较高,在人口年龄中仍然处于年轻的金字塔时期。第二类则是外来人口流入较多的发达城市。其中深圳、东莞占据前两名,65岁以上人口占当地总人数比例仅有3%左右。但老龄化比例仅仅是一个数字,我们更需要观察的是老年支持体系。最重要的老年支持体系来自家庭。人口普查中列出了不同城市的一人户、一代户、二代户、三代户、四代及以上户等不同家庭结构的数量。当一个老年人居住在多代同住的家庭中时,这个老年人将更可能在生活和精神上得到较好的支持。上图列出了中国各城市的老龄化程度和三代以上户家庭在当地家庭户中的占比散点图。散点图最左下方,是深圳、东莞等城市,这里几乎没有老年人,自然也不存在“三代同堂”、“四世同堂”的家庭。散点图的最右边,是南通、资阳、泰州、自贡、眉山等地,这些地区老龄化程度较高,但三代同堂、四世同堂的比例也在10%-15%左右。真正需要关注的城市,分布在散点图的右下方,包括乌兰察布、伊春、本溪、抚顺、辽阳、锦州等东北城市。不难发现,这些地区比起四川、江苏的类似城市来说,老龄化程度同样不低,但是多代同住的比例却显著低于四川、江苏等地的高度老龄化城市,呈现出可能较弱的家庭老年支持体系。虽然从老龄化存量上看四川城市排名较高,但当我们观察过去十年的增量时,四川的城市就不那么醒目了,取而代之的是大量东北城市。例如辽阳(65岁以上人口比例增加9.35%)、丹东(增加9.26%)、铁岭(增加9.22%)、锦州(增加9.1%)等。老龄化的速度,和另一组概念高度相关,即
2022年10月24日
其他

这十年居住条件改善最慢的,是哪些城市?——第七次人口普查分县数据报告(七)

▍系列前言:七普分县报告近期,统计局出版了第七次人口普查的分县数据资料,在完成了相应资料的电子化后,城市数据团将在接下来一段时间连续更新,为大家解读此次分县资料中一些有趣的内容,希望各位读者可以持续关注这个系列。今天,我们进入到了人口普查分县资料的表8。这里包含着的是有关住房的一系列问题。比如:人们住得怎么样?住得有多大?从什么渠道获得了现有住房?……我们知道,关于住房,近年来大众和舆论最关注的,是“房价”。但普查数据并不太涉及这个问题,因此,我们不妨先搁置下这个热词,从居住更本质的视角来观察,中国在过去十年间波澜壮阔的城乡建设,在每一个普通人身上,是如何呈现出来的呢?▍我们的住房质量变得更好了吗?提到住房质量,我们想到的往往是墙体发霉,隔音隔声,地面漏水等施工质量问题。但其实,在我们广阔的国土上,普查数据所关心的住房质量,比这些施工质量要“基础”得多。施工质量涉及的是“好和坏”,而普查关注的住房质量涉及的则是“有和无”。的确,人口普查分县资料首先涉及了包括了管道自来水、厨房、厕所和洗澡设施四项住房设施在各个区县的保有率。对于这些人连自来水和厨卫等设施都没有的人而言,这才是“住房质量”的底线。也许有读者会好奇,七普都是2020年了,这种质量的住房在我们国家还会有多少呢?我们在通过四项设施的保有率平均值来度量不同地区的住房“质量”,表格列出了前30名和后30名。请看下图:可以看到,用自来水厨卫等住房基础设施作为评价标准,“房屋质量”排名最靠前的城市分别是克拉玛依、和田、汕头、宁德和镇江。这个排名有些让人出乎意料,因为这几个地区看起来并没有那些一线城市发达,但在这些地区,99%以上的家庭都能够同时拥有这四项看起来非常基本的住房设施。而在住房条件排名前30的城市中,广州是唯一的一线城市。那么,剩下的一线城市,北京、上海、深圳,他们在哪儿呢?没错,他们都在前30名之外。具体而言:深圳,排名78,自来水和厕所普及率接近100%,但7%左右的家庭户没有厨房和洗澡设施。上海,排名101,1.2%的家庭没有管道自来水,4%-5%的家庭没有厨房和厕所,还有7.6%的家庭没有洗澡设施。北京,排名163,有5%的家庭没有管道自来水,6%到7%的家庭没有厨房、厕所以及洗澡设施。在10w+每平甚至是30w+每平房价的光芒下,以上也是我们真实的一线城市。的确,从该表看,在过去十年间居住条件改善幅度最大的,主要是二、三线乃至人口规模更小的城市。例如和田地区、喀什地区的居住条件得到巨大改善,设施平均拥有率分别提高了54%和37.6%,从全国落后水平一跃升至全国前十名。在排名前30的城市中,淮安、萍乡、荆门、遵义、鄂州、邯郸、常德、荆州、九江、宜昌、宿迁等地的设施平均拥有率均提升了20%以上。那么,在全国居住质量后30名的城市和地区中,四个西藏地区和四个藏族自治州则占据了住房质量最低的前八名,但值得注意的是,这些地区在过去十年内的改善也很明显,平均改善率达到26.3%。相对来说,上海、北京和深圳的居住质量改善就不太多了——上海、北京的设施平均拥有率提升了12%,而从数据上看,深圳相对于10年前的住房条件几乎没有变化,四项设施的平均拥有率仅提升了0.7%。深圳住房的平均设施拥有率改善,在全国位居倒数第一名。▍我们的住房变得更大了吗?“住房变得更大”,其实是个很值得深究的概念。住房,作为一种建筑物,是一系列可用空间的组合。因此,绝对面积的变化,不一定能够带来居住体验的改善;而功能性房屋的增多,反而可能是从使用者角度而言的“变大”。因此,在很多国外的统计中,往往用“房间数量”而非“套内面积”作为住房总体规模变动的计算指标。在此,我们根据习惯和科学性,同时使用这两个概念。下表列出了住房大小的前30名和后30名排序,包括了两项指标——人均居住建筑面积、人均房间数。从上表中可以看到,全国人均居住面积最大的地区前五名是衢州、莆田、上饶、萍乡和吉安。其中江西的城市尤为抢眼,上饶、萍乡、宜春、景德镇、九江、赣州等地,人均住房建筑面积的增长均超过60%甚至70%。而在全国后30名排序中,深圳在人均住房面积最小城市中再度折桂。接下来除了西藏的几个地区以外,揭阳、东莞、汕头、广州、珠海、潮州等广东城市也纷纷进入人均住房面积最小排行榜。值得注意的是,经过了10年时间,深圳的人均住房面积和人均房间数的增长只有1%和2%,在住房面积增长的排序上,深圳再度成为全国倒数第一名。▍我们住的房子是买的吗?十年过去了,虽然我们住房的质量和大小都在变化;但我们住的房子,却不一定是我们自己的。下表中,我们给出了不同城市的住房来源分析。住房来源主要包括租赁(廉租房、公租房、其他住房)、购买(新建商品房、二手房、经适房、原公有住房)、自建住房,以及其他。租赁房之外的其他几种基本可以看做是自有住房。下表列出了按照租赁占比排序的全国前20名。在租赁排序前10名的城市中,广东省占据了6席,浙江省占据3席,福建省占据一席。而这些城市的租赁比,也都在上升。事实上,当我们扩展到前20名城市进行观察,只仅有3个城市的租赁占比出现了下降,分别是上海、拉萨和温州,且下降的幅度非常微弱,仅在1%左右。而这几个城市均有三成左右的家庭居住在租来的房子中,另外七成住在自有住房中。全国租赁占比排名第一的城市,又是深圳,全市家庭户中有76.8%居住在租来的住房中,且该数值比起10年前有所提高——要知道,深圳在2010年时已经在租赁住房占比中排名全国第一了,而深圳的自有住房率,进一步下降了。▍住房需求与土地供给数数看,深圳有多少个全国第一了?住房自有率全国倒数第一、人均住房面积全国倒数第一,人均住房面积增长全国倒数第一,住房质量增长(用四项设施的增长速度衡量)依旧是全国倒数第一。一线城市中发展最快的深圳,为什么在住房改善上如此之慢?我们做了一项粗糙的计算,试图从房屋和土地供给的角度来回答这个问题。首先,我们用2020年城镇人口乘以2020年时的人均建筑面积,减去2010年的城镇人口乘以2010年时的人均居住面积,就能够得到“城镇居住面积增加总量”,注意,由于这些数据来自人口普查的,因此这些面积指的是“真正有人居住”的房屋的总建筑面积,下文统称为“居住新增建筑面积”。其次,我们又找到了从2011年至2020年各地国有土地用地供给的情况,结合土地用途、土地来源以及土地容积率,简略计算了每个城市从2010年到2020年时会增加多少住宅建筑面积,下文统称为“出让新增建筑面积”。接下来将居住新建筑面积除以出让新增建筑面积,将结果称为“居住出让比”。这是什么概念呢?居住新增建筑面积,代表的是居民从需求侧多居住了多少面积的房子。而出让新增建筑面积,意味着我们出让的土地从供给侧能够提供多少面积的房子。一般来说,人们不可能凭空住上还不存在的房子,因此这两个变量的比值——居住出让比——应当是小于1的。但究竟是不是这样的呢?请看下表:从上表所列出了2020年居住总建筑面积前六十名的城市来看,结果并非如此。在上表中,确实有不少城市的居住出让比小于1,例如居住新增建筑面积大于1.1亿平方米的重庆,出让新增建筑面积为2.1亿平方米,居住出让比大约是0.52。但上海、北京、广州等地,居住出让比不仅大于1,在上海甚至达到了3.29。大于1的居住出让比,意味着什么呢?一般来说有几种可能。第一种可能是在城乡居民划分上的问题。在我们的计算中,“城镇居住面积”是使用城镇人口作为基数的,背后的假设是城镇人口居住的用地都是国有建设用地,而乡村人口的居住用地全都是农村集体建设用地。由于统计用城乡划分的标准和土地用地标准的划分并不一致,这条假设在某些地区可能不不一定成立,造成某些实际上在农村集体用地上居住的人口被划分为“城镇人口”,也会多计算“城镇居住面积”的增加量,使“居住出让比”大于1。还有一种可能是在原有空置率高的地区大量减少,例如一个地区原本的居住用地存量是5,被使用了2,空置了3,在2010-2020年间被居住的土地增加了4,但土地存量只增加了2,此时还空置1,“城镇居住面积增加总量”等于“出让新增建筑面积”的2倍,“居住出让比”等于2。无论是以上哪一种原因,大于1的居住出让比,都代表当地用更少的土地出让,容纳了更多的城镇居民,呈现出了更高的土地利用效率。而更值得注意的是,一些城市的“居住出让比”则远小于1。在前30名城市中,居住出让比最低的城市是长沙、嘉兴、郑州、南通、廊坊、深圳。这些城市的居住出让比都小于30%,意味着这些城市新盖出的房子只有不到30%被利用到实际居住中去了。长沙在其中名列前茅,只有5%的新增建筑面积被居民居住。“居住出让比”的另一个意义在于,它让我们直观地看到了土地的供求与房价之间的关系。下图列出了前60名城市在2010年1月至2020年12月的房价增幅对数和“居住出让比”对数之间的关系。两者之间存在着统计上显著的线性关系(在5%水平上显著)。这意味着土地利用效率越高,新增需求越是接近新增供给,或者越是减少了空置率的城市,房价增长也越快。而房价增长较慢的地区,一般都是土地供应大于居民居住需求的地区。在上面这张图中,一个非常显著的离群点就是深圳。如果去掉深圳,那么两组数据的线性显著水平会提高到1%。那么,为什么呢?为什么深圳的出让新增建筑面积大于居住新增建筑面积如此之多,但人们的平均居住面积、居住环境的上升和住房自有率却稳居全国倒数第一,同时房价又有了那么大幅度的上涨呢?是深圳的城中村,或者深圳比其他地区更普及的公租房模式起到的作用吗?具体原因为何,还需要我们更深入的研究。过去十年,是我国房地产发展最快的十年,也房地产开发的热度从一线城市狂飙下沉至二三、甚至是四五线城市的十年。这给这些二、三、四、五线城市带来了极大的居住条件改善和居住面积增加。但是,我们也能看到,这十年来,反而是一线城市的房地产顽疾并未解决,进步乏善可陈;以深圳为代表,高企的住宅用地价格使得一线城市居民的居住质量、居住面积在过去十年内的改善位居全国末尾。那么,未来十年呢?人们依旧将涌入一线城市,在北上广深也依旧需要更多的住房。而一线城市的建设用地指标、尤其是住宅用地的增加能否匹配人口流入的速度?如何利用好有限的建设用地指标?满足一线城市居民更高的居住需求,需要决策者们更大的智慧。▍终篇预告到了这里,第七次人口普查分县资料专题系列已经是第七篇了,我们对资料中的每一张表都进行了相应的介绍和解读。而下一篇,将是本系列的最后一篇,我们将综合各张表的信息,从数据出发,和大家一起展望一下2030年的中国。
2022年10月18日
其他

未来十年,哪些城市的“出生率”会暴跌?——第七次人口普查分县数据报告(六)

▍系列预告:七普分县报告近期,统计局出版了第七次人口普查的分县数据资料,在完成了相应资料的电子化后,城市数据团将在接下来一段时间连续更新,为大家解读此次分县资料中一些有趣的内容,希望各位读者可以持续关注这个系列。在前面几篇文章对于规模、年龄、就业、以及教育等方面的解读后,我们进入了长表数据的解读,而今天我们会重点解读人口普查数据中非常重要的一张表。人口普查长表数据的表7,是关于人口婚姻状况和女性生育状况的表格。使用该表,结合普查资料中的其他数字,我们可以试着计算一个大家都非常关心的问题——未来十年,中国各个地区的出生人口数字会如何变化?如何计算一个地区的出生人口?一般而言,人口的出生,总是有这么一个流程:首先需要一对适龄男女(年龄数据),然后他们会结婚(婚姻状况数据),接下来由他们其中的女性来完成生育(生育状况数据)。那么,按照这个流程,只要找出可以度量这个流程每一步骤转化率的变量,我们就可以对每个地区未来的人口出生情况进行相对可靠的预测了。▍育龄女性规模与占比根据以上这个流程,在出生人数的预测中,最核心的变量之一,就是育龄女性数量。根据人口与统计学上通行的做法,15-49岁女性被定义为育龄女性(这个年龄范围是人口学定义的,不是数据团定义的)。在普查分县资料中,也给出了不同地区的育龄女性占比情况。下图列出了2020年各城市15-49岁女性占总人口比重的最高60城市与最低60城市,以及该比重和2010年相比的变化。从上图中可以看出,育龄女性占比最大的城市几乎都集聚在大湾区,分别是深圳、东莞、广州、厦门、中山。而中国的前两大城市,北京市排名第36位,上海市则排名第59位。而育龄女性占比最低的城市则是四川资阳、辽宁抚顺、江苏盐城、黑龙江伊春和湖南邵阳。但无论数字高低,几乎所有的城市中,15-49岁女性占比都在迅速下降,在10年内下降了5.63%。那么,用以上这个排名数据,我们就可以预测出生人口快速下降的城市吗?并不是。我们要注意的是,15-49岁女性占比(育龄女性数量占比),是人口预测的核心变量,但却是一个变化远远慢于出生人口的“慢变量”。虽然人口学中把这个区段年龄划在了“育龄区”,但实际上,15-49岁这个区间内大部分年龄段女性,都是很少会有生育的。通过人口普查汇总资料中的分年龄女性生育率我们可以画出下图:从上图可以看到,妇女真正生育旺盛的年龄大约是在25-29岁。在2020年时,生育率最高的年龄是27岁,此处平均每1000名女性在当年会生育105.6个婴儿。虽然统计意义上的育龄女性的定义是15-49岁,是一个长达35岁的跨度,但仅是其中25-29岁这么一个5岁年龄的跨度,就贡献了所有生育的38.2%。若是将年龄跨度放宽一些,再将时间拉长,那么从20岁到29岁的10岁跨度的女性人口,在未来十年内的生育,就会占这十年内总生育数量的61.4%。因此,如果要计算未来十年中国的生育数量相比现在会有怎样的变化,只需计算1991到2000年出生的女性在2020年时在不同城市的比例,相对于1981到1990年出生的女性在2010年时在不同城市的比例出现了什么变化,就可以得出相对准确的答案了。那么,请看下图:上两表列出了20-29岁女性人口占比的变化和绝对数的变化。2020年时,20-29岁女性人口占比最高的城市是深圳,约10.5%,而这个占比已经比2010年时的占比17.22%低了39%(指的是相对比例缩小)。但由于整个深圳人口增长很快,导致20-29岁女性人口的绝对数量还进一步上升了2.96%。占比变化和绝对数量变化,意味着在其他变量(包括结婚率,给定已婚情况下的生育率等)不变的情况下,深圳在2021-2030年的出生率将比2011-2020年减少39%,但总出生的人口将比2011-2020年多2.96%左右。从上表看,即使每名育龄女性平均生育数量不变,未来十年出生率也将会出现极快的下降。就全国尺度而言,只有全国前20名的城市能保持生育数量的相对稳定,其他300多个城市的出生都将下降10%到60%不等。出生率下降最快的城市将是聊城市、邢台市、济宁市、邯郸市、泰安市,会下降50%以上。而出生人数下降最快的城市将是四平市、松原市、七台河市、绥化市、聊城市,出生人口均下降了60%以上。▍哪里的年轻人更愿意步入婚姻殿堂细心的读者可以发现,上文的计算使用了一个假设:“每名育龄女性平均生育数量不变”。但这个假设显然并不现实的。因为如果暂时不考虑未婚生育的话,那么一个育龄女性是否生孩子,并不只受年龄影响,她还得结婚。因此,育龄女性是否愿意结婚呢?就成为我们接下来需要预测和计算的内容。很可惜,人口普查分县资料并未给出分年龄人口的结婚情况,因此我们使用每个地区10年来增加的已婚人数除以每个地区的九零后人数,算出一个我们自己定义的“婚姻人口比”,而这个比值可以在普查分县资料的有限数据上,粗略地算出每一个地区年轻人进入婚姻的比例。但由于这个比值没有考虑人口的死亡情况,因此在老龄化程度比较高,人口负增长的地区,这个数字可能会得出负值,因此我们只能使用它做一些非正式的计算。下表中列出了“婚姻人口比”这一数值的前100名。从上图可以看出,长沙、三亚、厦门、杭州和珠海,成为年轻人最倾向于步入婚姻的五个城市,这五座城市的新增已婚人数除以新增年轻人人数的比值大于60%以上。而北京在该表中排名第82,“婚姻人口比”仅有34.5%。上海就更低了,在表中甚至无法看到,它排名171位,“婚姻人口比”仅有14.8%。婚姻人口比虽然是一个粗糙的变量,但是从这个变量的分布中我们也不难发现——不同城市的年轻人,在结婚倾向上是存在差异的。那么,这个差异的原因是什么呢?我们在之前的一篇文章中可以看到,深圳、上海、北京、广州等地,虽然本地出生始终不多,但大量年轻人会从外地前来,使得当地的年轻人占比保持较高水平。但在年轻人(九零后)到来时,一些城市的中年人(七零后)却出现了被挤出的现象,例如上海、北京、天津等。在婚姻人口比这张表格中,上海、北京和天津分别排名全国171位,82位和116位,正好和被挤出的七零后相呼应。因此,我们可以猜测:在某些城市,年轻人来了,有了自己的事业,却因为没法长久留下,因此并不在当地选择成家、生育。他们最终只能离开。▍年轻人的生育率背后,有哪些隐含的规律?那么,除了婚姻,还有哪些因素会影响出生率呢?在之前的一篇文章《出生人口哪儿去了》中我们提到过,提高受教育年限,增加了孩子的“机会成本”,因此是“减少生育的最有效手段之一”(和育龄女性年龄范围一样,这个观点也不是数据团首创的,感兴趣的读者可以去阅读Gary
2022年10月12日
其他

在就业人口的变化里看懂中国——第七次人口普查分县数据报告(五)

人口普查分县资料的表五与表六列出了各地区的人口职业结构和人口行业结构,对我们了解城市产业对劳动力的需求,以及各地区的劳动力供给至关重要。▍长表数据的使用从分县资料的表5开始,人口普查分县资料进入了“长表”的范围。相对于全面普查,每个人理论上都会被查到的短表,长表并非全面普查,而是进行约10%的抽样调查。2020年第七次人口普查将约1.39亿人纳入了长表抽样范围,抽样率约为9.84%。因此,从表5开始,所有数字都不能直接使用,而需要经过抽样比调整。例如表5、表6首先汇报了各地区的16岁以上人口,全国总数为112,675,113人,仅1亿人出头。而在中国人口普查短表的年龄表格中,16岁以上人口为1,141,071,562人,短表人口数量为长表的9.87%。这个数字和整体抽样比9.84%非常接近,说明人口普查的抽样比在不同年龄上也是基本一致的。因此,如果要从长表和短表中各拿出一些数字进行运算,就必须使用到这个抽样比,进行数字上的放缩和还原。但需要注意的是,计算时不能将长表数字简单除以9.84%了事——抽样比总体为9.84%,并不意味着每一个地区的抽样比均为9.84%。在表5、表6中公布了各区县16岁以上人口,而在表7中公布了各区县15岁以上人口,将表7(长表)的15岁以上人口与表2(短表)中的15岁以上人口相除,便可发现一些地区的抽样比远低于9.84%,比如天津市和平区的抽样比仅有6.02%;而遂宁市安居区的抽样比又高达14.7%。因此,若是简单使用各个区县的长表数字除以9.84%来“还原”到该区县的全样本,将会得到错误的结果。以劳动参与率的计算为例,我们可以看到如何正确使用普查的长表和短表资料。▍各地区劳动参与率的计算劳动参与率是指劳动参与人口(就业人口&失业且在找工作的人口)在劳动年龄人口(男16-59岁,女16-54岁)中的占比,反映了一个地区劳动力市场的基本情况。但在计算这个指标时,劳动参与人口的数值只能从长表信息获取,上文我们已经提到,各地的抽样比并不相同,必须充分利用长表和短表的信息才能算出隐含的抽样比和年龄结构,从而得出出较为准确的结果。在这种情况下,看似简单的“劳动参与率”计算,需要从下式的方法才能得到:在上式的最后一个等号之后,所有以红色字体标注的部分都是来自人口普查长表,15岁以上人口来自表7,而劳动参与人口和16岁以上人口来自表6。黑色字体则来自人口普查短表,其中的不同年龄段人口以及名字和长表重复的“15岁以上人口”,都是通过分五岁年龄结构人口数据加总得到的。这种方法虽然复杂,但却是唯一可行的路径,基于此算出不同地区的劳动参与率如下图所示:上图列出了我国劳动参与率的前20名与后20名。可以看到,劳动参与率最高的八个城市,包括南充、荆门、南通、德阳、嘉兴、宜昌、广安、绵阳,其劳动参与率超过了80%。只要在16岁以上,同时没到退休年龄,这些地区的人口有五分之四都有一份工作,可以说是非常辛勤地劳动着。前20名地区中,四川有6个城市,浙江有5个城市,湖北有4个城市,可谓中国最“辛苦”的地区了。劳动参与率最低的20名城市,则以欠发达地区和少数民族聚居区为主。广东省有四个城市在劳动参与率最低的城市中上榜,分别是湛江、河源、梅州、汕尾。如果大家对之前的一篇还有印象,可能不会忘记,这四个城市同时也是外流人口最多的城市。这20个城市的劳动参与率都在50%以下,且比起10年前平均下降了20.3%。在全国层面上,中国这十年间的劳动参与率也在显著下降,从2010年的70.3%,下降至2020年的63.3%,整整下降了7%。在中国进入劳动力人口快速萎缩的阶段时,劳动参与率的进一步下降,使我们的就业人口进一步降低。从2010年到2020年,中国的就业人口下降了14.7%。在人均产出能力增长并没有显著上升的同时,就业人口的持续下降,正是中国GDP增速近年来显著放缓的重要原因之一。▍各地区职业结构变化在本次人口普查中,职业被划分为七大类:1.党的机关国家机关群众团体和社会组织企事业单位负责人2.专业技术人员3.办事人员和有关人员4.社会生产服务和生活服务人员5.农林牧渔业生产及辅助人员6.生产制造及有关人员除了以上六类职业外,另有一类为:7.不便分类的其他从业人员下面分别展示了各职业人口占比最高的50城。“党的机关国家机关群众团体和社会组织企事业单位负责人”,可以按照其关键词“负责人”来理解。无论是一个组织还是一个企业、团体,在其中担任领导职务,且具有决策、管理权的人,便属于这类职业。排除人口较少的大兴安岭、日喀则这两个地区,排名最领先的城市是南京市、天津市、湖州市、北京市、佛山市。南京、天津、湖州、北京的“负责人”占比在过去十年内上升较快,相比之下,佛山、中山、上海的“负责人”占比有所下降。“专业技术人员”可以直接按照其字面意思理解,指从事科学研究和专业技术工作的人员。这类人员占比排名最高的城市是北京、上海、太原、南京、西安,其中北京占比为25.7%,遥遥领先第二名上海的20.7%。从事这部分职业人口的比例在过去十年上升较快,北京、上海、西安等地都增长了5%以上,前50名城市平均增长3.8%。“办事人员和有关人员”
2022年10月10日
其他

城市可以只需要大学生吗?——第七次人口普查分县数据报告(四)

▍写在前面感谢各位读者对本系列的关注,在已发出的几篇中,我们分别梳理了第七次人口普查分县资料中关于人口数量、年龄结构、性别比例等方面的信息,从这一篇开始,我们会进入到与社会经济生活关系更加紧密的信息的分享:教育(学历)、就业(职业)、婚育和住房。
2022年10月9日
其他

性别比失衡在一些地区依旧严重——第七次人口普查分县数据报告(三)

▍系列预告:七普分县报告近期,统计局出版了第七次人口普查的分县数据资料,在完成了相应资料的电子化后,城市数据团将在接下来一段时间连续更新,为大家解读此次分县资料中一些有趣的内容,希望各位读者可以持续关注这个系列。上一篇我们从“90后”和“70后”的视角,看了过去十年间人口流动的一些特征。本篇我们会谈一谈性别比例问题。人口普查分县数据呈现出的性别失衡问题值得我们重视,性别比例失衡包括总体的性别失衡以及出生人口的性别失衡,两个问题存在于不类型的城市中。▍总体性别比的空间失衡从下图可以看到,性别比最高的城市首先是人口流入城市,广东的东莞、深圳、佛山等城市在上一篇《谁来到了城市》中,分别是九零后增加倍数的第6、第1和第14名,在本文中则占据了性别比最高城市的前三把交椅。除了鄂尔多斯以外,性别比最高的城市都在中国的南方。第二张图列出的性别比最低的城市则恰好相反,首先以人口流出城市为主,例如周口、信阳、驻马店等地,不仅是性别比较低的城市,同时也在上一篇文章的“九零后人口减少倍数”中名列前茅。在人口流出城市中,东北城市集中分布在性别比最低的城市中,例如阜新、本溪、大庆、抚顺、锦州、白城、丹东、吉林、牡丹江等。▍“90后”的男性和女性,分别青睐哪些城市?城市的总体性别比和人口流动虽然高度相关,但并不是所有的低性别比城市都是人口流出城市;反过来,高性别比城市也并不一定是人口流入城市。不同性别的流动人口,事实上倾向于不同的城市。下图使用过去十年内九零后人口的性别比变化情况,通过四个象限列出了这样的四类城市——上图可以看到不同城市在过去十年内的九零后分性别比例增加值。第一象限代表男性和女性都增加的象限。深圳、上海、北京、广州、东莞等大型城市基本处于这个象限内。第三象限则是男性和女性都减少的城市。人口流出的城市基本处于这个象限。在第一和第三象限外,第二和第四象限分别代表男性流入但女性流出的城市,以及男性流出但女性流入的城市。前者包括绍兴、台州、鄂尔多斯、惠州等,后者则仅包括南宁市。在上图中,每个城市的男性占比增加与女性占比增加的差额,可以等同为不同性别对于该城市的“偏好程度”。城市越是偏向原点的左上方,说明这个城市越是受到男性青睐。这样的青睐包括两种可能性,第一种是像右上角的东莞一样,从外地流入的男性人口大于女性人口;第二种更类似左下角的河源市,女性人口流出更多,而男性倾向于留守。下图列出了在所有“90后”净流入的城市中,不同性别的迁徙人口更青睐的城市。最受男性青睐的是东莞,其系数高达35%,意味着来到东莞的九零后中,男性比女性要多出35%以上。苏州、嘉兴紧随其后,接下来的城市还包括惠州、中山、宁波、湖州等。这些城市的制造业普遍较为发达,呈现出工业城市更吸引男性迁徙人口的特征。在一线和新一线城市中,深圳、上海、杭州等地更受男性青睐,来到这些城市的男性九零后要比女性九零后多7%以上。广州、成都、北京相对更为均衡,九零后男性和女性流入人口几乎一样。其中北京是唯一一个更受女性青睐的城市,其系数为-0.004,说明女性迁入北京的九零后要比男性多出千分之四。在女性更青睐的城市在图中共有18个,出现了省会为主的显著特征。除了大连和北京以外,其他的16个城市全部是所在省或者自治区的省会(首府),例如南宁、西安、郑州、合肥、济南……省会吸引女性流入,而工业城市吸引男性流入,成为不同性别迁徙时的最主要特征之一。▍出生性别比的总体趋势向好,但仍有忧上面我们讨论的是迁徙人口和迁徙人口的性别比,而迁徙人口的性别比则往往被不同城市的特征所决定。但一座城市的人口性别比,除了流动人口带来的影响之外,还有一个更重要的影响,就是出生人口的性别比。与流动人口性别比受城市特征影响不同,出生人口的性别比,按照生物学基本规律,应当是一个由自然决定的数字,自然的出生性别比大体应该稳定在105-107左右。但由于出生前的性别选择,或者特定性别人口的瞒报、漏报,从人口普查分县数据中,我们能看到一系列远远偏离自然出生性别比的城市。下图列出了2020年出生性别比较高的城市,前五名分别为儋州、新余、鄂州、泉州和黄石,其出生性别比均在1.2以上,意味着在这些城市,每100个女婴降生,就有超过120个男婴降生。可以看到,性别比最高的省份包括江西(新余、鹰潭、伊春、上饶、九江、吉安、抚州、南昌、赣州)、湖北(鄂州、黄石、黄冈、咸宁)、福建(泉州、三明、莆田、龙岩)、广东(云浮、茂名、汕尾、湛江)、海南(儋州、海口、三亚),他们占据了性别比最高的三十个城市的绝大部分,这些城市的出生性别比都高于120。那么,120以上的性别比,意味着什么呢?当我们将数字全部堆叠在一起时,许多感性上的认知会被钝化。举个例子,江苏省徐州市今年年初因“八孩母亲”事件进入人们视野,许多媒体翻出徐州市高达119.5的性别比。但若是全国一起比较,徐州市119.5的出生性别比,实在是算不了什么。在2020年时,徐州市的出生性别比降低到112.3,在全国地级市中仅仅排名第84位,前面的83个城市,每一个都比徐州要更高。读者们可以仔细观察上图,其实上图也同时用浅色柱子列出了这些城市在2010年时的出生性别比。可以发现,即使是在2020时出生性别比较高的城市,大多数也比2010年的出生性别比更低了,出生性别比呈现整体好转的趋势。例如,海南省的儋州市在2020年时出生性别比高达127.7,但这已经是比2010年的141.2要低得多数据了;而海口市的性别比也从六普的125.2下降至七普的122.6。但三亚市的性别比却上升了,从117.2上升至119.2。我们也可以看到海南省从2010年以来努力降低出生性别比的一些新闻,但从结果的绝对值来看,出生性别比正常化之路,在海南还有很长一段路需要走。以下为官方文件部分截图但江西省似乎并不完全属于趋势向好的例子,江西省作为出生性别比偏离正常值最严重的省份,有九个城市上榜,而其中鹰潭、宜春、上饶等三个城市在过去十年中的出生性别比出现了不降反升的现象。和海南一样,江西在过去也有不少“治理性别比”的新闻出现。以下为新闻截图但这样的新闻,似乎并没有在江西带来性别比的正常化。从全国范围总体看,相较十年前,出生性别比确实缩小了,但是具体到城市,许多城市的出生性别比,距离正常值仍然很远。▍人口迁徙,能解决出生人口性别比带来的问题吗?对于一座城市的人口性别问题,出生性别比和迁徙人口性别比是两个不同的因素,也是两个不同的作用力,对城市的未来产生巨大影响。一般来说,出生性别比失衡的城市,在没有人口流动时,必然会在二十年多后出现适婚年龄人口的性别比失衡。那么,在有人口流动的情况下,这些出生人口性别比更高的地方,是会吸引更多男性从而加剧性别比失衡,还是会吸引更多女性从而减缓适婚人口的性别比呢?请看下图:上图列出了不同城市的2010年出生性别比和在过去十年间九零后迁徙人口的性别偏好之间的关系。可以看到——越是出生性别比高,或者说越是“重男轻女”的地区,反而在人口迁徙中越是女性偏向。也就是说,出生性别比高的地区,在人口流动的情况下,在其成年后的性别比会降低。为什么会有这种现象?从前文可知,迁徙人口偏向于女性,有两种可能性,对于人口流入地区来说,这意味着女性迁徙者迁入更多,对于人口流出地区来说,则表示男性迁徙者迁出更多。我们将上图分为两组点,橙色点表示的是人口流入的地区,在这部分地区,出生性别比和迁徙人口的性别偏向没有关系。蓝色点表示人口流出的地区,在这部分地区,出生性别比越高的地区,迁徙人口越是女性偏向,这意味着该地区的女性更少地从当地流出。使用交叉项回归后可以算出:一个地区越是吸引外来人口的流入,越是经济发达,那么这个地区的出生性别比就越少地影响该地区的性别分工。而越是人口流出,经济欠发达的地区,其流出人口反而越可能集中在男性身上,而女性会被留在当地。因此,这种高出生性别比带来的高女性偏向的流动人口,并不是通过女性流入带来的,而是通过男性流出,而女性留守的方式实现的。那么,人口迁徙带来的这种效用,能够多大程度解决出生人口性别比带来的性别失衡问题呢?很遗憾,从图中可以看到,在那些出生人口性别比最失衡的地区,如果出生带来的性别比达到了140:100,但是由于男性流出所带来的性别比减少,也至多能让该地区的性别比减少至130:100,仍然会处在非常严重的失衡区间内。因此,在出生性别比长期失衡最严重的江西新余,湖北鄂州等地,我们看到的新闻有时会是这样的——人口流动,能够带来一定程度上的全国范围内性别比均衡,但从数据结果来看,这样的均衡过程对于出生性别比严重失衡的地区来说,只是杯水车薪。性别失衡的治理,依然任重道远。
2022年10月6日
其他

谁来到了城市,谁又在离开?——第七次人口普查分县数据报告(二)

▍系列预告:七普分县报告近期,统计局出版了第七次人口普查的分县数据资料,在完成了相应资料的电子化后,城市数据团将在接下来一段时间连续更新,为大家解读此次分县资料中一些有趣的内容,希望各位读者可以持续关注这个系列。上一篇我们简单梳理了哪些城市是大城市,这一篇,我们会讲一讲人口流动。在两次普查间的十年,“90后”的年轻人们去向哪里?“70后”的中年人们又是否在奋斗的城市留下了呢?▍人口普查公报之外,为什么还需要分县资料?本次人口普查分县资料和2000、2010年两次资料类似,均包括八份表格,其中表1至表4来自调查到所有人口的人口普查短表,而与就业、婚育、住房相关的表5至表8汇总自十分之一抽样的人口普查长表。可能有读者会问,中国的人口普查主要数据,不是已经在2021年公布了吗?这份人口普查分县资料数据,会告诉我们什么新的信息?为什么会那么重要呢?诚然,在去年各城市陆续公布人口普查公报后,不少研究者已经整理了各城市普查公报,并得出了一些有价值的信息。例如一些研究工作整理并计算了从2010年到2020年各城市人口的增量。从下图可以看到,全国在过去十年间人口增加最快的城市是深圳,人口增长仅70%,全国有20个城市的人口增长超过了30%。另一方面,绥化市成为全国人口下降最快的城市,人口减少了30%以上。人口减少最快的20个城市中,最后一名铜陵市的人口减少了16%。但是,城市级别的人口变动带来的信息量是有限的。他不能告诉我们,人口的增加,是为何增加?减少,又是为何减少?第一种人口增长是人口自然出生带来的。例如西藏、青海的许多区县,0岁人口占比都在总人口的2%以上,十年内自然出生的人口就达到了20%。其中人口出生带来自然增长幅度最快的莫过于西藏自治区的比如县,0-9岁人口占当地总人口的30%。第二种人口增长是城市边界划分变动带来的。例如巢湖市2011年由合肥代管,公主岭市2013年从四平市管辖变更为长春市代管,2015年枞阳县从安庆市划归铜陵市管辖,2016年简阳市从资阳市改为成都代管,都会使区域内的常住人口出现大幅度变化。第三种人口增长是人口流动带来的。人口到了新的区域工作、生活,并被算进新城市的常住人口。在这三类人口增长中,我们最想要知道,也最难从数据中识别的,正是这第三类人口流动带来的增长。而这个信息,恰好就能从人口普查分县资料中得到。▍从年龄结构数据看,年轻人正涌向哪里?人口普查分县资料的表2给出了中国所有区县分性别、分5岁年龄段的所有人口数据。其中0岁人口被额外划分出来,用以帮助计算人口的出生率。使用这份资料,再结合2010年的人口普查中同样的一张表,再利用这个等式:T岁人口×(1-死亡率)+T岁净迁入人口=T+1岁人口可以计算出每一个年龄段,每个城市的迁移人口。举个例子,深圳市在2010年时的10到14岁男性人口为166146人,这批人口在10年内的总死亡率大约在千分之2.8左右。如果人口不发生迁移,其中会有473人会在这十年内死亡,仅剩下165673人。但在2020年时,深圳20-24岁的男性人口却高达950940人,比在没有迁移情况下的人口高出近6倍,或者说多了78万人。这些人口哪里来的?自然不可能是这十年内生出来的,而深圳的区划也没有出现变动,那就只能是从外地迁移来的了。通过这个方法,我们使用计算出了2020年各城市的20-29岁年轻人口中,有多少比例的人口是这十年内从外地迁入的,并列出其中最高的十个城市。如果把20-29岁人口定义为年轻人,那么从上图可以看到,深圳的年轻人口有74.6%是在2010-2020年间从外地迁入的。外来人口也贡献了广州、厦门超过60%的年轻人,上海、成都、珠海、东莞、北京、合肥超过50%的年轻人。但正如我们之前说到,一些地区的普查口径在2010和2020年时是不一致的,使用简单的同年龄人口数量加减可能会出现问题,例如在上图中,成都的变化就没有考虑到简阳的并入,因此会高估年轻人的外来人口占比。为了解决这个问题,我们使用下式,计算两个年龄段在两个普查年度的人口比例,再计算该比例的变化,定义为“年轻人比例变动”,来代表每个城市的年轻人增长情况,该方法可以避免人口总量变动带来的影响:该比例的前后20名如下图所示:从上图可以看到,深圳和上海是年轻人增加倍数最大的两个城市,由于外来人口的增加,年轻人在总人口中的占比提高了一倍之多。北京、广州紧随其后,提高了80%以上。厦门、东莞、杭州、南京排名4-8位,年轻人占比提高了50%以上。成都在去掉简阳市的影响后,排名有所降低,但年轻人占比也增加了48%。有的城市年轻人在增加,自然就有城市的年轻人在减少。从流出比例看,排名第一的城市白银,年轻人占比下降近50%——这意味着该地年轻人在10年间流出了近50%。第二名茂名市,虽然也处于广东,但依然流出了45%的年轻人。在年轻人增加最多的前20名城市中,广东独占6个城市。但在年轻人减少倍数最高的20名城市中,广东也占据三个——茂名、梅州、河源。广西则占据了贵港、玉林、梧州、钦州、河池5个城市,是前20名流出人口城市最多的地区之一。除了广西以外,甘肃(白银、平凉、武威、庆阳和定西)、河南(信阳、周口、驻马店、南阳)、贵州(毕节、黔东南)也是人口流出的大省。2014年时,国务院发布了《国务院关于调整城市规模划分标准的通知》,将城市根据城区常住人口划分为五档七类——城区常住人口50万以下的城市为小城市,其中20万以上50万以下的城市为Ⅰ型小城市,20万以下的城市为Ⅱ型小城市;城区常住人口50万以上100万以下的城市为中等城市;城区常住人口100万以上500万以下的城市为大城市,其中300万以上500万以下的城市为Ⅰ型大城市,100万以上300万以下的城市为Ⅱ型大城市;城区常住人口500万以上1000万以下的城市为特大城市;城区常住人口1000万以上的城市为超大城市。(以上包括本数,以下不包括本数)使用这个标准,我们将中国所有的地级市市辖区和县级市进行了划分,计算他们的年轻人增长情况,结果如下图所示:越是大城市,在过去的十年中越是会成为年轻人的磁石。随着城市规模的降低,年轻人增加数量逐渐下降。在人口300万人以下的城市中,年轻人的占比则在减少。▍省内转移,还是从省外吸收?在前文中不难发现,广东省在年轻人增加最快和减少最快的榜单中都有一席之地。毗邻的广西自治区也有6个城市在年轻人迁出榜中名列前茅。下图可以看到,121个广东区、县、县级市中,有31个区县的年轻人出现了正增长,最高的年轻人比例都增长到了近3倍之多。但与此同时,另外90个区县都出现了年轻人的负增长。地处茂名的信宜市,年轻人占比下降了一半以上。同时出现年轻人口的流出和流入,说明在两广内部,甚至是广东省内部都存在大量的年轻人口转移。这种现象在上海、北京则没有出现。从以上两张图可以看到,上海除了崇明区,北京除了平谷区,其他区域的年轻人口占比都在增加。虽然在最高幅度上并没有广州天河、深圳南山那样大,但是却普遍处于增长区间内。尤其是上海,除了奉贤、金山与崇明外,其他每个区县的年轻人的比例都由外来人口补充增加了80%以上。▍有人到来,有人离开20-29岁人口的变化,代表了年轻人的迁徙方向。但来到深圳、上海的年轻人,20年后,会做出怎样的选择?是在城市站稳脚跟,还是回到家乡?这个问题只有未来能告诉我们答案,但我们可以从“90后”的前辈“70后”们的身上看到一些端倪。我们使用40-49岁人口做了计算。下图列出了20个年轻人流入最多的城市的40-49岁人口在过去十年内的变动率:从图中可以看到,在年轻人迁入最多的城市中,珠海、成都、中山、杭州的40-49岁人口增长是最快的,达到15%左右。宁波、广州、昆明、武汉等的40-49岁人口也有10%左右的增长。这样的增长,意味着在这些城市的40-49岁人口并没有出现回流。在这些城市,人们不仅仅愿意来工作,更愿意在这个城市长久地扎根,生活下去。但另一方面,上海、北京、天津、南京和东莞的40-49岁人口却在过去十年间出现了负增长。考虑到40-49岁人口的自然死亡率,可以较为肯定地说,上海、北京和天津的40-49岁人口,是出现了净外流的。这样的在40岁后的人口外流,也使得上海和北京在大量吸收30岁以下外来年轻人口的同时,又保持了总人口在过去十年的相对稳定。将20-29岁年轻人的增加和40-49岁中年人的增加画在一张图上,可以在四个象限内找到一些代表性城市:第一象限中的城市,70后和90后的占比都在增加。包括了三亚、成都、深圳、广州、珠海等大部分正在增长的城市。第二象限中的城市,90后占比减少,但70后的比重在增加。这个象限区间的城市不多,包括广安、恩施、衢州、茂名等地,这些城市的年轻人在减少,但中年人却有所上升,更接近“养老城市”的定义。第三象限则包括绝大部分收缩城市和人口流出城市。例如白银、巴中、六安、安庆、绥化等。而第四象限最为特殊,他的年轻人在增加,但中年人却在外流。这个象限包括了上海、北京、东莞、南京、天津、哈尔滨、温州、镇江、鄂尔多斯等地区。在这个象限的城市,年轻人增加的同时,中年人在被挤出。每一个城市,对谁敞开欢迎的胸怀,又对谁张开血盆大口,还将谁弃之如敝履?冰冷的数据中,城市的美好与残酷,尽数包含于此。​​
2022年10月5日
其他

中国现在有多少大城市?——第七次人口普查分县数据报告(一)

▍系列预告:七普分县报告近期,国家统计局终于出版了纸质版的第七次人口普查分县数据资料。城市数据团也在第一时间完成了这份重量级资料的电子化,在接下来一段时间,我团会推出七普分县数据报告连续推文,为大家解读七普分县数据中一些有趣且重要的内容,希望各位读者持续关注。▍中国现在有多少大城市?城市规模等级,向来是中国城市分级管理的重要依据。例如,2014年提出的严控特大城市人口规模;2019年以来,要求全面取消Ⅱ型大城市以下城市的落户限制,全面放开放宽Ⅰ型大城市的落户条件,超大、特大城市要调整完善积分落户政策,确保社保缴纳年限和居住年限分数占主要比例。那么,哪些城市是超大、特大、Ⅰ型和Ⅱ型大城市?中国现行城市规模划分的标准依据是国务院在2014年发布的《关于调整城市规模划分标准的通知》,该标准将城市按城区的常住人口划分为五档七类。城区是指在市辖区和不设区的市,区、市政府驻地的实际建设连接到的居民委员会所辖区域和其他区域。其中,城区常住人口1000万以上的城市为超大城市,500万以上1000万以下的城市为特大城市,300万以上500万以下的城市为Ⅰ型大城市,100万以上300万以下的城市为Ⅱ型大城市,50万以上100万以下的城市为中等城市,20万以上50万以下的城市为Ⅰ型小城市,20万以下的城市为Ⅱ型小城市。但最近二十年,统计部门并没有公布过各城市的“城区常住人口”;而住建部的《中国城市建设统计年鉴》虽然提供了各城市的“城区人口”数据,但其在统计指标解释定义“城区(县城)人口”为“划定城区(县城)范围内的户籍人口数,按公安部门的统计为准填报”,这和“城区常住人口”的口径并不一致。从具体数值上看,很多城市的“城区人口”数据,又远远超过该城市的户籍人口,例如其统计的2020年北京城区人口为1916.4万人,但《北京统计年鉴》里,2020年北京的户籍人口为1400.8万人。从道理上讲,统计“城区常住人口”,最权威的数据无疑应该是统计局做的普查数据,统计局每年会公布“统计用区划和城乡划分代码”,能准确地识别“城区”,人口普查又覆盖了所有的人口,可以准确识别全部的常住人口。因此,直到全国第七次人口普查完成,2021年,《求是》杂志根据七普数据发布了中国超大、特大城市名单:我国超大城市7个,特大城市14个。这是中国近20年以来首次最权威的超大、特大城市的名单。那么,除了这21个超大、特大城市以外,中国的其它大城市、中等城市和小城市有哪些?《求是》杂志并未提及。而新近出版的《中国2020年人口普查分县资料》(以下称“七普分县数据”)则为更多的城市规模划分提供了数据基础。与以往不同,这份七普分县数据提供了“城区人口”指标,并覆盖了全部的683个城市。按照行政口径的话,中国的城市可分为三类:直辖市、地级市(包括省会、计划单列市和普通的地级市)和县级市,县级市虽然是县级单位,但也是一个城市,拥有城区(县下属区划有街道,而普通的县下面为乡和镇)。根据七普分县数据,中国有4个直辖市、27个省会城市、5个计划单列市、261个普通地级市以及386个县级市,共计683个城市。我们把以上这683个城市,按照国务院2014年的城市规模划分标准进行再分类,可以看到:中国现今共有7个超大城市、14个特大城市、84个大城市(其中14个Ⅰ型大城市、70个Ⅱ型大城市)、135个中等城市、443个小城市(其中254个Ⅰ型小城市、189个Ⅱ型小城市)。具体如下表所示:汇总来看,中国683个城市的城区人口规模为5.75亿人,占中国人口的41%。而中国21个超特大城市和105个超特大和大城市的城区人口分别占中国人口总数的16.9%和26.4%。下面的表格列出了中国全部大城市(共计105个)的名单,包括21个超特大城市和84个大城市,分别给出了该城市的常住人口、城镇化率、城区常住人口、城市规模等级和城市类型。(我们在附表中,还给出了全部的中等城市和小城市的名单。)该名单信息内涵丰富,需要花很大的篇幅进行解读(读者如有有趣的解读也可在评论区留言)。在此我们仅试列几条:第一,中国城市规模等级的分布,与城市的行政等级高度相关。总的来说,城市的行政等级越高,城市规模等级越高。计划单列市的城市规模等级与其所属的省会城市基本相当。珠三角的东莞、佛山、中山和长三角的苏锡常是普通地级市中最强的存在,超越了中西部的多数省会,是经济强省的体现。第二,城市的总常住人口和城区常住人口有很大的区别。即使是京沪两地,城区人口也仅占总人口的8成,重庆只有5成,苏州更是只有3成。这里面的原因很多,一方面是城市各区县之间没有绵延成片,所以城区覆盖到的人口很少。例如从城乡区划上看,重庆更像是一个省份,而不是直辖市,过去十年,重庆进行了大规模的撤县建区,但人口的聚集程度仍在远低于京津沪穗深;另一方面,也是行政管理体制的问题,苏州的城市化率水平比较高,内部绵延成片的情况也相对不错,但苏州下属的强县太多,包括昆山、常熟、张家港、太仓和原来的吴江(2012年撤市建区),例如昆山和常熟在县级市城区人口排名中位列第1、第8。这种局面使得苏州虽然全市人口接近1300万,但连特大城市都算不上。第三,东部经济大省中,大城市全面开花。例如江苏、山东、广东分别有11个、10个和10个大城市。江浙不仅地级市强,下属的县级市也很强,全国城区人口规模前10的县级市里,浙江有5个,江苏有3个。相比之下,河南、四川虽然是人口大省,每个地级市人口规模也很庞大,但分别只有3个大城市。具体的分布可以见下表中各省的表现。你所在城市怎样呢?欢迎在评论区留言讨论。(如果你所在城市不在大城市名单中,那么可以在下面的附表里寻找具体数据)▍附表:中小型城市分类明细表附表:城区人口100万以下城市分类明细表,按照城区人口数量降序排列。
2022年10月4日
其他

上一个无雨之夏已是十六年前。下一个呢?

随着副热带高压逐渐从长江流域撤离,冷空气东移南下,几个火炉一般的城市将逐渐降温。我们终于可以从这个特别的夏天中逐渐走出来。在刚刚过去的两个月,我们都经历了些什么?使用中国226个气象站点的每日气象数据,我们做了一些研究。▍关于气象数据的一点吐槽首先还是要吐槽一下气象数据的获取门槛。从官方的“中国气象数据网”中,我们是很难批量获得气象数据的。一个普通用户只能通过实名注册的方式,免费获取过去7天内的气象数据。曾经能够较为方便获取历史气象数据的“中国地面气候资料日值数据集(V3.0)”,已经不再公开发布,只有月值数据还能够提供普通用户下载。因此,如果想要比较方便地获取全国层面,在过去一年,甚至是许多年内的分日气象数据,一个比较方便的来源是NOAA,即美国的国家环境信息中心(National
2022年8月24日
其他

疫情来时,上海游客跑得比谁都快

8月1日海南发生疫情以来,几条信息刷屏了人们的朋友圈:“八万滞留旅客,七万上海人”“现在封在三亚的旅客,和三个月前封在上海的市民是同一批人”真的是这样吗?使用城市间的分天实时人口流动数据,我们使用每天分城市的人口流动数据,做了一项调查。(该数据来自手机信令的数据汇总,感谢加州大学圣迭戈分校(UCSD)杨阳提供相关数据。)海南省的本轮疫情开始于8月1日,即三亚市报告1例新增本土确诊病例,官方消息发布于8月2日。以8月1日为分界点,我们能看到这样一条流入和流出海南的人口曲线:可以看到,8月1日后,流入海南的人口逐步降低,
2022年8月11日
其他

与城市生活“硬脱钩”的经济数据

在刚刚过去的2022年上半年,中国经历了不亚于2020年的严重新冠疫情,经济增长也下滑至2.5%,是2020年上半年以来增长最慢的一个半年。这两周,各城市的半年度经济数据陆续出炉。下表列出了2022年半年度GDP的前60名,其中第5列是2022年上半年和2019年全年的增速差异。可以看到,在GDP排名前60的城市中,除了石家庄、临沂、济宁、鄂尔多斯、漳州、榆林、潍坊这7个城市,其他53个城市在2022年上半年的增速都低于2019年——有疫情影响前的最后一个年份。▍疫情在多大程度上影响了经济数据?疫情对经济数据造成了多大的影响?在全国层面,我们很难将疫情造成的衰退和经济增长放缓区分开。但在城市层面,对比一个遭遇了疫情的城市,和一个疫情程度较轻/没有疫情的城市,排除城市本身特征后,便可算出疫情对经济数据造成的影响。我们搜集了中国三百余个城市在2020年和2022年的经济数据以及疫情数据,研究两者之间的关系(2021年上半年时,除石家庄以外,其他城市几乎没有疫情,因此不在我们的研究范围内)。由于每个城市的体量、发展程度不同,稳定状态下的每年增长率也不同。我们将下式定义为每个城市在疫情期间的“超基准增长”:上式将每一个城市在疫情前最后一年的增速作为基准增长率,在基准以外的经济增长或者是衰退,被定义为疫情影响之下的额外经济影响。我们用下式定义每个城市的疫情程度:结果见下图——可以看到,2020年时,感染人口占比与超基准增长之间的关系大约是:感染人口每增加1%,半年度内的GDP增长下滑0.021%。而在2022年,感染人口每增加1%,半年度内的GDP增长下滑幅度减少至0.0051%。拟合线越平,斜率的绝对值越小,意味着疫情对于经济的影响越小。斜率从-0.021下降至-0.0051,变为之前的四分之一,这意味着同样程度的疫情,在2022年对GDP增长造成的影响仅有2020年时影响的四分之一。这样的影响缩小,意味着在疫情防控上的“科学精准”程度不断提高,因疫情而导致经济增长放缓的程度,也逐渐减少了。▍疫情在多大程度上影响了高频数据?疫情对经济增长的影响为何会越来越小呢?我们可以从高频数据中看到答案。在之前的几篇文章(例如《封控政策》《烟火气》),我们用到了娱乐餐饮指数、人流量指数、电商销售量、人口迁徙指数、货运量指数、道路拥堵指数等来计算居民生活会在多大程度上被疫情所影响。那么,在2020年和2022年,疫情对于这些高频数据造成的影响,会有什么不同呢?我们选择了娱乐餐饮指数、货运量指数和道路拥堵指数,分别表征一个城市的消费能力、生产能力、正常生活秩序。对于这三项指数,可以画出下图:从以上三张图中,我们可以发现几点:1,2020年上半年的疫情对娱乐餐饮影响比2022年更大。感染人口占比每增加1%,娱乐餐饮强度会额外下降0.042%。而在2022年时,同样程度增加的感染人口占比仅能将娱乐餐饮强度降低0.019%。后者约为前者的一半。2,2022年上半年的疫情对货运指数和拥堵指数的影响,和2020年时几乎相同。2020年1%的感染人口增加会使得货运指数下降0.0258%,拥堵指数下降0.0118%,2022年时该数字微增至0.0259%和0.012%。两年的影响系数之间没有显著差异。从上表可以发现,同样程度的疫情,在2022年对居民生活所产生的的高频数据造成的影响,在某些方面(娱乐餐饮等)比2020低一半多,而在另一些方面(货运、出行)却并没有多少区别。当我们把疫情对经济数据和疫情对高频数据的影响结论合并在一起时,就会出现矛盾:疫情在2022年对GDP增速的影响,只有2020年的四分之一。但疫情在2022年对人们生活的影响,和2020年的差别却没有那么多。疫情下的城市生活和城市经济数据,出现了背离。▍用高频数据解释统计数据疫情对生活造成的影响没有减少多少,但对统计数据的影响却率先减少了。为何会有这种现象呢?我们试着用各类高频数据,对统计数据进行回归,观察其系数大小以及拟合优度。拟合优度,代表了高频数据的差异,在多大程度上可以解释经济增长的差异。例如上图左边,用娱乐餐饮指数的变化解释GDP前100城市在2022年上半年的产值增长变化,其系数显著为正,且拟合优度达到了0.358,即2022年上半年时,GDP排名前100城市的总产值增长,有三分之一是可以被娱乐餐饮指数的变化所捕捉到的。但右图中,我们在同样的口径下用电商销量的变化来解释GDP的超基准变化,其系数就不再显著,且拟合优度也只能达到0.012,即绝大部分GDP增速的变化并不能被电商销量变化所解释。不同的高频数据,捕捉到了经济活动的不同侧面。用多个指数,在不同时期分别去解释GDP的超基准变化,结果会如何呢?我们使用下式来进行回归:用上式对不同年份、不同样本的城市GDP超基准变化进行回归,整理历次回归的拟合优度,可以得到下图:从上表可以看到,从2020年到2022年,高频数据的变化可以解释的不同城市GDP超基准增长的比例分别为16.6%、26.6%和10.8%。解释程度变化尤其大的正是2021和2022年,高频数据在2021年时能够解释不同城市间GDP增长变化的四分之一,在2022年时下降至十分之一。如何解读这种变化呢?300个城市具有比较完整的GDP数据和高频数据,我们将样本划分为GDP排名前100的城市和后100的城市,对不同规模的城市进行分别回归。在上图中可以发现,拟合优度的变化趋势在不同城市区别很大:——在GDP排名前100的大城市中,高频数据可以解释的经济数据变化比例,越来越大。2022年,规模在前100名的大城市的GDP增长差异,高频数据能够解释其中的41%。——在GDP排名后100的小城市中,高频数据可以解释的经济数据变化比例,骤然缩小。2022年,规模在后100名的小城市的GDP增长差异,高频数据只能解释他们的5.8%。为什么会有这种现象呢?其一,在大城市中,服务业占比较高,且无论是服务业还是制造业,经济活动也越来越数字化。当我们能够掌握大城市的消费、出行、货运等高频数据变化时,这些城市的统计数字变化也就可以被高频数据提前捕捉到了。其二,在小城市中,经济活动的数字化程度还不是很高,服务业占比也较低,地方政府也更能够在疫情造成人们生活影响的同时,采取各种经济手段“对冲”可能造成的经济数据变化,使得经济数字的下滑没有高频数据显示的那样大,这也使得高频数据对这些城市的经济数据解释力度减少了。▍结语随着“科学精准”防控手段的应用,对比2020年初的疫情,在确诊人数相同的情况下,人们的生活被疫情影响的程度正在慢慢减少。例如娱乐餐饮上,人们受到的影响减少了一半。但是在另一些方面,例如货运、交通上,疫情造成的影响并没有显著减少。同疫情对生活的影响相比,疫情对经济数据的影响减少得更快。同样程度的疫情,2022年时对于GDP增速的影响,仅有2020年时的四分之一。两者之间的差异,来自不同城市的经济结构变化。在大城市,随着服务业占比的提高和生活的数字化,各种高频数据可以解释的经济增长变化,在大城市中,非但没有下降,还在逐渐提高。而在一些小城市,人们正在摸索出一套“对冲”手段,减少疫情对当地经济数据的影响。举个例子,今年上半年经济增速最快的两个城市,分别是甘肃省金昌市(同比增长11.7%)和福建省宁德市(同比增长9.6%)。其中金昌市在今年未有过疫情,宁德市则在今年的3、4、5月累计了235个确诊病例和无症状感染者。对于一个300万人口的小城市来说,200多个病例,绝不是一个小数字,它们增长秘诀在哪里?答案是一样的——新能源电池。在今年上半年,这两个小城市都极快地推进了新能源电池行业的落地和发展,相关产业在这两个城市的增长,都达到了20%以上。金昌市大力实施强工业行动,深入开展“四抓四促”,出台《支持新能源电池产业发展的若干政策》,积极推动设立甘肃镍都产业投资基金,紫金云数据中心被确定为国家绿色数据中心,一批投资体量大、科技含量高、带动能力强的项目高效稳步推进,相继试车投产。升规入统规上工业企业6户,列入省级“专精特新”中小企业6家。化工新材料PVC车间、大板电解镍终端产品车间、龙首矿运输车间获评全省智能工厂和数字化车间。全市规模以上工业增加值增长20.2%,位居全省第一,高于计划11.2个百分点。上半年“2+4”产业链实现产值572亿元,增长37.2%。目前,宁德时代产品已覆盖全球55个国家和地区,动力电池出货量超过了400GWh,全球每三辆电动车中就有一辆配套宁德时代的电池。……数据显示,上半年全市规模以上工业中,高技术产业增加值同比增长42.4%;对全市规模以上工业增加值的增长贡献率达78.5%;占全市规模以上工业增加值比重53.6%,同比提高6.7个百分点。同时,高技术产业投入力度加大,全市高技术产业投资增长18.8%,增幅高于全市投资平均水平14.6个百分点,对全市投资增长的贡献率达116.6%。其中,高技术制造业投资增长18.4%。之前在《鬼城》一文中我们提到,一些看似不适合居民生活的“鬼城”,在合适的产业政策下却能发展起来,最终翻盘。多年之后,类似的政策再次出炉。在无法减少疫情对生活造成影响的情况下,一些城市通过类似的方法对冲疫情对经济数据的影响,使得和居民生活相关的高频数据和实际经济增长数据,来了一个“硬脱钩”。
2022年8月1日
其他

今年报考的热门专业,四年后会变成“天坑”吗?

高考成绩终于公布了。如果说高考成绩是对考生过去十多年苦读的最终总结,接下来的事情则需要考生们站在岔道口,和大部分同学少年挥手作别,选择未来数十年的人生走向。应该去哪一所学校?应该就读什么专业?我们用这篇文章试图给出一些参考依据。▍“天坑”和“热门”专业的转换本文使用的数据是2005年到2021年约400万条分数线数据,囊括了在这17年内全国大部分高校在所有省份、所有科类、所有专业上的分数线和招生情况。我们将所有专业匹配至《普通高等学校本科专业目录(2020年版)》后,计算每个专业在所有学校、所有地区招生时的平均百分位排序,算出每个专业在当年的“热门程度”。例如甲校在A地的理科招收20个专业,其中计算机专业在20个专业分数线中排名第3,则说明计算机专业在甲校、A地、理科的招生中的百分位为15%。将所有学校、所有地区、所有科类中计算机专业的百分位根据各自的招生数量加权平均后,得出的结果就是计算机专业在当年招生中的“热门程度”。从2005年到2021年,各大类专业的热门程度如下图所示,这个数字在0到100之间,表示在各个学校平均能高于百分之多少的其他专业,越接近100越热门,越接近0越冷门。上图列出了招生人数最多的50个专业在过去17年的热度变化。可以看到,许多专业的“热门”程度出现了很大的变化。口腔医学、软件工程、计算机科学与技术、统计学、数学与应用数学等五个专业成为热门程度上升最快的专业。材料科学与工程、建筑学、环境科学、生物工程、高分子材料与工程等五个专业成为热门程度下降最快的专业。这些专业的热门走势并非单调上升或下降,一些专业出现了U型或者倒U型的曲线。倒U型的曲线包括会计学以及金融学,2005年时分别只有50和63,2005年开始上升,在2015年左右达到了热门的顶峰,为75,随后开始下降,2021年回落到59和61。金融和会计等专业只是回到了他们一开始的出发点,另一些专业则出现了“超额滑落”,主要集中在土木、建筑专业中。建筑学在2005年时的热门程度为62,和当年的金融学类似,2014年时达到了77,随后迅速下降,2021年时仅有43,比2005年时还要低19。土木工程从2005年的53上升到2013年的70再下降到2021年的31;工程管理从2005年的43上升至2014年的55再下降到2021年的22。倒U型的右半边终点比起左半边的起点更低了。正U型的专业主要是和IT相关,例如信息与计算科学从2005年的46下降至2012年的28再上升至2021年的57,软件工程从2005年的40下降至2011年的27再上升至2021年的62。最有代表性的莫过于计算机科学与技术,从2005年的47下降至2010年的35后,一路回升至2021年的67。这些专业都经历了额度低谷,但近年来重新回升后,还超过了以往的高点。始终下降的专业包括制药工程(从2006年的50下降至2021年的27)、国际经济与贸易(从2005年的63下降至2021年的43)、材料科学与工程(从2006年的57下降至2021年的18)、高分子材料与工程(从2007年的59下降至2021年的21)等。十多年来基本处于上升范围的专业则包括法学(从2008年的37上升至58)、数学与应用数学(从2008年的42上升至2021年的63)、统计学(从2006年的35上升至2021年的57)、临床医学(从2005年的55上升至2020年的72)。金融和建筑类先热后冷,计算机类先冷后热。专业的热度变化,呈现的不仅是考生们的选择,更体现了中国经济大环境的需求变化。▍“师范”和“理工”的轮回学校的变化同样有趣。我们从数据中选取了从2005到2021年全国范围内各地区招生数据最完整,且17年数据纵向可比的100所高校,根据每一个专业的最低分(而非整所学校所有专业的最低招生分数)计算每一所高校在这100所高校内部的平均招生百分位排序。这种方式可以避免学校规模相差较大时全校最低分不可比的情况。2005年和2021年的前20名高校和其平均招生百分位排序如下表所示:(中国科学院大学于2016年开始进入招生,在招生的省份中一般能够占据第三、第四名。但由于其招生省份较少,数据积累时间较短,为保证数据的纵向可比,未列入榜单内。)从上表可以看到,中国高校招生的拔尖前八名座次在这些年来始终未变。前两名清华北大的排序保持不变,但清华的招生百分位更加拔尖了,原本在这100所高校的学生中平均能招收到前1.24%的学生,现在可以招收到前0.33%的学生。复旦大学和上海交通大学的座次在三四名中交换,但两所学校的招生百分位都有较大上升,复旦大学从之前招收前5.4%的学生上升为招收前3.7%的学生,上海交通大学从招收前6%的学生变为招收前2%的学生。在第五到第八名之间,2005年的排名为中国人民大学、浙江大学、中国科学技术大学、南京大学,2021年变成了中国科学技术大学、中国人民大学、南京大学和浙江大学。与保持不变的前八名相比,第9到第20名可以说是城头变幻大王旗,2005年时在前20榜中的北京外国语大学、对外经济贸易大学、北京航空航天大学、北京邮电大学和天津大学在2021年跌出前20,华中科技大学、东南大学、华东师范大学、电子科技大学和中国政法大学进入前二十名。其中华中科技大学上升迅速,从二十名开外进入全国前十名。(中国科学院大学于2016年开始进入招生,在招生的省份中一般能够占据第三、第四名。但由于其招生省份较少,数据积累时间较短,为保证数据的纵向可比,未列入榜单内。)从全国范围看,最难忽视的上升和下降的趋势,莫过于“师范”的崛起和“理工”的衰落。北京师范大学、华东师范大学、华中师范大学、南京师范大学……所有的师范大学,几乎都有不同程度的上升,平均百分位从34上升到53。而工矿、工程类大学,例如北京矿业大学、北京化工大学、哈尔滨工程大学等,则出现了一定的下降,平均百分位从45下降到38。类似的下降在理工类大学也出现了,北京理工大学、大连理工大学、华东理工大学等的平均百分位从2008年的55下降至目前的47。师范类、科技类大学的上升,以及理工、工矿类大学的下降,同样与中国的宏观经济相关。而最能体现宏观经济变局的高频数据,也最能决定不同大学、不同专业招生情况的数据是什么呢?没错,正是我们下面将使用的招聘数据。▍从2亿条招聘数据看专业工资“溢价”从2015年到2022年,我们收集了3.5亿条招聘数据。招聘广告体现的是企业对劳动力的需求。当一个招聘广告在其职位描述中有明确的专业要求相关关键词时,将其标记为某类专业的“对口招聘”。我们一共提取出了2亿条包含了专业需求信息的招聘广告,并通过下式计算每一个专业的工资“溢价”。对每一年的所有招聘广告做一次以上回归,提取出每一年、每一个专业的的系数大小,这个系数大小就表示在同样时间、同样地点、同样的教育和经验需求下,对某一类专业有需求的岗位会具有多大的“工资溢价”。(感谢加州大学圣迭戈分校(UCSD)杨阳提供的招聘相关数据)上两图表示在2021年到2022年所有招聘职位中对某类专业有明确需求时的工资溢价。可以看到,前十名中最高的是航空航天专业,当一个岗位要求对口航空航天类专业时,这个岗位的工资会比均值高25%以上。口腔医学和数学排名第二、第三,工资溢价也在10%以上。基础医学、物理学、电子信息、计算机科学与技术、金融学、临床医学和经济学分列4-10名。而在倒数十名中,我们可以看到中药学、食品科学与工程、新闻传播学、公共管理等专业,他们的工资“负溢价”都达到了15%以上。工商管理、旅游管理、美术学、心理学、工业工程、护理学等专业的负溢价也在10%以上。(前十名的“正溢价”和后十名的“负溢价”无法抵消,这是由于不同专业对口的招聘职位数量不同导致的。)那么,这些专业的“工资溢价”和他们在招生时的“热门程度”之间存在什么关系呢?以2021年的工资溢价和热门程度为例,我们可以画出下图——上图的横坐标为2020年的分专业工资溢价,而纵坐标为2021年的招生百分位。可以看到,两者之间存在高度的相关关系——工资溢价越高的对口专业,在随后的招生中分数线百分位也会越高。▍“工资溢价”和“专业热门”的时间错位——随大流,还是搏一把?上图呈现出的趋势是,某专业对口工资越高,人们对某专业越趋之若鹜,这很好理解。但反过来,报考了热门专业,是否能保证在毕业时仍然有很大的需求市场,很高的对口工资呢?正面的例子当然有很多,但也不乏反例。如2011-2013年之间选择了热门专业建筑、土木的学生,在2015年之后陆续毕业了,却面对的是一个逐渐冷却的劳动力需求市场。专业选择时间和实际就业时间之间长达4年以上的间隔时间,存在较高风险。到底是顺周期随大流,还是逆周期搏一把,是让每一个考生踟蹰不定的心结,也是填志愿、选专业时的千古之谜。为了解开这个心结,我们做了一组研究,看每一年的劳动力市场招聘情况和之前每年的专业热度之间存在什么关系——热门专业是因为就业火热,但这个热度能维持多久?和毕业之后就业有多大关系?具体来说,我们使用从2005年到2021年的历年分数线数据和从2015年到2021年的历年招聘数据,用T1年的专业热度去回归T2年的工资溢价,其中T1和T2之间的间隔为T。对于每一个T,计算两者之间的相关性和回归系数的平均值。例如当T等于5时,包括七次回归,其中每一个工资溢价和专业热度的年份均相差5年:将以上七次回归的系数和相关系数求平均,就得到了当T=5时专业热度和工资溢价之间的关系。从T=-6到T=15时,平均相关性和平均回归系数的变化如下两图所示:这两张图显示,专业热度和工资溢价之间相关性最高的时候,T等于2,此时考生已经进入大学就读大二。随后这个相关性便开始下降。到了T等于8时,即从大学毕业四年后,专业热度和工资溢价之间的关系达到了最低点。此时,可能是大家感觉到“逆周期”最明显的一段日子。明明把自己的考分用足了,才来到这所学校、这个专业。但毕业几年,却感觉到当初的高考结果与目前在职场上的回报越差越远了。我是不是选错了?当初要是逆周期赌一把,现在会不会过得更好一些?这么多优秀的人都选择了这个专业,但毕业好几年了,市场并没有继续扩大,所以获得成功的人凭什么是我呢?不少人会在这段低谷时期产生类似的自我怀疑。但是,不要着急,继续看上图。在上图的右半边,从T=8之后,一直到T=15,高考专业分数线,又开始重新对当前的劳动力市场有着越来越高的解释作用了——尽管此时的劳动力市场状况距离高考的时间越来越远,已经超过十年,但两者之间的相关性竟然在提高。常常有人说,从学校毕业,进入职场,很多东西都会归零,大家会重新回到同一条起跑线上。但是上文的研究却发现了相反的结果——时间距离高考越来越远,高考出分后那个星期所做的选择,对你人生的影响却越来越大。非常匪夷所思对吧?但这也在情理之中。上个世90年代时,美国也出现了类似的现象,数量提高更快的高技能群体,却比数量增长缓慢的低技能群体有更快的工资上涨。人们用SBTC效应(Skill-biased
2022年6月23日
被用户删除
其他

【小程序】疫情后,怎样更快找到宜居的家?

最近,网上出了一份《后疫情居住观白皮书和大调研》里面有些数据很有趣,在经历了多轮核酸,抢菜,团购之后,长时间的居家生活悄悄的改变了很多人的买房观:*图片来源:凤凰网比如,疫情过后,买房最先考虑的四大因素之中,物业管理水平、小区规模适中、邻里间素质均衡,这三个的重要性有了明显的上升。其中,邻里素质,第一次上升到非常高的高度。如今的上海和二三十年前已经不大相同,高品质小区的不断出现,提高了大部分人的居住舒适度,但同样的,也大大降低了邻里之间的相处和沟通,我们称之为“独门独户”现象。而这次长久的隔离,让我们与邻居接触的次数和频率有了大幅的提升,*图片来源:凤凰网邻里素质还有一种全新的诠释,为了配合街道降低感染风险“只团购生活必需品”时,和谐的邻里关系变得十分重要,没有高度协调的统一,很容易让来之不易的团购变得前功尽弃。1以前,脉策手握楼市的新房、二手房的网签、挂牌和成交数据。很多时候,楼市的各种数据都是可以用来指导买房的,因为这都是市场用真金白银投票得来既主观又客观的真实需求。但是,后疫情时代,大家买房时,选择一个宜居板块的需求愈发强烈。譬如生活方面,曾经都是以交通为优先,大家都有基本统一的观点,轨交第一性,商业稍微远一些,甚至3KM左右都是可以接受的。如今,经过居家隔离,慢慢感受到房子旁边的商业跟医疗配套也很重要。上了岁数的老人,会有一些基础疾病,这个时候家附近有一所三甲医院,哪怕二甲,就能很好的够弥补老人步行就医的需求。大型商超就更显重要了,不是所有区都叫徐汇,能够隔三差五的分发物资,很多区跟街道都是需要居民靠自己的力量囤食品,如果家附近有类似盒马、山姆、大润发、世纪联华的超市,或者叮咚配送点,买到生活物资的可能性都会高一些。实际上,了解生活需求的重要性以后,通过大数据进行统计和细分,用一些小工具,是可以快速帮大家找到匹配的宜居板块的。于是,在今年的5月,我们做了这样一款产品,名字叫做策测只要一分钟,填写几个买房偏好,就会得到3个符合你需求、匹配度最高的板块推荐。我们以一个测试案例举例:这位用户的居住地在(徐汇区),工作地点在(杨浦区),购房总价预算(800万),生活需求(近地铁、商圈)(点击查看大图)上图中可以看到,适合这位用户的板块(五角场)已经在地图上进行了标亮。2策测里有两个选项,对于大家选到合适的板块,包括之后找到正确的小区,非常的重要就是,预算面积
2022年6月8日
其他

城市的烟火气回归,还差?%

在北京和上海,疫情的影响正在慢慢结束。5月28日,北京宣布本轮疫情已得到有效控制。6月1日,上海市居民解封,全面复工。6月2日,北京市高三学生返校。6月6日,北京市开始堂食,同一天,上海市初三、高二与高三学生返校。各大媒体不约而同地使用“烟火气回来了”作为文章标题,描述人们重新回到正常生活的欣喜场景:甚至在今年的高考天津卷的作文中,也出现了“烟火气”:
2022年6月8日
被微信屏蔽
其他

2亿人口在4月静止

“全域静止\静态\静默管理”,这个本轮疫情才刚刚发明的新词,过去一段时间却在媒体、通知和人们的聊天中出现了无数次。(图片:百度搜索指数-“静态管理”)全域静止到底是什么?我们整理了这一个月以来多个城市的各项通知,它大概包括两个方面:第一,经营性密闭场所暂停营业,影院关闭,餐饮堂食停止,严控聚集。第二,停止公共交通,居家办公,非必要不出户,甚至足不出户。
2022年5月11日
其他

模拟了12.4亿条感染路径,我们试图找到上海的“0号病例”

2022年2月24日,上海本轮疫情的第一个本土无症状感染者出现了。该病例为“近日外省确诊病例的密切接触者“,2月21日抵沪,当日即被落实隔离管控,并在隔离闭环管理期间例行新冠病毒核酸筛查中发现异常。
2022年4月22日
其他

多强的封控政策,才能防住奥密克戎?

2022虎年春节过后,中国开始应对奥密克戎变异的挑战。从1月的安阳、天津津南疫情,到2月的深圳、东莞、防城港、呼和浩特疫情,再到3月的上海、吉林、山东以及全国各地渐渐展开的疫情,我们不难发现,奥密克戎变异导致的疫情,与之前的疫情有着很大不同。以前行之有效的防控方式,似乎失效了。
2022年4月3日
其他

用真实的人才迁移矩阵告诉你,哪座城市对人才最具吸引力?

这个现象其实说明,城市对于人口而言,也许并不存在一个绝对意义上的最优解。就是在这样A好于B、B好于C但C又好于A的鄙视链循环中,城市间的人口流动才会源源不断,如流水一般,活跃了每一个城市。
2022年3月18日
其他

哪些城市从疫情中复活更快?我们做了排序

自从2020年4月武汉病例“清零”以来,中国还出现过几十次大大小小的散发疫情,其中一些规模不小,例如2020年7月的乌鲁木齐、2021年1月的石家庄、2021年12月的西安等。在奥密克戎变种影响下,春节前后的北京、天津和杭州也出现了一些散发疫情。刚刚爆发的广西百色疫情,已有187例确诊。
2022年2月10日
其他

大数据告诉你:中产家庭买房,怎么选潜力板块

同样是内中环区域,邻里稳定指数拖了它的后腿。这是因为在杨思的中间段,有目前上海浦东年成交量靠前的思浦小区,主打小户型的老破小,并且杨思多年未有新房供应,一来一去,拉低杨思的邻里指数。
2022年1月25日
其他

历史新低!出生人口去哪了?

2011年,国家统计局在统计公报中公布的人口出生数字为1604万人。2021年,中国出生数字骤降至1062万人。十年,出生人口下降了三分之一。但这并不能代表中国人口出生下滑的真实数字。每年统计局公布的出生人口数字会在十年一度的普查结束后进行调整。在七普结束后,2010年到2015年生育率,从平缓的曲线被上调成了一条先上升再下降的曲线。在这些调整中,数2012年上调幅度最大,出生率从当年统计公报的千分之12.1调整为千分之14.57。按照这个数字,2012年的出生人口实际上远高于当年统计公报公布的1635万人,达到了1973万人。这个调整也和近些年来的小学招生数相吻合——根据教育统计公报,2019年小学招生达到了1869万人,远远超过7年之前出生的人口数。(图片来源:2019年教育统计公报)这个调整也同时说明,近年来的人口下降并不是从2016年的1786万开始的,而是从2012年的近两千万出生人口开始的——中国的出生人口数量下降45%,只花了9年时间。是什么因素导致了中国的出生人口下降得如此之快?
2022年1月18日
其他

“鬼城”不鬼

在过去二十年来,房地产行业在带动经济,拉动固定资产投资以及提供地方政府收入上,一直起到了中坚作用。但在2021年,华夏幸福与恒大相继暴雷,去年拿地数量排名前十的头部房地产企业,今年同期拿地数量大幅下降40%,中国的房地产行业,似乎出现了新一轮的洗牌。中国的房地产未来未走向何方?为了解决这个问题,让我们首先回到7年以前。这段时间,房地产行业有一个关键词,叫做“鬼城”。(“鬼城”搜索指数)一些城市大量新建住宅,却少有人居住,因此夜晚漆黑一片,故得名鬼城。一些当年榜上有名的鬼城,常常出现房价腰斩、人口外流等新闻。标准排名与《投资时报》曾在2014年和2015年连续两年发布《中国大陆城市「鬼城」指数排行榜》。(注:感兴趣的读者可自行搜索,在此不全文转载了)按照排行榜给出的定义,国家住建部的占用地标准为每一平方公里建成区容纳1万人口,一个城市的建成区面积为100平方公里,按照占用地标准,这个城市容纳的城区人口应该为100万人,如果目前该城区仅有50万人,而该城市对外来人口的吸引力并不强的话,短时间内难以达到100万人的容纳量,就很可能沦为“鬼城”、“空城”。如今7年过去。当年的“鬼城”,如今发展得如何?先看经济。把2014、2015年的鬼城名单提取出来,计算他们在2015年到2020年间的房价增速,达到5.33%,快于鬼城以外城市的5.13%。如果计算同期年均GDP增长率,则鬼城的GDP增长率达到7.99%,快于其他城市7.09%的年度增长。令人感到有些意外的是,鬼城的经济没有崩溃,房价,也同样没有崩溃。不仅如此,发展得还全国平均水平更好。从人口看更是如此。当初被断定为鬼城,起因是这些地区的住宅建成面积远多于人口需求量。但使用2015年人口小普查和第七次人口普查计算可以发现,在过去5年,鬼城每年的人口增速达到了11.41%,而同期其他人口增速只有3.45%。《投资时报》的鬼城包括了大量县级城市,不一定具有代表性,我们现在去搜索“十大鬼城”,可以看到这样一份榜单——他们基本都在《投资时报》的鬼城名单当中,且更具有代表性。这些当年名声在外的“十大鬼城”,今天发展得如何?从图中可以看到,除了天津以外,其他城市在第六次人口普查和第七次人口普查之间的人口增量更是远超平均。一言以蔽之,鬼城并不“鬼”,而是活跃之城、发展之城。因缺少人口而被扣上鬼城帽子的他们,近些年反而呈现出对人口更大的吸引力。为什么会有这种现象?在房地产问题上,有一句话,叫做“短期看金融,中期看土地,长期看人口”。人口是其中提供原动力的一个齿轮,随着人口齿轮的转动,地方政府决定相应的土地政策,并使用金融工具熨平短期金融波动。这个逻辑,将人口当做一个长期而外生的变量,之前的各类鬼城计算,也使用这样的逻辑,假设人口短期内不出现突变,那么这个地区的建成区面积的确远高于当地人口的需求了。但是,人口真的是一个不能改变的变量吗?对于出生率带来的人口自然增长来说,确实难以改变。但人口的迁移则远快于此。一个简单的例子是北京和上海,凭借北京和上海的出生率,根本无法撑起如此高速的经济增长,但在这两个城市的22-24岁人口中,有40%到50%的人口五年前是住在其他地区的。北京、上海可以做到的,其他城市,也一样可以做到。如何做到?我们可以在之前的人口齿轮之后,继续加上其他齿轮,包括收入、经济、政策、土地等。已经有无数文献证明,人口迁移的最大推力和拉力来自收入差距,人口从低收入地区向高收入地区流动。而收入增长的背后,来自经济增长,经济增长,在一定程度上来自产业政策和土地政策。我们使用“鬼城”的土地出让、招聘平均工资、以及历年流动人口动态监测数据进行计算,可以发现之前的鬼城到目前的新兴之城,大抵出现了如下发展模式:扩张的土地出让,吸引企业流入,并随着产业集聚扩大生产效率,带来亩均产出增加和工业用地价格逐渐上升。进而推动当地的工资上升,并随后带来人口的流入。简单来说,当“鬼城”的工业用地价格超过其他城市后的3到5个季度,当地工资会超过其他城市。在工资超过其他城市4到5个季度之后,当地的新加入流动人口比例会超过其他城市。在几年的发展后,鬼城反而成为人口的吸铁石。近些年来,我们常常能看到城市之间“抢人”的举措。降低落户门槛者有之,给予租房、购房补贴者有之,为人才提供优惠的公共服务者有之。但为何最后,却是鬼城胜出?道理很简单,吸引人口,不能仅在人口本身上下功夫。租房补贴等终究是短期刺激,归根到底,需要吸引企业。吸引企业,就需要有更低的边际成本。而更低的边际成本,不只是给予政策优惠和让企业办手续更快一点那么简单,他需要一整条产业链的布局,以及不断学习和扩大生产带来的边际成本降低。那么为什么一条产业链会来这样一座城市布局呢?我们不难看到,这些齿轮的背后,最终要的一项原动力,就是有所作为的政府,有所作为的土地和产业政策。不是等待,不是躺平,不是背靠资源禀赋和比较优势。而是主动出击,为城市的发展创出一条新路。当年鬼城列表中发展得最好的一些地区,例如郑州市郑东新区、贵阳市观山湖区,合肥市滨江区,均遵循了这样一条发展路径。过去的十年,是城市布局重新洗牌的十年,一些毫无作为的城市,人口下降;被列为鬼城的城市,蓬勃增长。这个故事告诉我们,房地产的增长,人口的自然增长并不是关键。中国很大,在这样大的范围内讨论一个宏观的房地产好坏,没有多少意义。房地产,归根到底呈现的是一个城市的边际土地产出,是一个城市产业发展的结果。如果说一个城市的产业就像是一个企业的主要产品,那么这个城市的房地产,就相当于这个城市的股价。只有产品卖得好,股价才能上涨,反之则必然下跌。不久前,中共中央政治局召开会议,强调要促进房地产业健康发展和良性循环。如何让房地产良性循环起来?几周前,鹤岗市成为我国第一个进行财政重整的地级市:未来两年内,中国的人口增速将迅速跌至零,进入总人口下降区间,城市间的人口竞争,将不再是零和游戏,而是负和游戏。逆水行舟,不进则退。到2030年第八次人口普查时,哪些城市终将获胜,成为人口的磁石?哪些城市会真正地成为鬼城?这场比赛,现在刚刚开始。
2022年1月8日
被用户删除
其他

大数据告诉你:上海买房如何选对板块

如今的上海楼市,买对房似乎是一件极其困难的事。即使是相关行业从业者,以为什么都懂,但真正碰到自己买房,决策时依然会有疑问。甚至对于改善买房家庭,即使已不是第一次买房,疑问也并不比刚需首套房的家庭少。还会有比预算更愁人的事情?有。买房其实分为三部曲:确定区域+板块+小区。区域板块本身又是一体的,因此买房最重要的就是两个步骤:选定板块、优选小区。而大多数购房者的疑问和困惑,就发生在第一步选定板块时。选定板块的困难,在于有效信息的获取和合理的比较。相对于个人的日常活动范围来说,城市太大了。且不说10公里外的社区,即便是3公里之外,可能就已经并不清楚当地的环境和配套设施情况,购房者往往力不从心,信息收集的成本太高,就容易被碎片化的信息误导,决策就会产生偏差。需要强调的是,楼市始终是个政策市场,不同阶段买房不仅要因地制宜,还要因时制宜。房地产税改革试点即将来临,买房同样要未雨绸缪。买房的侧重点在现阶段来看,更应该以居住为核心。为了解决这类困难,2021年的21世纪房地产博鳌论坛上,脉策科技与精瑞人居发展基金会、全联房地产商会、清华大学建筑设计研究院、新华社中国经济信息社以及21世纪经济报道共同启动实施社区价值评测,汇集多维大数据分析和专家观点,关注城市社区最根本的居住和生活属性。脉策结合数据优势,做了上海171个全社区评测工作。以板块类别划分,四大维度衡量评估综合得分,依据各指标体系与专家权重打分,得出每个板块的细项分与综合分,包括排名都一目了然。▍脉策测评·数字化社区板块评价排行榜-高价位段这次脉策首先发布的是“数字化社区板块评价排行榜-高价位居住型”:仅有一个榜单并不能代表什么,高价段居住型板块覆盖面也很广,同样也会面临选择上的困难。如何利用这样的一个榜单去锚定购房区域呢?根据脉策数据的真实打分,是可以在不同的指数下看出板块各自的优点和劣势,从而帮大家更为精确的选择适合自己的买房板块。下面用几个例子,来说明如何解读测评结果。1.
2021年12月1日
其他

房地产税试点,用数据说话

以上海数据测算,房地产税普征对家庭收入影响较大,税收规模和税收负担对细则设计十分敏感,税收细则需要审慎讨论。本文篇幅较长,感谢读者们的耐心。预计阅读时间15分钟
2021年11月15日
其他

我们缺保障性租赁住房,内环里的那种

七月初,国务院印发了《关于加快发展保障性租赁住房的意见》,住建部在此之后也多次召开新闻发布会,重点强调了保障性租赁住房的建设。上海市在十四五规划纲要中也提出,加大住房供应力度,优化住房供应结构,到2025年形成租赁住房供应40万套。那么我们缺保障性租赁住房吗?缺。很长一段时间内,保障性租赁住房的供给量并不大。2010-2019年间,上海所有公开出让的土地中,仅有9.74%的面积是住宅用地。而在这些新增供应的住宅用地中,约有73.78%面积建设了普通商品房,涉及到保障性租赁住房的土地面积仅占总量的1.72%。而为数不多的保障性租赁住房,还存在部分小区位置偏远、生活配套不便利的问题。注:我们仅筛选了项目名称和用地性质中明确表示为保障性租赁住房的地块,实际在普通商品房供地中也有配建租赁房,此部分未包含在内。即使按照20%的配建比例,保障性租赁住房规模也不会超过宅地的20%。扩大保障性租赁住房供给是大势所趋,为了更有效地改善广大青年人和新市民的居住条件,我们必须先搞明白,哪里最缺保障性租赁住房?怎样找到缺保障性租赁住房的区域?1.
2021年9月10日
其他

“集中供地”新政发挥作用了吗?

2021年的房地产领域,如果要选几大关键词的话,“集中供地”必然会入选。所谓“集中供地”,就是地方政府在进行土地招拍挂时,将一年要出让的土地,分三个批次,集中投放。这个政策从今年开始分城实施,截至2021年6月30日,武汉也完成了首批集中供地。至此,参与试点的22城全部完成了首批集中供地,其中厦门、长春、合肥甚至还完成了第二轮集中供地。现在,可以初步回顾一下"集中供地"的政策效果了。政策的讨论往往有多个视角。关于“集中供地”,往往被理解为一项对房地产企业的"高杠杆"和"快周转"两项传统艺能进行深度挤压的政策。但其实却忽略了对土地市场中卖方——地方政府的深刻影响。而本篇就试着从地方政府的视角来进行分析集中供地的政策的成果。▍“集中供地”的背后,是地方政府的“双目标体系”在分税制之后,土地财政一直是支持地方政府发展的重要资金来源。因此,在过去相当长一段时间内,地方政府在土地市场交易中唯一的明确目标只有一个。那就是:目标一:确保收入预算(变现)的完成尤其是从2020年疫情以来,地方政府财政状况面临更大的压力,一方面是经济运行受到疫情影响,财政收入情况欠佳,另一方面是疫情期间各类民生和防疫支出增加。地方政府的财力并不是无限的,和企业一样,遵循着经济逻辑,也有自己的预算目标和财务压力。根据财政部《关于2020年中央和地方预算执行情况与2021年中央和地方预算草案的报告》,2020年全国一般公共预算收入较2019年下降3.9%,一般预算支出上升2.8%。同期,政府性基金收入达成了预算的114.8%,较2019年增加10.6%,主要是地方国有土地使用权出让金收入增加较多。可见,在疫情期间,土地出让金对地方政府完成其预算收入有了比以往更加重要的意义。但除了利用土地完成收入逻辑之外,地方政府还存在政治和民生方面的逻辑。高房价成为影响民生的重要问题之后,控房价就成了重要的政策目标。近几年,在中央三令五申地强调长期"稳房价"的政治要求下,地方政府也必须对"高房价"的直接原因之一"高地价"做出有力的举措,以落实中央的方针与要求。因此,地方政府在土地市场的交易中就不得不增加了一个新的目标:目标二:对高房价和高地价进行平抑很明显。这两个目标之间是存在一定矛盾的。如果仅仅只是从目标一出发,那么地方政府限制土地供应量,提高地价就可以了,但这自然就和目标二产生了矛盾;但如果要优先考虑目标二平抑地价,那么地方政府就不能以高溢价地来出售土地了。且不论这是否会影响地方政府的收入预算,在一个不可控的拍卖型市场,地方政府有这么强的掌控力吗?在这样一种“双目标体系”下,地方政府面临了一个难解的题目。毕竟,我们是没有办法深入到22个地方政府的内部会议去探究他们在这个困境中的解题思路的,但这并不妨碍我们从数据角度出发,在具体表现上来看一下各地方政府在“集中供地”这门高难度考试中交出的成绩。那么,我们就先从地方政府的第一个目标开始分析吧:▍22城地方政府的年度土地收入预算是怎样的呢?这里所指的“预算”分为两个方面:1是计划的土地供应量,2是预算中的土地出让收入。我们先来看供应量的问题。首先,每个城市每年准备出让多少宅地,是存在供应计划的。在每年年初,各地自然资源和规划部门都会发布本地当年度的国有建设用地供应计划,包括各区域不同用途用地的供应面积。其中涉及到住宅用地的部分,还会明确区分商品房、拆迁安置、市场化租赁、公租房廉租房等形式的分配比例。那么今年22城的供应计划相对于去年是什么样的情况呢?请看下图:注:由于郑州没有公开2020年供地中商品房土地的数量,因而没有出现在图中。结果很明显:1,22城出现了分化,如果对比2021年和2020年的土地供应计划,会发现仅从宅地供应情况来看,22城可以说增减各半。2,值得注意的是,上图显示的是一个城市的全部涉宅用地计划供应量,但其实真正对市场价格产生重要影响的是其中的“商品房”部分。如果单看商品房用地的面积变化情况,22城也基本同样分为了增减各半的两个类别。3,为了方便读者理解,我们在图中还画了一条45度线,位于此线上方的城市,商品房供应在宅地中的份额上升;此线下方的城市,商品房供应份额则为下降。可以发现,除长沙、无锡、苏州、成都、杭州、福州、上海、长春等8城,其余13个城市都在45度参考线下方。这意味着2021年土地供应向着保障住房、租赁住房等类型倾斜,商品房相对份额下降,这与中央加大租赁房供给的号召是相一致的。简单来说,2021年,参与“集中供地”的大部分城市,都降低了“商品房”的土地供给份额。但是,供应份额的下降并不代表其收入预期的下降,毕竟不同地块的“地价”截然不同。那么,具体每个城市的土地收入预期是怎样的呢?也随着供应量下降了吗?由于土地市场是个拍卖市场,我们很难在拍卖发生前就预期每块地的成交价格,因此,我们可以从另一个角度来预测地方政府的卖地收入预期。每年地方政府的收支情况,都会在当年年初公布一份预算计划,在并在下一年进行预算执行情况的盘点和决算。政府财政分为四本帐,一般公共预算、政府性基金、社保基金和国有资本运营,每本帐又包括收入和支出两部分。其中最为重要的就是一般公共预算和政府性基金,而国有建设用地使用权出让收入又是政府性基金收入的主体。在实际中,大部分地方政府一贯对工业和基础设施用地采取划拨或低价协议出让的形式,每年土地出让金中绝大部分由宅地贡献。因此我们可以直接用国有建设用地出让收入预算值,来代表地方政府对卖地收入的预期。请看下图:(注:合肥、南京、厦门、长沙由于土地出让收入数据可得性问题,使用了政府性基金收入的变动幅度作为替代)如上图所示,我们可以得到一个初步结论,过半数的城市都在2021年下调了土地出让预算收入水平。但地方政府下调土地出让收入预算,是否就意味着地价会下降呢?并不尽然。如果我们把预算收入变动幅度,与计划供地的变动幅度对比起来看,如图中45度斜向参考线所示,就可以把城市分为两类:在右下方区域的城市,宅地供应变化强于预算变化,只为达成预算的话,平均地价可有所下降;而左上方的城市,宅地供应变化不及预算变化,为达成预算,存在涨价倾向。且离参考线越远,越是存在涨价压力。有了上面这两组数据数据的对比,我们可以更清楚地看到不同政府所处的不同境地。比如天津、武汉、无锡,它们就需要在更少的供应量下获得更高收入(换句话说,需要更高的地价支撑)。当然,有些城市是需要量价双降,也有些是量价双升。于是,在供应量和总收入的复杂目标要求下,不同的地方政府就开始了完全不同的操作。我们不妨直接先来看结果吧:▍22城“集中供地”的年中进展成绩单根据上文的分析,地方政府的土地预算分为计划土地供应量和预算土地出让收入两个方面。那么,我们可以把供应量和收入分为两个目标,分别用以下公式来计算:从土地面积来说,已经完成供应计划的百分比,即:售地进度=已成交土地面积/供应计划从收入角度来说,预算计划达成情况,即:预算进度=成交总金额/当年土地出让预算收入。如果我们把地方政府也看作一个企业的话,两个进度之间的比值,预算进度/售地进度,反映了销售回款情况,也就体现了预算实现的顺利程度。当这个比值大于1时,说明预算实现顺利,小于1表明预算实现不及预期:当然这样的计算方法也有不严谨之处。即使在同一个城市,内部空间区位不同,土地价格会有较大的差距。因此,相对于面积,用“货值”这个概念评价售地的进度更为合理。我们基于每个城市近一年成交土地情况构建测算价格,来对货值进行估计。具体计算公式为:货值进度=成交金额/(由测算价格*供应计划估测的总货值)经过价格调整以后,按照货值计算的预算相对进度情况如下图所示:(注:为了简化,我们只将供应计划分解到区,并采用区内平均成交价格来作为测算价格。如果采用更细颗粒度的数据,货值估测将更加精确。)看起来,对于大部分集中供地的城市来说,预算完成都很顺利。考虑到政府收入预算编制时,一般都更趋于保守(就低不就高),目前的情况也在预期之内。在此基础上,我们可以根据上面这两张成绩单,初步得到以下结论:1,最“出挑”的进展成绩出现在深圳,北京,合肥,长沙,厦门这五个城市。以深圳为例,只出清了3%的年度土地货值,就完成了14%的年度卖地收入预算,接近5倍效率,可谓是“土地财政效率之神”。而北京则是另外一种“优秀”,只卖了不到2成的地,就完成了全年6成的收入预算。但是换个角度,类似这些成绩“出挑”城市的地价快速增长水平,或许会在这些城市接下来的房价平抑工作上埋下不少隐患。2,冰火两重天的反面出现在福州,苏州,青岛,天津这四座城市。上半年的土地出让进度均滞后于卖地收入进度。以福州为例,整个上半年,货值储备也只出清了约20%(已经很慢了),但收入回款更慢,只有11%,约为出让进度的一半。可以想象下半年其土地出让工作,无论量还是价,都存在较大压力。3,对土拍市场控制最精准的城市是无锡和上海。这两座城市的土地出让进度和卖地收入进度几乎是完全同步,均保持在30%左右。不仅如此,甚至连其货值出清的进度也保持了高度一致。这也意味着,每次土拍的价格组合应该都是经过了地方政府的精心挑选,以避免了高价土地或低价土地的集中出让。值得注意的是,“集中供地”的具体措施是因城施策的。因此,以上这两个成绩单背后,其实是不同城市采取了完全不同的考试技巧得到的结果。我们不妨来一一分析下。▍不同地方政府的售地策略与成效先简单回顾一下“集中供地”中各城土地出让的基本规则:除了重庆、武汉两地未提出明确的限价措施外,其他20城都存在对地价上限的限制,在达到上限后,采取竞配建/竞自持/摇号/一次性报价等规则,决定地块最终的竞得人。在这种规则,地方政府为完成自己的多元目标(供应量与收入预算),可以简单分为两大种类:策略一:提高起拍价。通过提高起拍价,在上限溢价率的约束范围内最大化收益,也就是提高“卖地收入/货值比”。但这种策略存在的风险是,如果起拍价误判了市场形势,那么过高的起拍价会导致土地流拍,从而影响自己的出让进度。策略二:降低起拍价。对于限价不那么严格的城市来说,降低起拍价,吸引房企,保证土地招拍挂的成功率,期待高溢价来弥补低起拍价。但这一策略的风险也很明显,那就是很可能根据市场情况,溢价率就是上不去。那么实际情况中,这些策略的效果又如何呢?我们可以用起拍价指数来进行效果评估:起拍价指数=(已成交土地起拍价格*供地计划)/
2021年8月23日
其他

“五大新城”来了,你更看好哪一座?

上海“十四五”提出了“五大新城”规划,计划把五个新城发展成相对独立的百万人口级的城市。因此,最近有不少读者留言询问,如果这几年准备买房,要不要考虑去新城买?我们初步了解了一下,关于这个问题,大家普遍会有以下困惑:同样的预算,在五大新城和中心城区买房,真的是“远大新”VS“老破小”吗?五大新城目前的各种配套是不是齐全?哪个新城配套更好?“远大新”有多远?通勤时间会很长吗?五大新城的未来会怎样?规划目标能实现吗?下面我们就围绕这些问题,用数据逐一进行描述和分析。(由于新城规划版本较多,我们选取的新城范围如下图所示,与实际规划范围可能会略有差异,最终以政府规划为准)▍“大新”VS“老破小”?都听说新城房子大,而且新房多/房龄短,而中心城区买房只能“老破小”。那么事实上是这样吗?为了看清楚这个问题,我们获取了过去四年五大新城区域的新房/二手房成交数据,进行了一些统计。同时,我们也加入了市中心区域的数据作为参照,这里的市中心区域,指的是人民广场周围10公里(大约是中环内)的范围。五大新城新房多吗?我们分别统计了五大新城和市中心过去四年成交的普通住宅(建筑面积140平米以下)新房/二手房成交结构:显而易见,市中心由于土地已经经过了充分开发,近年来的新房供应和成交已经较为稀缺,而五大新城由于存在较为充足的土地供应,除了松江新城之外,其他新城区域新房成交占比都在一半以上,尤其是南汇新城,新房成交占到总成交量近三分之二。考虑到规划文件中提到,未来在五大新城区域还要进一步增加土地和住房供给,那么,未来新城的成交主流应该还是新房,而市中心区域则会继续以存量二手房为主。所以,针对购房决策问题,我们考虑的不仅是区域问题,而是更加复杂的
2021年5月8日
其他

用这个方法帮你找到真“鬼城”

在上一篇推文《那些年,图上画的城市都建起来了吗?》中,我们结合了用地规划图与多种来源的数据,在Datlas地图上观察了2005-2020年这一轮城市土地使用规划的落地情况。本篇则将会从“鬼城”这个概念出发,用数据量化地比较下新城和老城在吸引人口和企业入驻方面的表现。为了便于与上一篇的结果相互参照,本篇还是选取了郑州和长沙这两个幸运的城市,继续深入分析。▍怎么定义“鬼城”?“鬼城”这个词在过去十几年的各类新闻报道和学术研究中,经常被提到,具体指的是:新城盲目扩张,但在经济上并没有形成相应的人口、企业流入,使得新城与老城区比起来,无论是人口密度或是经济密度都较低。而鬼城现象则意味着,新城开发存在土地资源的低效率使用问题——当土地带来的经济效应比不上前期的投入时,就会转化成地方城投融资平台和政府的债务压力。所以“鬼城”形成的关键词是:低密度。那么,问题来了:郑州和长沙的新城人口密度低吗?有没有什么标准能用来判定鬼城呢?根据网络上广为流传的某“权威机构”发布的“鬼城”指数/紧凑指数排行榜,算法很简单:紧凑指数=城市平均人口密度=城市常住人口/建成区面积这一公式的核心指标是:《国家新型城镇化规划(2014-2020年)》中“人均城市建设用地小于等于100平米”的标准,换算一下,这个标准其实就等于每平方公里1万人以上。因此,该榜单认为指数小于0.5就可以算是“鬼城”,也就是每平方公里5000人以下的区域就是“鬼城”。那么,我们不妨套用这种简单的计算方法,来算一下郑州和长沙吧。(注1)结果,请看下图:结果很清楚,长沙人口密度较低,从达标率来看,似乎也没郑州高,因此全城总体来看,
2021年4月15日
其他

那些年,图上画的城市都建起来了吗?

▍引言随着时间进入2021年,“十四五”建设规划蓝图徐徐展开,中国翻开了发展新篇章。与此同时,作为传统城市总体规划的“升级版”,各城市着眼于2035年的国土空间规划也在如火如荼的展开着。除了北京和上海的规划已经公布之外,其他大城市的规划编制也在积极推进中,相信会在1-2年内陆续公布。城市总体规划有多重要呢?简单来说,这项规划对城市的长期发展起指导作用,而其中最重要的部分就是用地规划,这项内容不仅仅确定了一个城市的土地开发范围,同时也指导了每一个地块的使用性质(住宅、商业、交通、绿地等等)。因此,这个规划会影响整个城市土地开发的空间布局,进而影响到人口和企业的分布,影响到房价,影响到交通,关系到每一个市民的工作与生活。但是,对于普通市民来说,规划是什么样,往往并没有特别直观的概念,至于规划之后实施的怎么样,更是一头雾水。因此,在这个总体规划向国土空间规划升级转型的节点,城市数据团希望用数据帮大家来看一看,国内这些城市传统的总体规划,到底实现的怎么样。被我们选中的第一个幸运的城市是郑州。▍总体规划图一个城市的总体规划图到底长什么样呢?我们从郑州市规划部门公开的文件中可以找到,请看下图:注:实际上,郑州的规划经过了多轮修订,甚至直到2017年仍在修订,网络公开来源的规划图版本繁杂,本文仅选取其中一个较为清晰的版本,希望能反映早期的规划意图。这张图是总体规划中的土地使用规划,详细绘制了发展期内城市土地开发的范围,并对每一个地块的用途和使用性质做出了一个大致的限定。很明显,这是一张jpg格式的图纸,我们是没有办法对其分析的。在规划部门没有向公众开放矢量文件的情况下,为了能够和其他数据进行对照分析,我们不得不自己动手,在我司的Datlas系统中对这张用地规划图进行了矢量数据化,并按照地理位置在地图上进行了校准。总之,经过一番操作,这张jpg图纸就会变成下面这样:每一块土地规划,都相对精确地落在了空间上,而有了这张基础数据底板,我们就可以开始工作了。那么,先回答第一个问题:这座城市所规划的土地,是不是都被开发了呢?▍土地开发情况与规划关于土地开发的情况,我们使用了中国科学院资源环境科学与数据中心公开的卫星遥感土地监测数据。这套数据大概长这样:图中橙色代表耕地,深绿色为林地、浅绿色为草地、蓝色为水系,红色为城镇用地,而亮黄色为农村用地。其中,蓝色圈出的部分就是郑州所在的区域了。虽然来自于国家专业机构,但为了尽可能提高精确度,与现实情况匹配,我们又做了大量的人工辨认和识别,对每个1公里×1公里的栅格都重新确认了其土地开发用途类型。然后在Datlas中对其进行了矢量化,将郑州区域中用地性质为“城乡、工矿、居民用地”的部分也画到地图上,请看下图:这就是到2020年为止,郑州实际开发的土地情况了。(注1)然后,我们把刚才的规划图和这张实际的土地开发图叠加一下,就可以得到下面这张图了:图中白色为规划区域,而红色为实际被开发的区域。很明显,从这张图上可以看到,郑州实际被开发的城镇用地与原规划边界并不完全吻合,尤其是在城市南侧,在黄圈所标识出的地区,郑州的城市土地开发相对于最初的规划,实际情况出现了明显的外扩。(注2)但上图毕竟反映的是一个静态数据,即2020年的实际土地开发情况。为了更精准地工作,我们需要找到的是在2005-2020年总体规划时间内的开发情况。于是,我们结合2005年的遥感数据,可以把城区识别为“新城”和“老城”:老城:在遥感监测中,2005年和2020年用地性质均为城镇用地的区域;新城:在遥感监测中,2005年还不是城镇用地,2020年变为城镇用地的区域。直观一点,我们将新城标注在地图上,如下所示:可以发现,之前在规划和现实开发叠加图中所圈出的超出规划范围的土地开发,确实是2005年到2020年之间进行开发的。而且很多新城也的确超出了原有规划范围。那么,我们可以得出第一个结论了:从土地开发上看,郑州的城市开发还是很给力的,在新城的建设中,不仅完成了总体规划中的范围,甚至还超出了……但看到这里,读者们会问了:城市,并不是只开发就行的啊,没人来的话还不是一座“鬼城”?没错,所以,接下来,让我们继续在这张图上叠加数据吧。▍居住人口与规划熟悉我们的读者会知道,我司的人口数据能力一直都有点厉害,是的。于是,我们把脉策的郑州夜间人口(居住人口)空间分布数据调取出来,叠加在刚才那张同时含有规划和土地开发情况的图上,就可以得到下面这张图了:图中的黄色热力图斑,即是郑州市的夜间人口(居住人口)分布情况。为了方便读者观察,我们调整了参数,重点标识出了夜间人口密度较高的区域,简单来说,黄色越亮人口密度越高。可以看到,除了北部个别新开发地块外,整个城市人口居住地的选择,仍然大多聚集在靠近老城区中心的位置。而新城区,无论是郑州东部规划范围内的新城,或是南部规划范围外的新城,常住人口密度并不高。那么,我们可以得到第二个结论了:郑州的这些新城,有些土地是已经开发了,但是人气似乎还没热闹起来。但别着急,我们再继续叠加别的数据来看看。▍企业/就业与规划看过土地和常住人口之后,我们来看城市规划中最受到关注的企业与就业的落地情况。新城区域,是不是成功的吸引了企业入驻,并带动了当地的就业呢?在这里,我们采用了元素征信提供的工商企业数据。在经过清洗之后,我们按照企业2019年年报中报告的经营地址重新进行了地理编码,将每个企业落地在空间上,从而得到了郑州企业的空间分布数据,然后再和规划与实际开发图层叠加,就可以得到下面这张图了:图中的黄色热力图斑,即是新增企业较多的地区了。我们可以看出,以企业数量来度量的话,除了郑州老城区之外,东部规划的新区也已经吸引到了不少的企业入驻了。当然,在现实中,企业之间也存在人数规模的差异,企业聚集也不一定代表创造的就业岗位聚集,因此,我们还需要观察实际上的就业分布情况。于是,我们通过将企业年报中的从业人数再进行清洗和汇总,就得到了郑州就业分布的热力图,同样做一下叠加,即可得到下图:可以在上图中看到,就业集聚的地区更清晰了。在考虑了企业规模以后,郑州东部新城区域的就业密度仍然十分可观(我们标注的黄圈范围内),甚至已经接近同样有大量企业集聚的中心老城区的水平。所以从数据来看,郑州新城的企业入驻和就业集聚情况是较为良好的。那么,我们简单为郑州做一个总结:1,新城建设很厉害,超出了原规划的范围;2,其中东部新城的企业集聚也起来了;3,但似乎人口密度还未跟上。那么,针对这张15年前郑州市总体规划所描绘的蓝图,郑州这座城市在2020年交出的答卷得分到底怎样呢?读者们可以自行评判了。写到这里,很多读者可能会说:中国城市都是这样,先拿地扩张,再逐步填坑,郑州也只是这场造城运动的一个缩影吧。真的吗?郑州新区的发展特征是不是就能代表大多数中国城市的新城区了呢?也许,并不是。▍一个对照:长沙第二个被我们选中的幸运的城市是长沙。照旧,我们先来看下用地规划图:照旧,我们仍然使用相同的系统,采用相同的分析逻辑,先将规划图数字化,制作出下图:照旧,再叠加上2020年的土地使用情况,可以得到下图:从上图可以很明显地看到,长沙与郑州的情况截然不同:长沙的实际土地开发小于规划范围,如图中黄线圈出所示,开福区北部的金霞组团和长沙县的黄黎组团甚至没有得到实质上的土地开发。照旧,进一步地,我们还是使用2005年与2020年数据的差异,去找出土地开发上的新城区和老城区,并把新城区范围画在下图:从上图中不难发现,与郑州的情况也截然相反:长沙的新城区基本全都处在规划范围内,基本不存在超出规划区域的情况。照旧,再叠加上常住人口的分布热力:可以看到,虽然长沙的常住人口也存在向心集聚的特征,但可能是由于靠近城市中心的关系,一些新城区的人口密度也并不低。那么,企业密度呢?请看下图:就业密度在下图:从上面两张图上可以看到:和郑州不太一样的是——长沙无论是企业数量还是就业岗位数量来说,中心老城区都处于领先地位。而在环绕城市的几个规划产业区域中,只有西侧的岳麓片区、和长沙县的星马片区形成了一定规模的企业/就业集聚,而北部的金霞组团和南部的暮云组团,发展并不理想。所以,在这两个省会城市身上,我们看到了两个完全不同的城市模型:在土地开发扩张上,一个规划跟不上变化,一个规划超前于变化;在企业人口等要素的集聚上,也呈现完全不同的特征。当然,作为科普工作,以上这两座城市的对比,只是做了一些简单分析。在专业工作领域,我们往往会用更专业的数据和更复杂的指标,并且观察到更细的颗粒度上。但无论怎样,不仅仅是这两个城市,当我们把全国近百个大城市都放在这一分析框架下进行比对时,看到了更多更复杂也完全不同的模式。而不同的模式有优劣之别吗?这又是另一个宏大的问题了。城市本来就是多元而复杂的吧。▍写在结尾的话看完上面这一系列数据与规划图的叠加以后,很多读者肯定会问:“上面这么多图,虽然看上去都好炫酷,但这和我们普通市民又有什么关系呢?”其实,跟我们每个市民大有关系。一个城市的规划是政府规划部门心目中未来发展的蓝图,它规定了未来土地的使用情况。而土地是城市最宝贵的资源之一。一座城市中,土地开发速度的快慢、开发质量的高低,会直接影响到城市长期的发展状况。而我们也已经有太多的城市发展教训在反复告知一个道理:错误的空间开发布局,不仅会给城市开发者(政府、城投、开发商等)埋下隐患、最终也会通过更可怕的交通、更离谱的房价、更差的环境等等,把它的代价落到城市内每一个市民身上。我们通过数据观察规划的落地情况,并不仅止于描述事实,更希望读者对于公布的规划方案能有更多自己的思考,探索背后存在的社会经济规律。小到每个市民选房子找工作,中到企业选址、房企拍地建房,大到政府招商引资、平衡财政,城市中的每一个人都有必要去认识、尊重这些规律,才能做出更加明智的选择。▍P.S.关于规划落地和新城发展,这只是一个开始,我们将在下一篇推文中,从“鬼城”这个概念出发,用统计数据比较新城和老城在人口、企业、就业、房价等方面的表现。敬请期待。注:这种定义下的土地开发,包含三种类别:城镇用地、农村居民点以及其他类别建设用地。从实际数据上来看,《城市统计年鉴》中市辖区的建成区面积数值更接近于“城镇用地”的概念。但从实际场景中来看,遥感数据中出现了部分卫星照片中明确的城镇建成区,被划为农村居民点和其他类别建设用地。而且中心城区周边的少量农村居民点很难和城区完全分割清楚,因此在这里的分析使用了所有三种类别作为城市土地开发的情况,会略微高估城市土地的开发水平。实际上超出的部分也只是超出了郑州市中心城区的规划范围,也可能在其他更大范围的规划方案中,对这些部分土地存在规划,但就目前我们可以搜集到的公开来源数据,没有办法进行更准确的验证。本篇关于规划落地情况的观察,只选取了郑州和长沙两个较为具有代表性的城市,实际上数据团的数据还支持全国近百个主要城市,这里限于篇幅不能完全展示。有兴趣的读者可以在评论区留言或后台私信联系。
2021年4月6日