中国经济社会微观数据还能挖吗?
凡是搞计量经济的,都关注这个号了
投稿:econometrics666@sina.cn
所有计量经济圈方法论丛的程序文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
来源:CHFS(chfsextend)
作者:甘犁 冯帅章
原文刊登于《经济研究》2019年第4期
原标题:“以微观数据库建设助推中国经济学发展——第二届微观经济数据与经济学理论创新论坛综述”
一、中国经济学科发展的现状
毋庸讳言,中国经济学科近年取得了长足的发展,这集中表现在三个方面。第一,经济学教育的国际化程度迅速提高。最近十年,国内高校和科研机构每年引进数百位获得海外经济学、金融学等学科博士学位的学者,极大地提升了国内经济学教学的国际化程度,很多学校的课程体系已与国际一流高校非常接近。第二,经济学的主要研究范式已经从以前的重逻辑推演转变为重数量分析,目前国内经济学杂志所发表的文章大都以比较严谨的数量分析范式来研究中国问题。《经济研究》最近15年70%以上的论文是实证研究文章。第三,国内外年轻学者的水平差距逐渐缩小。国内高校培养的优秀博士与国外一流高校培养的博士水平已经相差不大,甚至还出现了国内培养的博士被海外知名高校直接聘为有长期教职的教授的案例。
然而,中国经济学科目前的发展阶段离习总书记提出的目标还有很大的距离。从国际顶级经济学刊物发表的相关论文来看,关于中国的经济学研究依然薄弱。2010年至2018年,经济学领域的前五大学术期刊上,有关中国问题的论文共有36篇,仅占论文总数2950篇的1.22%。这与中国在全球16%的经济总量严重不匹配。这36篇论文的合作者共有92位,其中本土中国学者只有12位。从这些简单的统计数据可以得出两个结论。第一,中国本土学者在中国经济问题研究方面国际发言权还很不够,很少能在顶级刊物发表关于中国经济问题的文章。第二,关于中国经济问题的研究还不是国际学术研究的主流,中国特有的重大问题并没有得到关注。2013年至2016年,国际五大经济学杂志刊发了十余篇关于人口流动的论文,分别以印尼、孟加拉国、印度、墨西哥及非洲等国和地区人口流动为研究背景。其中仅有一篇以规模、影响和研究价值远高于上述国家的中国人口流动为研究背景,但所用数据却是2000年的人口普查数据,没有反映出高度变化的中国当前人口流动的趋势。
为什么中国经济问题还没有成为国际学术界的主流问题?中国的经济学学者在国际学术界还不能取得与中国经济总量相匹配的学术地位呢?
部分学者将其归咎于国际学术界的偏见。偏见当然存在,但我们也应承认,对中国特有问题的研究,国际学术界还是给予了一定的关注和认可。例如,北京大学周黎安教授发现,如果一个地区GDP的增长率比较高,官员的晋升可能性比较大,即所谓官员晋升“锦标模式”。这是中国特有的现象。他2007年就该问题发表于《经济研究》上的论文,得到4000余个引用;他与李宏斌教授于2007年在Journal of Public Economics上发表的论文则获得1200余个引用。这在国际上形成了一个研究方向。这是中国特有问题成为国际主流研究问题的一个很好案例,可惜类似案例太少。现阶段,中国学者关于中国经济问题的研究更多地呈两极化趋势:一个极端是研究对象“太宽泛”。类似“改革进入深水区”、“信贷难”、“结构调整”等大问题,并不构成真正可研究的学术问题,只能算是一个研究的大方向。另一个极端是学术贡献“太边际”。类似“城镇化率如何拉动消费”、“就业”和“住房需求”这样的问题,实际上把对中国经济问题的研究转变为单纯对已有理论的验证。从某种意义上说,无法凝练出具有重大学术价值的研究问题,才是中国经济研究未入国际学术届主流研究的主要原因。
学科的发展有规律可循,一般都需要经历三个阶段:第一阶段是对基本事实和关键问题的发现,第二阶段是提出解释事实和问题的新理论,第三阶段是对新理论的检验、运用和预测。这一规律在自然科学领域表现得尤为明显,万有引力理论就是其中最有名的例证。在第一阶段,牛顿发现了苹果落地、月亮不落地这样一个既是普遍性基本事实又是在现有理论框架内无法解释的关键问题。在第二阶段,牛顿提出了万有引力理论来解释苹果落地这样一个基本事实。在第三阶段,其他科学家利用万有引力定律预测了冥王星的存在,随后通过天文望远镜发现了冥王星,由此证明了万有引力理论的科学性。这三个阶段交替进行,螺旋上升,不断推进科学的进步和人类对未知世界认识的升华。
经济学作为一门社会科学,遵循类似的发展规律。譬如,国际贸易理论的发展。上世纪60年代,经济学家发现国际贸易更多地发生在禀赋相似的国家之间,比如美国和欧洲,而不是美国和印度这样禀赋异同的国家之间。这个关键事实与以前的国际贸易理论和实践都有很大差别。为解释这一关键事实,经济学家提出了一系列新理论,包括以克鲁格曼(Krugman)为代表所提出的“新国际贸易理论”。克鲁格曼因此获得2008年诺贝尔经济学奖。再譬如,居民消费理论的发展。通过对1870年以后七十多年的数据进行整理分析,库兹涅兹(Kuznets)在1942年发现,尽管各国家庭收入在70年间都有大幅上升,但各国家庭储蓄率长期来看基本保持稳定状态。为解释这个基本事实,莫迪尼阿尼(Modigliani)提出了生命周期理论,弗里德曼(Friedman)则提出了永久收入假说。三位学者最后都因相关研究获得了诺贝尔经济学奖。
目前,欧美发达国家的经济学科处于第三发展阶段。作出这一判断的一个重要理由在于,近年来,克拉克奖获得者主要研究领域已由理论转为实证,经济研究前沿主要以数据来验证理论,较少出现新的理论创新。克拉克奖是美国经济学会的最高奖,每两年或每年奖励一位40岁以下的优秀青年学者,其60%的获得者后来都获得了诺贝尔经济学奖,他们主要研究领域的变化在很大程度上反映了经济学科发展的趋势。1995年以前,该奖80%的获得者主要的研究领域为理论,20%为实证。1996年至2005年,主要研究领域为理论的获奖者比例已降至50%,而主要研究领域为实证的获奖者比例增至50%。2006年至2016年,只有33%的获奖者的主要研究领域为理论,其余67%均为实证。
中国经济学研究目前尚处在发现基本事实和关键问题的第一阶段。只有发现了关于中国经济发展的基本事实与关键问题,新的理论创新才有可能应运而生,中国经济问题研究才有可能真正成为国际学术的研究热点和前沿。而发现基本事实和关键问题,就需要高质量、有代表性的数据库,但缺乏基础数据,又是当前中国经济研究面临的最大制约。
二、用中国的数据讲好中国的故事
支撑中国经济学研究发展的微观数据从何而来?一方面,国家统计局和其他政府部门有很多经济数据。政府统计数据通常比较全面也具有代表性,但大多不对外开放,研究者很难获得。这个问题已经引起一定的重视,如国际统计局通过和清华大学合作,已开放部分微观数据供研究者使用,但距离满足研究者全面获取原始微观数据的需求仍有较大差距。
另一方面,一些学者通过抽样调查也获得过一些数据。但是,由于抽样不够严谨科学,经费不足导致样本覆盖面小等问题,调查数据质量很难保证。自然,基于这些数据得到的结论的代表性令人质疑,更谈不上反映出中国经济发展的基本事实和关键问题。
可喜的是,北京大学、西南财经大学、中国人民大学、中国社会科学院、北京师范大学、暨南大学等高校和科研机构已经关注到这一问题,投入了大量资源开展有代表性的基础数据收集。国家自然科学基金委也从2014年开始大力支持北京大学的数据库建设。
目前,国内主要非官方微观调查数据库包括中国家庭收入调查(CHIP)、中国综合社会调查(CGSS)、中国健康与养老追踪调查(CHARLS)、中国家庭金融调查(CHFS)、中国家庭动态调查(CFPS)、中国乡城人口流动调查(RUMiC)等。
(1)中国家庭收入调查(Chinese Household Income Project, CHIP)由北京师范大学组织,并且在国家统计局的协助下完成,追踪中国收入分配的动态情况。目前,该调查已经相继在1988年、1995年、2002年、2007年和2013年进行了5次全国住户调查。截止到2018年10月,CHIP发表的中文论文539篇;英文论文约150篇。不完全统计2013年以后的登记用户量为10782人。
(2)中国综合社会调查(Chinese General Social Survey,CGSS)由中国人民大学的社会学者主导,已成为研究中国社会最主要的数据来源之一。2003-2008年是CGSS项目的第一期,共完成5次年度调查。截止到2016年6月30日,基于CGSS数据在国内期刊上共发表学术论文1243篇,在国际期刊上发表学术论文196篇。
(3)中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是由北京大学国家发展研究院主持的大型跨学科调查项目,收集代表中国45岁及以上中老年人家庭和个人微观数据,有大量健康疾病等信息。2008年至2018年,CHARLS开展了四次全国调查,三项专题调查。截止到2018年4月,CHARLS数据注册用户量接近25000人,海外用户超过2600人。基于CHARLS数据发表的学术论文达900余篇。
(4)中国家庭金融调查(China Household Finance Survey, CHFS)是西南财经大学中国家庭金融调查与研究中心在全国范围内开展的抽样调查项目,房产及金融资产信息尤其详尽。CHFS已经在2011、2013、2015以及2017年开展了四轮入户调查,18轮季度电话回访。目前,已有登记用户12551人,统计已发表学术论文752篇,其中英文论文81篇。
(5)中国家庭追踪调查(China Family Panel Studies, CFPS)由北京大学中国社会科学调查中心实施,关注居民的经济与非经济福利,也包括教育、家庭关系与家庭动态、人口迁移等信息。CFPS 2010完成基线调查,2011年完成维护调查,2012年以后每年一次跟踪调查。截止到2018年11月,CFPS数据注册用户达24451人,基于CFPS数据发表的学术论文1129篇,其中中文期刊占55.9%;英文期刊占27.5%;学位论文占16.6%。
(6)中国乡城人口流动调查(Rural-Urban Migration in China, RUMiC)由澳大利亚国立大学孟昕教授在2008年发起的年度调查,每年访问约5000名流动人口及其家庭,已进行了11轮。自2017年起,中国城乡人口流动调查由暨南大学经济与社会研究院接手并继续进行调查。
其它全国性的调查还包括,中国劳动力动态调查(CLDS,中山大学社会科调查中心)、中国社会状况综合调查(CSS,中国社会科学院社会学研究所)、全国流动人口动态监测调查数据(国家卫计委)、私营企业调查(中国社会科学院私营企业主群体研究中心)、农村经济研究中心农村固定观察点(农业部农村经济研究中心)、世行中国企业调查(世界银行)和中国工业企业数据库 (国家统计局)等。
上述调查工作对中国经济学研究发展至关重要。目前,全国性全方位的抽样调查已日渐丰富,但专题数据调查和数据库建设还比较滞后,类似数据调查平台开展的时间使用、教育支出、农业农村、普惠金融等专题性调查还较为缺乏。而只有在基础工作上持续投入,才能推动中国经济学研究健康稳定发展,才能用中国的数据讲好中国的故事,使中国经济学研究在国际上成为主流的学术研究热点,使研究中国问题的一流学者成为国际一流学者,进而为中国经济建设的伟大实践提供有益的帮助。可以说,正是因为近十年来这些微观数据库的建设与发展,中国经济学界在发现基本事实与关键问题方面才取得了一定成效。
以城镇化为例,2018年我国城镇常住人口为83137万人,比上年末增加1790万人。2000年至2018年期间,中国城镇化率从36.2%增长至59.58%,城镇常住居民增长了3.72亿。但西南财经大学的研究团队基于中国家庭金融调查(CHFS)的微观数据发现,这些新增的城镇常住居民中, 40%是因为所居住区域为的统计用编码由农村变为城镇,属于“编码城镇化”居民。他们没有离开自己的房屋,不是“扛包进城”到城镇里打工的农村人口。他们的消费、工作与住房需求与“扛包进城”的农村人口自然存在很大差别。不搞清楚这些差异,研究城镇化对住房和消费的拉动以及对公共服务的需求,就会产生很大的偏差。
大规模的微观调查数据是已经是中国经济问题研究的重要基础,而且越来越重要。通过对《经济研究》刊发文章情况统计结果显示,2009年至2013年,《经济研究》共刊发文章790篇文章(不包括综述类文章),其中基于微观数据的实证研究文章为35.8%。2014年至2018年,《经济研究》发表的854篇文章中,基于微观数据的文章上升至42.2%。自2011年中国家庭金融调查(CHFS)正式启动以来,CHFS也成为《经济研究》上实证研究文章的数据来源,目前共有15篇基于CHFS数据的文章在《经济研究》上发表。
要特别指出的是,虽然已经有大量的学术研究基于中国数据,真正发现中国特有问题并产生重大影响的学术文章仍然屈指可数,更多的研究或是对现有理论的验证,或者利用中国数据延伸国外已有的研究。《经济研究》近年来发表了54篇关于社保医保的文章,而关于历史更为悠久的公积金制度的文章只有1篇。这一方面是因为数据的可获得性受限,另一方面是因为社保医保早已是国外主流杂志的重要研究问题而具有中国特色的公积金制度问题并没有得到国外学者的青睐。住房公积金制度已经实施了20年。至2017年底,按照城镇就业人口的统计口径计算,住房公积金制度的覆盖率为32.35%,总缴存额达12.5万亿元,公积金存款余额5万亿元。公积金个人住房贷款余额4.5万亿元,相当于占整个个人住房贷款余额的20%。从覆盖面和总量上来讲,其对中国住房市场、金融市场的影响都是不容忽视的。但是,经济学界对此问题几乎没有深入研究,这显然是经济学的“市场失灵”。
三、微观数据建设面临的挑战与发展方向
尽管近年来经济学微观数据库建设已经取得了很大进展,但在数据库数量、质量和可获得性等方面还是存在诸多不足。要进一步发挥微观数据库的作用,并使其成为中国经济学发展的重要助推剂,还需要克服诸多困难。
数据收集过程面临的挑战
首先,数据收集的过程面临许多挑战。在数据收集过程中,调查机构主要面临获取样本框困难、调查成本有限和遭遇拒访等问题。建立样本框是调查中抽样设计的第一步。但由于国家没有官方公开的地址列表或居民的花名册数据,大多数学术调查都采用的是末端绘图的方式自行建立样本框,但这种方法耗费时间和人力,且需要不断定期更新,增加了执行的难度和成本。从统计角度看,要使得调查数据具有区域代表性甚至是全国代表性,在精度高、误差小的条件下需要很大样本量。大样本量意味着很高的执行成本,因此在经费有限的情况下,很多调查项目在筹备阶段便因资金不足而“夭折”或缩小规模。此外,由于人们的隐私保护意识越来越强,戒心也越来越重,导致调查的拒访率不断上升,访员时常面临拒访的困境。除了个体拒访,还存在集体拒访的情况,如物业阻拦或是村居委会不配合,都加大了样本偏差和数据的测量误差,最终可能影响研究变量估计的准确性。
应对数据收集过程的挑战首先离不开充足的经费支持。目前各调查机构的经费主要为所在单位提供,或是研究者自筹研究经费情况,这都不是开展长期大型调查的有力保障。除此之外,调查过程还需要得到政府部门的支持与配合。同时,调查机构调查统计的专业知识和技术水平对于保障调查质量也非常重要。
大数据带来的挑战与机遇
其次,以大数据为代表的数据收集新方式给传统微观调查数据带来挑战和机遇。随着新一轮科技革命,大数据的商业价值和学术价值愈发凸显。通过对大数据的分析和挖掘,人们可以得出某种事物的发展趋势和规律、个体之间相关性和群体特征,对经济行为及其动态变化进行更及时、细致的刻画,为学术研究提供了全新的思路和方法。与微观数据相比,大数据的数据收集速度更快、类型更丰富、覆盖面更广、实时性更强,降低了数据收集的门槛。然而,在降低数据收集门槛的同时,大数据也导致数据价值密度的降低和数据使用技术门槛的提高。此外,以互联网数据为代表的大数据,受用户渗透率不足等因素限制,存在一定样本偏差。与传统抽样调查数据相比,大数据也面临更多噪音、数据维度相对较少等劣势。因此,基于传统抽样调查获得的维度更多、代表性更好的“厚数据”在大数据时代依然有重要的价值。
我们认为,大数据与“厚数据”相结合是未来微观数据建设的发展方向。经济现象是一种非常复杂的社会现象,需要从历史的角度、理论的角度、实证的角度进行研究。要描述复杂的经济现实,除了大数据,用抽样调查的方式获得“厚数据”同样重要。“厚数据”是记录个体行为及其前后关联信息的集合,可通过抽样调查的方式获得。尽管微观数据的收集需要经历冗长的问卷调查过程,但是微观数据的数据结构更完整、数据价值密度更高、理论基础和分析方法更成熟,更适用于探究变量之间的因果机制。大数据给我们提供了了解经济现象、掌握经济规律的工具、素材,能够分析经济现象之间的关联,但只有当大数据与通过田野调查和试验得出的“厚数据”相结合,我们才能确定更多现象的因果关系。而有了这样的关系,数据才能创造价值。
大数据在挑战传统数据收集方式的同时,也引领了未来微观数据建设的发展方向。作为微观数据的主要收集手段,社会调查方法也在适应着科技的发展。传统的社会调查方法与互联网、云计算、便携式移动设备、大数据技术相互结合产生了计算机辅助的问卷系统。从传统的纸质问卷到计算机、平板电脑、智能手机等移动设备上的问卷系统,利用互联网传输技术,问卷系统实现了调查数据的实时回传,缩短了数据从收集到使用的周期。利用问卷系统的照相、录音、定位功能对数据的质量进行严格把控,保证了调查数据的真实性、准确性和有效性。
数据开发与开放环节存在的不足
最后,数据开发与开放环节也存在诸多不足。出于保护受访者个人信息的角度,问卷数据在数据处理及质控修正之后,开放前会进行敏感信息处理。然而,一定程度上,脱敏处理可能会影响数据使用。从数据安全性和数据更新角度考虑,大多数调查机构对数据开放、数据使用途径有严格的把关。目前,多个高校都已搭建了自己的数据平台,但仍有很多数据由于各种原因(如研究议题敏感性等)未能公开,没有发挥数据的最大价值。对于已经公开的数据,由于申请渠道不明、分散或申请管理制度严格等原因,数据也鲜有人知、鲜有人用,造成极大的资源浪费。
调查机构各自为政的现象也容易产生“数据孤岛”效应。由于各数据调查机构缺乏统一标准,造成条线整合难度较大。中央与地方的统计数据、非官方各机构公布的数据,因数据标准和统计口径不一,不仅较难整合,甚至互相矛盾,严重影响了数据的可信度。此外,调查数据包括基础数据和专题性数据。目前,基础数据库与专题数据库,专题数据库之间都还未实现有效拼接,“数据孤岛”效应由此产生。现有的数据库建设还主要依赖于整合政府资源和专业商业机构的收集,数据的共享也仅限于数据的拷贝与传输,缺乏跨学科的数据分析方法和数据分析服务的共享。现阶段,国内微观数据主要依赖于各高校的学术机构,其数据的空开透明度普遍较差,大多数只限于调查机构内部使用,缺乏数据共享机制。鉴于此,中国高校数据调查共享平台就是我们针对“数据孤岛”现象的一个有益的初步尝试。
四、第二届微观经济数据与经济学理论创新论坛综述
为推动我国经济学领域微观基础性数据库的建设与完善,西南财经大学中国家庭金融调查与研究中心于2017年联合暨南大学经济与社会研究院、浙江大学中国农村发展研究院、中国社会科学院财经战略研究院、北京师范大学创新发展研究院、内蒙古大学经济管理学院、南京审计大学经济与金融研究院、首都经济贸易大学金融学院、北京大学中国教育财政科学研究所等九所单位(按照加入平台的时间排序)成立中国高校数据调查共享平台,共同开展微观调查数据的收集和共享。平台致力于打破“数据孤岛”,为学术界提供公共品。
为推动中国高校数据库的进一步开放和共享,促进相关学者的交流,助力中国经济学的理论创新,推动中国经济学研究的发展,中国高校数据调查共享平台与《经济研究》编辑部联合发起“微观经济数据与经济学理论创新论坛”。本论坛每年举办一届,并由平台成员单位轮流举办。
第一届论坛于2018年3月24日在西南财经大学举行,由西南财经大学中国家庭金融调查与研究中心承办。论坛将34篇入选论文分成8个分论坛进行汇报与讨论,议题涉及住房、消费与储蓄、教育、人口、劳动力市场、金融决策、企业行为、基层治理和农村经济等方面。
第二届论坛于2019年3月30日在暨南大学召开,由暨南大学经济与社会研究院承办。论坛论文评审委员会本着“优中选优”的原则筛选出20篇论文入围。为了更好地给予参会论文有针对性的反馈意见,本次论坛还特别邀请了20位中青年专家学者担任现场评论人。本次论坛论文的研究议题涉及劳动力市场、人口流动、消费与储蓄、土地市场和房地产市场、创业决策、金融决策、工资差距、高等教育、精准扶贫等方面。论文使用到的常用微观数据库包括中国家庭金融调查(CHFS)、中国家庭收入调查(CHIP)、中国乡城人口流动调查(RUMIC)、中国家庭追踪调查(CFPS)、城镇住户调查(UHS)。总体来看,中国家庭金融调查样本量大、追踪性强、数据填补了以往空白,被越来越多的研究所采用,有效拓展了如住房财富等研究领域。由于住房财富是我国家庭财富的主要组成部分,很多研究围绕住房财富的影响所展开,包括住房财富对家庭金融资产投资的影响、对商业保险购买的影响、对已婚女性劳动力供给的影响等。部分论文还使用到一些新近发展的微观调查数据库,如中国时间利用调查(CTUS)、中国家庭就业调查(CHES)、广东千村调查等。这些调查都由中国高校数据调查共享平台的成员单位开展,体现了共享平台对微观数据收集工作的积极推动。另外,本次论坛的部分论文还使用到“爬虫”数据和行政数据(administrative data)进行研究,这也是应用微观经济学研究的最新趋势。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。