甘犁 冯帅章:以微观数据库建设助推中国经济学发展——第二届微观经济数据与经济学理论创新论坛综述【转】
习近平总书记2016年在哲学社会科学工作座谈会上的讲话, 对中国哲学社会科学发展提出了很高的总体目标。他要求“构建中国特色哲学社会科学, 在指导思想、学科体系、学术体系、话语体系等方面充分体现中国特色、中国风格、中国气派”。达到这个目标的两个标志应该是中国问题在国际学术界成为主流研究问题, 中国学者在中国问题研究方面成为国际学术界主流研究学者。
一、 中国经济学科发展的现状
毋庸讳言, 中国经济学科近年取得了长足的发展, 这集中表现在三个方面。第一, 经济学教育的国际化程度迅速提高。最近十年, 国内高校和科研机构每年引进数百位获得海外经济学、金融学等学科博士学位的学者, 极大地提升了国内经济学教学的国际化程度, 很多学校的课程体系已与国际一流高校非常接近。第二, 经济学的主要研究范式已经从以前的重逻辑推演转变为重数量分析, 目前国内经济学杂志所发表的文章大都以比较严谨的数量分析范式来研究中国问题。《经济研究》最近15年70%以上的论文是实证研究文章。第三, 国内外年轻学者的水平差距逐渐缩小。国内高校培养的优秀博士与国外一流高校培养的博士水平已经相差不大, 甚至还出现了国内培养的博士被海外知名高校直接聘用的案例。
然而, 中国经济学科目前的发展阶段离习总书记提出的目标还有很大的距离。从国际顶级经济学刊物发表的相关论文来看, 关于中国问题的经济学研究依然薄弱。2010年至2018年, 经济学领域的前五大学术期刊上, 有关中国问题的论文共有36篇, 仅占论文总数2950篇的1.22%。这与中国在全球16%的经济总量严重不匹配。这36篇论文的合作者共有92位, 其中本土中国学者只有12位。从这些简单的统计数据可以得出两个结论。第一, 中国本土学者在中国经济问题研究方面国际发言权还很不够, 很少能在顶级刊物发表关于中国经济问题的文章。第二, 关于中国经济问题的研究还不是国际学术研究的主流, 中国特有的重大问题并没有得到关注。
为什么中国经济问题还没有成为国际学术界的主流问题?中国的经济学学者在国际学术界还不能取得与中国经济总量相匹配的学术地位呢?
部分学者将其归咎于国际学术界的偏见。偏见当然存在, 但我们也应承认, 对中国特有问题的研究, 国际学术界还是给予了一定的关注和认可。例如, 北京大学周黎安教授发现, 如果一个地区GDP的增长率比较高, 官员的晋升可能性就比较大, 即所谓官员晋升的“锦标赛模式”。这是中国特有的现象。他2007年针对该问题发表于《经济研究》上的论文, 得到4000余次引用;他与李宏斌教授于2007年在Journal of Public Economics上发表的论文则获得1200余次引用, 在国际上形成了一个新的研究方向。这是中国特有问题成为国际主流研究问题的一个很好的例子, 可惜类似案例太少。现阶段, 中国学者关于中国经济问题的研究更多地呈两极化趋势:一个极端是研究对象“太宽泛”。类似“改革进入深水区”、“信贷难”、“结构调整”等大问题, 并不构成真正可研究的学术问题, 只能算是一个研究的大方向。另一个极端是学术贡献“太边际”。类似“城镇化率如何拉动消费”、“就业和住房需求”这样的问题, 实际上把对中国经济问题的研究转变为单纯对已有理论的验证。从某种意义上说, 无法凝练出具有重大学术价值的研究问题, 才是中国经济研究未入国际学术界主流研究的重要原因。
学科的发展有规律可循, 一般都需要经历三个阶段:第一阶段是对基本事实和关键问题的发现, 第二阶段是提出解释事实和问题的新理论, 第三阶段是对新理论的检验、运用和预测。这三个阶段交替进行, 螺旋上升, 不断推进科学的进步和人类对未知世界认识的升华。经济学作为一门社会科学, 遵循类似的发展规律。譬如, 国际贸易理论的发展。20世纪60年代, 经济学家发现国际贸易更多地发生在禀赋相似的国家之间, 比如美国和欧洲, 而不是美国和印度这样禀赋差异很大的国家之间。这个关键事实与以前的国际贸易理论和实践都有很大差别。为解释这一关键事实, 经济学家提出了一系列新理论, 包括以克鲁格曼 (Krugman) 为代表所提出的“新国际贸易理论”。克鲁格曼因此获得2008年诺贝尔经济学奖。再譬如, 居民消费理论的发展。通过对1870年以后七十多年的数据进行整理分析, 库兹涅兹 (Kuznets) 在1942年发现, 尽管各国家庭收入在70年间都有大幅上升, 但各国家庭储蓄率长期来看基本保持稳定状态。为解释这个基本事实, 莫迪尼安尼 (Modigliani) 提出了生命周期理论, 弗里德曼 (Friedman) 则提出了永久收入假说。三位学者最后都因相关研究获得了诺贝尔经济学奖。
目前, 欧美发达国家的经济学科处于第三阶段。作出这一判断的一个重要理由在于, 近年来, 美国经济学会的最高奖克拉克奖获得者主要研究领域已由理论转为实证, 显示经济研究前沿主要以数据来验证理论, 较少出现新的理论创新。1995年以前, 该奖80%的获得者主要的研究领域为理论, 20%为实证。1996—2005年, 主要研究领域为理论的获奖者比例已降至50%, 而主要研究领域为实证的获奖者比例增至50%。2006—2016年, 只有33%的获奖者的主要研究领域为理论, 其余67%均为实证。
中国经济学研究目前尚处在发现基本事实和关键问题的第一阶段。只有发现了关于中国经济发展的基本事实与关键问题, 新的理论创新才有可能应运而生, 中国经济问题研究才有可能真正成为国际学术的研究热点和前沿。而发现基本事实和关键问题, 就需要高质量、有代表性的数据库, 但缺乏基础数据, 又是当前中国经济研究面临的最大制约。
二、 用中国的数据讲好中国的故事
支撑中国经济学研究发展的微观数据从何而来?一方面, 国家统计局和其他政府部门有很多经济数据。政府统计数据通常比较全面也具有代表性, 但大多不对外开放, 研究者很难获得。这个问题已经引起一定的重视, 如国际统计局通过和清华大学合作, 已开放部分微观数据供研究者使用, 但距离满足研究者全面获取原始微观数据的需求仍有较大差距。
另一方面, 一些学者通过抽样调查也获得了一些数据。但是, 由于抽样不够严谨科学, 经费不足导致样本覆盖面小等问题, 调查数据质量很难保证。自然, 基于这些数据得到的结论的代表性令人怀疑, 更谈不上反映中国经济发展的基本事实和关键问题。
可喜的是, 北京大学、西南财经大学、中国人民大学、中国社会科学院、北京师范大学、暨南大学等高校和科研机构已经关注到这一问题, 投入了大量资源开展有代表性的基础数据收集。国家自然科学基金委也从2014年开始大力支持北京大学的数据库建设。
目前, 国内主要非官方微观调查数据库包括中国家庭收入调查 (CHIP) 、中国综合社会调查 (CGSS) 、中国健康与养老追踪调查 (CHARLS) 、中国家庭金融调查 (CHFS) 、中国家庭动态调查 (CFPS) 、中国乡城人口流动调查 (RUMiC) 等。
(1) 中国家庭收入调查 (Chinese Household Income Project, CHIP) 由北京师范大学组织, 并且在国家统计局的协助下完成, 追踪中国收入分配的动态情况。目前, 该调查已经相继在1988年、1995年、2002年、2007年和2013年进行了5次全国住户调查。
(2) 中国综合社会调查 (Chinese General Social Survey, CGSS) 由中国人民大学的社会学者主导, 已成为研究中国社会最主要的数据来源之一。2003—2008年是CGSS项目的第一期, 共完成5次年度调查。
(3) 中国健康与养老追踪调查 (China Health and Retirement Longitudinal Study, CHARLS) 是由北京大学国家发展研究院主持的大型跨学科调查项目, 收集代表中国45岁及以上中老年人家庭和个人微观数据, 有大量健康疾病等信息。2008—2018年, CHARLS开展了4次全国调查, 3项专题调查。
(4) 中国家庭金融调查 (China Household Finance Survey, CHFS) 是西南财经大学中国家庭金融调查与研究中心在全国范围内开展的抽样调查项目, 房产及金融资产信息尤其详尽。CHFS已经在2011年、2013年、2015年以及2017年开展了4轮入户调查, 18轮季度电话回访。
(5) 中国家庭追踪调查 (China Family Panel Studies, CFPS) 由北京大学中国社会科学调查中心实施, 关注居民的经济与非经济福利, 也包括教育、家庭关系与家庭动态、人口迁移等信息。CFPS2010完成基线调查, 2011年完成维护调查, 2012年后每年一次跟踪调查。
(6) 中国乡城人口流动调查 (Rural-Urban Migration in China, RUMiC) 是由澳大利亚国立大学孟昕教授在2008年发起的年度调查, 每年访问约5000名流动人口及其家庭, 已进行了11轮。自2017年起, 中国乡城人口流动调查由暨南大学经济与社会研究院接手并继续进行调查。
限于篇幅, 还有很多全国性的调查我们在此不再具体介绍。这些调查工作对中国经济学研究发展至关重要。可以说, 正是因为近十年来这些微观数据库的建设与发展, 中国经济学界在发现基本事实与关键问题方面才取得了一定成效。
以城镇化为例, 2018年中国城镇常住人口为83137万人, 比上年末增加1790万人。2000—2018年间, 中国城镇化率从36.2%增长至59.58%, 城镇常住居民增长了3.72亿。但西南财经大学的研究团队基于中国家庭金融调查 (CHFS) 的微观数据发现, 这些新增的城镇常住居民中, 40%是因为所居住区域的统计编码由农村变为城镇, 属于“编码城镇化”居民。他们没有离开自己的房屋, 不是“扛包进城”到城镇里打工的农村人口。他们的消费、工作与住房需求与“扛包进城”的农村人口自然存在很大差别。不搞清楚这些差异, 研究城镇化对住房和消费的拉动以及对公共服务的需求, 就会产生很大的偏差。
大规模的微观调查数据已经是中国经济问题研究的重要基础, 而且越来越重要。对《经济研究》刊发文章情况统计结果显示, 2009—2013年, 《经济研究》共刊发文章790篇 (不包括综述类文章) , 其中基于微观数据的实证研究文章为35.8%。2014—2018年, 《经济研究》发表的854篇文章中, 基于微观数据的文章上升至42.2%。自2011年中国家庭金融调查 (CHFS) 正式启动以来, CHFS也成为《经济研究》实证研究文章的数据来源, 有多篇基于CHFS数据的文章在《经济研究》上发表。
需要特别指出的是, 虽然已经有大量的学术研究基于中国数据, 但真正发现中国特有问题并产生重大影响的学术文章仍然屈指可数, 更多的研究或是对现有理论的验证, 或者利用中国数据延伸国外已有的研究。《经济研究》近年来发表了54篇关于社保医保的文章, 而关于历史更为悠久的公积金制度的文章只有1篇。这一方面是因为数据的可获得性受限, 另一方面是因为社保医保早已是国外主流杂志的重要研究问题, 而具有中国特色的公积金制度问题并没有得到国内外学者的青睐。住房公积金制度已经实施了20年, 从覆盖面和总量上讲, 其对中国住房市场、金融市场的影响都是不容忽视的。但是, 经济学界对此问题几乎没有深入研究, 这显然是经济学的“市场失灵”。
三、 微观数据建设面临的挑战与发展方向
尽管近年来经济学微观数据库建设已经取得了很大进展, 但在数据库数量、质量和可获得性等方面还是存在诸多不足。要进一步发挥微观数据库的作用, 并使其成为中国经济学发展的重要助推剂, 还需要克服诸多困难。
(一) 数据收集过程面临的挑战
首先, 数据收集的过程面临许多挑战。在数据收集过程中, 调查机构主要面临获取样本框困难、调查成本有限和遭遇拒访等问题。由于国家没有官方公开的地址列表或居民的花名册数据, 大多数学术调查都采用的是末端绘图的方式自行建立样本框, 但这种方法耗费时间和人力, 且需要不断定期更新, 增加了执行的难度和成本。从统计角度看, 要使得调查数据具有区域代表性甚至是全国代表性, 在精度高、误差小的条件下需要很大样本量, 也就意味着很高的执行成本。此外, 由于人们的隐私保护意识越来越强, 导致调查的拒访率不断上升。除了个体拒访, 还存在集体拒访的情况, 如物业阻拦或是村居委会不配合, 都加大了样本偏差和数据的测量误差, 最终可能影响研究变量估计的准确性。
应对数据收集过程的挑战首先离不开充足的经费支持。目前各调查机构的经费主要为所在单位提供, 或是研究者自筹研究经费情况, 这都不是开展长期大型调查的有力保障。除此之外, 调查过程还需要得到政府部门的支持与配合。同时, 调查机构的专业知识和技术水平对于保障调查质量也非常重要。
(二) 大数据带来的挑战与机遇
随着新一轮科技革命, 大数据的商业价值和学术价值愈发凸显。通过对大数据的分析和挖掘, 人们可以得出某种事物的发展趋势和规律、个体之间相关性和群体特征, 对经济行为及其动态变化进行更及时、细致的刻画, 为学术研究提供了全新的思路和方法。与微观数据相比, 大数据的数据收集速度更快、类型更丰富、覆盖面更广、实时性更强, 降低了数据收集的门槛。然而, 在降低数据收集门槛的同时, 大数据也导致数据价值密度的降低和数据使用技术门槛的提高。此外, 以互联网数据为代表的大数据, 受用户渗透率不足等因素限制, 存在一定样本偏差。与传统抽样调查数据相比, 大数据也面临更多噪音、数据维度相对较少等劣势。因此, 基于传统抽样调查获得的维度更多、代表性更好的“厚数据”在大数据时代依然有重要的价值。
笔者认为, 大数据与“厚数据”相结合是未来微观数据建设的发展方向。要描述复杂的经济现实, 除了大数据, 用抽样调查的方式获得“厚数据”同样重要。“厚数据”是记录个体行为及其前后关联信息的集合, 可通过抽样调查的方式获得。尽管微观数据的收集需要经历冗长的问卷调查过程, 但是微观数据的数据结构更完整、数据价值密度更高、理论基础和分析方法更成熟, 更适用于探究变量之间的因果机制。只有当大数据与通过田野调查和试验得出的“厚数据”相结合, 我们才能确定更多现象的因果关系。而有了这样的关系, 数据才能创造价值。
大数据在挑战传统数据收集方式的同时, 也引领了未来微观数据建设的发展方向。传统的社会调查方法与互联网、云计算、便携式移动设备、大数据技术相互结合产生了计算机辅助的问卷系统。从传统的纸质问卷到计算机、平板电脑、智能手机等移动设备上的问卷系统, 利用互联网传输技术, 问卷系统实现了调查数据的实时回传, 缩短了数据从收集到使用的周期。利用问卷系统的照相、录音、定位功能对数据的质量进行严格把控, 保证了调查数据的真实性、准确性和有效性。
(三) 数据开发与开放环节存在的不足
目前的数据开发与开放环节也存在诸多不足。出于保护受访者个人信息的考虑, 问卷数据在数据处理及质控修正之后, 开放前会进行敏感信息处理。然而, 一定程度上, 脱敏处理可能会影响数据使用。从数据安全性和数据更新角度考虑, 大多数调查机构对数据开放、数据使用途径有严格的把关。目前, 多个高校都已搭建了自己的数据平台, 但仍有很多数据由于各种原因 (如研究议题敏感性等) 未能公开, 没有发挥数据的最大价值。对于已经公开的数据, 由于申请渠道不明、分散或申请管理制度严格等原因, 数据也鲜为人知、鲜有人用, 造成极大的资源浪费。
调查机构各自为政的现象也容易产生“数据孤岛”效应。由于各数据调查机构缺乏统一标准, 造成条线整合难度较大。中央与地方的统计数据、非官方各机构公布的数据, 因数据标准和统计口径不一, 不仅较难整合, 甚至互相矛盾, 严重影响了数据的可信度, “数据孤岛”效应由此产生。现有的数据库建设还主要依赖于整合政府资源和专业商业机构的收集, 数据的共享也仅限于数据的拷贝与传输, 缺乏跨学科的数据分析方法和数据分析服务的共享。现阶段, 国内微观数据主要依赖于各高校的学术机构, 其数据的公开透明度普遍较差, 大多数只限于调查机构内部使用, 缺乏数据共享机制。鉴于此, 中国高校数据调查共享平台就是针对“数据孤岛”现象的一个有益的初步尝试。
四、 第二届微观经济数据与经济学理论创新论坛
为推动中国经济学领域微观基础性数据库的建设与完善, 西南财经大学中国家庭金融调查与研究中心于2017年联合暨南大学经济与社会研究院、浙江大学中国农村发展研究院、中国社会科学院财经战略研究院、北京师范大学创新发展研究院、内蒙古大学经济管理学院、南京审计大学经济与金融研究院、首都经济贸易大学金融学院、北京大学中国教育财政科学研究所等九家单位 (按照加入平台的时间排序) 成立中国高校数据调查共享平台, 共同开展微观调查数据的收集和共享。平台致力于打破“数据孤岛”, 为学术界提供公共品。
为推动中国高校数据库的进一步开放和共享, 促进相关学者的交流, 助力中国经济学的理论创新, 推动中国经济学研究的发展, 中国高校数据调查共享平台与《经济研究》编辑部联合发起“微观经济数据与经济学理论创新论坛”。本论坛每年举办一届, 并由平台成员单位轮流举办。
第一届论坛于2018年3月24日在西南财经大学举行, 由西南财经大学中国家庭金融调查与研究中心承办。论坛将34篇入选论文分成8个分论坛进行汇报与讨论, 议题涉及住房、消费与储蓄、教育、人口、劳动力市场、金融决策、企业行为、基层治理和农村经济等。
第二届论坛于2019年3月30日在暨南大学召开, 由暨南大学经济与社会研究院承办。论坛论文评审委员会本着“优中选优”的原则筛选出20篇论文参会。为了更好地给予参会论文有针对性的反馈意见, 本次论坛还特别邀请了20位中青年专家学者担任现场评论人。参会论文的研究议题涉及劳动力市场、人口流动、消费与储蓄、土地市场和房地产市场、创业决策、金融决策、工资差距、高等教育、精准扶贫等方面。论文使用的微观数据库包括中国家庭金融调查 (CHFS) 、中国家庭收入调查 (CHIP) 、中国乡城人口流动调查 (RUMIC) 、中国家庭追踪调查 (CFPS) 、城镇住户调查 (UHS) 。总体来看, 中国家庭金融调查样本量大、追踪性强、数据填补了以往空白, 被越来越多的研究所采用, 有效拓展了如住房财富等研究领域的边界。由于住房财富是中国家庭财富的主要组成部分, 很多研究围绕住房财富的影响展开, 包括住房财富对家庭金融资产投资的影响、对商业保险购买的影响、对已婚女性劳动力供给的影响等。部分论文还使用一些新近发展的微观调查数据库, 如中国时间利用调查 (CTUS) 、中国家庭就业调查 (CHES) 、广东千村调查等。这些调查都由中国高校数据调查共享平台的成员单位开发, 体现了共享平台对微观数据收集工作的积极推动。另外, 本次论坛的部分论文还使用了“爬虫”数据和行政数据 (administrative data) , 这也是应用微观经济学研究的最新趋势。
——END
编者注:
本文转自:甘犁,冯帅章.以微观数据库建设助推中国经济学发展——第二届微观经济数据与经济学理论创新论坛综述[J].经济研究,2019(04):204-208.
参考文献、注释、英文摘要及关键词略,格式稍有调整
如有不妥,请公众号 或 snxsac@163.com 联系删除
相关阅读: