查看原文
其他

工企数据与海关数据库合并方法

国际经贸研究小组 计量经济圈 2020-02-21

凡是搞计量经济的,都关注这个号了

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问

中国工业企业数据库匹配160大步骤的完整程序和相应数据


上面是工业企业数据匹配的完整程序,相应的do文件放在咱们计量社群里。如果你已经有了这些,那就不需要进去提取下载了;如果你还没有并想要掌握最可靠的工企数据匹配的操作步骤,那可以使用咱们社群里的工业企业数据库(1998-2013)和里面的程序运行一番。


下面稍微引荐一下中国工业企业数据库与海关数据库进行匹配合并的一些常用方法。后续国际经贸研究小组会把海关数据库(2000年之后的)引荐给社群群友


中国工业企业数据库和海关贸易数据库使用概况


在经验研究中,企业级和产品级的微观数据正在受到越来越多的重 视。数据是经验研究的根本,因此数据质量的好坏直接决定了经验研究 的质量。其中,中国工业企业数据库和海关贸易数据库成为国内外学者 研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果 广泛的发表在国内著名学术期刊上,包括《经济研究》、《管理世界》、 《经济学(季刊:》、《世界经济》等。


杨汝岱在《区位地理与企业出口产品价格差异研究》中用两个数 据库从区位地理的角度解释中国出口产品的价格差异,越偏远的地方, 企业出口产品的价格相对越低,初步反映出我国出口产业的梯度分工模 式。余淼杰在《企业出口强度与进口中间品贸易自由化:来自中国企业 的实证研究》一文中,使用中国制造企业数据和贸易数据,发现企业面 临的中间品关税的下降显著提高了企业的出口强度,即出口占销售的比 例。戴觅在《中国出口企业生产率之谜:加工贸易的作用》一文中,通过 2000-2006年企业一海关数据的分析表明,中国存在‘‘出口企业生产率之 谜”完全是由中国大量的加工贸易企业导致。除此之外,还有一系列研究运 用中国工业企业数据库和海关贸易数据库得出了很好的结论。


但是,将企业层面的生产数据和产品层面的贸易数据合并会面临一 定的技术问题。两组数据库的编码系统完全不同,企业数据库中企业编 号为9位,而贸易数据库中企业编号为10位,将两个数据库匹配起来 是有困难的。并且,两个数据库原始数据存在很多问题,如样本匹配混 乱、指标缺失、变量大小异常、侧度误差明显和变量定义模糊等严重问 题。本文介绍了将两个数据库合并的几种方法,并给出如何整理数据, 剔除异常值的步骤和建议。


二、两个数据库基本介绍


(—)中国工业企业数据库的基本介绍


中国制造业企业数据库由国家统计局建立,它的数据主要来自于样 本企业提交给当地统计局的季报和年报汇总。包括2000年到2006年每 年约230000个制造业企业的生产信息。这套数据包括了 3张会计报表: 损益表,资产负债表和现金流量表,共100多个会计变量。这套数据每 年涵盖的企业生产总值占中国总工业生产总值约95%,实际上《中国 统计年鉴》中的加总的工业数据就是从这套数据加总而来。数据包括两 大类型企业,所有国有企业以及年销售额在500万元以上的非国有企 业。企业数目从2000年的162885家增长到了 2006年的301961家。


(二)海关贸易数据库的基本介绍


海关数据库包括了 2000 - 2006年产品层面交易的月度数据。每个 产品都是在HS8位码上,产品数量从2000年1月的78种增加到2006 年12月的230种,每年平均的观测值数目由2000年的1000万增加到 2006年的1600万,最终这7年的观测值总数约为118333831个,大约 有286819家企业参与了国际贸易。


三、两个数据库合并的方法


(—)按企业名称对接两个数据库


根据企业的姓名和年份匹配,在同一年的两套数据中有相同的名字则认 为是同一个企业。年份这一变量对于匹配是重要的,因为一些企业在不同年 份企业名称可能不同,并且新进入的企业有可能采用他们原来的名称。


《中国的多产品出口企业及其产品范围:事实与解释》采用此种方 法,目的是为了剔除中间商。同时出现在海关数据库和工业企业数据库 中的企业必然不是纯粹的中间商,因此留下来的样本就是剔除了中间商 的样本。用此种方法合并,最后得到2000 -2005年的企业数量分别为 22631, 26038, 30629, 37103, 42259, 44136家。合并后的数据库企业 出口额达到了原海关数据中出口额的60%。这样,合并后的数据就近包 括有出口行为的工业企业的进出口和企业的投入产出信息。两篇文章匹配出的结果一样。


(二)使用邮政编码和电话号码对企业进行识别


通过企业的邮政编码和最后7位电话号码进行匹配,因为在每一个邮政地区中,企业的号码不同《加工贸易、企业生产率和关税减免 ——来自中国产品面的数据》_文采用此种方法。筛选之后,有 218024家企业的产品贸易数据(海关贸易数据)保持有效,占到了全 部640352个企业样本中的34%。同理,对企业数据集,剔除掉其中邮 政编码或电话号码无效的样本后,剩余的企业样本数为973207。继续按 照先前的标准进行筛选,则还剩下433273个企业样本,占到了 973207 家企业中的44. 5%。在此基础上,文章将产品贸易数据和企业生产数 据归并整合起来。


(三)采用企业名称以及邮政编码和电话号码两种方法匹配,然后取并集


《企业出口强度与进口中间品贸易自由化:来自中国企业的实证研 究》一文首先根据企业的姓名和年份匹配,在同一年的两套数据中有相 同的名字则认为是同一个企业。这样如果使用原始的工业企业数据,我 们可以匹配到83679家企业。如果使用筛选(根据‘‘通用会计准则” CGAPP)中的规定)过后的,我们可以匹配到69623家企业。第二种方 法通过企业的邮政编码和最后7位电话号码进行匹配。


一些企业有可能在工业库或海关库中没有汇报企业名称,同样,其 邮编和电话号码也可能只出现在一套数据中。为了保证能匹配到更多的 企业,将两种方法得到的数据取并集。如此,用原始工业企业数据成功 匹配的企业数有90558个。筛选(根据‘‘通用会计准则” (GAPP)中 的规定)后的有76823个。


(四)将企业名称拆分成若干词段,用这些词段去搜寻匹配


在数据匹配上, 首先按每家企业的企业名称完全匹配, 接下来将不能完全匹配上的海关库企业中,按贸易额大小排序,将每家企业的企业 名称拆分成若干词段,用这些词段去和工业库企业名称搜寻匹配,如果 每个词段都能匹配上,赋值匹配类型为“1”,如果只有部分词段匹配 上,按匹配要求的精度可逐步赋值。


四、小结和建议


从现有文献来看,合并两个数据库的主要方法有:1.通过企业名 称和年份进行匹配; 2.邮政编码和最后7位电话号码进行匹配; 3.将 企业名称分为若干词段来匹配; 4.代码表转换。由于第三种方法要求 匹配的精度不好确定,以及第四种方法代码表转换不全面,不建议使 用。建议使用第一种和第二种方法匹配所得到的数据取并集。

参考文献:

1钱学锋,王胜,陈勇兵.中国的多产品出口企业及其产品范围:事实与解释J .管理世界,2013 (01) : 9 -27.

2杨汝岱,李艳.区位地理与企业出口产品价格差异研究J管理世界,2013 (07) : 21 -30.

3]戴觅,余淼杰.中国出口企业生产率之谜:加工贸易的作用J .经济学:季刊,2014, 13 (02).

4]陈勇兵,李燕,周世民.中国企业出口持续时间及其决定因素J -经济研究,2012 (07) : 48 -61.

参考: 中国工业企业数据库以及海关贸易数据库合并方法概述(张学立)

相应的do file今后会放在计量社群里, 有需要可以下载参看。

推荐阅读:

0.中国所有地级市各类空间权重矩阵数据release

1.工企数据库匹配160大步骤的完整程序和相应数据

2.1998-2016年中国地级市年均PM2.5数据release

3.1997-2014中国市场化指数权威版本release

4.2005-2015中国分省分行业CO2数据circulation

5.匹配方法(matching)操作指南, 值得收藏的16篇文章

6.内生性问题操作指南, 广为流传的22篇文章

7.面板数据模型操作指南, 不得不看的16篇文章

8.实证研究中用到的135篇文章, 社科学者常用toolkit

计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈绝对六多精神:社科资料最多、社科数据最多、科研牛人最多、海外名校最多、热情互助最多、前沿趋势最多如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群在规则框架下社群交流讨论无时间限制。

文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存