查看原文
其他

企业数据库匹配系列(五)|海关库与工企库匹配报告

企研数据 社科大数据 2022-12-31


前言

企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。

——杨奇明(企研数据CEO)

2022年8月16日于杭州·海聚中心



目录(滑动查看)

一、引言

二、已有匹配方法概述

三、本文匹配方法

(一)融合变量

(二)匹配思路

(三)匹配步骤

四、匹配结果

五、参考文献 

公众号对话框内发送关键词“20221002”即可获取海关库与工商库匹配报告PDF版。

海关库与工企库匹配报告

Part1引言

相较于宏观数据较为平滑、波动小、滞后于市场的特点,微观数据更能见微知著,反映出一些特定的经济事实与经济现象,因此在科研工作中,越来越多的学者将视野从宏观数据转向微观数据中。在我国学术圈中,工企库和海关库是常用的大型涉企微观数据库,越来越多的高校图书馆或者科研机构采购工企库和海关库数据。工企库全称为“全部国有及规模以上非国有工企库”,反映的是我国国有企业以及规模以上非国有工业企业的生产情况,目前常见的文献年份覆盖范围1998-2013;海关数据库来自中国海关总署,记录了企业产品层面的进出口贸易数据,本文简称其为“海关库”,目前常见的覆盖范围是2000-2017年。连接工企库与海关库,在信息扩充的基础上可以大大丰富研究主题与研究视野,比如出口企业的生产率问题(田巍和余淼杰,2013)、多产品出口企业的特征与背后经济力量(钱学峰等,2013)等。
本文将在回顾已有研究采用的匹配思路和方案的基础上,特别是依靠团队完成的海关库与工商库(全称“全量企业工商注册信息数据库”)的匹配结果,提出新的关于工企库与海关库完整匹配的方案,这是上述两份数据库匹配的新解决方案。需要提醒的是,本匹配中的海关库、工企库是指海关库与工商库匹配报告工企库与工商库匹配报告中的最终匹配结果表,即包含企业唯一识别码字段。考虑到数据库的年份跨度,海关最终结果表选自于海关库与工商库报告中提及的海关数据库的版本1。

Part2已有匹配方法概述

关于工企库与海关库的匹配,综合以往学者相关文献,总体来看,企业名称、邮政编码加电话号码是最为普遍的两种匹配方案
陈勇兵等(2012)以及钱雪峰等(2013)仅采用企业名称将2000-2005年的海关库与工企库关联起来。两篇文章均指出,同时出现在海关库和工企库中的企业必然不是纯粹的贸易中间商,因此留下来的样本就是剔除了中间商的样本,对接后的数据仅包括有出口行为的工业企业的进出口和企业的投入产出信息,最终得到2000- 2005年的企业数量分别为22631、26038、30629、37103、42259和44136家。余淼杰(2011)从每个企业都会归属于一个邮政区域,并有自己独享且唯一的电话号码的信息出发,针对2000-2006年的数据,剔除掉没有邮政编码或联系电话、邮政编码无效 (即编码数字小于100000)、7 位电话号码无效的企业后,通过企业邮政编码最后7位电话号码进行匹配,7年最终成功匹配出31393家企业。可见,同样的数据(当然,现实当中的确存在理论上一样的数据,但实际来源不同却存在很大差异的情况,详见我们上一篇关于海关库与工商库匹配的推文)采用不同的匹配方法,匹配的结果会出现较大差异。田巍和余淼杰(2013)认定同一家企业的条件是同一年的两套数据包含相同的企业名称,于是,2000-2006年使用未经处理的工企库数据共可以匹配到83679家企业,如果使用筛选[1]后的工业企业数据,则可以匹配到69623家企业。剩余未匹配到的数据采用企业的邮政编码最后7位电话号码进行匹配,两者取并集后,最终未经处理的工业企业数据可以成功匹配出企业数有90558个,采用筛选后的工业企业数据有76823个,这比余淼杰(2011)剔除相应数据后,仅采邮编和电话的匹配数量要多不少,原因之一可能是剔除掉的数据可以用企业名称进行匹配。

Part3本文匹配方法

(一)融合变量

在数据库的横向匹配中,挑选合适的融合变量和采取有效的融合方法至关重要。本报告的匹配对象为工企库与海关库,此前团队对两个数据库均进行了与工商库的匹配工作(即工企库与工商库的匹配海关库与工商库的匹配),从而海关库和工商库均获得了来自工商库的企业唯一识别码,这为工企库与海关库匹配效率的提升带来了巨大益处。此外,通过比对工企库与海关库中的共有字段, 筛选出能够识别确定企业身份信息的字段作为我们的关键融合变量,能进一步补充并提升两个数据库的匹配率。根据数据库实际情况,我们筛选出机构代码、企业名称、邮编以及电话号码等融合变量,具体如表1所示。

表1 融合变量清单

统一社会信用代码:海关库数据并无统一社会信用代码字段,但通过与海关信用注册信息表进行匹配,可以获取该字段。

组织机构代码:参考《全国组织机构代码编制规则(GB11714-1997)》和《法人和其他组织统一社会信用代码编码规则(GB32100-2015)》。

1. 企业唯一识别码

企业唯一识别码来源于企研数据掌握的工商库,可精准识别并唯一确定一家企业。考虑到企业存在变更名字的可能性,该企业唯一识别码还能识别对应出一家企业历史上出现的名称,确保识别匹配的精准无误。

2. 机构代码

机构代码同样是各类组织的身份ID,以组织机构代码、统一社会信用代码为典型代表。前者是对中华人民共和国境内依法注册、依法登记的机关,企、事业单位,社会团体和民办非企业单位颁发一个在全国范围内唯一的、始终不变的代码标识;后者是2015年国家推出的以组织机构代码为基础的法人和其他组织的统一社会信用代码制度,由登记管理部门代码、机构类别代码、登记管理机关行政区划码、主体标识码(组织机构代码)、校验码五个部分组成。自此之后,组织机构代码就被统一信用代码所替代。然而,从代码构成方式上,统一社会信用代码的主体标识码即为组织机构代码,这也为工企库和海关库的匹配提供了桥梁。事实上,通过统一社会信用代码的连接还需要借助另一机构代码——海关注册编码。通过海关库与海关信用注册信息表的共有字段——海关注册编码,为海关库获取得到统一社会信用代码,进而实现前文所述的匹配。

3. 企业名称

企业名称是相关研究开展数据库匹配最为常用的字段之一,利用企业名称,可直接将同一家企业在不同数据库的信息连接起来。作为精确匹配,企业名称的信息质量高低会直接影响匹配结果。如企业名称中包含括号,若在工企库和海关库中分别为中文括号和英文括号,则会导致匹配失败。因此,为提高匹配率,我们采取的方法是将企业名称标准化(我们在前面的推文中已多次提及相关的做法),再进行后续的融合。

4. 邮政编码

我国的邮政编码采用四级六位数编码结构。前两位数字表示省(直辖市、自治区);第三位数字表示邮区;第四位数字表示县(市);最后两位数字表示投递局(所)。如邮政编码050001,它的前两位数05表示河北省,第三四位数00表示是石家庄的,最后01表示石家庄市中宁胡同。通过即通过邮政编码可以确定该企业的所属区域。

5. 电话号码

一般情况下,电话号码可以直接标识一家企业,原因是不可能存在两家企业共享电话号码。考虑到部分地区固定电话存在升位的可能,如由7位数升位到八位数,本报告借鉴余淼杰(2011)的做法,采用电话号码后7位作为匹配信息。通过邮编和电话号码信息结合起来,利用“邮编+电话号码后7位”两个字段的结合,可以标识企业,因为每个企业都会属于某个邮政区域,并有自己独享并且唯一的电话号码(余淼杰,2011)。

(二)匹配思路

本报告所使用的工企库和海关库,均来源于已匹配工商库的版本,即均包含企业唯一识别码。需注意的是,由于工企库和海关库各自与工商库的匹配率并非百分之百,因而工企库和海关库中的企业唯一识别码字段可能会含空值。这也意味着工企库和海关库的匹配仍需要借助传统匹配方法。
具体来说,工企库和海关库的匹配工作可分为两个部分:一是利用共有的中间字段企业唯一识别码,二是将工企库与海关库直接匹配。直接匹配采用的三种方法即为“组织机构代码”、“企业名称”、“邮编+电话号码后7位”。详细匹配思路见流程图1。
图1 匹配流程图

(三)匹配步骤

整个匹配框架分为企业唯一识别码匹配,以及工企库与海关库利用相关字段直接匹配两个部分。直接匹配部分又分为三个步骤,一是组织机构代码匹配,二是企业名称匹配,三是邮编+电话号码后7位。

1. “企业唯一识别码”匹配

逐年提取工企库和海关库数据,以共有字段企业唯一识别码为桥梁,匹配工企库和海关库。取唯一识别部分为本部分成功匹配的部分,非唯一识别部分以及无法匹配部分进入到下一阶段进匹配,即直接匹配部分。具体过程如下。

2. 直接匹配

①“机构代码”匹配
STEP1,分年抽取工企库和海关库的剩余样本,首先将海关库剩余样本的海关注册编码字段去重,利用海关信用注册信息表的唯一海关注册编码字段,与海关库的唯一海关注册编码相连接,为海关库匹配得到海关信用注册信息表中的统一社会信用代码。随后以海关注册编码字段为连接条件将统一社会信用代码唯一匹配部分匹配回海关剩余样本数据,获取完整进出口产品信息。
STEP2,利用海关库已匹配好的统一社会信用代码提取组织机构代码(具体是截取统一社会信用代码第9至17位),然后与工企库剩余样本中的组织机构代码匹配,得到以“组织机构代码”为桥梁的工业与海关融合数据。同样,本部分匹配结果取唯一匹配部分,非唯一匹配以及无法匹配部分进入到下一阶段进行匹配。
②“企业名称”匹配
STEP1,将剩余未匹配的样本进行企业名称标准化并去重。精确匹配方法下, 任何一个字符不一致都会导致匹配失败,因此在使用企业名称进行匹配前,有必要对工企库与海关库的企业名称进行标准化处理,诸如将企业名称中含有的中文括号、英文括号、空格、特殊符号等去掉,中文表示的数字或阿拉伯数字统一更换为阿拉伯数字等等(详细的处理办法请见社科大数据公众号推文《企业数据库匹配系列(三)|专利库与工企库匹配报告(下)》 )。在标准化后,对企业名称进行去重处理,企业名称唯一部分进行下一步的连接。
STEP2,以标准化后的企业名称作为连接条件,匹配工企库剩余样本与海关库剩余样本。取唯一匹配部分,非唯一匹配以及无法匹配部分进入到下一阶段进行匹配。
③“邮编+电话号码后7位”匹配
将以上三种匹配方法均未成功匹配的样本,进一步采用邮编和电话号码后7位的组合信息作为连接条件,匹配工企库剩余样本与海关库剩余样本。当邮编和电话号码后7位在工企库和海关库中一致时,即为匹配成功。

Part4匹配结果

表1显示了依次采用“企业唯一识别码”、“组织机构代码”、“企业名称”和“邮编+电话号码后7位”的匹配结果。
逐年计算企业唯一识别码、组织机构代码、邮编+电话号码后7位三种匹配方法匹配出的数据量在全部匹配成功数据中的占比。可以看到,在成功完成匹配的数据中,大部分早在第一步企业唯一识别码匹配阶段就已匹配成功,数据量的匹配率随着年份的推移明显升高,由2001年低点89.96%一路上升到2013年的99.52%。与数据量匹配率的计算方法类似,分别计算三种匹配方法匹配出的企业数与全部匹配出的企业数占比,发现企业数的匹配率与数据量的匹配率趋势总体一致,其由2000年85.82%的历年最低匹配率,升至2012年历年最高值99.33%。显然,利用企业唯一识别码对于两个数据库的匹配带来了巨大的效率提升,反映出我们前期将工企库与海关库分别与工商库做匹配的工作具有巨大价值。
此外,工企库与海关库直接匹配阶段,利用“组织机构代码”匹配的效果相对一般,而“企业名称”匹配和“邮编+电话号码后7位”匹配效果则相对较好。

表1 工企库-海关库分步骤匹配结果

进一步地,为了检验匹配结果的优劣,我们与余淼杰(2013)展示的匹配结果进行对比。鉴于余淼杰(2013)的匹配范围仅在2000-2006年,2007-2013年暂无学者展示匹配结果,因此我们只能对比前7年的匹配数据,2007-2013年此处不做讨论。详细匹配对照情况见表2。

表2 工企库-海关库匹配情况及对照

注:余淼杰(2013)未提供匹配数据量。 
从上表匹配数据的对照情况来看,相较于余淼杰(2013)版本的匹配数据,我们经过“企业唯一识别码”、“组织机构代码”、“企业名称”和“邮编+电话号码后7位”四步骤匹配后,2000-2006各年匹配上的企业数量均大幅增加。这一结果说明,工企库和海关库匹配融合的这项工作中,我们采用的方法能够为改进匹配效果做出贡献。至于经过四步骤后仍未匹配上的数据,有待于今后更优方法或者更多的信息来修正与补充。

Part5参考文献

[1] 陈勇兵、李燕、周世民.中国企业出口持续时间及其决定因素[J].经济研究.2012(7):48-61

[2] 钱学锋、王盛、陈勇兵.中国的多产品出口企业及其产品范围:事实与解释[J].管理世界.2013(1):9-27

[3] 余淼杰.加工贸易、企业生产率和关税减免——来自中国产品面的数据[J].经济学(季刊).2011(7):1251-1280

[4] 田巍、余淼杰.企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究[J]. 管理世界(月刊)》.2013(1):28-44。

[5] 余淼杰.加工贸易与中国企业生产率:企业异质性理论和实证研究[M].北京:北京大学出版社,2013.

注释

[1]

 即按照“GAAP”标准筛选和处理。


系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)企业数据库匹配系列(四)|海关库与工商库匹配报告(上)
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)



关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入
企研·社科大数据平台数据分享群




·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


企业数据库匹配系列(三)|海关库与工商库匹配报告(上)

成绩报告单 | 首篇《经济研究》!CCAD再助学者发顶刊!

课题资讯 | 2022国家社科 — 共同富裕领域立项课题

课题资讯 | 2022国家社科立项:普惠金融领域立项课题有哪些?

课题资讯 | 数字经济领域的国家社科立项:浙江这所高校排名第一!



戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存