企业数据库匹配系列(四)|海关库与工商库匹配报告(下)
前言
企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。
——杨奇明(企研数据CEO)
2022年8月16日于杭州·海聚中心
本文承接自企业数据库匹配系列(四)|海关库与工商库匹配报告(上),欢迎阅读查看。(原文标题序号有误)
公众号对话框内发送关键词“20220930”即可获取海关库与工商库匹配报告PDF版。
一、引言
二、海关数据库清理
(一)各个版本数据库的对比
(二)数据存在的问题及处理
1. 指标数量不一致
2. 信息缺失或错误
3. 数据重复问题
三、海关库与工商库的匹配
(一)匹配方法
1. 融合变量
2. 匹配思路
(二)匹配结果
参考文献
附录
Part3海关库与工商库的匹配
(一)匹配方法
1. 融合变量
表5 融合变量清单
海关注册编码:即海关注册号,是报关单位《进出口货物收发货人报关注册登记证书》上的 10 位数字登记编码,为企业唯一的和终身的经营单位编码。 统一社会信用代码:工商企业数据库中,企业登记的是工商注册号。2015 年商事制度改革后,企业统一登记“统一社会信用代码”。 组织机构代码:参考《全国组织机构代码编制规则(GB11714-1997)》和《法人和其他组织统一社会信用代码编码规则(GB32100-2015)》。
2. 匹配思路
以上是以“海关信用注册信息表”作为桥梁,利用“海关注册编码+统一社会信用代码”进行匹配的主要步骤。保留经过“海关注册编码+统一社会信用代码”进行匹配后没有成功匹配上的剩余样本,再进行下一步“企业名称”匹配。①“组织机构代码”的匹配涵盖了整个匹配过程的前四步。
STEP1:对海关库进行海关注册编码去重。逐年抽取进出口贸易数据,以海关注册编码为关键词将样本进行去重,确保海关注册编码能唯一识别企业。
STEP2:对海关信用注册信息表进行海关注册编码去重。为了增加与工商库的融合字段,我们引入了海关信用注册信息表[1] ,其既包含了海关注册编码字段,也包含了统一社会信用代码。与海关库类似,为了确保海关库与海关信用注册信息表的匹配结果都是在唯一识别的前提下进行,我们同样对海关信用注册信息表按照海关注册编码进行去重处理。
STEP3:以海关注册编码为媒介,为海关库匹配上统一社会信用代码。通过海关注册编码,我们将海关库与海关信用注册信息表联结起来,为海关库匹配上统一社会信用代码,进而为后续与工商库的匹配提供了必要基础。
STEP4:匹配海关库与工商库,为海关库获取企业唯一识别码。利用海关库已匹配好的统一社会信用代码与工商库联结,可以获取工商库的工商企业唯一识别码。在实际匹配过程中,会出现唯一匹配、非唯一匹配、无法匹配三种情况,唯一匹配是指海关库与工商库的统一社会信用代码一一对应,非唯一匹配是指海关库的统一社会信用代码可能指向多家工商库企业(如,在海关信用注册信息表中,多个海关注册编码对应着同一个社会信用代码,就会造成后文社会信用代码的非唯一匹配),无法匹配是指海关库的统一社会信用代码无法匹配上工商库的统一社会信用代码。为了保证匹配的精确程度,该步骤我们仅取唯一识别部分,并将唯一识别部分以海关注册编码字段为连接条件,匹配回原始海关数据。
②“企业名称”匹配:
STEP5:剩余样本企业名称标准化后去重。由于企业名称匹配是精确匹配,因此任一字符不一致都会导致匹配失败。如一家企业名称包含括号的企业,在海关库中显示为英文括号“()”,而在工商库中为中文括号“()”,精确匹配方法下,若不进行企业名称文本标准化处理,就会因为括号而导致无法匹配。基于以上说明,我们针对剩余样本的企业名称进行了标准化处理,包括去除中英文括号,替换中文数字为阿拉伯数字等等(详细处理方案参见《中国工业企业数据库与专利数据库匹配报告》)。如字母全角转换成半角、括号格式统一成“()”、空格符的删除等等。在标准化的基础上,我们根据标准化后的企业名称对剩余样本进行去重处理。
STEP6:工商库企业名称标准化后去重。参照STEP5的做法,我们对工商库中企业的名称同样进行标准化处理,然后去重得到名称唯一的企业。
STEP7:以海关库与工商库的共有变量“企业名称”企业名称为连接条件,为剩余样本企业获取唯一识别码。同样,在唯一匹配、非唯一匹配、无法匹配三种结果中,仅保留唯一匹配部分,并将唯一匹配部分匹配回剩余样本。
(二)匹配结果
Part4参考文献
[1] 戴觅、余淼杰、Madhura Maitra.中国出口企业生产率之谜:加工贸易的作用.经济学(季刊)2014(1):675-698.
[2] 余淼杰.加工贸易与中国企业生产率:企业异质性理论和实证研究[M].北京:北京大学出版社,2013:318-321.
Part5附录
附表 两个版本海关数据库指标分布比较
注释
[1]海关信用注册信息表: 海关信用注册信息表来源于中国海关企业进出口信用信息公示平台。
系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)企业数据库匹配系列(四)|海关库与工商库匹配报告(上)
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)
企研·社科大数据平台数据分享群
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐