前言企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。
——杨奇明(企研数据CEO)
2022年8月16日于杭州·海聚中心
目录(滑动查看)一、引言
二、海关数据库清理
(一)各个版本数据库的对比
(二)数据存在的问题及处理
1. 指标数量不一致
2. 信息缺失或错误
3. 数据重复问题
三、海关库与工商库的匹配
(一)匹配方法
1.融合变量
2. 匹配思路
(二)匹配结果
参考文献
附录
海关数据库与工商库的匹配报告(上)
Part1前言
企业是现代社会经济活动中最重要的微观经济运行单元之一,因此企业微观数据也是微观经济学各领域研究所需的核心资料。近年来,学者们试图将各个维度的企业微观数据进行横向连接匹配,以达到充分开发利用这些微观数据研究价值的目的。企研数据团队已陆续发布了有关工企库-工商库,专利库-工企库之间两两匹配的推文。本文讨论的是如何将中国产品级别的海关数据库(以下简称“海关库”)与中国全量企业工商登记注册数据库(以下简称“工商库”)进行匹配的问题。海关库与工商库的匹配具有重要意义。首先,近年来,除了工企库、专利库,海关库也被越来越多的学者采纳使用,并发表了不少高质量的研究成果(余淼杰,2013),而工商库拥有数以百计的变量,清理精加工后可以应用于学术研究;其次,作为理论上拥有全量企业基本信息的工商库,可以起到作为桥梁连接其他企业数据库的独特作用,因此海关库与工商库匹配之后,其与其他企业数据库的匹配就能方便得多;第三,海关数据库侧重于产品层面,工商库则更多刻画的是企业画像。两个数据库的融合不仅是字段的简单拼凑,更体现在企业贸易行为与企业组织行为的研究主题融合。总之,海关库与数据库的融合无疑为广大学者提供了更多的研究视角。然而,工商库动辄千万甚至上亿的数据,对于大部分学者来说不仅清洗难度极大,而且清洗效率极低。为此,企研数据团队利用自身的技术力量和工作经验,完成了相关的数据清洗和匹配工作。我们将经验分享出来,目的就是给学者使用相关数据提供便利,同时也是就教于各位方家。接下来,我们首先对海关库进行必要的清洗,然后将其与工商库匹配。Part2海关数据库清理
海关数据库记载了通关企业的每一条进出口交易信息,包括但不限于以下指标:税号编码、税号、金额、数量、价格、企业编码、经营单位、单位地址、电话、传真、邮编、电子邮件、联系人、消费地进口/生产地出口、企业性质、起运国或目的国、海关口岸、贸易方式、运输方式、中转国、数量单位编码、数量单位等。本文所指的海关数据库,是指来自中国海关总署的产品层面的月度交易数据。(一)各个版本数据库的对比
我们在实际匹配过程中,共用到两套来源不同的海关数据库 (以下我们将以 “版本1”和“版本2”进行指代称呼),其中版本1年份跨度为2000-2013年,版本2年份跨度为2007-2016年。我们将余淼杰(2014)所提供的统计数据与版本1和版本2一同进行比较,比较结果如表1所示。分版本来看,版本1的海关数据库观测值数目由2000年的1059.82万增加到2013年的1659.59万,年均增长3.51%,相应的,参与了国际贸易的企业数则由80231增至338608,年均增幅达11.71%;版本2的海关数据库每年观测值数目由2007年的1056.64万增加到2016年的1728.84万,年均增长5.62%,参与了国际贸易的企业从231492家增加至 719922家,年均增长13.44%。余淼杰(2014)所用数据覆盖2000-2006年,其数据量从2000年的1058.67万增至2006年的1668.54万,参与了国际贸易的企业则由8023家增加到2006年的286819家。由于三份数据时间跨度不一致,我们将其分成2000-2006年、2007-2013年两个时间段进行比较(2014-2016年由于没有数据重叠,此处无法进行比较),详细对比情况如图1所示。
首先来看数据量,第一个时间段比较的是版本1与余淼杰(2014)所用数据,可以看出,两份数据在7年间互有高低,其中2000年、2001年和2006年版本1的数据量要多于余淼杰(2014),其余年份则少于余淼杰(2014)。其中两个版本在2000年数据量差距最小,仅相差1.16万条;2006年差距最大,数据量之差达到897.64万。第二个时间段比较的是版本1与版本2,可以看出2011年之前,版本1与版本2的数据量差距较小,差距在3.99万-6.92万条之间,随后两年两个版本之间的数据量之差较大,2012年-2013年版本1较版本2分别多出88.17万、89.49万条数据。综合来看,在可以比较的年份,绝对数量差距最大的是2003-2006年,皆来自版本1与余淼杰(2014)版的对比。相比较而言,2007-2013年,两份数据的差异较小。其次,我们对比参与了国际贸易的企业数(具体如图2所示),结果跟数据量的对比有较为明显的差异。对比也遵循前文所述两个时间段进行比较,先看2000-2006年,版本1与余淼杰(2014)版的企业数量总体较为接近,其中2000年、2001年、2003年、2004年差距仅为1家,最大差距为2005年的2404家。相比前一阶段两个版本的比较,2007-2013年间,企业差距数明显变大,且除2012年,版本1的企业数量均要少于版本2。对比图1图2,后者这一时期两个版本企业数的差异幅度明显大于数据量的差异幅度。(二)数据存在的问题及处理
根据前文可知,不同版本的海关库数据量存在着一定的差异。事实上,每个版本内部的数据也并非完全一致,存在指标缺失、数据重复等各种问题。因此,本部分将从海关库内部数据质量出发,重点介绍指标缺失、信息缺失或错误、数据重复三种问题,以及处理上述问题的逻辑方法。1. 指标数量不一致
根据图3,版本1各年份指标数量在22-32之间不等,更有甚者,同一年不同月份也出现了指标个数不一致的情况,如2015年12月份有23个指标,而其余月份有32个指标。与版本1相比,版本2的指标数量虽然各年份指标数能够保持一致,但指标个数较少,仅为11个指标。考虑到后续融合时字段统一的问题,我们将两个版本所有年份的指标都按照最多的字段进行补充。即以2005年的32个字段为标准,其余所有年份均进行查漏补缺。另外,由于原始数据同一年份的数据来源于不同的文件,因此为保证数据来源的可追溯性,我们添加了“文件来源”这一字段,最终每年数据指标个数为33个。具体指标分布情况请见文末附表。2. 信息缺失或错误
海关库原始数据存在的另一个问题就是字段信息可能有缺失或错误。以图4数据库截取的部分数据举例,第5列“JCK_SHCN(税号中文)”字段存在信息缺失,而第10列“JCK_ENTNAME(经营单位)”填列的“非贸易品”明显为错填信息。针对部分同时存在中英文的字段,即两个字段互相对应或存在解释关系,只要二者有一个非空,就可以利用相应非缺失的字段对缺失的字段进行补齐。如图4中的第4列“JCK_SHID(税号编码)”与第5列的“JCK_SHCN(税号中文)”,因为前者是后者的中文编码,因此根据编码对照表,我们就可以对后者缺失的数据进行补齐。针对没有对应信息的指标,如第10列的“JCK_ENTNAME(经营单位)”,则可能需要依靠工商库等外界信息进行更正。3. 数据重复问题
对两个版本的原始数据进行查重,发现版本1中存在一定数量的重复(即所有字段均一样),版本2每条数据均唯一,两个版本数据去重前后样本数对比如表3所示。针对版本1,对比去重前后数据发现,2001年的重复量最高,达到了2055170条,重复率高达14.68%,大量重复数据可能也是2001年版本1数量比余淼杰(2014)多的原因之一。其次是2013年有43691条重复数据,重复率0.26%,其余年份重复量较少或者无重复。表3 不同版本海关数据库去重前后样本数分布比较
由于海关数据是日度交易数据,考虑到版本1的海关库数据日期信息只有年月,并未精确到日,因此虽然存在重复,但我们暂时也无法确定其是否真正为重复数据而将其删除。为了验证重复数据的可靠性,我们从中华人民共和国商务部和中华人民共和国海关总署收集到进口和出口贸易总值数据,针对不同年份贸易金额数据按进口和出口进行加总,然后进行对比,具体结果见表4。表4 不同渠道海关数据库进出口贸易总值与官方对照
官方数据:这里所指官方数据由两部分构成,2000-2005年数据来源于中华人民共和国商务部《中国对外贸易形势报告》统计资料,2006-2016年数据来源于中华人民共和国海关总署统计数据。
对比各年份数据量重复情况以及与官方数据对照的进出口贸易总值后,不难发现,海关库进口和出口总值和官方数据相差较大的年份,与原始数据量重复较多的年份基本吻合。因此,在与工商库数据融合之前,我们将对原始数据去重,然后进行接下来的匹配工作。
关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入
企研·社科大数据平台数据分享群
·END·星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧