查看原文
其他

企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)

企研数据 社科大数据 2022-12-31




前言

企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。

——杨奇明(企研数据CEO)

2022年8月16日于杭州·海聚中心





中国工业企业数据库与全量工商企业数据库匹配报告(上)

Part1引言

中国工业企业数据库全称为“全部国有及规模以上非国有工业企业数据库”(以下简称“工企库”),由中国国家统计局建立。工企库中的“工业”统计口径包括“国民经济行业分类”中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类。该数据库的样本范围曾经发生过两次变化,1998-2006年覆盖范围是全部国有工业企业及年主营业务收入500万元以上的非国有企业;2007-2010年,数据收集范围调整为年主营业务收入500万元及以上的所有工业企业;2011年开始,统计范围为年主营业务收入2000万元及以上的法人单位。
由于工企库包含众多企业微观层面的基本信息和财务数据,具有涵盖样本大、指标丰富、时间跨度长等特点,近十多年来被学者广泛应用,每年都有使用该数据库的新论文被公布或者发表,主题早已涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等诸多子学科(聂辉华等,2012)。近年来,一些学者开始将这一数据库与其他数据库进行横向匹配连接,以探索新的研究空间,如寇宗来和刘学悦(2020)将工企库与中国专利数据库(以下简称“专利库”)匹配融合,田巍和余淼杰(2013)将其与海关数据库匹配融合。各个企业微观数据库的连接,可以为相关学术研究提供更多变量组合,从而挖掘出更多的研究方向,能最大化各个数据库的使用价值。
目前,已有研究探讨了工企库与专利库、海关数据库匹配的问题,但其与中国全量工商企业数据库(以下简称“工商库”)匹配的研究还很罕见。本文旨在通过工企库与工商库包含的共有信息完成两个数据库的横向匹配,为工企库添加统一标准的工商企业唯一标识码。这一工作有助于帮助我们将工企库的应用范围进一步拓展。具体来说,本文将工企库与工商库进行匹配的意义至少体现在如下四个方面:
第一,扩充数据维度。工企库与工商库联接之后,可以获得规模以上工业企业历年股权投资、开设分支机构等信息,甚至可以利用2013年至今的企业工商年报数据,进一步丰富数据库的变量指标,为研究提供更多可能性。
第二,有助于验证工企库的数据质量。工企库与工商库匹配后,可以获得企业的工商登记及其变更信息。已有对工企库数据质量的研究表明,该数据库的指标存在样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等现象(聂辉华等,2012)。工商库来源于国家企业信用信息公示系统,属于公共行政数据,近年来信息质量和准确性不断提升。通过添加企业的工商注册信息,可为工企库中部分数据信息质量核验提供新的依据。
第三,改进工企库纵向匹配的质量。过往学者在对工企库进行利用时,需要解决的一个重点难题便是将历年数据整合成面板数据,这就需要应用不同年份中相同且可以识别出企业的变量来逐年对数据库进行纵向连接(Brandt et al,2014;杨汝岱,2015)。然而,无论从工作量还是工作难度上看,这种处理办法都不是最经济的。通过与拥有企业唯一识别码的工商库的横向连接,可以为历年工企库中的样本匹配一个标准企业唯一标识码,从而轻松构建面板数据。
第四,提升跨数据库横向匹配的质量。引入工商库的企业唯一标识码,能更好地搭建起与其他数据库(包括专利库和海关数据库)横向连接的桥梁,不仅提升了跨数据库之间的横向匹配效率,还能显著提高匹配的准确度。具体来说,工企库与其他企业相关数据库之间的匹配,可以利用与工商库匹配得到的企业唯一标识码进行匹配,或者至少能够补充原来的匹配结果(本团队利用本文匹配成果支撑了工企库与专利库的匹配工作,详情参见《中国工业企业数据库与专利数据库匹配报告》)。

Part2匹配方法的提出

1已有匹配方法概述

工企库与工商库的科学精准匹配,需要合适的匹配变量和科学有效的匹配方法。目前,有不少学者对围绕工企库的匹配作了很多工作,其中所用的匹配方法和相关经验值得借鉴。

总体上说,使用企业名称信息进行数据库之间横向匹配和工企库内部纵向匹配是已有研究的普遍做法。因为匹配目标的不同,学者们具体利用的匹配变量和方法也存在较为明显的差异。例如,在跨数据库横向匹配方面,Yu和Tian(2012)采用了“企业名称+年份”以及“邮政编码+电话”来匹配工企库和海关数据库,寇宗来(2020)采用“企业全称”、“企业简称”、“企业关键词”三个步骤来匹配工企库和专利库。在工企库自身清洗构建面板数据方面,Brandt et al.(2014)主要通过“企业ID”与“企业名称”匹配相邻两年的数据,倘若第一年有的数据第二年的数据没有,则再依据“法人代表姓名”、“电话号码”、“地址”、“主要产品名称”、“行政区划代码”、“行业代码”、“成立年份”等变量的组合进行识别匹配,依据此法最终构建出一个11年的工业企业非平衡面板,杨汝岱(2015)则在Brandt et al.(2014)的匹配方法基础上稍加“改进”,将“邮政编码+行业代码+主要产品+所在县名称+开工年份” 替换成“地区代码( 县 )+电话号码+成立年份” 来构造面板数据。

尽管使用企业名称信息是通用做法,但我们认为过分依赖企业名称匹配可能会存在较为严重的问题。一方面,理论上可能存在如下情况:一家企业“A”在t年变更名称为“B”,而另外一家企业“C”在当年(“A”更名为“B”后)变更名称为“A”,于是跨年甚至同一年的数据中,可能存在两家名为“A”的企业,但实质上并不是同一家企业。因此,使用企业名称无论是横向匹配还是纵向匹配,均会存在误匹的情况。另一方面,由于企业在不同库之间登记信息存在人为登记错误或系统性的时滞误差(比如不同数据库信息采集时间的不一致,一个采用旧名,一个采用变更后新名登记),采用不同库登记的企业名称匹配会造成少匹、错匹、误匹等情况出现。

更近一步地,也有学者(如Xie & Zhang,2015;He et al,2018)采用对企业名称“掐头去尾”后的企业简称来进行匹配,即把企业名称中的地名以及“有限”、“责任”、“公司”、“厂”、“股份”等后缀字样去掉,只留下企业名称中的“主体”部分来进行匹配。然而,采用该方法也会存在错匹、多匹的问题。例如,假设有三家企业,分别叫做“ABC有限责任公司”、“ABC厂”、“ABC股份有限公司”,其企业简称均为“ABC”,显然用简称匹配会造成多对多的匹配结果。如果遇到一家企业包含多个分公司,通过“掐头去尾”更是达不到匹配的要求,下图中的“陕西三忻集团实业有限责任公司”及其分公司和“陕西汉江投资开发有限公司喜河水力发电厂”、“陕西汉江投资开发有限公司蜀河水力发电厂”就充分验证了该点。

图1 工企库数据实例

2本文所用的匹配方法

综合以上问题,本着充分利用所拥有信息的考虑,我们首先通过比对工企库和工商库中的共同字段,筛选出能有效识别和判断企业身份信息的字段作为我们的匹配变量,并对前文出现的问题有针对性地加以改进,具体体现在如下三个方面:
首先,从工商库中挖掘可用于匹配的变量。目前全量的工商企业数据库中已经使用统一社会信用代码,但时间较早的工企库中使用的是组织机构代码。幸运的是,从代码构成信息来看,前者包含后者的信息,因而可以将组织机构代码作为两个数据库匹配的关键变量。此外,两个数据库中均存在工商注册号,同样可以作为匹配变量。以机构代码作为匹配信息的详细依据与过程请见团队在数据seminar公众号上的推文《如何用机构代码唯一识别企业(科普篇)》《如何用机构代码唯一识别企业(实践篇)》
其次,优化企业名称匹配方案。企业名称匹配方案中引入企业历史名称,首先将我国历史上登记注册过的全部企业在其各自完整生命周期内(自注册开始直至注销或吊销,尚在经营的则更新到最新时间)的企业名称整合成一张表(我们称之为企业历史名称拉链表),然后将工企库的企业名称与该表中企业名称进行精确匹配,如果能够唯一匹配,即为我们所要的结果,如果匹配上多条记录,说明企业名称可能被多家企业所用,这种情况需要采用或者辅以其他匹配变量进行匹配。
最后,依靠多个变量开展匹配。假定一个地区在某一时期(工企库数据只能具体到月份)里法定代表人姓名可以唯一确定一家企业,那么可以选用工企库中的设立年份、设立月份、行政区划代码、法定代表人四个变量与工商库中相应的变量进行匹配。从变量组合唯一识别率角度上看,工商库中利用这四个变量唯一识别率高达96.78%,说明这种组合不失为一种合理且成功的识别变量组合。
未完待续...

加入企研·社科大数据平台数据分享群,获取更多数据资源及新鲜资讯





推荐关注

END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


TFID | 普惠小微主体子库 — 登记注册模块&投融资模块介绍

TFID | 普惠小微主体数据库(2022版)正式上线!

TFID | 证券业普惠专题数据库(2022版)正式上线!

CCAD | 赠送相关数据!2022教育部课题公示:“三农”立项课题有哪些?

企研·社科大数据平台 | 七月我们上新了这些数据库...

课题资讯 | 2022教育部课题公示:绿色发展领域课题有哪些?


戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存