中国工业企业数据库全称为“全部国有及规模以上非国有工业企业数据库”(以下简称“工企库”),由中国国家统计局建立。工企库中的“工业”统计口径包括“国民经济行业分类”中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类。该数据库的样本范围曾经发生过两次变化,1998-2006年覆盖范围是全部国有工业企业及年主营业务收入500万元以上的非国有企业;2007-2010年,数据收集范围调整为年主营业务收入500万元及以上的所有工业企业;2011年开始,统计范围为年主营业务收入2000万元及以上的法人单位。由于工企库包含众多企业微观层面的基本信息和财务数据,具有涵盖样本大、指标丰富、时间跨度长等特点,近十多年来被学者广泛应用,每年都有使用该数据库的新论文被公布或者发表,主题早已涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等诸多子学科(聂辉华等,2012)。近年来,一些学者开始将这一数据库与其他数据库进行横向匹配连接,以探索新的研究空间,如寇宗来和刘学悦(2020)将工企库与中国专利数据库(以下简称“专利库”)匹配融合,田巍和余淼杰(2013)将其与海关数据库匹配融合。各个企业微观数据库的连接,可以为相关学术研究提供更多变量组合,从而挖掘出更多的研究方向,能最大化各个数据库的使用价值。目前,已有研究探讨了工企库与专利库、海关数据库匹配的问题,但其与中国全量工商企业数据库(以下简称“工商库”)匹配的研究还很罕见。本文旨在通过工企库与工商库包含的共有信息完成两个数据库的横向匹配,为工企库添加统一标准的工商企业唯一标识码。这一工作有助于帮助我们将工企库的应用范围进一步拓展。具体来说,本文将工企库与工商库进行匹配的意义至少体现在如下四个方面:第一,扩充数据维度。工企库与工商库联接之后,可以获得规模以上工业企业历年股权投资、开设分支机构等信息,甚至可以利用2013年至今的企业工商年报数据,进一步丰富数据库的变量指标,为研究提供更多可能性。第二,有助于验证工企库的数据质量。工企库与工商库匹配后,可以获得企业的工商登记及其变更信息。已有对工企库数据质量的研究表明,该数据库的指标存在样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等现象(聂辉华等,2012)。工商库来源于国家企业信用信息公示系统,属于公共行政数据,近年来信息质量和准确性不断提升。通过添加企业的工商注册信息,可为工企库中部分数据信息质量核验提供新的依据。第三,改进工企库纵向匹配的质量。过往学者在对工企库进行利用时,需要解决的一个重点难题便是将历年数据整合成面板数据,这就需要应用不同年份中相同且可以识别出企业的变量来逐年对数据库进行纵向连接(Brandt et al,2014;杨汝岱,2015)。然而,无论从工作量还是工作难度上看,这种处理办法都不是最经济的。通过与拥有企业唯一识别码的工商库的横向连接,可以为历年工企库中的样本匹配一个标准企业唯一标识码,从而轻松构建面板数据。第四,提升跨数据库横向匹配的质量。引入工商库的企业唯一标识码,能更好地搭建起与其他数据库(包括专利库和海关数据库)横向连接的桥梁,不仅提升了跨数据库之间的横向匹配效率,还能显著提高匹配的准确度。具体来说,工企库与其他企业相关数据库之间的匹配,可以利用与工商库匹配得到的企业唯一标识码进行匹配,或者至少能够补充原来的匹配结果(本团队利用本文匹配成果支撑了工企库与专利库的匹配工作,详情参见《中国工业企业数据库与专利数据库匹配报告》)。
总体上说,使用企业名称信息进行数据库之间横向匹配和工企库内部纵向匹配是已有研究的普遍做法。因为匹配目标的不同,学者们具体利用的匹配变量和方法也存在较为明显的差异。例如,在跨数据库横向匹配方面,Yu和Tian(2012)采用了“企业名称+年份”以及“邮政编码+电话”来匹配工企库和海关数据库,寇宗来(2020)采用“企业全称”、“企业简称”、“企业关键词”三个步骤来匹配工企库和专利库。在工企库自身清洗构建面板数据方面,Brandt et al.(2014)主要通过“企业ID”与“企业名称”匹配相邻两年的数据,倘若第一年有的数据第二年的数据没有,则再依据“法人代表姓名”、“电话号码”、“地址”、“主要产品名称”、“行政区划代码”、“行业代码”、“成立年份”等变量的组合进行识别匹配,依据此法最终构建出一个11年的工业企业非平衡面板,杨汝岱(2015)则在Brandt et al.(2014)的匹配方法基础上稍加“改进”,将“邮政编码+行业代码+主要产品+所在县名称+开工年份” 替换成“地区代码( 县 )+电话号码+成立年份” 来构造面板数据。
更近一步地,也有学者(如Xie & Zhang,2015;He et al,2018)采用对企业名称“掐头去尾”后的企业简称来进行匹配,即把企业名称中的地名以及“有限”、“责任”、“公司”、“厂”、“股份”等后缀字样去掉,只留下企业名称中的“主体”部分来进行匹配。然而,采用该方法也会存在错匹、多匹的问题。例如,假设有三家企业,分别叫做“ABC有限责任公司”、“ABC厂”、“ABC股份有限公司”,其企业简称均为“ABC”,显然用简称匹配会造成多对多的匹配结果。如果遇到一家企业包含多个分公司,通过“掐头去尾”更是达不到匹配的要求,下图中的“陕西三忻集团实业有限责任公司”及其分公司和“陕西汉江投资开发有限公司喜河水力发电厂”、“陕西汉江投资开发有限公司蜀河水力发电厂”就充分验证了该点。
通过对两个数据库的前期调研,我们将具体处理过程分为两步:第一步,对工企库进行单独清洗,主要是指对工企库中重复或者数据信息相似的样本进行识别和筛选。也就是说,不仅剔出完全重复的样本记录,还将高度相似的样本记录,利用相似度算法(详细处理过程见《应用文本相似度算法为中国工业企业数据库筛选重复样本》)进行识别和筛选。第二步,正式对两个数据库进行横向匹配,主要采用序贯匹配法。序贯匹配法是利用准确性由强到弱的信息逐步匹配的方法,为该领域惯用之法(Brandt et al,2012;田巍和余淼杰,2012;杨汝岱,2015)。本文各个步骤匹配所利用到的信息依次为统一社会信用代码(内含组织机构代码)、企业名称、工商注册号、企业成立时间+行政区划代码+法定代表人、邮政编码+电话号码。包括上述两步的完整技术路线如图2所示。
[1] Brandt L., et al. Challenges of working with the Chinese NBS firm-level data[J]. China Economic Review, 2014:339–352.
[2] Brandt L, Biesebroeck J V, Zhang Y.Creative Accounting or Creative Destruction? Firm-level Productivity Growth in Chinese Manufacturing[J]. Journal of Development Economics, 2012, 97( 2):339-351.
[3] Xie,Z.,and X.Zhang.“The Patterns of Patents in China”,China Economic Journal, ,2015,8( 2) ,122—142.
[4] He,Z.,T.W.Tong,Y.Zhang,and W.He,2018,“A Database Linking Chinese Patents to China’s Census Firms”,Scientific Data,5,180042.
[5] Yu M , Tian W. China's Processing Trade: A Firm-Level Analysis. In Huw McMay and Liang Song(eds.) Rebalancing and Sustaining Growth in China.Australian National University E-Press.2012:111-148.