企业数据库匹配系列（一）| 工企库与工商库匹配报告

数据Seminar 2022-12-31

The following article is from 社科大数据 Author 企研数据

本文转载自公众号社科大数据
后台回复关键词“20220818”即可获取工企库与工商库匹配报告PDF版。

前言

企业数据库之间的横向匹配，贯穿了企研数据团队的整个创业历程。自2018年始，各个数据库之间的匹配报告几易其稿，2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑，一直都没有最后定稿推送，这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由，希望社科大数据公众号读者们批评指正。

——杨奇明（企研数据CEO）

2022年8月16日于杭州·海聚中心

中国工业企业数据库与全量工商企业数据库匹配报告

Part1引言

中国工业企业数据库全称为“全部国有及规模以上非国有工业企业数据库”（以下简称“工企库”），由中国国家统计局建立。工企库中的“工业”统计口径包括“国民经济行业分类”中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类。该数据库的样本范围曾经发生过两次变化，1998-2006年覆盖范围是全部国有工业企业及年主营业务收入500万元以上的非国有企业；2007-2010年，数据收集范围调整为年主营业务收入500万元及以上的所有工业企业；2011年开始，统计范围为年主营业务收入2000万元及以上的法人单位。

由于工企库包含众多企业微观层面的基本信息和财务数据，具有涵盖样本大、指标丰富、时间跨度长等特点，近十多年来被学者广泛应用，每年都有使用该数据库的新论文被公布或者发表，主题早已涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等诸多子学科（聂辉华等，2012）。近年来，一些学者开始将这一数据库与其他数据库进行横向匹配连接，以探索新的研究空间，如寇宗来和刘学悦（2020）将工企库与中国专利数据库（以下简称“专利库”）匹配融合，田巍和余淼杰（2013）将其与海关数据库匹配融合。各个企业微观数据库的连接，可以为相关学术研究提供更多变量组合，从而挖掘出更多的研究方向，能最大化各个数据库的使用价值。

目前，已有研究探讨了工企库与专利库、海关数据库匹配的问题，但其与中国全量工商企业数据库（以下简称“工商库”）匹配的研究还很罕见。本文旨在通过工企库与工商库包含的共有信息完成两个数据库的横向匹配，为工企库添加统一标准的工商企业唯一标识码。这一工作有助于帮助我们将工企库的应用范围进一步拓展。具体来说，本文将工企库与工商库进行匹配的意义至少体现在如下四个方面：

第一，扩充数据维度。工企库与工商库联接之后，可以获得规模以上工业企业历年股权投资、开设分支机构等信息，甚至可以利用2013年至今的企业工商年报数据，进一步丰富数据库的变量指标，为研究提供更多可能性。

第二，有助于验证工企库的数据质量。工企库与工商库匹配后，可以获得企业的工商登记及其变更信息。已有对工企库数据质量的研究表明，该数据库的指标存在样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等现象（聂辉华等，2012）。工商库来源于国家企业信用信息公示系统，属于公共行政数据，近年来信息质量和准确性不断提升。通过添加企业的工商注册信息，可为工企库中部分数据信息质量核验提供新的依据。

第三，改进工企库纵向匹配的质量。过往学者在对工企库进行利用时，需要解决的一个重点难题便是将历年数据整合成面板数据，这就需要应用不同年份中相同且可以识别出企业的变量来逐年对数据库进行纵向连接（Brandt et al，2014；杨汝岱，2015）。然而，无论从工作量还是工作难度上看，这种处理办法都不是最经济的。通过与拥有企业唯一识别码的工商库的横向连接，可以为历年工企库中的样本匹配一个标准企业唯一标识码，从而轻松构建面板数据。

第四，提升跨数据库横向匹配的质量。引入工商库的企业唯一标识码，能更好地搭建起与其他数据库（包括专利库和海关数据库）横向连接的桥梁，不仅提升了跨数据库之间的横向匹配效率，还能显著提高匹配的准确度。具体来说，工企库与其他企业相关数据库之间的匹配，可以利用与工商库匹配得到的企业唯一标识码进行匹配，或者至少能够补充原来的匹配结果（本团队利用本文匹配成果支撑了工企库与专利库的匹配工作，详情参见《中国工业企业数据库与专利数据库匹配报告》）。

Part2匹配方法的提出

1已有匹配方法概述

工企库与工商库的科学精准匹配，需要合适的匹配变量和科学有效的匹配方法。目前，有不少学者对围绕工企库的匹配作了很多工作，其中所用的匹配方法和相关经验值得借鉴。

总体上说，使用企业名称信息进行数据库之间横向匹配和工企库内部纵向匹配是已有研究的普遍做法。因为匹配目标的不同，学者们具体利用的匹配变量和方法也存在较为明显的差异。例如，在跨数据库横向匹配方面，Yu和Tian（2012）采用了“企业名称+年份”以及“邮政编码+电话”来匹配工企库和海关数据库，寇宗来（2020）采用“企业全称”、“企业简称”、“企业关键词”三个步骤来匹配工企库和专利库。在工企库自身清洗构建面板数据方面，Brandt et al.（2014）主要通过“企业ID”与“企业名称”匹配相邻两年的数据，倘若第一年有的数据第二年的数据没有，则再依据“法人代表姓名”、“电话号码”、“地址”、“主要产品名称”、“行政区划代码”、“行业代码”、“成立年份”等变量的组合进行识别匹配，依据此法最终构建出一个11年的工业企业非平衡面板，杨汝岱（2015）则在Brandt et al.（2014）的匹配方法基础上稍加“改进”，将“邮政编码＋行业代码＋主要产品＋所在县名称＋开工年份” 替换成“地区代码（县）＋电话号码＋成立年份” 来构造面板数据。

尽管使用企业名称信息是通用做法，但我们认为过分依赖企业名称匹配可能会存在较为严重的问题。一方面，理论上可能存在如下情况：一家企业“A”在t年变更名称为“B”，而另外一家企业“C”在当年（“A”更名为“B”后）变更名称为“A”，于是跨年甚至同一年的数据中，可能存在两家名为“A”的企业，但实质上并不是同一家企业。因此，使用企业名称无论是横向匹配还是纵向匹配，均会存在误匹的情况。另一方面，由于企业在不同库之间登记信息存在人为登记错误或系统性的时滞误差（比如不同数据库信息采集时间的不一致，一个采用旧名，一个采用变更后新名登记），采用不同库登记的企业名称匹配会造成少匹、错匹、误匹等情况出现。

更近一步地，也有学者（如Xie & Zhang，2015；He et al，2018）采用对企业名称“掐头去尾”后的企业简称来进行匹配，即把企业名称中的地名以及“有限”、“责任”、“公司”、“厂”、“股份”等后缀字样去掉，只留下企业名称中的“主体”部分来进行匹配。然而，采用该方法也会存在错匹、多匹的问题。例如，假设有三家企业，分别叫做“ABC有限责任公司”、“ABC厂”、“ABC股份有限公司”，其企业简称均为“ABC”，显然用简称匹配会造成多对多的匹配结果。如果遇到一家企业包含多个分公司，通过“掐头去尾”更是达不到匹配的要求，下图中的“陕西三忻集团实业有限责任公司”及其分公司和“陕西汉江投资开发有限公司喜河水力发电厂”、“陕西汉江投资开发有限公司蜀河水力发电厂”就充分验证了该点。

图1 工企库数据实例

2本文所用的匹配方法

综合以上问题，本着充分利用所拥有信息的考虑，我们首先通过比对工企库和工商库中的共同字段，筛选出能有效识别和判断企业身份信息的字段作为我们的匹配变量，并对前文出现的问题有针对性地加以改进，具体体现在如下三个方面：

首先，从工商库中挖掘可用于匹配的变量。目前全量的工商企业数据库中已经使用统一社会信用代码，但时间较早的工企库中使用的是组织机构代码。幸运的是，从代码构成信息来看，前者包含后者的信息，因而可以将组织机构代码作为两个数据库匹配的关键变量。此外，两个数据库中均存在工商注册号，同样可以作为匹配变量。以机构代码作为匹配信息的详细依据与过程请见团队在数据seminar公众号上的推文《如何用机构代码唯一识别企业（科普篇）》和《如何用机构代码唯一识别企业（实践篇）》。

其次，优化企业名称匹配方案。企业名称匹配方案中引入企业历史名称，首先将我国历史上登记注册过的全部企业在其各自完整生命周期内（自注册开始直至注销或吊销，尚在经营的则更新到最新时间）的企业名称整合成一张表（我们称之为企业历史名称拉链表），然后将工企库的企业名称与该表中企业名称进行精确匹配，如果能够唯一匹配，即为我们所要的结果，如果匹配上多条记录，说明企业名称可能被多家企业所用，这种情况需要采用或者辅以其他匹配变量进行匹配。

最后，依靠多个变量开展匹配。假定一个地区在某一时期（工企库数据只能具体到月份）里法定代表人姓名可以唯一确定一家企业，那么可以选用工企库中的设立年份、设立月份、行政区划代码、法定代表人四个变量与工商库中相应的变量进行匹配。从变量组合唯一识别率角度上看，工商库中利用这四个变量唯一识别率高达96.78%，说明这种组合不失为一种合理且成功的识别变量组合。

Part3技术路线图与方法介绍

1技术路线图

通过对两个数据库的前期调研，我们将具体处理过程分为两步：

第一步，对工企库进行单独清洗，主要是指对工企库中重复或者数据信息相似的样本进行识别和筛选。也就是说，不仅剔出完全重复的样本记录，还将高度相似的样本记录，利用相似度算法（详细处理过程见《应用文本相似度算法为中国工业企业数据库筛选重复样本》）进行识别和筛选。

第二步，正式对两个数据库进行横向匹配，主要采用序贯匹配法。序贯匹配法是利用准确性由强到弱的信息逐步匹配的方法，为该领域惯用之法（Brandt et al，2012；田巍和余淼杰，2012；杨汝岱，2015）。本文各个步骤匹配所利用到的信息依次为统一社会信用代码（内含组织机构代码）、企业名称、工商注册号、企业成立时间+行政区划代码+法定代表人、邮政编码+电话号码。

包括上述两步的完整技术路线如图2所示。

图2 工企库与工商库完整匹配的技术路线图

注：图中的“good表”表示某条数据与其他数据无重复或者高度相似，“bad表”则表示某条数据与其他数据存在重复或者高度相似。

2本文匹配流程

(1) 数据核对与预处理

本文采用的是北京大学图书馆采购的工企库版本（以下简称“北大库”）。当前学者使用的工企库可能存在多个版本，因此在数据量上会存在一定的差异，表1比较了官方公布的企业数、利用北大库统计所得，以及部分学者在其文献中所列示的企业数。可以发现，1998-2008年，与官方公布的数据比较差距较小，可见北大库在这一年份期间数据质量较好，而后续几年则质量波动较大。

表1 各版本数据量对比

注：Brandt版来源于Brandt L., et al.(2014),聂辉华版出自聂辉华等（2012），余淼杰版出自Yu M,Tian W（2012）；陈林版来自于陈林（2018）。

在匹配之前，首先需要验证数据是否存在相似或者完全一致的情况。针对不同变量信息采用不同的处理办法，对于组织机构代码，我们认定一旦出现重复，该条数据即含有潜在问题；对于企业名称，则采用相似度算法来判别两条数据是否存在企业名高度相似或完全相同的情况；对于财务信息，根据变量值完全相同的变量个数（本文选定为财务数据部分变量个数的80%）来判断数据是否存在捏造。详细过程参见《应用文本相似度算法为中国工业企业数据库筛选重复样本》。

根据以上处理步骤，将处理后的数据分为“good表”及“bad表”，以区分原始数据是否存在重复或者相似的问题，其中“good表”表示数据暂无重复或者相似的问题，“bad表”则表示数据存在重复或者相似的情况。不过，由于在相似度计算的过程中是将历年数据按照城市分拆后，逐个城市进行相似度测算，所以难免会存在不同城市的企业存在组织机构代码、企业名称或者财务数据相同的情况。因此在处理完数据相似度之后，仍然需要对数据进行进一步的验证（即技术路线图中的验证1和验证2）。

验证1和验证2，就是将完成相似度计算的good表逐年核查C002（组织机构代码）、C003（企业名称）是否存在相同的数据，如果在“good表”里仍然存在相同的数据，则将这部分数据的标签修改成“bad”。之后，再将“good表”与“bad表”合并，再度核查C002与C003是否存在相同的情况，最终得到含有准确标签的工企库。前文相似度计算出的结果以及该步骤的处理情况详见下表2。

表2 历年“good表”及“bad表”企业数量情况

在完成工企库标签的设置过程中，有个重要的步骤需要一并处理，即企业名称的标准化。由于工企库中的企业名称可能存在特殊字符、多余的空格、数字括号与字母格式不统一（如全角半角）等情况，倘若不进行处理而直接用来匹配，难免会存在无法匹配的情况，进而导致匹配率降低，因此在正式匹配前需要对企业名称进行标准统一的处理（具体细节参见我们即将推送的《中国工业企业数据库与专利数据库匹配报告》一文）。

(2) 详细匹配流程

接下来就是逐年将预处理后的工企库与工商库进行匹配。匹配的总体思路为序贯匹配法，具体来说，采用匹配变量“A”匹配后，可以匹配上的即为匹配结果，不能匹配上的用另外的匹配变量“B”进行匹配，仍不能匹配的数据采用匹配变量“C”进行匹配，如此循序进行，最终剩下匹配完成的以及利用各种信息均无法匹配的两部分数据。

在匹配之前，我们先将北大库中组织机构代码、企业名称、法定代表人、省地县码、行政区划代码、邮政编码、固定电话、工商注册号等8个匹配变量的数据缺失情况进行统计（详见表3），目的是查看数据是否支持此匹配流程，并按组织机构代码、企业名称、工商注册号、企业成立时间+法定代表人+行政区划代码、邮政编码+电话等五种方式按顺序进行匹配。详细流程图见前文技术路线图。

表3 可匹配变量缺失情况表

注：表中“ \”表示该年工企库中无此变量。

第一步，利用工业企业的组织机构代码与工商库中基于统一社会信用代码得到的组织机构代码进行匹配。统一社会信用代码是国家为了推进社会信用体系而大力推行的一种制度，其为一组长度18 位的代码，用以代表或识别法人和其他组织的身份，具体包括登记管理部门代码、机构类别代码、登记管理机关行政区划码、主体标识码（组织机构代码）、校验码五个部分组成，具有唯一性、兼容性、稳定性、全覆盖四个特点。统一社会信用代码内的第四部分即为组织机构代码。^[1]从工商库的统一社会信用代码中取出组织机构代码，然后关联工企库中的组织机构代码就能完成匹配。

第二步，通过工企库中的企业名称与工商库中的企业历史名称拉链表进行匹配。前文指出，仅通过不同企业数据库中的企业名称进行匹配会存在误匹、多匹的情况，引入企业历史名称拉链表就可以很好地解决这个问题。具体来看，企业历史名称拉链表理论上包含了历史上任意一家企业整个生命周期内所有存在过的企业名称，相对应地这些企业名称都对应着一个企业唯一标识码。将工企库的企业名称与该表匹配，倘若只存在唯一匹配记录，视为匹配成功；若不存在匹配记录，说明工企库企业名称有错误的可能，也有可能是企业历史名称拉链表存在缺漏；若存在多条匹配记录，则视为匹配不成功（事实上，还可以通过时间、地区等其他变量进行验证，确定正确匹配的记录，不过为了匹配过程的一致性与连续性，该部分数据进入下一匹配环节）。

第三步，通过工企库、工商库中的工商注册号进行匹配。工商行政管理注册号登记于工商营业执照内，是工商行政管理部门（市场监督管理局）在市场主体登记注册时赋予其的标识码，具有定位和关联一个市场主体各类相关信息的重要作用。2007 年国家工商行政管理总局下发执行《工商行政管理注册号编制规则》（工商办字[2007]79 号）^[2]，规定内外资企业及分支机构、来华从事生产经营活动的外国 (地区)企业、个人独资企业和合伙企业、个体工商户等市场主体需按照规定赋号。工商注册号具体是由6位首次登记机关码、8位顺序码、1 位数字校验码构成。需要强调的是，市场主体赋号后，其工商注册号是终生唯一不变的，任何市场主体只能拥有一个注册号，任何一个工商注册号也只能对应一个市场主体。值得一提的是，在我国实行“多证合一”政策之后，工商注册号已退出历史舞台，取而代之的则是统一社会信用代码。实践当中工商注册号数据也有其缺陷，这也是为何本文先用企业名称进行匹配的原因，详见附录。

第四步，通过工企库、工商库中的企业成立年月、行政区划代码、法定代表人进行匹配。假定同一个地方同一年月一个姓名可以唯一识别一家企业，我们首先验证了这种方式的可行性，在工商库中，我们用上述三种信息进行重复的统计，发现本文所用工商库中67000821企业中，可唯一识别出64843700家企业，识别率高达96.78%，说明用该方式唯一识别并匹配不同数据库中的企业，准确度相当高。

第五步，通过工企库、工商库中的邮政编码与电话号码进行匹配。该方式同样需要验证邮编加电话号码的唯一识别率，在工商库中，含邮编和电话号码的企业有588.56万家，通过邮编和电话号码可唯一识别出418.42万家企业，识别率为71.09%。尽管识别率不是很高，但由于匹配过程均是选择唯一匹配的结果，因此其仍然可以作为我们匹配的依据。此处需要说明的是，该步骤利用的电话号码是截取电话号码后七位进行匹配的，原因是工企库中的电话号码绝大多数为固定电话，且不同地区固话的长度存在七位和八位之分，而工商库年报数据中的电话则是手机号码和固话共存，长度不一。所以事先需要剔除工商库中长度不合规定的号码，保留长度为7位、8位、12位、13位，以及长度为11位且首位不以“1”开头的电话号码^[3]，然后再将两者均取后七位进行匹配。

3匹配结果

通过上述五个步骤得到的匹配结果如表4所示。可以看到，除去2008年、2009年由于工商注册号的缺失以及2008年行政区划字段存在问题而无法用于匹配导致匹配率略有下降之外，其他年份匹配率总体呈现出上升的趋势。早期年份匹配率较低主要因为组织机构代码、企业名称的规范程度较低，随着年份的推移，数据录入和数据管理水平上都有较大程度的提升，因而工企库后期年份的匹配率有了显著的提高。

由于匹配上工商库的工企库企业样本获得了工商库的唯一识别码，因此这类企业本身的纵向匹配问题已经随之解决。工企库内部剩余未能匹配到工商库的企业的纵向匹配，仍可按照已有文献的做法进行。

表4 工业企业数据匹配结果表

注
①：工商注册号仅为2004-2007，2010-2013年（共八年）存在；
②：2008年无法定代表人信息。
③：2001年第四步由于C006的长度均少于6，因此无法用该步骤进行匹配，故可匹配数为0。

Part4结论

本文通过横向匹配工企库与包含中国全量工商企业注册信息的工商库，为工企库中的工业企业匹配工商企业唯一识别码，并扩充了工企库的匹配字段，拓展了工企库的应用范畴。从结果上看，匹配效果大致呈现出逐年升高的趋势，最近的2013年数据匹配率接近99%。由于当前并无学者或者研究机构对工企库与工商库进行匹配并正式对外发布，因此我们无从对比其他人匹配的结果。

考虑到目前工企库与专利库、海关数据库匹配开展的研究较为广泛和深入，我们将进一步用匹配好企业唯一识别码的工企库与已经与工商库进行匹配从而获得企业唯一识别码的海关数据库与专利库进行匹配，进而与其他学者匹配结果进行对比，结果发现，利用本文的成果，工企库与专利库、海关库的连接成功率取得了明显改进，这进一步说明了本文工作的价值。

注释

[1] 组织机构代码是对我国境内依法注册、依法登记的机关，企、事业单位，社会团体和民办非企业单位颁发一个在全国范围内唯一的、始终不变的代码标识，是各类组织机构在社会经济活动中的通行证。组织机构代码共包含9位数字，分为八位数字（或大写拉丁字母）本体代码和一位数字（或大写拉丁字母）校验码两个部分。

[2] 在此之前，不同类型企业登记存在不同的规则赋号。其中内资企业在1999年由8位改为13位，改后的注册号由6位数行政区划代码+1位企业经济性质+6位数顺序号构成；外资企业则是汉字+数字+号构成，如企独苏宁总字第001123号、企作粤穗总字第007001号。事实上，在07年发布《规则》以前，各类企业赋号较为混乱，如极个别地区会出现内资企业12位、15位注册号或三资企业13位（一般为6位）。

[3] 地区如上海、天津、重庆、南京等城市，其区号为三位数；地区如深圳、杭州、长沙、南昌等城市其区号为四位数。一般而言，区号为三位数的地区其固话长度为八位数，而区号为四位数的地区，固话长度为七位数。不过，随着电话的普及，不少区号为四位数的地区均存在七位升八位的情况。因此考虑到电话号码“XXX-XXXXXXXX”（3+1+8）、“XXXX-XXXXXXX”（4+1+7）、“XXXX-XXXXXXXX”（4+1+8）的形式。当然也存在诸如南京市1993年、北京市1996年前存在7位数固话，加上区号后与手机号11位数恰好相等，因此需要将这部分同样纳入考虑范围。

Part5参考文献

[1] Brandt L., et al. Challenges of working with the Chinese NBS firm-level data[J]. China Economic Review, 2014:339–352.

[2] Brandt L, Biesebroeck J V, Zhang Y.Creative Accounting or Creative Destruction? Firm-level Productivity Growth in Chinese Manufacturing[J]. Journal of Development Economics, 2012, 97( 2):339-351.

[3] Xie,Z.,and X.Zhang.“The Patterns of Patents in China”,China Economic Journal, ,2015,8( 2) ,122—142.

[4] He,Z.,T.W.Tong,Y.Zhang,and W.He,2018,“A Database Linking Chinese Patents to China’s Census Firms”,Scientific Data,5,180042.

[5] Yu M , Tian W. China's Processing Trade: A Firm-Level Analysis. In Huw McMay and Liang Song(eds.) Rebalancing and Sustaining Growth in China.Australian National University E-Press.2012:111-148.

[6] 聂辉华,江艇,杨汝岱.中国工业企业数据库的使用现状和潜在问题[J].世界经济,2012,35(05):142-158.

[7] 寇宗来,刘学悦.中国企业的专利行为:特征事实以及来自创新政策的影响[J].经济研究,2020,55(03):83-99.

[8] 田巍,余淼杰.企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究[J].管理世界,2013(01):28-44.

[9] 杨汝岱.中国制造业企业全要素生产率研究[J].经济研究,2015,50(02):61-74.

[10] 戴觅,余淼杰,Madhura Maitra.中国出口企业生产率之谜:加工贸易的作用[J].经济学(季刊),2014,13(02):675-698.

[11] 陈林.中国工业企业数据库的使用问题再探[J].经济评论,2018(06):140-153.

Part6附录

匹配过程为什么选择先企业名称后工商注册号

在前文匹配过程中，我们采用的是第二步企业名称匹配（更准确地讲是企业历史名称拉链表匹配），第三步工商注册号匹配。之所以不是第二部采用工商注册号匹配，是因为相比较而言，先采用企业名称匹配后采用工商注册号匹配的准确率相对更高。以下将以2004年为例说明这个问题。

下表为调换第二步和第三步处理的最终结果。

表3-1 调换处理顺序的结果表

可以看到

②企业名称 + ③工商注册号 = 78524

②工商注册号 + ③企业名称 = 78524

即无论是先企业名称匹配还是企业名称在后匹配，第二步第三步处理的加总数据量是一致的，并且经验证后匹配的对象完全相同，而匹配到的工商企业唯一标识码不同的数据有1559条，占可匹配的0.60%，全部数据的0.56%。如下示意图。

针对这1559条用工商注册号进行验证。

例1：永兴县超时金属有限公司，其根据历史名称表跑出来的工商注册号为下图1框所示，而根据工商注册号跑出来的为下图框2所示。

例2：英吉沙县海洋水泥厂

例3：柳州柳工路面机械有限公司

综合以上，先采用企业名称匹配后采用工商注册号匹配的结果要更为准确。

后台回复关键词“20220818”即可获取工企库与工商库匹配报告PDF版。

关于数据匹配与数据清洗，您有任何想要交流的，欢迎加入

企研·社科大数据平台数据分享群

·END·

星标⭐我们不迷路！

想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

基本无害 | 使回归有意义——回归的细节（1）

基本无害 | 使回归有意义——回归的细节（2）

数据治理 | 一文看懂GIT的基本原理！

数据治理 | 随心所欲切换文档版本！误删什么的再也不怕啦~

数据治理 | 还在手动保存副本？那你一定还不知道这个小工具！

数据治理 | 不丢数据的秘籍：了解Python的内存管理机制

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

企业数据库匹配系列（一）| 工企库与工商库匹配报告

Part1引言

Part2匹配方法的提出

1已有匹配方法概述

工企库与工商库的科学精准匹配，需要合适的匹配变量和科学有效的匹配方法。目前，有不少学者对围绕工企库的匹配作了很多工作，其中所用的匹配方法和相关经验值得借鉴。

2本文所用的匹配方法

Part3技术路线图与方法介绍

1技术路线图

2本文匹配流程

(1) 数据核对与预处理

(2) 详细匹配流程

3匹配结果

Part4结论

注释

Part5参考文献

Part6附录

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

企业数据库匹配系列（一）| 工企库与工商库匹配报告

Part1引言

Part2匹配方法的提出

1已有匹配方法概述

工企库与工商库的科学精准匹配，需要合适的匹配变量和科学有效的匹配方法。目前，有不少学者对围绕工企库的匹配作了很多工作，其中所用的匹配方法和相关经验值得借鉴。

2本文所用的匹配方法

Part3技术路线图与方法介绍

1技术路线图

2本文匹配流程

(1) 数据核对与预处理

(2) 详细匹配流程

3匹配结果

Part4结论

注释

Part5参考文献

Part6附录

您可能也对以下帖子感兴趣