查看原文
其他




前言

企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。

——杨奇明(企研数据CEO)

2022年8月16日于杭州·海聚中心




中国专利数据库与中国工业企业数据库匹配报告(上)

目录(滑动查看)

一、引言

二、已有方法梳理与本文思路

(一)已有方法数量

(二)本文思路

三、具体处理过程

(一)数据预处理

1.专利数据预处理

2. 企业名称的清理

(二)匹配过程

1. 企业全称精确匹配

2. 企业名称主干精确匹配

3. 利用工商库补充匹配 

(三)匹配结果的比较

1. 对比各版本专利库和工企库的差异

2. 比较匹配结果 

四、结论

参考文献 

附录

Part1引言

创新是现代经济保持长期增长的根本动力,企业是现代社会创新的主体,是微观领域创新研究的主要分析对象。早期人们以研发投入(R&D)作为企业创新的衡量指标,但R&D指标在内涵、数据的可得性和准确性方面都存在局限性,具体来说:首先,企业创新不仅受研发资金投入的影响,还受到研发组织能力、研发人才整合效率和研发思路等非经济因素的影响。因此,R&D作为创新资金投入,无法准确衡量企业的实际创新产出(周煊等,2012);其次,R&D这一指标的可得性较差,实证研究只能限定在上市公司这类有限的企业样本上。近年来研究中国企业创新等微观行为的常用数据库——中国工业企业数据库,也只有少数年份收集了R&D这一指标。最后,也有部分学者对R&D本身的准确性提出质疑(周煊等,2012;Griliches,1990)。
为弥补R&D这一指标的不足,随着数据可得性的增加,许多学者开始使用专利数据这一创新产出指标来衡量企业的创新水平。相较于R&D,专利数据至少存在如下三点优势:① 专利是企业的创新产出,而非创新投入,是衡量企业技术创新的有效指标;② 专利数据具有可得性、权威性和及时性的优势。在中国,由国家知识产权局统一负责境内个人和机构的专利申请和审核事宜,相关信息及时公开,所形成的覆盖所有境内企业的专利库,来源权威可靠且方便更新;③ 专利数据包含专利分类号、法律状态等多维度信息,可用于深入研究企业创新行为。
当然,全面研究企业的创新行为、创新效率等问题,作为创新产出的专利数据只是其中一个维度,我们需要匹配企业特征、经营状况等信息方能开展深入研究。因此,近年来不少学者试图将企业专利数据与其他企业微观数据进行匹配,构建更加完整的企业创新微观数据库。
本文讨论的主题是如何将中国专利数据库(以下简称“专利库”)和近年来被广泛使用的规模以上工业企业数据库(以下简称“工企库”)进行匹配的问题,总结已有专利库和工企库匹配方案的优劣势,在此基础上,提供一套进一步改进的匹配方法,获得一套匹配更为精准的数据。

Part2已有方法梳理与本文思路

1已有方法梳理

因数据的限制,早期中国专利相关的实证研究主要基于省级或行业层面的专利汇总数据,以及部分地区或者特定研究主体(包括上市公司、外商投资企业等)的专利微观数据,近年来才开始出现全国层面的微观专利数据和工企数据的匹配和应用。本节先对当前已有的几个代表性匹配思路进行梳理总结,探讨其优劣势,并在此基础上尝试做进一步的改进。
文献的梳理发现,在专利库与工企库匹配方面,目前Xie&Zhang(2015)、He et al.(2018)[1],以及寇宗来和刘学悦(2020[2]的匹配方法最具代表性。表1概述了上述三篇文献各自的匹配思路和处理过程(包括匹配流程的设计和匹配算法的选择)。

表1 部分代表性研究匹配思路概述

作者匹配思路处理过程
Xie&Zhang(2015)企业名称为桥梁,逐年匹配1、对企业名称进行数据清洗,得到“企业简称”;
2、基于“企业简称”,逐年进行精确匹配。
He et al.(2018)企业名称为桥梁,多年合并匹配(ever-match)1、利用其他资料,对工企库中缺失的企业名称进行补充;
2、筛选专利样本,以提高匹配效率;
3、对企业名称进行预处理,得到“企业简称”;
4、基于“企业简称”,利用左对齐严格子字符串匹配算法,多年合并精确匹配;
5、人工校验。
寇宗来和刘学悦(2020)企业名称为桥梁,逐年匹配(contemporaneous match)1、利用其他资料,对工企数据中缺失的企业名称进行补充;
2、剔除自然人申请的专利;
3、对企业名称进行数据清洗,并依次得到“企业全称”、“企业简称”与“企业关键词”;
4、精确匹配,包括“企业全称”精确匹配和“企业简称”精确匹配;
5、模糊匹配,基于编辑距离算法(Levenshtein Distance),根据“企业关键词”进行模糊匹配;
6、人工检查。
接下来,我们从企业识别核心变量(主要是企业名称)处理、匹配思路、匹配流程设计和匹配算法四个方面对这几篇典型文献处理方法和思路优劣势进行比较说明:
(1)企业识别核心变量——专利申请人名称(企业名称)——的处理。专利申请人名称是专利数据中可用于企业识别的唯一信息,亦即专利库与工企库匹配的唯一桥梁。因此,专利申请人名称和工业企业名称的准确规范将直接影响最终的匹配结果。上述三篇文献在实际匹配之前,都对企业名称做了不同程度和不同方式的预处理,包括剔除标点符号、“有限责任公司”、“有限公司”等非企业识别的关键性元素。相较而言,在具体处理细节上,寇宗来和刘学悦(2020)考虑得更加全面,不仅排除了符号、字母、数字(阿拉伯与汉语)在编码和表现形式上的干扰,更对非企业识别的中文字符串进行了扩充[3]
(2)在匹配思路上,He et al.(2018)采用多年合并匹配的方法,而Xie&Zhang(2015)、寇宗来和刘学悦(2020)则选择逐年匹配的方法。本文认为,这两种方法各有优劣。
首先,多年合并匹配(ever-match)的关键优势在于,工企库中只要有一年正确记录了企业名称,那么所有相关专利都将被找到并匹配,这可以在一定程度上解决企业名称书写错误和名称变更导致无法匹配的问题。换句话说,ever-match基于工企库中的组织机构代码,简单地构建了一张1998-2013年的规上工业企业历史名称清单。此外,ever-match匹配方法允许研究人员随时间的推移跟踪一家企业的专利组合,即使该企业在这期间因未满足“规模以上”的阈值要[4],曾退出工业企业数据库。在附录中,我们以“四川康达建材工业(集团)公司”为例,对这种方法做简单的介绍。ever-match匹配方法也有其局限性,主要体现在以下几个方面:① 基于工企库构建的规上工业企业历史名称清单可能并不完整。若想通过ever-match来解决企业名称书写错误和名称变更的问题,这就要求在1998-2013年期间,某一年名称书写有误的规上工业企业,在其他年份书写正确。同时要求1998-2013年的工企库涵盖了这期间规上工业企业的所有历史名称。事实上,因为只有当企业的主营业务收入达到“规模以上”阈值时,才能被纳入规上工业企业数据库,故很难保证数据库中的所有工业企业均满足上述要求。② 基于工企库所构建的工业企业历史名称清单,其准确性主要依赖于其组织机构代码识别的准确性。换句话说,对工企库的纵向识别是构建工业企业历史名称清单的基础。纵向识别的偏误,将直接影响专利库与工企库的匹配结果;③ ever-match采用多对多的匹配方式,不仅直接增加了计算机的运算压力,而且容易造成过度匹配。这里的过度匹配是指,由于存在企业名称变更的情况,故同一个企业名称,在不同年份可能属于不同企业主体,ever-match匹配方法将多年数据合并匹配,可能导致那些在不同时间使用同一企业名称的不同企业主体被错误地匹配到一起。该方法提高匹配率的同时,增加了错误匹配的概率。
其次,逐年匹配(contemporaneous match)的方法也有其合理性。相较于ever-match,它不依赖于工企库的纵向识别,这消除了不同年份间数据错误匹配的可能性。但直接分年匹配需要一个前提,即给定年份,因名称变更而导致无法匹配的概率不高。但事实上,因名称变更而导致无法匹配的的情况并不罕见(详细案例将在后文展开介绍)。并且,逐年匹配未充分利用工企库中历年的企业名称信息,无法解决企业名称变更和书写错误这两种情况所引起的漏匹。总之,逐年匹配虽然增加了数据匹配的精度,但也因此降低了匹配率。
(3)在匹配流程设计上,Xie&Zhang(2015)和He et al.(2018)采用了基于“企业简称”的精确匹配,而寇宗来和刘学悦(2020)则在此基础上,设计了更加复杂精细的匹配流程,在“企业简称”精确匹配前,增加了“企业全称”精确匹配,用于提高匹配精度。
值得指出的是,寇宗来和刘学悦(2020)还在“企业简称”精确匹配后,增加“企业关键词”的模糊匹配,从而进一步提高匹配率。但也正是这个模糊匹配带来了相应的问题。模糊匹配提高了匹配率,但同时也增加了错误匹配的概率。而这种错误匹配需要通过投入大量的时间和人力来进行手工检查消除。而且以往的经验证据也表明,模糊匹配所带来的匹配度的提高其实是非常有限的。此外,百万级别的数据量进行模糊匹配,也会给计算机的运算能力带来极大挑战(He et al.,2018)。
(4)在匹配算法上,He et al.(2018)采用了左对齐严格子字符串匹配算法(left-aligned strict substring matching)(以下简称“左对齐”),即当工业企业名称是专利申请机构名称的左对齐严格子字符串,则匹配成功。寇宗来和刘学悦(2020)则创造性地将编辑距离算法(Levenshtein Distance)应用于专利库与工企库的匹配过程中。编辑距离是指一个字符转换成另一个字符所需要的最少的编辑操作次数。编辑距离算法认为,字符的编辑距离越短,它们的相似度越高(关于相似度的更多算法参见推文用文本相似度算法为中国工业企业数据库筛选重复样本)。寇宗来和刘学悦(2020)将高相似度的企业名称匹配到一起。上文提到,这种两种匹配算法在提高匹配率的同时,均以牺牲匹配精度为代价,后续都需要投入大量人力进行校验。

2本文匹配思路

文献回顾表明,在核心识别变量处理、匹配思路、流程设计和算法选择上,已有研究所采用方法各有优劣。通过利弊权衡,本文最终选择的匹配思路和流程方案如下:(1)匹配思路上采取逐年匹配的方法,以避免不同年份之间数据错匹的问题;(2)在匹配流程上,主要参考寇宗来和刘学悦(2020)的设计方案,采用先“企业全称”精确匹配、后“企业简称”(考虑到技术细节不同,我们称之为“企业名称主干”)精确匹配两个环节,但是摒弃了基于“企业关键词”和编辑距离算法的模糊匹配,以确保匹配结果的准确可靠。
特别要强调的是,与已有文献最大的区别是,为解决企业名称书写错误和名称变更导致漏匹的情况,提高匹配率,本文首次增加了中国工商企业数据库(以下简称“工商库”)补充匹配这一环节,可以取得比多年合并匹配(ever-match)更好的效果,同时又避免了其所带来的问题。总体思路是,先以企业名称(主干)为桥梁,逐年匹配了1998-2013年的专利库和工企库,然后通过工商库对企业名称书写错误和名称变更这两种情况所引起的漏匹做进一步补充。具体匹配流程如下:
图1 专利库与工企库的匹配流程

未完待续...

注释

[1]

He et al.(2018)所使用的工业企业数据库,存在法人代码和企业名称缺失的情况。例如,2009年工业企业数据库448741条记录中,法人代码缺失的有142963条(占比31.86%),企业名称缺失的有136105条(占比30.33%),对此,作者根据往年的历史记录进行了补充。

[2]

寇宗来和刘学悦(2020)所使用的工业企业数据库,2009年43万家企业数据中,有11万家左右缺失了法人代码和企业名称信息,利用2008年经济普查数据和2009年全国税收调查数据对2009年数据进行补充。

[3]

He et al.(2018)、寇宗来和刘学悦(2020)在名称预处理前还对2009年工企数据中缺失的企业名称进行了补充。前者主要基于工业数据往年的历史记录,后者则利用2008年经济普查数据和2009年全国税收调查数据。由于版本的差异,本文所用工企库2009年的数据不存在企业名称缺失的问题,因此无需做这一步。

[4]

规模以上工业企业的阈值要求曾发生过两次变化:(1)1998-2006年,涵盖全部国有工业企业及年主营业务收入500万元以上的非国有企业;(2)2007-2010年,统计范围调整为年主营业务收入500万元及以上的工业企业;(3)2011年开始至今,统计范围为年主营业务收入2000万元及以上的法人单位。




系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)
关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入
企研·社科大数据平台数据分享群




推荐关注


END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


成绩报告单 | CCAD再传佳音!企研数据再助学者发文

科研小工具|工作论文版本多,怎么比对差异?

CCAD | 赠送相关数据!2022教育部课题公示:“三农”立项课题有哪些?

TFID | 普惠小微主体子库 — 登记注册模块&投融资模块介绍

成绩报告单  |《管理世界》!企研数据服务助力学者再发国内顶刊

TFID | 证券业普惠专题数据库(2022版)正式上线!



戳原文,更有料

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存