因数据的限制,早期中国专利相关的实证研究主要基于省级或行业层面的专利汇总数据,以及部分地区或者特定研究主体(包括上市公司、外商投资企业等)的专利微观数据,近年来才开始出现全国层面的微观专利数据和工企数据的匹配和应用。本节先对当前已有的几个代表性匹配思路进行梳理总结,探讨其优劣势,并在此基础上尝试做进一步的改进。文献的梳理发现,在专利库与工企库匹配方面,目前Xie&Zhang(2015)、He et al.(2018)[1],以及寇宗来和刘学悦(2020)[2]的匹配方法最具代表性。表1概述了上述三篇文献各自的匹配思路和处理过程(包括匹配流程的设计和匹配算法的选择)。
接下来,我们从企业识别核心变量(主要是企业名称)处理、匹配思路、匹配流程设计和匹配算法四个方面对这几篇典型文献处理方法和思路优劣势进行比较说明:(1)企业识别核心变量——专利申请人名称(企业名称)——的处理。专利申请人名称是专利数据中可用于企业识别的唯一信息,亦即专利库与工企库匹配的唯一桥梁。因此,专利申请人名称和工业企业名称的准确规范将直接影响最终的匹配结果。上述三篇文献在实际匹配之前,都对企业名称做了不同程度和不同方式的预处理,包括剔除标点符号、“有限责任公司”、“有限公司”等非企业识别的关键性元素。相较而言,在具体处理细节上,寇宗来和刘学悦(2020)考虑得更加全面,不仅排除了符号、字母、数字(阿拉伯与汉语)在编码和表现形式上的干扰,更对非企业识别的中文字符串进行了扩充。[3](2)在匹配思路上,He et al.(2018)采用多年合并匹配的方法,而Xie&Zhang(2015)、寇宗来和刘学悦(2020)则选择逐年匹配的方法。本文认为,这两种方法各有优劣。首先,多年合并匹配(ever-match)的关键优势在于,工企库中只要有一年正确记录了企业名称,那么所有相关专利都将被找到并匹配,这可以在一定程度上解决企业名称书写错误和名称变更导致无法匹配的问题。换句话说,ever-match基于工企库中的组织机构代码,简单地构建了一张1998-2013年的规上工业企业历史名称清单。此外,ever-match匹配方法允许研究人员随时间的推移跟踪一家企业的专利组合,即使该企业在这期间因未满足“规模以上”的阈值要求[4],曾退出工业企业数据库。在附录中,我们以“四川康达建材工业(集团)公司”为例,对这种方法做简单的介绍。ever-match匹配方法也有其局限性,主要体现在以下几个方面:① 基于工企库构建的规上工业企业历史名称清单可能并不完整。若想通过ever-match来解决企业名称书写错误和名称变更的问题,这就要求在1998-2013年期间,某一年名称书写有误的规上工业企业,在其他年份书写正确。同时要求1998-2013年的工企库涵盖了这期间规上工业企业的所有历史名称。事实上,因为只有当企业的主营业务收入达到“规模以上”阈值时,才能被纳入规上工业企业数据库,故很难保证数据库中的所有工业企业均满足上述要求。② 基于工企库所构建的工业企业历史名称清单,其准确性主要依赖于其组织机构代码识别的准确性。换句话说,对工企库的纵向识别是构建工业企业历史名称清单的基础。纵向识别的偏误,将直接影响专利库与工企库的匹配结果;③ ever-match采用多对多的匹配方式,不仅直接增加了计算机的运算压力,而且容易造成过度匹配。这里的过度匹配是指,由于存在企业名称变更的情况,故同一个企业名称,在不同年份可能属于不同企业主体,ever-match匹配方法将多年数据合并匹配,可能导致那些在不同时间使用同一企业名称的不同企业主体被错误地匹配到一起。该方法提高匹配率的同时,增加了错误匹配的概率。其次,逐年匹配(contemporaneous match)的方法也有其合理性。相较于ever-match,它不依赖于工企库的纵向识别,这消除了不同年份间数据错误匹配的可能性。但直接分年匹配需要一个前提,即给定年份,因名称变更而导致无法匹配的概率不高。但事实上,因名称变更而导致无法匹配的的情况并不罕见(详细案例将在后文展开介绍)。并且,逐年匹配未充分利用工企库中历年的企业名称信息,无法解决企业名称变更和书写错误这两种情况所引起的漏匹。总之,逐年匹配虽然增加了数据匹配的精度,但也因此降低了匹配率。(3)在匹配流程设计上,Xie&Zhang(2015)和He et al.(2018)采用了基于“企业简称”的精确匹配,而寇宗来和刘学悦(2020)则在此基础上,设计了更加复杂精细的匹配流程,在“企业简称”精确匹配前,增加了“企业全称”精确匹配,用于提高匹配精度。值得指出的是,寇宗来和刘学悦(2020)还在“企业简称”精确匹配后,增加“企业关键词”的模糊匹配,从而进一步提高匹配率。但也正是这个模糊匹配带来了相应的问题。模糊匹配提高了匹配率,但同时也增加了错误匹配的概率。而这种错误匹配需要通过投入大量的时间和人力来进行手工检查消除。而且以往的经验证据也表明,模糊匹配所带来的匹配度的提高其实是非常有限的。此外,百万级别的数据量进行模糊匹配,也会给计算机的运算能力带来极大挑战(He et al.,2018)。(4)在匹配算法上,He et al.(2018)采用了左对齐严格子字符串匹配算法(left-aligned strict substring matching)(以下简称“左对齐”),即当工业企业名称是专利申请机构名称的左对齐严格子字符串,则匹配成功。寇宗来和刘学悦(2020)则创造性地将编辑距离算法(Levenshtein Distance)应用于专利库与工企库的匹配过程中。编辑距离是指一个字符转换成另一个字符所需要的最少的编辑操作次数。编辑距离算法认为,字符的编辑距离越短,它们的相似度越高(关于相似度的更多算法参见推文《用文本相似度算法为中国工业企业数据库筛选重复样本》)。寇宗来和刘学悦(2020)将高相似度的企业名称匹配到一起。上文提到,这种两种匹配算法在提高匹配率的同时,均以牺牲匹配精度为代价,后续都需要投入大量人力进行校验。
尽管工企库中的组织机构代码和企业名称都可用于企业识别,但专利库中可用于企业识别的信息只有专利申请人名称。因此,企业名称是专利库和工企库匹配的唯一桥梁。然而,企业名称登记不规范,使得同一家企业在两个数据库中的登记名称不完全相同,从而给我们的匹配工作带来挑战。与Xie&Zhang(2015)、He et al.(2018),以及寇宗来和刘学悦(2020)的处理方式一致,在正式匹配之前,先对两个数据库中的企业名称做相同的数据清理,得到清理后的企业全称和企业名称主干(上文已经提及,本文清理细节有别于上述文献,因此不称其为企业简称,以示区别)。
a. 剔除【地区冠名】寇宗来和刘学悦(2020)在提取企业名称关键词的时候,使用2013年版的中国区县以上行政区划代码(GB T2260-2013),按顺序依次删除名称中的省、市、区县地址的简称。考虑到1998-2013年期间存在行政区划的变更,本文使用中华人民共和国民政部公示的1980-2013年的中国区县以上行政区划,将企业全称中省份和城市相关的地址信息剔除[8];b. 剔除【企业类型】依次剔除“有限,责任,股份,集团,总公司,分公司,公司,总院,分院,总部,分部,总厂,厂”等企业类型相关字样。以“企研数据科技(杭州)有限公司”为例,依次剔除【地区冠名】“杭州”和【企业类型】“有限公司”,得到企业名称主干“企研数据科技”,其中“企研数据”是【企业取名】,“科技”则反映了【行业属性】。通过上述清理步骤,1998-2013年7400256条专利所涉及的专利申请主体(企业全称)由原来的517586个(企业全称清理前)调整为507828个(企业全称清理后),并从中提取出475679个企业名称主干。
步骤(1)和(2)无法完全解决企业名称书写错误的问题,更无法解决名称变更所引起的漏匹。寇宗来和刘学悦(2020)采用编辑距离算法,尝试以模糊匹配的方式,对精确匹配的结果做进一步补充。然而,这种方法无法解决企业名称变更所带来的遗漏匹配。He et al.(2018)使用ever-match的匹配方法,在一定程度上解决了企业名称书写错误和名称变更所产生的漏批的问题。在没有其他数据源补充的情况下,这种方法确实提供了一个解决企业名称书写错误和名称变更问题的最优解决方案。然而,我们在前文中也已经指出,ever-match匹配方法有其局限性。其主要缺陷是,基于工企库整理的工业企业历史名称清单可能并不完整。本文采用了一种新的思路,即尝试以工商库数据为桥梁,对精确匹配的结果进行补充。具体步骤如下:首先,将工企库与工商库进行匹配。不同于专利数据,这两个库有较多重合指标,这些指标都可用于辅助匹配。此外,我们还可以根据工商库整理出更为完整的企业历史名称清单[9],提高两个库的匹配率。大致匹配步骤为:① 将工企库中的组织机构代码与工商库处理后的统一社会信用代码进行匹配;② 将工企库中的企业名称与工商库中的企业历史名称进行匹配;③ 将工企库和工商库中的工商注册号进行匹配;④ 将工企库和工商库中的企业成立年月、行政区划代码、法定代表人进行匹配;⑤ 将工企库和工商库中的企业所在地邮政编码与电话号码进行匹配。详细匹配过程参见社科大数据公众号推送的《企业数据库匹配系列(一)工企库与工商库匹配报告》。其次,对通过工商库整理的企业历史名称清单,与专利申请人名称进行企业名称清洗,然后基于企业名称将专利库与工商库进行匹配,从而为专利库匹配上工商库唯一识别的企业ID。(未来我们将在社科大数据公众号上推送更为详细的《专利库与工商库匹配报告》)。最后,将专利库与工企库进行匹配。我们为工企库中的工业企业匹配对应的工商库中的企业ID,同时为专利库中的企业申请人匹配工商库中的企业ID,通过工商库中的企业ID,实现工企库与专利库的匹配。我们以“四川康达建材工业(集团)公司”为例,对这种方法的作用做简单介绍。如表3所示,工企库中的“国营四川省威远县康达实业总公司”的组织机构代码是“206702729”,这与工商库中的“四川康达建材工业(集团)公司”从其统一社会信用代码中提取的组织机构代码相一致[10]。因此,通过统一社会信用代码(组织机构代码),我们可以将工企库中的“国营四川省威远县康达实业总公司”与工商库中“四川康达建材工业(集团)公司”相匹配。进而通过企业名称,将工商库中“四川康达建材工业(集团)公司”与专利库中的“四川康达建材工业(集团)公司”相匹配。更多案例可参见表3。
表3 通过工商数据实现专利库与工企库匹配的案例
3匹配结果的比较
对比各版本专利库和工企库的差异
考虑到匹配结果的差异不仅取决于匹配方法的优劣,也可能由所用专利库和工企库版本的差异造成。因此,在比较匹配结果之前,我们需要先对比各版本专利库和工企库的差异。我们在表4中列出了本文和Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)所使用专利库的基本情况,并根据每篇文章的统计口径,用本文的专利数据重新进行了统计。对比发现,本文所用专利数据的统计结果与文献公布的数据量无明显差异。在不同口径下,本文统计的发明专利(含未授权)、实用新型和外观设计专利的数据量与上述三篇文献公布的专利数量相差不超过5%。需要指出的是,发明专利在公开后需进行实质审查,审查通过以后,方可获得授权。因此,专利数据的更新时间必然会影响发明专利的授权数量。故本文与寇宗来和刘学悦(2020)关于发明专利授权数的统计结果相差甚大(约24.5万条),主要由二者所用专利数据的更新时间不同所致。
表4 部分代表性研究所用专利数据基本情况对比
表5第(5)-(7)列分别展示了本文和He et al.(2018)、寇宗来和刘学悦(2020)所使用工企库的情况,第(8)列则是国家统计局官方公布的1998-2013年的工业企业数量。对比发现,除2009年以外,本文所使用的工企数据统计结果与国家统计局和2篇文献资料公布的工业企业数量非常相近。
表5 不同匹配结果的对比
比较匹配结果
如表4和表5第(5)-(8)列所示,本文所使用的专利库和工企库与Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)3篇文献所用数据无明显差异。因此,匹配结果的差异主要取决于匹配方法的优劣。表5第(1)-(4)列分别展示了本文和Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)这3篇文章的匹配结果。表6第(1)-(3)列分别是本文各个步骤(企业全称精确匹配、企业名称主干匹配和利用工商库补充匹配)的匹配结果,第(4)列是本文最终的匹配结果(与表5第(1)列相一致)。第(5)-(8)列是寇宗来和刘学悦(2020)的匹配结果。总体而言,1998-2009年本文的匹配率要略低于寇宗来和刘学悦(2020),而2011-2013年本文的匹配率则更高。然而,寇宗来和刘学悦(2020)同时采用了精确匹配和模糊匹配的方法,而本文则仅采用精确匹配。相对而言,本文的匹配结果会更加可靠。如果不考虑寇宗来和刘学悦(2020)的模糊匹配结果,其仅保留企业全称和企业简称的匹配结果见第(9)列。对比(4)和(9)发现,本文的精确匹配率要明显高于寇宗来和刘学悦(2020)。
[3] He et al.(2018)、寇宗来和刘学悦(2020)在名称预处理前还对2009年工企数据中缺失的企业名称进行了补充。前者主要基于工业数据往年的历史记录,后者则利用2008年经济普查数据和2009年全国税收调查数据。由于版本的差异,本文所用工企库2009年的数据不存在企业名称缺失的问题,因此无需做这一步。