查看原文
其他

企研数据处理工作论文系列 | 专利库与工商库匹配报告(上)

企研数据 社科大数据 2023-02-21

 目录 (向下滑动查看)一、数据库简介    (一)中国专利数据库简介
    (二)中国工商企业数据库简介
二、专利数据与工商数据匹配过程    (一)数据匹配流程
    (二)数据预处理
    (三)数据匹配过程三、匹配结果及进一步考察注:由于篇幅原因,“二、专利数据与工商数据匹配过程”中的“(三)数据匹配过程”与“三、匹配结果及进一步考察”将在后续推出,敬请期待!


中国专利数据库与全量企业工商注册数据库匹配报告(上)
摘要:本文通过将中国专利数据库(以下简称“专利数据”)与中国全量工商企业注册数据库(以下简称“工商数据”)进行横向匹配,构建完整的中国全量企业专利数据库。相较于其他学者通过专利数据与中国规模以上工业企业数据库(简称“工企数据”)匹配得到的中国规上工业企业专利数据库,本文所构建的中国全量企业专利数据库涵盖了中国不同所有制,所有规模企业的专利信息,能够更加全面地刻画中国企业的专利创新。

一、数据库简介

(一)中国专利数据库简介

本文所使用的中国专利数据库来源于中国国家知识产权局,数据更新至2020年6月底,不含未通过形式审查(未公开)的专利。在三类专利当中,对实用新型和外观设计这两类而言,因只需进行形式审查,故本文所用专利数据中,它们均为已授权专利;而发明专利在公开后需要进一步进行实质审查,故本文所用发明专利数据包含部分已公开(即已通过形式审查)但(最终)未授权的专利
根据《中华人民共和国专利法(2008修正)》(以下简称《专利法》)第三十四条之规定,通过形式审查的专利自申请日起满18个月即行公开,也就是说,专利从申请到公开最长需要18个月。故截至2020年6月底,2018年12月31日前申请的专利,若符合要求,原则上应当已经公开,即包含在本文所使用的专利数据中。然而,2019年之后申请的专利,可能有部分因暂未公开而不包含在本文所使用的专利数据中。为保证统计结果的完整性和稳定性,本文进一步剔除了2019年和2020年申请的专利。
综上所述,本文所使用的专利数据原则上涵盖1985-2018年在国家知识产权局申请并公开的所有专利。统计结果显示,三类专利共计24944220件,其中,发明专利10080621件(已授权发明专利3810776件),实用新型专利9580019件,外观设计专利5283580件。
《专利法》指出,专利申请权或者专利权可由两个及以上专利申请人共同拥有,即一件专利可由多个专利申请人共同申请,并共同享有其专利权。我们把这种有两个及以上专利申请人的专利简称为“共有专利”。经统计,1985-2018年的共有专利合计1444093件,约占专利总数的5.79%。可见,总的来说,共有专利的比例相对较小,并且从趋势上看这一比例自1996年以来相对较为稳定。
因后文匹配工作主要基于专利申请人的名称,故我们需要将共有专利的多个专利申请人进一步拆分成多条专利记录(这些专利记录除了专利申请人不同以外,其余专利信息均相同)。共有专利拆分以后,专利记录从原先的24944220条,增加到26812245条。

(二)中国工商企业数据库简介

本文所使用的工商数据来源于国家企业信用信息公示系统,由企研数据整理提供。截至2020年6月,该数据库包含了在各级市场监督管理部门登记的7055万家企业(含注吊销企业),图1显示了1978年以来中国企业每年新增、在营和退出数量的变化趋势。理论上,1985年以来申请专利的主体若是企业,均可以从该数据库中找到相应的登记注册信息。这保证了两大数据库横向匹配之后,理论上能够识别出1985年以来,中国企业的所有专利信息。
图1 1978-2019年中国每年新增、在营和退出企业数量的时间趋势

二、专利数据与工商数据匹配过程

(一)数据匹配流程

专利申请人名称是专利数据中可用于识别(企业)主体的唯一信息,也是专利数据与工商数据匹配的唯一桥梁。本文亦主要基于专利申请人名称和工商企业名称实现专利数据与工商数据的匹配,具体匹配流程如图2所示。
图2 专利数据与工商数据的匹配流程

(二)数据预处理

1. 专利数据筛选

本文所使用的专利数据,涵盖了1985-2018年各类专利申请主体在中国国家知识产权局申请并公开的所有专利。专利申请人包括国内外自然人、港澳台地区和国外的机构、国内(这里是指中国大陆地区的)机构。其中,国内机构(不含港澳台地区)又可进一步细分为企业、高校机构、科研院所、事业单位、社会团体等。本次数据匹配的目标主要是将由企业主体申请的专利识别出来,从而得到中国全量的企业专利数据库。为提高匹配的效率,在正式匹配数据之前,我们需要对专利数据中的样本做进一步筛选,具体步骤如下:

(1)剔除国内外自然人申请的专利

专利数据中的“申请人类型”指标,将专利申请人划分为“自然人”和“机构”两种类型。根据这一指标,可直接剔除由国内外自然人申请的专利。

(2)剔除港澳台地区和国外机构申请的专利

根据专利数据中的申请人地址信息(包括国别、省份、详细地址),可进一步识别并剔除港澳台地区和国外机构申请的专利。然而,由于专利数据中的申请人地址信息一般是根据主专利申请人的地址填报的。换句话说,共有专利的非主专利申请人的地址信息理论上是无法从该条专利中获取的。而前文在处理共有专利的时候,我们将多个专利申请人申请的专利,拆分成了除专利申请人不同以外,其余专利信息均相同的多条专利记录,即共有专利的非主专利申请人的地址信息按照主专利申请人地址信息进行填充。这种做法不仅会影响前期的数据筛选,导致部分专利申请人被误认为港澳台地区和国外机构,进而被误删,也会影响后续数据匹配的准确性。因此,我们需要对专利申请人地址做进一步调整。具体做法如下:
首先,我们将非主专利申请人的地址信息统一替换为空值。然后,根据已有的专利信息对部分非主专利申请人的地址信息进行补充(非主专利申请人在申请其他专利时,可能是主专利申请人)。这种情况下,当专利申请人名称一致时,我们可以用其他专利的主专利申请人的地址信息对该条专利的非主专利申请人地址信息进行补充。最后,再根据调整后的专利申请人地址,剔除港澳台地区和国外机构申请的专利。值得注意的是,部分非主专利申请人的地址信息无法通过前文的方式进行补充,为防止数据遗漏,这部分记录我们选择保留下来,进入后续匹配流程。
需要说明的是,因目前暂无有效方法可直接剔除非企业主体(如高校机构、科研院所、事业单位、社会团队等)申请的专利,故这部分信息暂不处理。根据申请人类型,筛选得到20000100条国内外机构申请的专利,其中主专利申请人申请的专利共计18716058条,非主专利申请人申请的专利共计1284042条。通过调整申请地址,最终仅剩150836条专利的地址仍然缺失。剔除明确为港澳台地区和国外机构申请的专利,剩余17256109条国内机构申请的专利。

2. 构建企业名称拉链表

专利数据与工商数据匹配的关键在于完整可靠的企业名称[1]。然而,企业在经营发展过程中,可能会发生企业名称的变更,这给我们的匹配工作带来了巨大的挑战。值得庆幸的是,按照相关的规定,市场监管部门应对所有工商企业的变更信息进行登记,包括企业名称、注册地址、法人名称等的变更信息。因此,理论上,我们可以通过工商数据中的企业名称变更信息,追溯每一家企业在其存活期间所使用的所有企业名称,构建所谓的企业名称拉链表。我们在接下来的匹配中,将会使用企研数据提供的中国全量工商企业名称拉链表。

 [1] 为方便后文表述,我们将专利数据中的机构专利申请人名称和工商数据中的工商企业名称,统称为“企业名称”。

企业名称拉链表的具体制作过程如下:

(1)在企业唯一识别的基础上,制作企业名称全表。

工商数据涵盖了在中国大陆地区各级市场监管部门登记的所有工商注册企业,包括当前存活的企业以及已退出(注吊销)的企业。然而,在这套来源于行政记录的数据中,并不存在一个变量可以唯一识别一家企业[2]。因此,我们首先要为每一家工商企业赋予一个唯一识别的企业ID,并制作企业名称全表。企业名称全表涵盖了所有工商企业的所有名称信息,包括企业的现用名和历史曾用名,以及每个名称所对应的企业ID。该表中的企业名称和企业ID是多对多的关系。原因在于,企业在经营发展过程中,可能会发生企业名称的变更,而企业ID是企业的唯一身份识别编码。因此,同一个企业ID会对应多个企业名称。另一方面,同一个企业名称也可能在不同历史时期被不同企业所使用,因而也会出现一个企业名称对应多个企业ID的情况(企业名称无法唯一识别一家企业)。

[2] 这里为什么不使用统一社会信用代码作为企业的唯一识别ID呢?2015年10月1日,营业执照、组织机构代码证和税务登记证“三证合一”,随后以统一社会信用代码作为机关、团体和企事业单位的唯一标识。成立时间在“三证合一”之前,且死亡时间在“三证合一”之后(或持续存活)的企业,可通过换证的形式获取统一社会信用代码。而那些成立和死亡时间都在“三证合一”之前的企业,则没有统一社会信用代码。我们的匹配任务显然需要追溯到“三证合一”之前就已经退出的企业,因此统一社会信用代码不宜作为企业的唯一识别ID。为此我们重新编制了一套企业唯一识别ID编码,编制过程较为复杂,在此不作赘述。

(2)根据工商企业名称变更信息,制作企业名称拉链表。

如前文所述,同一个企业ID在不同时期可能对应多个企业名称,同一个企业名称也可能在不同时期归属不同企业从而对应多个企业ID。那么该如何确定某一企业ID所对应的企业名称在哪个时间段内是有效的呢?为解决这一难题,我们根据工商企业的名称变更信息(企业名称发生变更是企业信息变更中的一种情况,包含了变更的时间),制作了企业名称拉链表,表格包含了任一企业ID所对应的任一企业名称的启用时间和失效时间

3. 企业名称清洗

在专利数据与工商数据的匹配过程中,不仅需要应对企业名称变更的情形,还需要考虑企业名称登记不规范的情况。企业名称登记不规范,使得同一家企业在不同数据库中的登记名称不完全相同,从而无法匹配。因此,在正式匹配之前,需要对两个数据库中的企业名称(对专利数据而言是申请主体的名称)做相同规则和步骤的数据清理,清理后企业全称和企业名称主干[3]方可先后用于横向匹配。
通过上述清理步骤,1985-2018年17256109条国内机构申请的专利,所涉及的专利申请主体(企业全称)由原来的980895个(企业全称清理前)调整为969440个(企业全称清理后),并从中提取出921097个企业名称主干。

[3] 详情可参见施丹燕, 杨奇明. 中国专利数据库与中国工业企业数据库匹配报告. 企研数据处理工作论文系列, 2022, No.WP0002. http://paper.qiyandata.com/WP0002.pdf.

未完待续...

加入企研·社科大数据平台数据分享群,获取更多数据资源及新鲜资讯

·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


CCAD学术周报(第109期)| 点击查看本周最新“三农”资讯

课题资讯 | 2022年度国家社科基金重大项目立项名单公示

热点专题 | 迭代升级!企研·数字经济产业企业微观库(2022最新版)重磅上线!

数据超市今起开放个人数据采购权限 | 支持开票

课题资讯 | 2022年度国家社科基金重大项目立项名单公示

TFID | 保险业普惠(2022版)专题数据库—分库介绍(二)

企研·社科大数据平台 | 华东师范大学开通试用!


戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存