企研数据处理工作论文系列 |【专利库】与【工商库】匹配报告
写在前面:
在去年暑假期间,我们在公众号上连续推送了一系列关于数据库匹配的报告,引发了众多读者的热烈反响与好评。一年后的现在,我们的运营部门回顾了公众号过去的数据,发现在推送这些文章期间,公众号的活跃度达到了空前的高峰,这充分证明了这些文章的参考价值。
而最近,我们刚好推送了一篇关于全量工商企业注册数据库质量检测的文章(传送门:质量检测 | 对一份中国工商企业注册数据库的质量考察),加上这一年来我们也吸引了许多新朋友,我们决定趁热将去年发布的系列匹配报告重新推送给大家,让更多人收益。
感兴趣的读者,可以在我们的网页上直接获取PDF版匹配报告。
特别提醒:各位使用我们匹配结果的朋友们,我们对系列报告进行了编辑和编号(详情见PDF版匹配报告),已经是工作论文系列,可以直接引用。
图源:企研·社科大数据平台(r.qiyandata.com)
前 言企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。——杨奇明(企研数据CEO)
2022年8月16日于杭州·海聚中心
摘要:本文通过将中国专利数据库(以下简称“专利数据”)与中国全量工商企业注册数据库(以下简称“工商数据”)进行横向匹配,构建完整的“中国全量企业专利数据库”。相较于其他学者通过专利数据与中国规模以上工业企业数据库(简称“工企数据”)匹配得到的“中国规上工业企业专利数据库”,本文所构建的“中国全量企业专利数据库”涵盖了中国不同所有制,所有规模企业的专利信息,能够更加全面地刻画中国企业的专利创新。
一、数据库简介
(一)中国专利数据库简介
(二)中国工商企业数据库简介
二、专利数据与工商数据匹配过程
(一)数据匹配流程
(二)数据预处理
1. 专利数据筛选
(1)剔除国内外自然人申请的专利
(2)剔除港澳台地区和国外机构申请的专利
2. 构建企业名称拉链表
[1] 为方便后文表述,我们将专利数据中的机构专利申请人名称和工商数据中的工商企业名称,统称为“企业名称”。
(1)在企业唯一识别的基础上,制作企业名称全表。
[2] 这里为什么不使用统一社会信用代码作为企业的唯一识别ID呢?2015年10月1日,营业执照、组织机构代码证和税务登记证“三证合一”,随后以统一社会信用代码作为机关、团体和企事业单位的唯一标识。成立时间在“三证合一”之前,且死亡时间在“三证合一”之后(或持续存活)的企业,可通过换证的形式获取统一社会信用代码。而那些成立和死亡时间都在“三证合一”之前的企业,则没有统一社会信用代码。我们的匹配任务显然需要追溯到“三证合一”之前就已经退出的企业,因此统一社会信用代码不宜作为企业的唯一识别ID。为此我们重新编制了一套企业唯一识别ID编码,编制过程较为复杂,在此不作赘述。
(2)根据工商企业名称变更信息,制作企业名称拉链表。
3. 企业名称清洗
[3] 详情可参见施丹燕, 杨奇明. 中国专利数据库与中国工业企业数据库匹配报告. 企研数据处理工作论文系列, 2022, No.WP0002. http://paper.qiyandata.com/WP0002.pdf.
(三)数据匹配过程
1. 企业全称精确匹配
[4] 唯一匹配是指同一个专利申请人名称在企业名称拉链表中仅匹配到一个企业ID。非唯一匹配则是指同一个专利申请人名称在企业名称拉链表中匹配到两个及以上的企业ID。而无法匹配是指专利申请人名称不存在于企业名称拉链表之中。
2. 企业名称主干精确匹配
(1)企业名称主干+省份
(2)企业名称主干
3. 非唯一匹配结果筛选
三、匹配结果及进一步考察
表1 专利数据和工商数据匹配结果
表2专利数据中无法与工商库匹配的专利情况分析
表3 1985-2018年三类专利的匹配结果
END
公众号内回复关键词“WP0007” 或打开浏览器搜索http://paper.qiyandata.com/WP0007.pdf 即可获取全文PDF版!
如需获取数据库匹配结果,请联系客服👇
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐