其他
企研数据处理工作论文系列 | 专利库与工商库匹配报告(上)
(二)中国工商企业数据库简介
二、专利数据与工商数据匹配过程 (一)数据匹配流程
(二)数据预处理
(三)数据匹配过程三、匹配结果及进一步考察注:由于篇幅原因,“二、专利数据与工商数据匹配过程”中的“(三)数据匹配过程”与“三、匹配结果及进一步考察”将在后续推出,敬请期待!
摘要:本文通过将中国专利数据库(以下简称“专利数据”)与中国全量工商企业注册数据库(以下简称“工商数据”)进行横向匹配,构建完整的“中国全量企业专利数据库”。相较于其他学者通过专利数据与中国规模以上工业企业数据库(简称“工企数据”)匹配得到的“中国规上工业企业专利数据库”,本文所构建的“中国全量企业专利数据库”涵盖了中国不同所有制,所有规模企业的专利信息,能够更加全面地刻画中国企业的专利创新。
一、数据库简介
(一)中国专利数据库简介
(二)中国工商企业数据库简介
二、专利数据与工商数据匹配过程
(一)数据匹配流程
(二)数据预处理
1. 专利数据筛选
(1)剔除国内外自然人申请的专利
(2)剔除港澳台地区和国外机构申请的专利
2. 构建企业名称拉链表
[1] 为方便后文表述,我们将专利数据中的机构专利申请人名称和工商数据中的工商企业名称,统称为“企业名称”。
(1)在企业唯一识别的基础上,制作企业名称全表。
[2] 这里为什么不使用统一社会信用代码作为企业的唯一识别ID呢?2015年10月1日,营业执照、组织机构代码证和税务登记证“三证合一”,随后以统一社会信用代码作为机关、团体和企事业单位的唯一标识。成立时间在“三证合一”之前,且死亡时间在“三证合一”之后(或持续存活)的企业,可通过换证的形式获取统一社会信用代码。而那些成立和死亡时间都在“三证合一”之前的企业,则没有统一社会信用代码。我们的匹配任务显然需要追溯到“三证合一”之前就已经退出的企业,因此统一社会信用代码不宜作为企业的唯一识别ID。为此我们重新编制了一套企业唯一识别ID编码,编制过程较为复杂,在此不作赘述。
(2)根据工商企业名称变更信息,制作企业名称拉链表。
3. 企业名称清洗
[3] 详情可参见施丹燕, 杨奇明. 中国专利数据库与中国工业企业数据库匹配报告. 企研数据处理工作论文系列, 2022, No.WP0002. http://paper.qiyandata.com/WP0002.pdf.
未完待续...
加入企研·社科大数据平台数据分享群,获取更多数据资源及新鲜资讯
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐