前言
企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。
——杨奇明(企研数据CEO)
2022年8月16日于杭州·海聚中心
中国专利数据库与中国工业企业数据库匹配报告(上)
一、引言
二、已有方法梳理与本文思路
(一)已有方法数量
(二)本文思路
三、具体处理过程
(一)数据预处理
1.专利数据预处理
2. 企业名称的清理
(二)匹配过程
1. 企业全称精确匹配
2. 企业名称主干精确匹配
3. 利用工商库补充匹配
(三)匹配结果的比较
1. 对比各版本专利库和工企库的差异
2. 比较匹配结果
四、结论
参考文献
附录
Part1引言
Part2已有方法梳理与本文思路
1已有方法梳理
表1 部分代表性研究匹配思路概述
作者 | 匹配思路 | 处理过程 |
---|---|---|
Xie&Zhang(2015) | 以企业名称为桥梁,逐年匹配 | 1、对企业名称进行数据清洗,得到“企业简称”; 2、基于“企业简称”,逐年进行精确匹配。 |
He et al.(2018) | 以企业名称为桥梁,多年合并匹配(ever-match) | 1、利用其他资料,对工企库中缺失的企业名称进行补充; 2、筛选专利样本,以提高匹配效率; 3、对企业名称进行预处理,得到“企业简称”; 4、基于“企业简称”,利用左对齐严格子字符串匹配算法,多年合并精确匹配; 5、人工校验。 |
寇宗来和刘学悦(2020) | 以企业名称为桥梁,逐年匹配(contemporaneous match) | 1、利用其他资料,对工企数据中缺失的企业名称进行补充; 2、剔除自然人申请的专利; 3、对企业名称进行数据清洗,并依次得到“企业全称”、“企业简称”与“企业关键词”; 4、精确匹配,包括“企业全称”精确匹配和“企业简称”精确匹配; 5、模糊匹配,基于编辑距离算法(Levenshtein Distance),根据“企业关键词”进行模糊匹配; 6、人工检查。 |
2本文匹配思路
未完待续...
注释
He et al.(2018)所使用的工业企业数据库,存在法人代码和企业名称缺失的情况。例如,2009年工业企业数据库448741条记录中,法人代码缺失的有142963条(占比31.86%),企业名称缺失的有136105条(占比30.33%),对此,作者根据往年的历史记录进行了补充。
[2]寇宗来和刘学悦(2020)所使用的工业企业数据库,2009年43万家企业数据中,有11万家左右缺失了法人代码和企业名称信息,利用2008年经济普查数据和2009年全国税收调查数据对2009年数据进行补充。
[3]He et al.(2018)、寇宗来和刘学悦(2020)在名称预处理前还对2009年工企数据中缺失的企业名称进行了补充。前者主要基于工业数据往年的历史记录,后者则利用2008年经济普查数据和2009年全国税收调查数据。由于版本的差异,本文所用工企库2009年的数据不存在企业名称缺失的问题,因此无需做这一步。
[4]规模以上工业企业的阈值要求曾发生过两次变化:(1)1998-2006年,涵盖全部国有工业企业及年主营业务收入500万元以上的非国有企业;(2)2007-2010年,统计范围调整为年主营业务收入500万元及以上的工业企业;(3)2011年开始至今,统计范围为年主营业务收入2000万元及以上的法人单位。
系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)
企研·社科大数据平台数据分享群
推荐关注
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐