企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(下)
(二)清洗目标
(三)数据预处理
1. 规范化表达
2. 处理IPC分类号
3. 处理参考检索式
(四)数据清洗思路四、数据整合五、结论和进一步讨论参考文献附录本文承接自企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(上),欢迎阅读查看。
后台回复关键词“WP0008”即可获取“中国绿色低碳技术专利数据清洗与质量分析报告”PDF版。
(四)数据清洗思路
[8] 在每个函数中,程序将逐个遍历其中的参考检索式,若专利数据符合某个检索式的正则表达式条件,程序将返回标签;否则,继续下一次循环。
[9] 存在一条专利对应多个技术分支的情况。
四数据整合
[10] 中国专利数据库与全量企业工商注册数据库的匹配报告见施丹燕和杨奇明(2022),本文从中筛选出了A股上市公司部分的数据,作为A股上市公司的专利数据基本信息库。
[11] 1995年专利申请号为CN95242977.2的绿色低碳技术专利——节能燃烧器(实用新型),在1996年1月31日才授权,所以1995年A股上市公司绿色低碳技术专利授权数量为0,该专利的具体信息如附录图A3所示。
图7 1995-2022年上市公司绿色低碳技术专利申请、授权数量(单位:件)
五结论和进一步讨论
参考文献
[1] 施丹燕, 杨奇明. 中国专利数据库与全量企业工商注册数据库匹配报告, 2022,企研数据处理工作论文系列,No.WP0007.
附录
图A3为第一份申请的绿色低碳技术专利信息。(图片来源于“专利检索及分析”网站:https://pss-system.cponline.cnipa.gov.cn)如需咨询数据匹配与数据清洗,请联系客服👇
相关内容推荐
(👇向下滑动查看更多内容)
数据质量检测系列推文
数据质量检测 | 对一份中国工商企业注册数据库的质量考察
数据质量检测|论数据质量差异的显著性
工作论文系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)企业数据库匹配系列(四)|海关库与工商库匹配报告(上)
企业数据库匹配系列(四)|海关库与工商库匹配报告(下)
企业数据库匹配系列(五)|海关库与工企库匹配报告企研数据处理工作论文系列 | 专利库与工商库匹配报告(上)
企研数据处理工作论文系列 | 专利库与工商库匹配报告(下)学术RA丨如何用机构代码唯一识别企业(科普篇)
·END·
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐
新库上线 | CCAD-三农基础统计(市辖区)数据上线,包含158个市辖区统计指标
企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(上)
新库上线 | CCAD-三农基础统计(地市)数据上线,包含178个地市统计指标
每周一图 | 2012年-2023年全球地震(震级类别)占比图
新库上线 | CCAD-三农研究基础统计库上线,首批更新45个县域统计指标