其他
前言
企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。
——杨奇明(企研数据CEO)
2022年8月16日于杭州·海聚中心
一、引言
二、海关数据库清理
(一)各个版本数据库的对比
(二)数据存在的问题及处理
1. 指标数量不一致
2. 信息缺失或错误
3. 数据重复问题
三、海关库与工商库的匹配
(一)匹配方法
1.融合变量
2. 匹配思路
(二)匹配结果
参考文献
附录
海关数据库与工商库的匹配报告(上)
Part1前言
Part2海关数据库清理
(一)各个版本数据库的对比
由于三份数据时间跨度不一致,我们将其分成2000-2006年、2007-2013年两个时间段进行比较(2014-2016年由于没有数据重叠,此处无法进行比较),详细对比情况如图1所示。
(二)数据存在的问题及处理
1. 指标数量不一致
2. 信息缺失或错误
3. 数据重复问题
表3 不同版本海关数据库去重前后样本数分布比较
表4 不同渠道海关数据库进出口贸易总值与官方对照
官方数据:这里所指官方数据由两部分构成,2000-2005年数据来源于中华人民共和国商务部《中国对外贸易形势报告》统计资料,2006-2016年数据来源于中华人民共和国海关总署统计数据。
系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)
企研·社科大数据平台数据分享群
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐