查看原文
其他

2000~2016 年海关地理信息数据(含经纬度及其所处的省市区县)

RStata RStata 2023-10-24

在之前的课程「使用 Stata 进行地理编码:地址解析经纬度、坐标转换 & 根据经纬度判断所处的省市区县」中我们讲解了如何使用 Stata 进行地理编码(根据地址解析经纬度)以及根据经纬度判断该点所处的省市区县。

使用 Stata 进行地理编码:地址解析经纬度、坐标转换 & 根据经纬度判断所处的省市区县:https://rstata.duanshu.com/#/brief/course/537300af1a9947edb758789785c600f3

最近我根据该课程中讲解的方法解析了海关数据库的地址经纬度信息:

每年的数据包含的变量不完全相同:

如果电脑内存不大,不建议直接合并。可以先逐年处理,删除自己不需要的变量再合并处理。

其中有几个变量是我处理生成的:

  1. 经度/纬度:根据企业地址、企业名称、省自治区直辖市、地区市州盟、乡镇、街道办事处等字段使用高德地图地理编码接口解析得到(已经转成了 WGS84 坐标系);
  2. 省代码/省:根据上述经纬度结果和 2019 年行政区划判断得到;
  3. 市代码/市:根据上述经纬度结果和 2019 年行政区划判断得到;
  4. 县代码/县:根据上述经纬度结果和 2019 年行政区划判断得到;

在之前的课程「使用 Stata 绘制历年中国省级行政区划(小地图版本 + 长版)」中我介绍了使用 Stata 绘制中国地图的方法,使用里面的方法和地图数据我绘图展示了 2006 年海关数据中各个企业的分布:

为了方便大家使用,我提供了两个版本的数据:

  1. 按年份拆分,每年一个 dta 文件(需要注意这些 dta 文件都非常大!甚至超过了 30GB,只建议有大内存电脑的小伙伴下载使用);

  2. 考虑到按年拆分后的文件依然非常大,我还提供了一个拆分的更细的版本,每个文件不超过 2GB 大小,方便内存较小的电脑处理(建议大家都下载这个版本的)。

注意事项

  1. 经纬度是根据单位地址和企业名称变量、通过高德地图地理编码接口生成的,可能存在错误,不过也没有很好的判断是否错误的方法;
  2. 高德地图地理编码接口返回的是 GCJ02 坐标系的坐标,为了方便大家使用已经转换成了 WGS84 坐标;
  3. 高德地图地理编码接口解析经纬度的方法是如果没有在地址库里面搜索到某个地点的名称就返回上一级地址的经纬度。例如,没有找到广东省广州市珠江新城的坐标,那么就返回广东省广州市的坐标。这也就导致了数据里面很多不是一家企业的经纬度却相同(这些也可以认为是解析错误);
  4. 由于海关数据库是 2000~2016 年的,里面的地址自然也是 2000~2016 年的,而高德地图接口返回的经纬度是最新地址的,这也可能导致经纬度错误(这个应该问题不大,毕竟公司搬家的不多。且也没有什么好的办法了);
  5. 关于海关数据中贸易方式的问题,2008~2014 年的数据中贸易方式缺失的均为一般贸易,部分年份把贸易方式分成了一般贸易、加工贸易和其他,而部分年份把贸易方式分成一般贸易和其他几种贸易方式,大家可以根据自己的需要再把加工贸易筛选出来即可。

获取数据

是不是感觉很硬核!欢迎报名 RStata 培训班获取全部课程和以会员价获取数据资料(10元/份)详情可阅读这篇推文:数据处理、图表绘制、效率分析与计量经济学如何学习~

详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:

附件下载链接(点击文末的阅读原文即可跳转):https://rstata.duanshu.com/#/brief/course/a63b7b4100f541f484fc79dfe1acd6f9


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存