查看原文
其他

数据分享|工企数据库 1998~2007 年地理位置数据

RStata RStata 2022-05-17

整理不易,感谢大家帮忙分享,关注本公众号(RStata)然后在公众号后台发送 9708 即可获知免费下载的方式。该数据为限时免费分享,截止时间为 2020 年 11 月 22 日晚 8 点,过期不再免费分享,可以从 RStata 平台上获取:https://rstata.duanshu.com/ (扫描开头二维码或点击文末的阅读原文即可跳转)

在之前的课程 <中国的工业企业都在哪里?—— Stata、高德接口与地理编码> 中,我以工企数据库为例讲解了如何使用 Stata 进行地理编码,之后就有小伙伴尝试了下,据说花了大半个月.... 然后解析了 50 多万个地址,顺利的发表了论文。听后我表示惊呆了,因为那个方法只适合于数据量比较少的情况,对于几十万个地址效率肯定是非常低下的,为了避免大家再浪费时间做这件事情,我昨天下午动手把 1998 ~ 2007 年工业企业数据库中的所有地址都解析了经纬度,总观测值数量大概是 222 万+,不过解析不需要解析这么多,因为地址有重复的。总共是解析了 144万+ 的地址,最后就得到了这份接近完美的数据:

各省份的工企数量分布如下:

1997~2008 年各省工业企业数量变化:

出于保护原数据的版权考虑,我只给大家分享如下几个变量的数据:

  1. 组织机构代码;
  2. 企业名称
  3. 年份
  4. 省自治区直辖市
  5. 地区市州盟
  6. 经纬度

合计 222 万 个观测值,使用组织机构代码和年份你可以非常容易的把这份地理位置的数据和原工企数据库合并。

Stata 格式的数据表是这样的:

数据格式方面我提供四个格式的:

  1. 供 Stata 读取的 dta 格式的数据;
  2. 供 R 语言读取的 rds 格式(使用 readr 包中的 read_rds 函数读取);
  3. 供文本编辑器打开的 csv 格式的数据(用 Excel 打开会出现中文乱码);
  4. 供 Excel 读取的 csv 格式的数据(文件名中含有 excel 的字样)。

注意事项

  1. 所有的地址都是使用高德地图接口批量解析的,可能包含部分解析错误的观测值,不过从上面的地图来看大部分解析的都是正确的;
  2. 由于工企数据库是 1998~2007 年的,里面的地址自然也是 1998~2007 年的,而高德地图接口返回的经纬度是最新地址的,这也可能导致经纬度错误(这个应该问题不大,毕竟公司搬家的不多。且也没有什么好的办法了);
  3. 我提供的地理位置数据里有几个公司的名称含乱码,这是原数据的锅;
  4. 高德地图接口解析得到的是 GCJ02 坐标系的经纬度,我已经转换成了 WGS84 坐标系的,可放心使用。

获取数据

整理不易,感谢大家帮忙分享,关注本公众号(RStata)然后在公众号后台发送 9708 即可获知免费下载的方式。该数据为限时免费分享,截止时间为 2020 年 11 月 22 日晚 8 点,过期不再免费分享。

你也可以从 RStata 平台上购买这份数据:https://rstata.duanshu.com/ (点击文末的阅读原文即可跳转)。

可以选择购买 SVIP、VIP 会员卡或数据资料卡获取这份数据,也可以单独购买。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存