查看原文
其他

空间数据可视化之spmap命令

爬虫俱乐部 Stata and Python数据分析 2022-03-15


:王玉婷,中南财经政法大学金融学院

:崔赵雯

  爬虫俱乐部于2020年暑期在线上举办的Stata与Python编程技术训练营和Stata数据分析法律与制度专题训练营在不久前已经圆满结束啦~应广大学员需求,我们的课程现已在腾讯课堂全面上线,且继续提供答疑服务。现在关注公众号并在朋友圈转发推文《StataPython》或《8月Stata数据分析法律与制度专场来啦!》,即可获得600元课程优惠券,集赞50个再领200元课程优惠券!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!   
各位小伙伴、大伙伴大家好,我爬虫俱乐部“张三丰”又回来啦~

1. 导读

大家应该还记得,前段时间我们揭了Sustainability的老底(《在Sustainability上发文最多的原来是这些高校》),整理了世界主要国家和地区的研究机构在Sus上发文的名单和数量。为了更直观地观察各国的发文情况,我发现了著名的空间数据可视化命令——spmap,作图效果如下图所示:

2. 语法及其简单应用

spmap是一个外部命令,首先我们需要安装该命令:
ssc install spmap
spmap的语法结构如下:
spmap [attribute] [if] [in] using basemap [, ///
            basemap_options ///
            polygon(polygon_suboptions) ///
            line(line_suboptions) ///
            point(point_suboptions) ///
            diagram(diagram_suboptions) ///
            arrow(arrow_suboptions) ///
            label(label_suboptions) ///
            scalebar(scalebar_suboptions) ///
            graph_options]

spmap的语法可以分为三层,spmap也是通过叠加这三个图层来实现绘图的。

第一层:底层地图(basemap)。代表由多个子区域组合而成研究区域,如在世界地图中,各个国家和地区即为该地图的子区域。在Stata中,构造底层地图的数据集(countries_cor.dta)结构如下图所示:

其中,_ID是标识变量,_X_Y是用于横、纵坐标,对于每个子区域(如,中国)都拥有成百上千对(_X,_Y)来构造该区域的形状。我们来看一下世界地图的轮廓。
cd D:\sus_part3\data
use countries_cor.dta,clear
scatter _Y _X,msize(vtiny)
运行结果如下图所示:

该层还可以设置[attribute]选项,该选项是在使用spmap命令时,位于master数据集中的一个数值型变量,比如各国在Sus上的发文总量(SUM)。我们通过设置渐变色来直观地展示世界主要国家和地区的发文情况。
use draw_dbf.dta,clear //master数据集包含了[attribute]变量SUM
spmap SUM using countries_cor.dta, ///
id(_ID) clmethod(custom) /// **设置标识变量,分级类型为用户自设**/
clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) /**设置分段,设置渐变色为红色渐变**/
运行效果如下图所示:

第二层:根据研究需要,我们可以在底层地图上添加各种空间对象(spatial objects)。目前,spmap命令有6种空间对象可供选择,分别是多边形(polygon)、点(point)、线(line)、箭头(arrow)和标签(label)。比如,现在我们想突出显示美国这个子区域:
**从世界地图中将构建美国区域的坐标对另存为USA_cor.dta**
use countries_cor.dta,clear
keep if _ID==252
save USA_cor.dta,replace

use draw_dbf.dta,clear
**第一层,底层地图**
spmap SUM using countries_cor.dta, ///
id(_ID) clmethod(custom) ///
clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) /// **第二层,突出显示美国区域,蓝色填充,轮廓线粗细适中**/
polygon(data(USA_cor.dta) fcolor(blue) osize(medthin))
运行结果如下图所示:

再比如,我们想以发文量为比重描点。
use draw_dbf.dta,clear
**第一层:底层地图**
spmap using countries_cor.dta, id(_ID) /// **第二层:在底层地图上描点,world_point.dta包含了描点的坐标xcoord和ycoord变量**/
point(data(world_point.dta) xcoord(xcoord) ycoord(ycoord) /// **第二层美化:设置比例变量为SUM,填充颜色为彩虹色**/
proportional(SUM) shape(o) size(large) by(_ID) fcolor(Rainbow))
运行结果如下图所示:

第三层:根据自身的需要,我们可以在第一、第二层上添加更多元素(elements),比如比例尺(scalebar)、标题(title)、注释(note)、图例(legend)等。
use draw_dbf.dta,clear
**第一层:底层地图**
spmap SUM using countries_cor.dta, ///
id(_ID) clmethod(custom) ///
clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) ///
polygon(data(USA_cor.dta) fcolor(blue) osize(medthin)) /// **第二层:突出显示美国子区域**/
title("世界主要国家和地区在Sustainability发表论文的数量",size(*1.2)) subtitle("Jan.2009-Sep.2020",size(*0.8)) /// **第三层:添加图例、标题等其他元素**/
graphregion(margin(medium)) ///
note("Source:爬虫俱乐部整理")
运行结果如下图所示:

3. 关键点

综合来看,使用spmap作图有两大难点。

(1)获取坐标数据集难

在第二部分的简单应用中,我们所用到的坐标数据集有:countries_cor.dta:世界国家级地图坐标数据集,是使用shp2dta命令转换countries.shp文件而来。而.shp由ESRI(Environmental Systems Research Institute)开发的shape文件,一个shape文件包括一个主文件,一个索引文件,和一个dBASE表。其中主文件的后缀就是.shp


简单来说,shape文件是美国一家地理信息系统技术公司制作的坐标数据文件,我们可以使用Stata的外部命令shp2dta将该文件转换为dta文件。shape文件可以在某度搜索,关键词为“中国 shapefile”,或者从https://gadm.org/data.html下载。转换命令为:
ssc install shp2dta
shp2dta using countries.shp, ///
database("countries_dbf") coordinates("countries_cor")
USA_cor.dta:美国地图坐标数据集。从countries_cor.dta中提取的_ID为252(代表美国)的坐标对。
world_point.dta:描点坐标数据集。该数据集包括发文量top10的国家的坐标对(每个国家只需要一组,一般是该国的首都经纬度),因为数据量比较小,所以本劳模手工查找了这些国家首都的经纬度,如果数据量比较大,也可以在某度中搜索,关键词为“世界各国经纬度表”。
(2)理解master数据集和各坐标数据集的关系难
master数据集和各坐标数据集的关系确实一时难以理解,但肯定比《红楼梦》的人物关系简单。

图中方框为数据集文件,圆圈代表对应的变量。其中的难点是,如何将master(我们自己的研究数据集)与basemap建立联结?可以看到,我们是通过countries_dbf.dta文件来建立联结的。
countries_dbf.dta文件是转换countries.shp而来的文件之一,其数据结构为:

我们自己的研究数据集draw_dbf的数据结构为:

对比以上两个数据集,我们发现它们有相同的变量NAME,因此我们将两者横向合并:
use draw_dbf.dta,clear
merge 1:1 NAME using countries_dbf.dta,keepusing(_ID)

这样,我们就通过_ID标识变量将master数据集与basemap数据集联结起来了。这也给我们一个提示:在整理自己的数据集(master)时应尽可能使每个观测对象的名称(NAME,比如国家名称、省市名称等)与countries_dbf.dta中一致。

本文用到的所有数据集均可通过后台回复spmap获取,快去打开Stata试试看吧~ 





对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐

快速计算两地距离——geodist命令介绍

Seminar | CFO:努力影响财务信息环境吗?

Seminar | 企业层面成本加成的测算

朴素贝叶斯算法——以20Newsgroups数据集为例

【爬虫实战】利用scrapy框架爬取豆瓣图书信息

《我和我的家乡》影评高频词原来是这些!

一位大学党委书记的自我结束——风波里的学者本真

Seminar | JPX400指数的公司治理效应
Seminar | 企业社会责任披露如何影响企业绩效?
【爬虫实战】恒大的底气?--恒大楼盘数量爬取
Python遇上Stata--IPyStata介绍
变量类型转换之encode&decode命令
Seminar | 

Seminar | CEO

用词云图看Sustainability期刊热门题目

用Python把新婚祝福打满公屏!

震惊!知名数据分析软件竟被某度翻译“亲切称呼”为“斯塔塔”

喜临涛门,月满人圆

Python3.8新秀海象符成功出道



Stata and Pythonstatapython

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存