查看原文
其他

全国31省GDP排行强势登场!

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:钱梦璇

文字编辑:朱巧利

技术总编:张计宝

写在前面:



2019年全国31省份GDP数据强势登场!广东省GDP首次突破10万亿元,众多省份的经济总量迈上了新台阶。


2019年各省GDP数据

地区

GDP(亿元)

GDP增速

广东

107671.07

6.2%

江苏

99631.52

6.1%

山东

71067.5

5.5%

浙江

62352

6.8%

河南

54259.2

7.0%

四川

46615.82

7.5%

湖北

45828.31

7.5%

福建

42395

7.6%

湖南

39752.12

7.6%

上海

38155.32

6.0%

安徽

37114

7.5%

北京

35371.3

6.1%

河北

35104.5

6.8%

陕西

25793.17

6.0%

辽宁

24909.5

5.5%

江西

24757.5

8.0%

重庆

23605.77

6.3%

云南

23223.75

8.1%

广西

21237.14

6.0%

内蒙古

17212.5

5.2%

山西

17026.68

6.2%

贵州

16769.34

8.3%

天津

14104.28

4.8%

黑龙江

13612.7

4.2%

新疆

13597.11

6.2%

吉林

11726.8

3.0%

甘肃

8718.3

6.2%

海南

5308.94

5.8%

宁夏

3748.48

6.5%

青海

2965.95

6.3%

西藏

1697.82

8.1%

数据来源:中国新闻网

2018年相比,广东坐稳GDP总量第一的宝座,突破十万亿大关,江苏省位居第二,GDP总量达到99631.52亿元,明年有望进入十万亿俱乐部枯燥的数据无法给我们直观的感受,小编绘制出了以下图形,希望通过将数据可视化,更清晰地展示出2019年全国31GDP的排名情况和发展状况。


根据条形图和折线图,我们可以清晰的看到不少省区市的GDP总量越过了新的门槛。从排名情况来看,前十名省份的名次变动较小,去年排名第九的河北省退出联盟,上海成功挤入前十。受此次疫情严重影响的湖北省生产总值达到45828.31亿元,在全国省级行政区中排名第七,增长速度达到7.5%

接下来,小编将带领大家一步步画出以上图形,实现数据可视化。

条形图的绘制 



首先导入数据,并将第一行作为变量名。

clear allimport excel using "E:\2019年各省GDP.xlsx",first clear //以第一行作为变量名

需要注意的是,我们将数据导入stata后,发现“地区”为字符型变量,但在画图中需要使用的应该是数值型变量。因此,通过sencode这一命令,创建一个输出变量来替换输入字符串变量或生成为一个新的变量,其标签来自于输入字符串的变量名。

sencode 地区, gene(地区1) gsort(GDP)drop 地区ren 地区1 地区

sencodeencode命令类似,但sencode不仅可以将字符型变量编码为数值型变量,而且可以通过gsort自定义排序顺序。为了展示31省份的GDP排名先后,我们按照GDP的数值大小对变量进行排序。

处理后的数据如下所示:


twoway bar绘制的条形图可以是双向的——垂直或水平。这里指定为水平horizontal,将一般情形中的yar值视为x值,将xvar值视为y值。

twoway bar GDP 地区,sort horizontal barwidth(0.5) fcolor(green%60) ylabel(1(1)31,valuelabel angle(0) labsize(*1.2)) ytitle("") xtitle("GDP") ysize(2) xsize(1) title(2019年各省GDP)

其中,barwidthfcolor设置条形图中每个条形的宽度和颜色。ylabel是用于指定y轴的标签选项,valuelabel表示使用变量的值标签来标记值,将31个省份全都显示出来。angle调整标签的角度,角度为0即水平显示标签,labsize调整标签文本的字体大小。

title设置整个图形的标题,而ytitlextitle分别设置y轴和x轴的名称。最后,为了美化图形,将图形的长度ysize和宽度xsize之比设置为2:1。图形如下所示:



折线图的绘制



通过上述详细介绍,通过scatter命令绘制散点图就更容易操作了,但我们的目标不仅仅是画出每个地区对应的GDP实际增速值,还要将每个点连接起来形成折线图。

scatter 地区 GDP增速, c(l) mcolor(orange) msize(1) ylabel(1(1)31,valuelabel angle(0) labsize(*1.2)) ytitle("") xtitle("实际增速") ysize(2) xsize(1) title(2019年各省GDP增速)

许多选项的设置在条形图中已经介绍过了,不同的是,cconnect的简写,设定了散点图中点之间的连接方式。mcolormsize都是设置点的选项,显然分别设定了点的颜色和大小。

最终生成的折线图如下所示:


  图形的合并



为了同时展示出每个省份的GDP总值和增速,以形成鲜明对比,我们将条形图和折线图显示在同一张图表中。那么此时就需要利用twoway命令将两种类型的图绘制在一个画布中,代码如下:

twoway(bar GDP 地区,sort horizontal barwidth(0.5) fcolor(green%60) ylabel(1(1)31,valuelabel angle(0) labsize(*1.2)) ytitle("") xtitle("GDP") ) ///(scatter 地区 GDP增速, c(l) mcolor(orange) msize(1) xaxis(2) xtitle("实际增速",axis(2))), ///legend(label(1 "GDP") label(2 "实际增速") region(lpattern(blank)) pos(2) ring(1) col(1) symy(2) symx(1) textw(10) keyg(1)) xline(20000 40000 60000 80000 100000, lstyle(p15)) ysize(2) xsize(1)

两个图形中各自对应的选项已经介绍,主要关注twoway中其他选项的设置,包括图例、垂直线的设置等。legend选项用于设置图例的外观、内容和位置。此处设置2个键key,分别为GDPGDP实际增速。每个键会显示两个内容,一个为符号,一个为文本。如下所示:

其中,区域选项region中的lpattern将图例的轮廓设置为blank,即不显示边框,默认的是黑色的边框。symysymx分别设置key符号的高度和宽度,textw设置key文本的宽度,而keyg设置了符号和文本之间的距离间隔。
通过posringcol选项对图例位置进行调整。positionring通过设置中心点的方向和图例与绘图区域之间的距离,来确定图例在整个图形上的位置。col设置图例中GDP和实际增速两个键的之间的距离。
此外,ylinexlinetwoway_options中在指定的y值或x值除添加线条的选项,此处在两个x轴上的坐标点处添加垂直线,可以更方便的看出每个省份的GDP取值以及实际增速。同时,通过其中的lstyle选项设置垂直线的格式,p15为众多线条格式中的一种。
最终绘制的图形如下所示:



通过每个坐标值上的垂直虚线,我们发现江苏省全年GDP距离10万亿大关仅差一步之遥,浙江省GDP首次突破了6万亿万,河南省首次突破5万亿元,湖北省和福建省首次突破4万亿元。值得惊讶的是,浙江省与长期稳坐第三把交椅的人口大省山东省的差距已经拉进至不足9000亿元的距离,而且浙江省的经济增速优势也更为明显,可见浙江省有望成为经济总量第三省。
GDP增速来看,GDP增速最高的为贵州省,达到为8.3%。此外,云南省、江西省以及西藏自治区也都达到8%的增速。据报道,2019年全国GDP增速为6.1%,与其相比,有许多省份的GDP增速跑赢了全国水平。
目前广东、浙江、江苏等省份火热的“抢人大战”体现了这些经济大省的魄力和担当,在疫情可控的条件下,谁抢到了资源,比别人早跑一步,经济就早复苏一步。危机过后,先进的地区和优秀的企业更有紧迫感,都想夺回这一个月的损失。
虽然疫情不可避免的会抑制我国短期经济增长速度,但是随着经济系统的逐步恢复和调整,我国经济发展依然有较大韧劲,经济增加质量正在提升,社会环境在不断改善。我们要坚信2020年全国经济发展一定仍有很大成果!






对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
接力《发哨子的人》Stata版
批量实现WORD转PDF

Stata有问必答环节

我听到了企业的哀鸣
“物以类聚”、“近朱者赤”——机器学习初探之KNN
SFI:Stata与Python的数据交互手册(二)

从流调数据中寻找感染真相

熟悉又陌生的reshape

NBA球员薪资分析——基于随机森林算法(二)

NBA球员薪资分析——基于随机森林算法(一)

高亮输出之唐诗作者

湖北省各市疫情数据爬取

古代诗人总去的这些地方你一定要知道!

DataFrame数组常用方法(二)

ftools命令——畅游大数据时代的加速器

卫健委的“糊涂账”

Pandas中数据的排序与切片

DataFrame数组常用方法

关于我们



微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存