查看原文
其他

数据呈现 | R制图:用等高线图揭示中国文盲分布特征

简华 数据Seminar 2021-06-03




引言


等高线图是二维核密度图的一种。传统地,等高线是通过连接地图上的海拔高度相同的点得到的,其特点一般不相交,但有时可能会重合;在同一等高线上的各点高度相同。在等高线稀疏的地方,坡度较缓;而在等高线稠密的地方,坡度较陡。
基于2015年全国1%人口抽样数据,我们利用R软件,绘制等高线图来揭示全国不同经济发展地区的文盲分布特点。




数据读取


首先,读取基础数据:2015年全国1%人口抽样数据和2015年全国地区人均GDP数据。

# 加载包library(openxlsx)library(ggplot2)
# 读取数据集1illiteracy.GDP.gender<-read.xlsx('illiteracy_data.xlsx',1)
# 展示前6行head(illiteracy.GDP.gender)
# Pro illiteracy GDP_PER area gender#1 北京 0.009068759 5.027337 东部 男#2 天津 0.014269356 5.033263 东部 男#3 河北 0.023068412 4.604820 东部 男#4 山西 0.019304184 4.543062 中部 男#5 内蒙古 0.037591223 4.851876 西部 男#6 辽宁 0.014063987 4.815272 东部 男
# 读取数据集2illiteracy.GDP.city<-read.xlsx('illiteracy_data.xlsx',2)
# 展示前6行head(illiteracy.GDP.city)# Pro illiteracy GDP_PER area class#1 北京 0.01319026 5.027337 东部 城市#2 天津 0.01760542 5.033263 东部 城市#3 河北 0.01757202 4.604820 东部 城市#4 山西 0.01422646 4.543062 中部 城市#5 内蒙古 0.02660108 4.851876 西部 城市#6 辽宁 0.01373357 4.815272 东部 城市
左右滑动查看更多

注:上述代码块中,变量Pro为省份名称,illiteracy为文盲率,即文盲人口/总人口,GDP_PER是全国各地人均GDP对数,area为东中西部地区,gender为男、女分类变量,class为农村、城市分类变量。




绘制等高线图


利用R软件中ggplot2包,绘制图形,注意下图使用“..level..”将密度曲面的高度映射给等高线的颜色。
图形一:代码
# 利用数据集1,绘制图形1ggplot(data=illiteracy.GDP.gender,aes(x=illiteracy,y=GDP_PER,fill=gender))+ stat_density2d(aes(alpha=..level..),geom='polygon')+ geom_jitter(aes(colour=gender),size=1.5)+ geom_rug(aes(color = gender)) + labs(fill = "性别", color = "性别", x = "文盲率", y = "人均GDP对数", title = "2015年不同经济发展地区文盲率水平", subtitle = "来源:2015年全国1%人口抽样数据,经企研数据整理", caption = "") + facet_grid(.~ area) + theme_bw()+ scale_color_brewer(palette="Set1", na.value = "grey50") + scale_fill_brewer(palette="Set1")

左右滑动查看更多

图形一:文盲性别特征——男少女多

图1 性别比较
图形二:代码
# 利用数据集2,绘制图形2ggplot(data=illiteracy.GDP.city,aes(x=illiteracy,y=GDP_PER,fill=class))+ stat_density2d(aes(alpha=..level..),geom='polygon')+ geom_jitter(aes(colour=class),size=1.5)+ geom_rug(aes(color = class)) + labs(fill = "类别", color = "类别", x = "文盲率", y = "人均GDP对数", title = "2015年不同经济发展地区文盲率水平", subtitle = "来源:2015年全国1%人口抽样数据,经企研数据整理", caption = "") + facet_grid(.~ area) + theme_bw()+ scale_color_brewer(palette="Set1", na.value = "grey50") +  scale_fill_brewer(palette="Set1")
左右滑动查看更多
图形二:文盲城乡特点——农村多于城市

图2 城乡比较




几点结论


最后,利用人均GDP对数来衡量地区经济发展水平,从两幅图形中,可以得出一些基本结论:
综合图1、2来看,文盲人口比例与经济发展水平相关,其分布主要集中在经济欠发达的中西部地区,而东部地区文盲率较低。
从性别特征看(图1),不论是经济发达地区还是欠发达地区,文盲人口比例分布始终是“男少女多”(红色区块代表男性,蓝色区块代表女性),这是否与我国历来“重男轻女”文化习性有关,值得大家去深入思考。
从城乡特点看(图2),两者也存在显著差别。我们发现,文盲人口比例较大出现在农村(图2中蓝色区块),较少比例出现在城市(图2中红色区块),不同经济发展水平地区的“马太效应”比较明显,折射出“城乡教育的二元结构”现象。
说明:图中相关基础数据,经企研数据整理,如若需要,请阅读原文进行查阅并下载。






►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

数据呈现 | R语言绘图包大全(共40个包)

特别推荐丨老姚专栏:利用实验方法进行因果识别的效度问题

工具&方法 | 黑科技!Excel中的rept函数也能绘图

数据呈现 | 用 pyecharts 绘制时间线动图

特别推荐 | “正则表达式”在工业企业数据库匹配中的运用(二)




数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:简华(何年华)
审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存