查看原文
其他

数据呈现 | Stata+R绘图:小提琴图,展示不同地区婚姻市场状况

简华 数据Seminar 2021-06-04

小提琴图 (Violin Plot) 用于显示数据分布及其概率密度,因其形态类似小提琴而得名。
小提琴图是箱线图与核密度图的结合,中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。

图注:图片来源于网络

箱形图在数据显示方面受到一定限制,简单的设计往往隐藏了有关数据分布的重要细节。例如使用箱形图时,我们不能了解数据分布是双模还是多模,而小提琴图可以显示更多详情,但同时也可能包含一些干扰信息。




婚姻数据集


本期,我们用民政局公布的2018年全国31个省份婚姻市场数据,绘制小提琴图,分组展示东部、中部和西部的离婚率异同。表1展示了婚姻数据集相关细节。

表1 全国31个省结、离婚状况

省份地区结婚人数离婚人数离婚率
北京东部137818
66616
0.4834
天津东部9748660742
0.6231
河北东部
456728
194276
0.4254
山西中部27913370803
0.2537
内蒙古西部17686682095
0.4642
............
...
陕西西部300405100174
0.3335
甘肃西部21061140866
0.1940
青海西部5733212210
0.2130
宁夏西部5935517264
0.2909
新疆西部15165443879
0.2893

注:离婚率=离婚人数/结婚人数。

左右滑动查看更多




绘图代码


基于婚姻数据集,下面我们用Stata中的vioplot命令和R中的ggplot2包来分别绘制小提琴图。


Stata中vioplot命令:

*导入数据
import excel "C:\Users\Desktop\marriage.xlsx", sheet("Sheet1") firstrow

左右滑动查看更多

*绘制小提琴图,请安装:ssc install vioplot
vioplot marriage_rate,over(area) ytitle('离婚率')
左右滑动查看更多


R中ggplot2包中的geom_violin命令:

## 加载包library(openxlsx)library(ggplot2)library(hrbrthemes)
##读取数据marriage<-read.xlsx('C:/Users/Desktop/marriage.xlsx')
##展示前6行head(marriage)# pro area mar unmar marriage_rate#1 北京 东部 137818 66616 0.4833621#2 天津 东部 97486 60742 0.6230843#3 河北 东部 456728 194276 0.4253648#4 山西 中部 279133 70803 0.2536533#5 内蒙古 西部 176866 82095 0.4641650#6 辽宁 东部 280169 151832 0.5419300
## 绘制图形marriage$area<-factor(marriage$area,order=T,levels = c('东部','中部','西部'))
ggplot(marriage,aes(x=area,y=marriage_rate,fill=area))+ geom_violin(alpha=0.5) + ## 小提琴图 geom_jitter(alpha=0.3,color='red')+ ##添加抖动散点 geom_boxplot(width=0.1,color='grey',alpha=0.2)+ ##添加box theme_ipsum() + xlab('area')+ theme(legend.position = 'none')+ xlab('')+ ylab("离婚率")

左右滑动查看更多




图形展示


运行-上述代码,我们就可以轻松绘制出小提琴图了,效果如下:


Stata绘图效果:

Stata小提琴图


R绘图效果:

R小提琴图

从两幅图中,我们很直观地发现:三大地区的婚姻市场表现不一,经济发达的东部和中部地区,离婚率要明显高于经济欠发达的西部地区。特别注意的是,中部地区的黑龙江和吉林,离婚率全国排名最高,达到60% 以上。









►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

数据呈现 | Python中交互turtle包,让图形多点艺术

特别推荐丨老姚专栏:辛普森悖论、异质性与DID模型

工具&方法丨 关于交互项的那些事(三):遗漏变量偏差 vs 多重共线性

工具&方法 | R语言机器学习包大全(共45个包)

数据呈现 | R绘图:三维动图,分省透视三大产业经济格局






数据Seminar

这里是大数据、分析技术与学术研究的三叉路口



作者:简华(何年华)审阅:杨奇明编辑:青酱





    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存