数据呈现 | 用R绘制箱线、散点图,揭示地区企业进退规律
箱线与散点,都属于可视化分布图,其使用图形的位置、大小、形状和颜色的渐变程度可以展示数据的分布特征。
箱线图又称盒须图,是一种用作显示一组数据分布情况的统计图,高度概括了图中最大值、最小值、中位数、下四分位数及上四分位数的分布特点。
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示数据集群的形状,以及在数据云团中各数据点的影响关系。
”基于2018年全国338座大中城市企业进入与退出数据,利用R中ggplot2包绘制箱线和散点图,以期揭示地区企业的进退规律。其中,CITYCODE为城市代码,name_province为省份名称,name_city为城市名称,region为经济圈,surving为企业存量,enterrate为企业进入率,exitrate为企业退出率。
表1:2018年全国大中城市企业进入与退出情况(展示的仅部分数据)
#加载包
library(openxlsx)
library(ggplot2)
#读取数据
firm.enter.exit<-read.xlsx('firm_data.xlsx')#数据样式见表1
#绘制箱线图-企业进入
ggplot(firm.enter.exit,aes(x=name_province,y=enterrate))+
geom_boxplot()+
labs(x='省份',y='进入率(%)')+
theme(axis.text.x=element_text(angle=90,hjust=1,vjust=0.5))+
geom_hline(aes(yintercept=19.46),colour='darkred',linetype='dashed')#设置参考线
#绘制箱线图-企业退出
ggplot(firm.enter.exit,aes(x=name_province,y=exitrate))+
geom_boxplot()+
labs(x='省份',y='退出率(%)')+
theme(axis.text.x=element_text(angle=90,hjust=1,vjust=0.5))+
geom_hline(aes(yintercept=6.97),colour='darkred',linetype='dashed')
箱线图-企业进入
箱线图-企业退出
#绘制散点图
ggplot(firm.enter.exit,aes(x=enterrate,y=exitrate,size=surving,colour=region))+
geom_jitter()+
geom_hline(aes(yintercept=6.97),colour='darked',linetype='dashed')+
geom_vline(aes(xintercept=19.46),colour='darked',linetype='dashed')+
geom_text(aes(x=enterrate+0.3,label=name_city),size=2.5,hjust=0,alpha=0.35)+
xlim(0,40)+
ylim(0,40)+
scale_colour_manual(values=c('red','blue','black','orange'))+
theme_bw()+
labs(x='进入率(%)',y='退出率(%)',colour='经济圈',size='企业存量(万家)')#设置标签
散点图-不同城市的企业进入与退出
图3 不同城市企业进入与退出的聚散关系
平稳型城市——进入率和退出率均比较低,其出现两极分化现象,即靠近东南沿海较发达的城市拥有的企业存量多,市场趋于平稳成熟,而经济欠发达部分西部城市拥有的企业存量少,市场发育不足。
衰退型城市——进入率低,但退出率较高。城市内部竞争相对激烈,市场经济主体生存压力较大,面临着淘汰可能。
高流动型城市——进入率和退出率均比较高。这类城市进入门槛较低,内部竞争也较激烈。
成长型城市——进入率高,而退出率较低。城市的创业活力强,来自“经济圈”的较多,内部竞争压力较小,适合培育初创企业的发展。
►往期推荐
回复【Python】👉简单有用易上手
回复【学术前沿】👉机器学习丨大数据
回复【数据资源】👉公开数据
回复【可视化】👉你心心念念的数据呈现
回复【老姚专栏】👉老姚趣谈值得一看
►一周热文
特别推荐 | “正则表达式”在工业企业数据库匹配中的运用(一)
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注