查看原文
其他

数据呈现 | 用R绘制箱线、散点图,揭示地区企业进退规律

简华 数据Seminar 2021-06-04

箱线与散点,都属于可视化分布图,其使用图形的位置、大小、形状和颜色的渐变程度可以展示数据的分布特征。

箱线图又称盒须图,是一种用作显示一组数据分布情况的统计图,高度概括了图中最大值、最小值、中位数、下四分位数及上四分位数的分布特点。


散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示数据集群的形状,以及在数据云团中各数据点的影响关系。


基于2018年全国338座大中城市企业进入与退出数据,利用R中ggplot2包绘制箱线和散点图,以期揭示地区企业的进退规律。其中,CITYCODE为城市代码,name_province为省份名称,name_city为城市名称,region为经济圈,surving为企业存量,enterrate为企业进入率,exitrate为企业退出率。

表1:2018年全国大中城市企业进入与退出情况(展示的仅部分数据)

注:不同城市企业的进入与退出数据,由企研数据提供
接下来,利用上述表1数据,绘制箱线和散点图:
来看看省际间的比较,我们用箱线图展示各省的企业进入与退出情况。
#加载包library(openxlsx)library(ggplot2)
#读取数据firm.enter.exit<-read.xlsx('firm_data.xlsx')#数据样式见表1
#绘制箱线图-企业进入ggplot(firm.enter.exit,aes(x=name_province,y=enterrate))+ geom_boxplot()+ labs(x='省份',y='进入率(%)')+  theme(axis.text.x=element_text(angle=90,hjust=1,vjust=0.5))+ geom_hline(aes(yintercept=19.46),colour='darkred',linetype='dashed')#设置参考线#绘制箱线图-企业退出ggplot(firm.enter.exit,aes(x=name_province,y=exitrate))+ geom_boxplot()+ labs(x='省份',y='退出率(%)')+ theme(axis.text.x=element_text(angle=90,hjust=1,vjust=0.5))+ geom_hline(aes(yintercept=6.97),colour='darkred',linetype='dashed')
左右滑动查看更多


箱线图-企业进入


图1 省际间企业进入率差异比较
企业进入率是指企业进入数量与企业存量的比值,反映了地区企业的成长性。如图1所示,市场相对成熟和市场发展滞后的大部分经济地区(市场相对成熟,如,经济表现较好的四个直辖市、江浙地区;市场发展滞后,如,经济表现较差的西部地区)企业进入率低于全国平均水平(参考线),前者企业进入率低是由于市场存在竞争压力;后者企业进入率低是因为市场发育不足,生得不易,死也较难。而处于中间地带,企业成长性良好,进入率相对较高。



箱线图-企业退出


图2 省际间企业退出率差异比较
企业退出率是指企业退出数量与企业存量的比值,反映了地区企业的淘汰率。目前,全国大约有15个省的企业退出率超过全国平均水平。其中,整体退出情况表现最为严重的是黑龙江省,退出率最低的是西藏自治区。



再看看不同城市间的企业进入与退出的聚散关系,绘制散点图,借用参考线进行四象限分割。
#绘制散点图ggplot(firm.enter.exit,aes(x=enterrate,y=exitrate,size=surving,colour=region))+ geom_jitter()+ geom_hline(aes(yintercept=6.97),colour='darked',linetype='dashed')+ geom_vline(aes(xintercept=19.46),colour='darked',linetype='dashed')+ geom_text(aes(x=enterrate+0.3,label=name_city),size=2.5,hjust=0,alpha=0.35)+ xlim(0,40)+ ylim(0,40)+ scale_colour_manual(values=c('red','blue','black','orange'))+ theme_bw()+ labs(x='进入率(%)',y='退出率(%)',colour='经济圈',size='企业存量(万家)')#设置标签
左右滑动查看更多


散点图-不同城市的企业进入与退出


图3 不同城市企业进入与退出的聚散关系

不同城市聚合、分散在以进入率19.46%、退出率为6.97%为中心的周围,其成长状态呈类型化特征。

平稳型城市——进入率和退出率均比较低,其出现两极分化现象,即靠近东南沿海较发达的城市拥有的企业存量多,市场趋于平稳成熟,而经济欠发达部分西部城市拥有的企业存量少,市场发育不足。

衰退型城市——进入率低,但退出率较高。城市内部竞争相对激烈,市场经济主体生存压力较大,面临着淘汰可能。

高流动型城市——进入率和退出率均比较高。这类城市进入门槛较低,内部竞争也较激烈。

成长型城市——进入率高,而退出率较低。城市的创业活力强,来自“经济圈”的较多,内部竞争压力较小,适合培育初创企业的发展。









►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

学术前沿 | 行政大数据的政策研究价值

特别推荐 | “正则表达式”在工业企业数据库匹配中的运用(一)

特别推荐丨老姚专栏:科学方法两则——证伪主义和溯因推理

数据呈现 | 用R绘制和弦图,解读大健康产业经济数据

工具&方法 | 4张卡片,Python命令大集合





数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:简华(何年华)审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存