其他
数据呈现 | R绘制树图,透视长三角一体化层次关系
引言
树图是一种流行的利用包含关系表达层次化数据的可视化方法,能够直观体现上下级、同级之间的比较。一个Tree状结构能将事物或现象分解成树枝状,指引我们发现探索数据背后的故事。
树图,由于它拥有树干和多个分支,所以很像一棵树。描绘树,从一个根节点出发,展开两个或两个以上树形分支,每个树形分支又按照相应节点的子节点递归的进行分割,知道叶子节点为止。
基于2018年长三角一体化企业微观数据,我们利用R软件,绘制树图透视长三角地区企业存量分布特征。
数据读取
# 加载包
library(openxlsx)
library(ggplot2)
library(igraph)
library(ggraph)
# 读取数据集1
yrd.data1<-read.xlsx('yrd.xlsx',1)
head(yrd.data1,n=10)
# from to
#1 长三角 上海市
#2 长三角 浙江省
#3 长三角 江苏省
#4 长三角 安徽省
#5 上海市 上海
#6 浙江省 杭州
#7 浙江省 宁波
#8 浙江省 绍兴
#9 浙江省 台州
#10 浙江省 嘉兴
# 读取数据集2
yrd.data2<-read.xlsx('yrd.xlsx',2)
head(yrd.data2,n=10)
# name size label
#1 长三角 0.00 <NA>
#2 上海市 0.00 <NA>
#3 浙江省 0.00 <NA>
#4 江苏省 0.00 <NA>
#5 安徽省 0.00 <NA>
#6 上海 208.52 上海
#7 杭州 60.94 杭州
#8 宁波 38.60 宁波
#9 绍兴 17.51 绍兴
#10 台州 17.55 台州
# 建立关系数据集3
graph<- graph_from_data_frame(yrd.data1, vertices=yrd.data2)
左右滑动查看更多
绘制树图
树形图一:treemap
# 设置种子数
set.seed(1)
# 利用数据集3,绘制treemap
ggraph(graph, 'treemap', weight = size) +
geom_edge_link() +
geom_node_point(aes(colour = depth)) +
coord_fixed()+
geom_node_text(aes(label=yrd.data2$label),
colour = "blue",
fontface = "bold",
show.legend = FALSE,
point.padding=unit(0.2,'lines'))
树形图二:circlepack
# 利用数据集3,绘制circlepack
ggraph(graph, 'circlepack', weight = size) +
geom_node_circle(aes(fill = depth), size = 0.25, n = 50) +
coord_fixed()+
geom_node_text(aes(label=yrd.data2$label),
colour = "white",
fontface = "bold",
show.legend = FALSE)
几点结论
1.长三角城市群企业数量规模大,头部城市作用显著,带动本省向前发展。
2.上海在长三角区域内,处于领先地位,拥有的企业数量最多。
3.苏州、南京、杭州、宁波和合肥等企业数量规模超过35万,核心城市引领作用突出。
4.相比上海、浙江和江苏,安徽省在长三角区域相对靠后。
►往期推荐
回复【Python】👉简单有用易上手
回复【学术前沿】👉机器学习丨大数据
回复【数据资源】👉公开数据
回复【可视化】👉你心心念念的数据呈现
回复【老姚专栏】👉老姚趣谈值得一看
►一周热文
特别推荐 | “正则表达式”在工业企业数据库匹配中的运用(二)
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
审阅:杨奇明编辑:青酱
欢迎扫描👇二维码添加关注