查看原文
其他

数据呈现 | R绘制树图,透视长三角一体化层次关系

简华 数据Seminar 2021-06-03




引言


树图是一种流行的利用包含关系表达层次化数据的可视化方法,能够直观体现上下级、同级之间的比较。一个Tree状结构能将事物或现象分解成树枝状,指引我们发现探索数据背后的故事。

树图,由于它拥有树干和多个分支,所以很像一棵树。描绘树,从一个根节点出发,展开两个或两个以上树形分支,每个树形分支又按照相应节点的子节点递归的进行分割,知道叶子节点为止。

基于2018年长三角一体化企业微观数据,我们利用R软件,绘制树图透视长三角地区企业存量分布特征。




数据读取


首先,读取基础数据,数据集1中包含节点的关系属性信息,数据集2中包含各城市的企业存量信息。
# 加载包library(openxlsx)library(ggplot2)library(igraph)library(ggraph)
# 读取数据集1yrd.data1<-read.xlsx('yrd.xlsx',1)
head(yrd.data1,n=10)# from to#1 长三角 上海市#2 长三角 浙江省#3 长三角 江苏省#4 长三角 安徽省#5 上海市 上海#6 浙江省 杭州#7 浙江省 宁波#8 浙江省 绍兴#9 浙江省 台州#10 浙江省 嘉兴

# 读取数据集2yrd.data2<-read.xlsx('yrd.xlsx',2)
head(yrd.data2,n=10)# name size label#1 长三角 0.00 <NA>#2 上海市 0.00 <NA>#3 浙江省 0.00 <NA>#4 江苏省 0.00 <NA>#5 安徽省 0.00 <NA>#6 上海 208.52 上海#7 杭州 60.94 杭州#8 宁波 38.60 宁波#9 绍兴 17.51 绍兴#10 台州 17.55 台州
# 建立关系数据集3graph<- graph_from_data_frame(yrd.data1, vertices=yrd.data2)

左右滑动查看更多



绘制树图


利用R软件的ggraph包,绘制图形。注意若想每次代码绘制的图形形状一样,请设置种子数,我们这里设置种子为1。

树形图一:treemap

treemap代码:
# 设置种子数set.seed(1)# 利用数据集3,绘制treemapggraph(graph, 'treemap', weight = size) + geom_edge_link() + geom_node_point(aes(colour = depth)) + coord_fixed()+ geom_node_text(aes(label=yrd.data2$label), colour = "blue", fontface = "bold", show.legend = FALSE, point.padding=unit(0.2,'lines'))
左右滑动查看更多
treemap效果:



树形图二:circlepack

若想更直观表达图形效果,我们进一步用circlepack进行绘制:
circlepack代码:
# 利用数据集3,绘制circlepackggraph(graph, 'circlepack', weight = size) + geom_node_circle(aes(fill = depth), size = 0.25, n = 50) + coord_fixed()+ geom_node_text(aes(label=yrd.data2$label), colour = "white", fontface = "bold",                      show.legend = FALSE)
左右滑动查看更多
circlepack效果:




几点结论


1.长三角城市群企业数量规模大,头部城市作用显著,带动本省向前发展。

2.上海在长三角区域内,处于领先地位,拥有的企业数量最多。

3.苏州、南京、杭州、宁波和合肥等企业数量规模超过35万,核心城市引领作用突出。

4.相比上海、浙江和江苏,安徽省在长三角区域相对靠后。 


注:文中长三角一体化基础数据,经企研数据整理、计算所得








►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

数据呈现 | R语言绘图包大全(共40个包)

特别推荐丨老姚专栏:利用实验方法进行因果识别的效度问题

工具&方法 | 黑科技!Excel中的rept函数也能绘图

数据呈现 | 用 pyecharts 绘制时间线动图

特别推荐 | “正则表达式”在工业企业数据库匹配中的运用(二)




数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:简华(何年华)
审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存