查看原文
其他

数据呈现 | 用R绘制和弦图,解读大健康产业经济数据

简华 数据Seminar 2021-06-03



和弦图,是一种显示矩阵中数据间相互关系的可视化方法,节点数据沿圆周径向排列,节点之间使用带权重(有宽度)的弧线链接。它被生物科学界广泛用于可视化基因数据,在Wired,New York Times和American Scientist等刊物上也被称为信息图表(info graphics)。


图1 和弦图样例
(来源:《Circular Visualization in R》,by Zuguang Gu)
目前,在经济领域,和弦图较多用于探索实体组之间关系,其应用场景主要包括但不限于以下三个方面:

1.展示层次结构中的依赖关系,如剖析关联企业间的控股关系。

2.展示同级实体之间的流通关系,如可探索公司资金流向问题。

3.展示不同对象的交叉分布关系,如研究某一产业在地区与行业间的结构分布。

那么,如何借用和弦图,来剖析经济数据中蕴含的对应关系呢?
下表显示的是2018年中国大健康产业中企业存量在地区与行业间的分布矩阵表,其中,Pname是全国31个省份(地区)名称,H01-H13表示大健康产业13个行业大类。如,表1中第一行代表的是安徽省拥有的大健康企业在13个行业大类的行业分布,第一列则是医疗卫生服务(H01)拥有的大健康企业在31个省份的地区分布。

表1:大健康产业企业存量在省与行业间的分布矩阵(展示的仅部分数据)

(注:大健康产业数据由企研数据提供。)
接下来,介绍用R绘制和弦图方法:
#加载包library(openxlsx)library(tidyverse)library(circlize)##绘制和弦图包
#读取大健康产业企业存量数据djk_data<-read.xlsx('djk_data.xlsx') ##数据样式见上表1
#将数据框转换成矩阵结构djk_data<-as.matrix(djk_data)
#设置参数grid.col=NULLgrid.col[c('北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆')]='grey50'grid.col[c('H01','H02','H03','H04','H05','H06','H07','H08','H09','H10','H11','H12','H13')]='grey'col_fun=colorRamp2(range(djk_data),c('#FFFFFF','#000000'))##设置弧线颜色
##绘制和弦图chordDiagrm(djk_data, grid.col=grid.col, col=col_fun, annotationTrack='grid', annotationTrackHeight=c(0.03,0.01), preAllocateTracks=1,          order=('北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆'),          transparency=0.3)          circos.trackPlotRegion(track.index=1,panel.fun=function(x,y){          xlim=get.cell.meta.data('xlim')           ylim=get.cell.meta.data('ylim')          sector.name=get.cell.meta.data('sector.index')          circos.text(mean(xlim),ylim[1]+0.3,sector.name,facing='clockwise',niceFacing=T,adj=c(0,0.5),cex=0.7)          circos.axis(h='top',label.cex=0.5,major.tick.percentage=0.2,sector.index=sector.name,track.index=2)           },bg.border=NA)##调整文本标签垂直方式放置
左右滑动查看更多
绘制图形结果,展示如下:

图2 大健康产业企业存量的地区与行业交叉分布
从图2,我们可以解读大健康产业企业分布具有以下经济特征:
1.大健康存续企业的行业分布向“药品及其他健康产品流通服务H07”行业集中,向经济实力排名第一的广东省积聚。2.不均等比例分布在13个行业中的大健康存续企业,唯“药品及其他健康产品流通服务(H07)”在全国各省内的比重最高,说明推动各省大健康在营企业数量迅速扩张,主要依靠“药品及其他健康产品流通服务(H07)”这单一行业力量。3.另外,我们还可以解读支撑每一个行业发展的重点省份,等等。
和弦图命令包的详细介绍,请点击阅读原文,查看官方文档获取更多细节






►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

工具&技巧丨如何解决机器学习中数据不平衡问题

特别推荐丨老姚专栏:宏观数据VS微观问题:谨防生态学谬误

工具&技巧丨能够融合Stata、Python和R的神器——Jupyter Notebook

数据呈现丨22个!史上最全Python数据可视化库大合集

工具&技巧 | 经济学圈特供 小刘帮你画专业社会网络图(二)





数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:简华(何年华)审阅:杨奇明编辑:青酱





    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存