查看原文
其他

分类变量和连续变量的统计图示例

2017-05-10 宁雪娟 医咖会

统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁明了,但是面对多种多样的统计图,你真的会用吗?在《Heart》杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。 


假如一张统计图只需要展示一个变量,比如一组病人的某个体检指标,这属于单个变量的数据。变量又可以分为连续变量和分类变量。对于连续变量来说,统计图可以展示出数据的范围、分布,以及一些统计量,如均数、中位数、样本量等。

单个连续变量的数据

对于小样本量数据(如n<30),建议使用点图(Dot chart),点图可以绘制出沿着一个轴分布的观测值,假如这些点都不重合的话,采用点图可以清楚地看到每个值的分布,如图1(A)。


当出现许多相同的观测值时,可以使用堆栈式点图(Stacked dot chart),通过将相同的观测值竖直堆砌,可以清楚地看出观测值的重复性,如图1(B)。

对于50<n<200的中等样本量数据来说,普通点图可能不再合适,因为重叠的数据点会连成一片,见图2(A),或者因为太小而看不清,见图2(B),此时可将数据分区,用每个区间的中点(如中位数)代替这个区间内的所有数据。区间间距的大小可根据研究需要来选择,如图2例子中,间距可以是10mmHg、5mmHg。这样会减少呈现的数据点,使数据看上去更简洁清晰,图2(B)合并后的效果如图2(C)。

总的来说,对于小样本或中等样本量的数据,点图比箱式图(Boxplot)更合适。


而对于大样本量数据来说,数据点太密和太小的问题显然是无法避免的,但是对于大样本来说,个体的某个观测值也不会太影响结果的解释,因此可以直接描述数据的范围和分布,而不用必须展示出每个观测值。具体可采用直方图(Histogram),见图3(A);小提琴图(Violin Plot),见图3(B);和箱式图,见图3(C)。

直方图和箱式图大家都比较熟悉,而对小提琴图可能不是太了解。小提琴图既能展示所有数据的密度分布,又能标示出均值和四分位数,能同时展现出数据的多面信息。


这三个统计图各有优劣。直方图和小提琴图都可以展现中间的数据分布特征,而箱式图则不能,且箱式图会突出展示离群值,而对于大样本量的数据来说,离群值的存在是很常见的,突出它们的存在可能会引起一些不必要的怀疑;小提琴图和直方图相比,能更好的看出整体数据的分布情况,而直方图往往会让人只注意到最高点;在灵活性方面,小提琴图和箱式图比直方图要好一些,沿纵轴和横轴都可以应用。

单个分类变量的数据

对于分类变量,如性别,统计表其实就可以简单直接的展示数据频数、比例等,但是如果想要突出这一变量的重要性的话,用统计图会更合适。对于二分类变量的展示来说,无论样本量大小,都可以使用堆栈式条形图(Stacked bar chart)或者比例点图(Dot chart of proportion),见图4(A)和(B)。同样的,多分类变量也可以使用堆栈式条形图或者比例点图来实现,见图4(C)和(D)。

参考文献

1. Heart. 2016;102:349-55. 


本文先介绍一些统计图的例子,希望能为大家开拓一下视野~~这些图具体该怎么去做,还需要更多文章来详细介绍。


统计学精彩教程回顾

1. 生存分析,怎么呈现结果图表?

2. 【合集】23种统计方法的SPSS详细操作

医咖会微信:medieco-ykh

关注医咖会,一起学习统计学!


有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。


点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决,也许正好有你疑惑的问题呢~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存