描述两个或多个变量,选啥统计图?(多图示例)
统计图是统计描述的重要工具,也是辅助作者和读者沟通的有效工具,它在视觉上比统计表更简洁、明了,但是面对多种多样的统计图,你真的会用吗?英国医学杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中[1],作者对如何根据数据特点选择合适的统计图进行了详细的讲解。
上一期,我们介绍了第一部分:“单个变量的数据”,本期接着讲涉及两个及多个变量的设计图。
一、比较两个变量的图表
其实我们介绍过的描述单变量的统计图,如点状图(dot chart)、小提琴图(Violin Plot)、堆栈式条形图(Stacked bar chart),同样适用于描述两个变量,通常表现为因变量/结局变量随自变量/协变量的分布。同样的,根据变量不同的类型来决定选用哪种统计图。
1. 连续变量VS分类变量
当结局变量为连续变量,协变量为分类变量时,建议使用多重点状图(Multiple dot charts)、多重堆栈式点图(Multiple stacked dot plots)和多重小提琴图(Multiple violin plots),见图5。
由于使用同一个Y轴,不同组可以直接进行比较。在多重堆栈式点图和多重小提琴图中,图形的宽度可以表示样本量大小。如果分组变量是有序的,那么统计图的分组也要按顺序排列。
不建议将组间比较的检验结果标在图上,如*代表P<0.05,**代表P<0.01,因为这可能会将读者把注意力放在检验的P值是否显著上,而不是原始数据的差异上(如均值差异等)。P<0.05只是一个人为的阈值判断,不应该成为结果的全部。并且当同时进行多组间比较的时候,星号标记会比较混乱。
2. 连续变量VS连续变量
当结局变量为连续变量,协变量也为连续变量时,对于小到中等样本量的数据来说,建议使用散点图,同点图一样,建议使用空心圆作图。在散点图的基础上可以添加二者的回归线和95%置信区间,如图6(A)。
回归线可以揭示二者间可能存在的相关趋势,但如果二者的关系不是线性的,如存在U型关联,则线性回归可能不合适。而对于大样本量的数据来说,做直线回归可能不合适,建议做样条化回归,使回归线更光滑,同样可以包含95%置信区间,如图6(B)。
3. 分类变量VS分类变量
如果只涉及二分类变量,不论样本量大小,列联表就完全可以用来描述二者的关系。对于结局变量为有序分类变量,协变量为无序分类变量的数据,可以使用马赛克图(Mosaic plot),如图7(A)。
在图中,每种颜色的柱高表示该自变量分类在每个结局变量分类中的比例,如西班牙裔收缩压≤110mmHg的比例为0.38左右,110-140mmHg的比例为0.52左右,140-250mmHg的比例为0.10左右。由于结局变量是有序的,我们还可以看出结局变量的累积频率。柱形的宽度与协变量组内的观测数成正比,面积代表绝对数。
如果结局变量是无序的,或顺序对研究不重要,使用多重点状图(Multiple dot plot)可能比较合适,如图7(B)。从图中可以清晰地读出发生每个结局的比例,并且可以比较协变量组内各个结局发生的比例,以及组间发生某个结局的比例,但不像马赛克图中每个协变量组的宽度能反映观测数,从多点图中不能看出每个协变量组的相对计数。
如果要描述两次测量的一致率,马赛克图就不是很合适了,建议使用波动图(Fluctuation diagram),如图8所示。
但是马赛克图和波动图都不好在原始数据的基础上添加置信区间、点估计值和其他统计量,建议用文字或其他图表来展示这些统计量。
4. 分类变量VS连续变量
对于二分类结局变量来说,可以用散点图来描述结局变量和协变量的关系,在此基础上可以添加logistic回归模型的结果,如图9(A),同样的,对于大样本量数据可以进行样条回归,如图9(B)。
二、阐述多个变量的图表
对于阐述在第三个变量的不同水平下(几个取值),协变量和结局的关系,可以用彩色的点和线来区分不同分层。在此推荐免费的配色网站:
Colorbrewer(http://www.colorbrewer2.org/),可以根据数据类型生成配色方案。
如果不想用彩色的话,可用不同形状标志(方形、圆形)来区分点,用实线、虚线来区分线。对于如何正确的选择形状标志,作者Krzywinski在他的文章中有详细的讲解。
对于单个分组的数据来说,选用空心图形能清晰地展示数据,像我们之前提过的;对于多分组数据来说,可以使用不同形状和颜色的图形进行区分,但要选对比强烈的图形,如图10所示;另外,如果可以的话最好能在图上就能明确的分辨出信息的重要性,以减少对比看图例的不便,如图11所示。当然,分组越多,图形也就会越多,读者也会更难分辨,所以研究者还须尽量将分组控制到最少。
(图片10和图片11来源:Nat Methods. 2013; 10:451. )
如果第三个变量是连续变量的话,可能需要用三维立体图来展示,但这无法表现在纸面上。因此通常还是会将数据用别的统计图来表示,常用的是多重点状图(Multiple dot plot)或分组条形图(Grouped bar chart),做法是将第三个变量变成了分类变量,分多个图展示不同结局的结果,如图12展示了种族、年龄和收缩压>120mmHg的关系。
这些图表都可以用R软件实现,但是不论用哪个软件制图,都要考虑以下几点:尽量提供坐标轴标签、并且图中要有相应的图例,制图的时候根据图表最终所占页面大小来设置字体大小。
参考文献
1. Heart. 2016;102:349-55.
精彩回顾
关注医咖会,一起学习统计学!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和其他小伙伴们一起交流学习;或者点击公众号下方自定义菜单的“统计咨询”,提出你遇到的统计难题。
点击左下角“阅读原文”,看看既往小伙伴们都提出了哪些问题,以及该如何去解决,也许正好有你疑惑的问题呢~