描述两个或多个变量，选啥统计图？（多图示例）

原创 2017-05-29 宁雪娟 医咖会

统计图是统计描述的重要工具，也是辅助作者和读者沟通的有效工具，它在视觉上比统计表更简洁、明了，但是面对多种多样的统计图，你真的会用吗？英国医学杂志刊出的一篇综述《Graphics and statistics for cardiology: comparing categorical and continuous variables》中^[1]，作者对如何根据数据特点选择合适的统计图进行了详细的讲解。

上一期，我们介绍了第一部分：“单个变量的数据”，本期接着讲涉及两个及多个变量的设计图。

一、比较两个变量的图表

其实我们介绍过的描述单变量的统计图，如点状图（dot chart）、小提琴图（Violin Plot）、堆栈式条形图（Stacked bar chart），同样适用于描述两个变量，通常表现为因变量/结局变量随自变量/协变量的分布。同样的，根据变量不同的类型来决定选用哪种统计图。

1. 连续变量VS分类变量

当结局变量为连续变量，协变量为分类变量时，建议使用多重点状图（Multiple dot charts）、多重堆栈式点图（Multiple stacked dot plots）和多重小提琴图（Multiple violin plots），见图5。

由于使用同一个Y轴，不同组可以直接进行比较。在多重堆栈式点图和多重小提琴图中，图形的宽度可以表示样本量大小。如果分组变量是有序的，那么统计图的分组也要按顺序排列。

不建议将组间比较的检验结果标在图上，如*代表P<0.05，**代表P<0.01，因为这可能会将读者把注意力放在检验的P值是否显著上，而不是原始数据的差异上（如均值差异等）。P<0.05只是一个人为的阈值判断，不应该成为结果的全部。并且当同时进行多组间比较的时候，星号标记会比较混乱。

2. 连续变量VS连续变量

当结局变量为连续变量，协变量也为连续变量时，对于小到中等样本量的数据来说，建议使用散点图，同点图一样，建议使用空心圆作图。在散点图的基础上可以添加二者的回归线和95%置信区间，如图6（A）。

回归线可以揭示二者间可能存在的相关趋势，但如果二者的关系不是线性的，如存在U型关联，则线性回归可能不合适。而对于大样本量的数据来说，做直线回归可能不合适，建议做样条化回归，使回归线更光滑，同样可以包含95%置信区间，如图6（B）。

3. 分类变量VS分类变量

如果只涉及二分类变量，不论样本量大小，列联表就完全可以用来描述二者的关系。对于结局变量为有序分类变量，协变量为无序分类变量的数据，可以使用马赛克图（Mosaic plot），如图7（A）。

在图中，每种颜色的柱高表示该自变量分类在每个结局变量分类中的比例，如西班牙裔收缩压≤110mmHg的比例为0.38左右，110-140mmHg的比例为0.52左右，140-250mmHg的比例为0.10左右。由于结局变量是有序的，我们还可以看出结局变量的累积频率。柱形的宽度与协变量组内的观测数成正比，面积代表绝对数。

如果结局变量是无序的，或顺序对研究不重要，使用多重点状图（Multiple dot plot）可能比较合适，如图7（B）。从图中可以清晰地读出发生每个结局的比例，并且可以比较协变量组内各个结局发生的比例，以及组间发生某个结局的比例，但不像马赛克图中每个协变量组的宽度能反映观测数，从多点图中不能看出每个协变量组的相对计数。

如果要描述两次测量的一致率，马赛克图就不是很合适了，建议使用波动图（Fluctuation diagram），如图8所示。

但是马赛克图和波动图都不好在原始数据的基础上添加置信区间、点估计值和其他统计量，建议用文字或其他图表来展示这些统计量。

4. 分类变量VS连续变量

对于二分类结局变量来说，可以用散点图来描述结局变量和协变量的关系，在此基础上可以添加logistic回归模型的结果，如图9（A），同样的，对于大样本量数据可以进行样条回归，如图9（B）。

二、阐述多个变量的图表

对于阐述在第三个变量的不同水平下（几个取值），协变量和结局的关系，可以用彩色的点和线来区分不同分层。在此推荐免费的配色网站：

Colorbrewer(http://www.colorbrewer2.org/)，可以根据数据类型生成配色方案。

如果不想用彩色的话，可用不同形状标志（方形、圆形）来区分点，用实线、虚线来区分线。对于如何正确的选择形状标志，作者Krzywinski在他的文章中有详细的讲解。

对于单个分组的数据来说，选用空心图形能清晰地展示数据，像我们之前提过的；对于多分组数据来说，可以使用不同形状和颜色的图形进行区分，但要选对比强烈的图形，如图10所示；另外，如果可以的话最好能在图上就能明确的分辨出信息的重要性，以减少对比看图例的不便，如图11所示。当然，分组越多，图形也就会越多，读者也会更难分辨，所以研究者还须尽量将分组控制到最少。

（图片10和图片11来源：Nat Methods. 2013; 10:451. ）

如果第三个变量是连续变量的话，可能需要用三维立体图来展示，但这无法表现在纸面上。因此通常还是会将数据用别的统计图来表示，常用的是多重点状图（Multiple dot plot）或分组条形图（Grouped bar chart），做法是将第三个变量变成了分类变量，分多个图展示不同结局的结果，如图12展示了种族、年龄和收缩压>120mmHg的关系。

这些图表都可以用R软件实现，但是不论用哪个软件制图，都要考虑以下几点：尽量提供坐标轴标签、并且图中要有相应的图例，制图的时候根据图表最终所占页面大小来设置字体大小。

参考文献

1. Heart. 2016;102:349-55.

精彩回顾

1. 分类变量和连续变量的统计图示例

2. 生存分析，怎么呈现结果图表？

3. Meta分析的几种图形示例和绘图建议

4. 【合集】23种统计方法的SPSS详细操作

医咖会微信：medieco-ykh

关注医咖会，一起学习统计学！

有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进统计讨论群和其他小伙伴们一起交流学习；或者点击公众号下方自定义菜单的“统计咨询”，提出你遇到的统计难题。

点击左下角“阅读原文”，看看既往小伙伴们都提出了哪些问题，以及该如何去解决，也许正好有你疑惑的问题呢~

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！