查看原文
其他

Points of Significance: Visualizing samples with box plots

Points of Significance: 

Visualizing samples with box plots

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。

系列索引

1. Points of Significance: Importance of being uncertain

2. Points of Significance: Error bars

3. Points of Significance: Significance, P values and t-tests

4. Points of Significance: Power and sample size

扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。


简介

        这一篇相对简单一些,主要讲了利用箱线图(box plots)来展示数据。很多同学可能都自己用R或者用python画过箱线图,但是我可以很负责任的告诉你们,很多同学不能说清楚箱线图该怎么解读,箱线图里面的各个元素代表什么意义。


柱状图的问题

        在表示某几组数据的的平均分布情况的时候,我们经常使用柱状图上加上error bar进行表示。但是柱状图有其明显的缺陷及误导性,如下图a所示

        有A,B,C三组值分别用三种不同的柱状图进行表示,虽然是完全相同的三组数据,如果我们不知道三组数据是相同的,每一组单独拿出来看,可能会直观的认为第二个图中的三组数据差异最大。因为y轴坐标起点不一样,导致第二组看起来差异很大。这种图在某种意义上是一种简单的视觉“欺骗”,展示的是真实的数据,也是正确的结果,只是坐标上改了一下。并且柱状图信息量比较少,仅仅可以展示数据的均值和error bar的信息。所以一般不推荐使用柱状图展示数据。

        上图b中的带error bar的散点图,如果只是看各组间趋势的话是可以用的,显然上图c中既包括散点图和error bar以及一个简单的箱线图可以很好展示数据分布。

 

看懂箱线图

        如下图a中为一个数据分布,其中IQR代表四分位距离,即25%与75%数据间距离。下图b为从该分布中随机抽取20个样本的箱线图,我们来解读箱线图中的每一个元素的意义。

        在上图b中,最上面很明显是标题,下面一行标记了样本量大小为20,且每个样本点的位置用圆圈表示出来。再下面一行分别代表了从第一四分位向左1.5倍IQR距离的范围,中间IQR以及从第三四分位向右1.5倍IQR距离的范围。再往下一行分别为Q1代表第一四分位,m代表中值,Q3代表第三四分位,箱线图两边分别有一个竖线(Whiskers)代表距离第一四分位和第三四分位1.5倍IQR距离以内最小或者最大的样本点的位置,Outliers为距离第一四分位或者第三四分位1.5倍IQR距离以外的样本点。下面分别为两种箱线图的画法,第一种就是最基本的,第二种是带有凹口(Notch)的箱线图,这个凹口代表中值的95%置信区间,且该箱线图有宽度,宽度约等于根号样本量。最下面为数据点大小坐标刻度。

通过上面的理解,我们了解到箱线图所能表示的信息是巨大的。

 

样本大小与箱线图

        下图分别从刚才分布中随机抽取不同数量的样本多次,然后画出简易的箱线图。

        从图中可以看出,当样本量较小时,如n=5时,不同抽样之间差异较大,并且样本中值可能都不在样本IQR的范围内。当样本量增大时,不同次的抽样数据就较为稳定。所以当样本数量很小时,一般如果样本量小于5,那么不建议使用箱线图。

箱线图对比均值方差

对于数据,使用均值方差可以简单的描述数据分布,但是并不明确也不详细。如下图中所示,有四个不同的分布,分别为均匀分布,正态分布,以及两个有偏的分布,其中它们的均值和方差都相同。如果用均值和标准差来表示这几个分布的话,所有的四个分布会是相同的结果,但是如果用箱线图表示,可以很明确的看出差异,并且可以知道其分布情况。

参考文献

1. Krzywinski, M., and Altman, N. (2014). Points of Significance: Visualizing samples with box plots. Nature methods 11, 119-120.

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。

若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存