差异显著性标记“*”或“abc”的标注方法

原创生信小白鱼鲤小白小白鱼的生统笔记 2022-05-08

收录于合集 #假设检验 23个

差异显著性“*”或“abc”的标注方法

通过显著性分析（如多重比较）我们比较了组间数值是否存在显著差异。对于数据分布，我们一般会将它们可视化呈现，例如柱状图、箱线图等，必要时也会将显著性水平在图中标注出。

先前的几篇文章已经对几种基本的显著性分析方法在R语言中的实现过程作了初步简介，如T检验、Wilcoxon检验、方差分析、非参数检验等。后面还会针对特定的生物学问题，介绍更多的方法。在此之前，本篇将带来如何在统计图中添加显著性标记的策略。

本篇只讲概念，文中相关的R代码将在下一篇分享。

显著性标识的标记过程

对于显著性水平的标注，常见两种样式，一种是“*”，另一种是“abc”。

显著性“*”标注

这个大家应该都没啥疑问吧，通常情况下，根据显著性p值的数值，分为3个水平：

（1）0.01≤p<0.05，标注“*”；

（2）0.001≤p<0.01，标注“**”；

（3）p<0.001，标注“***”；

无论参数型检验还是非参数型检验都通用。

比方说，在这个柱状图中，A和B的p值为0.035，B和C的p值为0.0056，A和C的p值为0.00002，则就可以这样表示。

显著性“abc”标注

对于参数检验

参数检验，如在多重比较中，对于“abc”的标注，需要同时结合显著性水平以及均值等信息。默认做法如下：

（1）首先根据均值大小，将各组由高往低排排序，均值最高的组标注为“a”；

（2）将均值最高的组与第二高的组相比，若差异显著，则第二组标注为“b”；若不显著，继续比较其与均值第三高的组的差异；

（3）若均值最高的组与第二高的组不显著，均值第二高的组与第三高的组显著，则第二高的组就同样标注为“a”，第三高的组标注为“b”；若均值最高的组与第二高的组不显著、均值第二高的组与第三高的组不显著，但均值最高的组与第三高的组显著，则第二高的组就标注为“ab”，第三高的组标注为“b”；

（4）然后以标注为“b”的组的均值为标准，以此类推，继续循环往后比较，直到最小均值的组被标记，且比较完毕为止。

在这种模式下，只要两组间达到显著性差异水平，即为一个层级；对于显著性差异到底多大，并不是很侧重。

比方说，某数据包含A、B、C、D、E、F共6组数据，通过显著性差异检验后，所得各组间差异分析结果如下。

我们定义p<0.05即为有显著性，据此在柱状图中标准显著性“abc”水平，如下示例。

上图标注显著性abc时，由最大值从a开始，逐渐往小值标注b、c等。而有时候我们也会见到这种反过来的，如下图所示，由最小值从a开始，逐渐往大值标注b、c等。不要认为反过来就算错误的，只是更普遍的习惯是由大值逐渐往小值标注，所以上图更为常见而已，但是下图的展示方法也是正确的。

对于非参数检验

上述的“abc”标注方法主要针对于像多重比较这种参数型的检验，参数检验容易理解，它们比较的是均值差异。但是对于非参数的检验来说，由于它们所关注的一般不是均值、标准差那些，再根据均值大小和显著性去标记“abc”就不是很合理的方法，此时需要注意更换排序的标准。

某些非参数检验，例如Wilcoxon检验这些，它们的比较方法可以认为是关注的分位数（中位数）差异，这种也比较好理解，可通过结合中位数的高低以及显著性p值等去判断，如此可获得“abc”水平。

但是有些非参数方法可能不便通过单一的指标（如分位数）评判“高低水平”，如置换检验这种，除非数据分布的高低水平非常明显，否则将很难通过“abc”表示出。

如果采用“*”表示法，将两两分组的显著性全部呈现出，分组少的时候还好说，标注两两差异也不算麻烦；但是当分组多的时候，就不再建议以图形的方式表示了，建议附张统计表，以表格的形式记录两两分组间的差异。

如下所示，展示了5组数据之间的置换多元方差分析的结果。

R语言的处理

R语言统计

对于“*”没什么好说的了，基本上显著性分析函数都会在p值后面自动为你标识出来，例如下面这个双因素方差分析的结果。就算手动标注也很容易了。

对于“abc”这种，R中存在一些包，可直接基于单因素方差分析后的多重比较结果，自动标注“abc”水平。例如multcomp包的cld()函数，可见前文“单因素方差分析与多重比较”。

但是这些函数方法主要还是针对参数检验而言的，毕竟就参数检验而言，无论测试数据的分布还是方法本身，都比较“标准”，处理起来也很简单方便。

对于非参数检验，不好意思本人没找到能自动标注“abc”水平的包……大家可以试着自己找下。也可能是非参数的方法处理起来不那么方便吧。但是我们大可以手动去标记，正如上文所述的那样，对于比较“直观”的非参数检验方法，比方说比较中位数差异的那种，根据中位数的高低以及显著性p值去判断；搞不清楚原理的，建议不要冒险使用“abc”，还是用“*”表示，分组多的话更换为表格展现。

R语言作图

正常情况下，数据分析和作图是两步分开的过程。

我们首先对数据进行显著性分析，得到组间差异p值；然后再通过一系列的处理函数也好，或者手动识别标注也好，得到“*”或“abc”水平。

然后再通过作图包，绘制统计图展示数据分布，然后再额外将上一步得到的“*”或“abc”水平标注在图中。

你可以自写R代码，将这两步串联起来。由于本篇只讲概念，在下一篇，我将继续分享一个结合两步的R脚本。

如果你已经手动标记好显著性了，只差作图了，如果你习惯ggplot2作图，前文我在“分组柱状图”和“箱线图、提琴图”中提到过ggplot2如何在绘制统计图的同时添加显著性标记。其它方法，比方说只绘制无显著性标记的统计图，然后输出到本地后再使用AI、PS等工具“P上去”也是挺方便的。