查看原文
其他

浅聊多样性测序样本重复问题

2017-11-28 小师兄 宏基因组

本文转载自“基迪奥生物”,已获授权。

在16S等多样性测序领域中,大家问得较多的问题是:每个分组在没有重复情况下,是否可以做多组(或者两组)间差异分析?今天我们从分析原理、生物学意义以及性价比三个角度对这问题进行说明。



1. 分析原理



多样性测序中的差异分析所针对的“目标”有很多,无论从OTU、alpha多样性指数(如香浓指数)、样本间距离差异(如unifrac)、各水平物种分类(如属级别物种)都可以做组间差异分析。组间差异检验方法也是有多种类型,简单来说,包括有参和无参两种检验方法。有参检验方法如t检验、方差分析等,无参方法常用的有秩和检验。


无论是t检验还是方差分析,都需要算组内均值与方差,这在没有组内重复的情况下,难以实现(或非常没有统计意义)。而秩和检验,临界值表格都是从至少2个重复开始才有数值,也就是单分组至少2个重复才有统计意义。


但实际上,多种数据表明,秩和检验每组至少5个重复(如wilcoxon秩和检验,图1),才有可靠的统计学意义。至于我们常看到的Lefse、metastats、Anosim、Adonis等检验方法,本质也就是上面所提及的t检验等检验方法的衍生,因此也是符合以上的重复性要求的。


可能会有人提出来,有一些检验方法,例如转录组中的卡方检验,可以进行无重复之间的组间比较,那是否就表示可以进行这类型分析。其实答案是否定的。因为它本质考虑的问题不是生物学重复,而是技术重复,因此不在我们的讨论范围当中。


图1. 显著性0.01水平下的Wilcoxon秩和检验临界表



2. 生物学意义



转录组测序研究中,由于生物体稳定性以及实验条件的可控性(例如人为设定的用药剂量),因此组内样本的重复性极高,离散程度很低。这就是为什么转录组分析中的PCA等聚类效果好的原因。


群落微生物所处的环境一般都是客观环境,如宿主个体环境(例如肠道微生物)或者物化环境(如土壤微生物)等。这些环境影响因素比较复杂,如土壤微生物可同时受光照、肥料、雨水、温度、土壤PH等多个因素影响,而且每个因素对样本的影响程度并不可控,因此群落中物种的组成以及丰度极其不稳定,组内样本离散程度较大。一般2、3个样本都难以有很理想的重复效果,所以如果只是单纯的1个样本代表一个分组去进行差异比较,结果极其不可靠。



3. 性价比



可能会有人问,既然1个重复不可以做差异分析,那后续增加样本然后进行前后两批样本的合并分析是否可以。理论上来说,是可以的,但这是没办法的办法,也是一个不合理的办法。


试想,刚才所说的样本类型的分析当中,不同时间的采样,不同批次的测序数据,很有可能由于技术问题造成数据重复性过低。而且,就算技术重复没有问题,另外一个需要重点考虑就是周期问题,现在随便一个测序公司的测序周期都是少则2个月,多则3个月甚至更多,这会造成时间的极大浪费。




那么,需要设计多少重复?



既然每组一个重复并不合理,那是否3个重复就可以?从统计学来说,3个重复确实可以开展不少差异分析,但实际上,3个重复的样本,无论从实际操作还是统计意义上,都存在极大问题。关于多少重复、为什么要这么设计重复等问题,我们会在下一期的内容中为大家解答。

猜你喜欢



写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存