查看原文
其他

多样性测序需要多少重复?

小师兄 宏基因组 2019-04-30

本文转载自“基迪奥生物”,已获授权。

上次我们对微生物群落多样性的测序是否需要重复的问题进行了讨论,并从统计学、生物学以及实际操作上说明了生物学重复的必要性。那到底需要多少个重复才是合理呢?3个?5个?还是10个?今天我们来仔细探讨一下这个问题。


统计学可行性

首先,我们先了解一下分析的可行性,也就是说,一般的分析手段需要多少样本重复数才能正常开展。如上期所提到,需要依靠重复样本才能实现的分析,无外乎就是t检验、秩和检验等差异检验。

那每组一个重复不能开展差异检验分析的话,每组3个重复是否就可以了?从统计学来说,3个重复确实可以。例如一般的t检验,每组至少3个重复就能算均值方差,从而进行t检验。

但t检验本身是一种有监督检验方法,需要依赖数据符合正态分布,而在多次随机抽样中,微生物的丰度分布并不一定符合正态分布,因此有时候需要开展无监督检验方法。Wilcoxon秩和检验就是一种常用的方法。但我们通过其检验临界表可以发现,在0.01的水平下至少需要5个重复才能找到数据,也就是才能开展分析

因此,总结来说,要开展有效的差异检验分析,必须要有至少3个,甚至5个样本重复才可以。



生物学合理性

考虑完分析的可行性之后,接下来我们讨论其合理性,也就是多少重复才算比较有数据代表性。由于微生物样本影响因素繁多,加上样本物种种类复杂,因此相比于转录组等样本来说,其离散程度较大。同时由于人为误差的必然存在(如采集到极端样本、操作失误等),因此,就算3,5个样本重复统计出来的显著差异,实际上并没有太多生物学意义。

举个例子,如果需要开发一种药物针对性治疗某种疾病,而这种疾病经过研究是与肠道微生物有关,那很自然想到通过分析寻找肠道群落的biomarker。现在有两个实验室同时对正常与疾病人群采样进行研究,其中A实验室每组采集3个样本作为重复,而B实验室每组采集50个样本。两个实验室都通过差异检验分析得到一些候选物种作为biomarker,你是药物研发公司的投资人,会选谁的结果作为依据来开发药物?

很显然,在进行容错率越低的研究时候(例如药物研发,疾病机理等),我们需要更多的样本重复来消除背景误差,以精确的找到目标,因此B实验室的结果在这种环境下更让人“放心”。

同时,样本的复杂程度越高,理论需因此推荐,要的重复数也越多。一般的水体研究,可以开展5个以上重复,土壤、植物10个以上,而人体肠道微生物研究,则推荐20个以上样本


操作便捷性

前面我们所谈到的,都是理论问题。那实际操作当中呢,多少重复有利于实验的开展?

由于实验条件的差异,经常造成测序所产生的数据量差别很大。例如同一批数据,同一组中某重复a、b的tag数目都是20万,另外一个重复c则是3万。我们可以采用抽平分析策略来解决数据量差异问题,但着会造成a、b数据的极大浪费。如果直接用原始数据进行分析,后期分析肯定会造成极大误差。其实由于c数据出现极端异常,很有可能是离群样本,因此合理的方法是把c样本剔除。但由于开始只有3个重复,在剔除样本后没办法开展后续差异分析。

为了解决这数据剔除的问题,最简单有效的方法就是在实验设计时候增加样本数,如果设计的是10个样本,那么后期就算剔除3个(已经非常多了),也还可以开展后续分析。当然,考虑到成本情况下,一般还是推荐至少5个重复


成本因素

现在一个16S的样本大概就是300-400元的价格,从一般的3个比较组的实验方案考虑,每组增加两个样本总共也就多6个,算起来也是2000元左右,这甚至还不到一个转录组测序样本的价格。因此,在测序价格持续降低的大环境下,增加16S的测序样本数并不会带来很大的成本负担,但却会降低很多的实验风险,分析结果更准确,何乐而不为呢

猜你喜欢

写在后面

为促进读者交流、加速科学问题解决,我们建立了“宏基因组”专业讨论群,目前己有八百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论。问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存