生物学重复第二讲
虽然上一节中,线条姐讲到了生物学重复设置的必要性和重要性,但其实并不是所有的组学研究都需要生物学重复的设置。那么,有哪些研究中不需要生物学重复,又有哪些研究中少不了生物学重复? 生物学重复该怎么设计,如何设置才能实现高性价比的研究呢?今天的分享,线条姐依旧要从一段故事开始……
故事是这样的:
14年初的时候,我认识了培养了8年菌的D师兄,他对高通量测序兴趣浓郁,有一天很兴奋的找到我,要做他分离培养了数年的s菌的基因组研究,以树立自己在S菌研究中的领先地位。大佬不愧是大佬,D师兄一张嘴,就要做5组生物学重复——那年头,细菌基因组完成图一个样本也要3-4万——我就仿佛看见了自己未来喝酸奶不舔盖的富庶生活……当然,作为一个要良心的技术支持,我还是强压住自己内心的小激动,淡定的建议D师兄,一个,一个就够了,省下来钱做点儿别的,诸如原核转录组之类的,发文章的逼格可以更高呦!
那除开不需要生物学重复的项目,又有哪些组学研究是建议要有生物学重复的呢? 这里做了一个梳理。 快来看看有没有你正在做或准备开展的项目类型呢?
在上一节的分享中,我们已经介绍了生物学重复设置的必要性和诸多优势。其实,除了统计学意义的要求外,成本因素和审稿人要求(也因为统计学意义需要)和一些其他的背景因素也是决定生物学重复设置的重要参考。
作为最基本的统计学要求,3个以上生物学重复可以满足t检验、秩和检验等统计算法的样本量要求,是一般的重复数设置底线。但可能很多老师再接触项目的时候发现,不同项目中,技术支持一般会给出不一样的样本数推荐。比如,在转录组和微生物组研究中,一般我们会建议5个以上的生物学重复。做这样的建议主要是因为,由于样本本身和采样操作的一些不确定因素影响,难以避免项目中有个别偏离群体的异常样本存在,就好像下图的PCA分析展现的这样,case组有一个样本明显偏离其群体,呈现异常分布。
在这种情况下,当我们在分析中发现了异常样本的存在,对其进行剔除,也依旧能确保生物学重复的最低要求——这样做,既节省了项目的时间成本,也避免了分批实验带来了批次效应的影响。万无一失的情况下,多一些生物学重复,对说明文章结论也更有帮助。
此外,易于掌控遗传背景和实验处理的模式物种研究,我们一般可以选择小样本数的生物学重复(比如5-10例),这样既能说明问题又有利于成本控制。是比较常见的生物学重复设置数量。然而,在一些临床研究中,由于研究的对象人类,有很多的不可控因素,复杂的遗传背景,生活方式,个体年龄性别体质等等难以实现背景一致性的样本,我们就要通过较大的样本数设置来降低样本间的背景差异造成的影响,以获取具有广泛适用性的结论。接下来,我们就分别看看不同的项目类型,是建议如何设置生物学重复的。首先是微生物组研究,这一类研究中包括我们常见的扩增子测序和宏组学测序研究。微生物组学的应用主要分两大方向,农口(包括环境中的土壤,水体,大气,根际微生物等动植物相关的微生物组研究)和医口 (包括基础研究的模式物种,和广泛而包罗万象的人体相关样本)等。在农口研究和包括医口的模式物种研究中,便于通过选择性采集和管理样本实现较好的样本一致性,所以我们一般推荐5个生物学重复起,开展研究。但在医口的临床样本采集中,由于病人可能涉及各个年龄体质,不同性别、遗传背景和生活习惯等因素干扰,很难以实现对样本的选择和管控,因此,在开展临床样本的研究中,我们一般建议设置20-30例起的生物学重复,这样可以尽量避免由于个体差异造成的组内差异大于组间差异,确保研究有意义,也利于获得规律性结论。
转录组研究,也是很多老师关注的研究方向。在上一节中,我们提及到生物学重复对转录组检测的真阳性率TPR提升的影响16年又有两篇文章报告了生物学重复对检出差异基因的影响。
上表中不难看出,同等差异倍数的基因,生物学重复越多,检出率越高:生物学重复为3时,对2倍差异基因的检出率为87%,当生物学重复为10时,同样是2倍差异基因,检出率可实现100%。在同一测序深度下,增加重复数,其差异基因检出率也显著提高:如测序深度为15Mreads时,当生物学重复为3,检出率为38%,当生物学重复为10,检出率大幅度提高到85%。在另一篇转录组方法学研究中,研究者利用突变及野生型酵母的大量生物学重复转录组测序数据统计说明了不同重复数nr设置下,显著差异基因所占比率及真假阳性率等的变化趋势。从结果不难看出(A图),随着重复数nr的增加,检出的差异表达基因比例也在逐渐增加并最终趋于平缓。这里也体现了真阳性率随重复数量的增加而增加的趋势。在同一差异倍数阈值设定下,生物学重复越多,真阳性率也越高,并趋于平缓(B、C图)。D图中我们可以看到 真阳性率TP和假阴性率FN趋势相反,说明随着重复数增加,假阴性逐渐转为真阳性,更多的差异基因被检出,实验结果更加精确全面。
下图中,通过不同软件分析差异表达基因结果,比较了不同生物学重复数nr设置和差异倍数阈值下检验结果的真假阳性率。从图中可以看出,T值一定时, 随nr数的增高 TPR增高。差异倍数为2时,设置12-20个生物学重复,TPR的增加趋于平缓。
综上,研究者建议转录组测序推荐设置6个以上生物学重复;如果以鉴定所有倍数变化的差异基因为目的,推荐设置12个以上生物学重复。
上一节内容中我们介绍过,表观遗传类研究生物学重复的增加也能显著提高差异甲基化区域DMR的检测灵敏度和真阳性率。但由于目前此类项目的测序分析成本较高,文章发表时编辑对生物学重复的要求并不高,常见到一组两个生物学重复的设置,大家可以参考下。 下游的蛋白质组和代谢组研究中,也一样需要生物学重复的设计。 一般建议蛋白质组最少三个生物学重复,而代谢组最少六个生物学重复,希望可以为老师和同学们的实验提供参考。当然了,生物学重复设置的越多,研究成本自然而然的增加。那么,怎么样设置生物学重复可以实现心目中“高性价比”的诉求呢?小样本量的就不多说了,面对临床样本的高度异质性特征,如何从大量样本中筛选出适宜的样本用于生物学重复也值得探讨,这里提供一个一般思路给大家。首先是样本信息的采集,包括取样时宿主的体征信息如年龄,性别和相关的一些理化因子数据,我们可以从中尽可能筛选出具有一致性特征的样本开展研究。此外,不同的项目结果,也可以提供一定的选择依据。 比如,可以通过大量的16s测序,利用microPIT等分析软件筛选下游宏组学研究的少量重复性样本;利用转录组测序和表型数据,筛选用于表观遗传研究的少量重复样本等。这些项目之间,也可以合并作为多组学研究的内容,发文章的内容更充实丰富,也是高影响因子成果的好选择哦~
好啦,说了这么多,对生物学重复的设计,是不是又增加了新的认识呢?希望可以帮到你呦!
今天的分享就介绍到这里~玩儿转科研,就来凌波微课,我们下期见!
PS:公众号后台回复“生物学重复”,即可获得视频讲义哦~
凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。
凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。
关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!