一个10篇一作SCI博士的走心分享----宏组学研究之“道” (完整收藏版)!!
写在前面
我自己做科研的逻辑其实挺简单的,就是拆分、细化、成本核算的一个过程。
但是这种东西就是这个样子,说起来容易,理解起来难,转化为自身并加以应用更难!!
每个人最终其实都应该形成自己的“道”,但这个东西不是一朝一夕就可以的,也不是看了别人说的照着做就能行的。
这个东西其实和“三观”的形成过程有点像,每个人的人生经历和现有的知识储备不可能完全一样,也就是说你的“道”也不可能和别人完全一样,所以说用别人的“道”硬往自己身上套肯定会出现很多的不兼容。
举个例子,我们经常会遇到一种情况,同一个人说了同一句话,不同的人听了理解的意思完全不同,有些人的理解可能完全偏离了说话人想表达的东西。
举个更具体一点的例子,经常会有人来问我一些问题,这个时候对方的心里肯定是认为自己把问题描述清楚了,但其实很多时候我都是要靠猜。
反过来也是一样,有时候我觉得理解了对方说的问题,但其实根本就是南辕北辙。这个时候我们说的就会驴唇不对马嘴,最后问题基本上得不到解决。
这其实就是因为两个人的背景不一样,思考问题的方式不一样,也即是“道”不一样导致的一些不兼容。
再说一个非常现实的问题,作为一个学生来说,你和导师的“道”是不可能完全一致的,这个并不是说谁对谁错的问题,也与导师的水平没什么关系。
简单的说就是两个人的经历背景不同,现有的知识体系不同,导师说的东西对于他自己来说肯定是完全的“对”,但是这个东西必然不能完全的适合于学生。
作为一个学生,如果不能把老师说的东西进行消化、吸收、修改、转化,进而融入自己的“道”,而是不加思索的完全照做,那最后的结果大概率是不会成功的。
实验为什么会失败?为什么得不到想象中的结果?为什么文章写不出来?
其实都是源自于此,“学而不思则罔”!!
说了这么多就是想传达一个观点,我接下来写的东西是我的“道”,大家不要不假思索的照搬,我更希望大家能够在科研实践的过程中把我的东西揉碎了融入到自己的“道”中。
我的“道”
用一张图来展示一下我平时做一项工作的逻辑流程。
图比较简单,这个东西也没办法讲的太细,因为每个人面对的情况都不一样,就算用一个实例来详细的说一遍,其实对大家帮助也不大,还是要在自己研究的实践过程中才能慢慢的掌握。
这里有两点要强调一下。
第一,一定要记得,不是所有的工作都是能完成的,有些东西硬逼也逼不出来,该放弃的还是要放弃,而且越早放弃其实是越有利的。
执行人的能力是一方面,有些工作确实是力所不能及,同时还有很多客观条件限制,比如说需要一个仪器但就是没有,需要一个样品但就是拿不到,需要足够的经费但是钱不够。
这种时候正面硬刚解决不了问题,果断放弃去做另一个能实现的工作不香么。
第二就是不要钻牛角尖,我们在做科研的时候当然会有一个预期的假设或者结果,但是这东西永远是预测,不是现实,其实更多的时候都是结果与预期并不一致,至少并不完全一致。
这是非常非常正常的事,但是很多人一遇到这种情况就懵了,然后就开始不断的尝试各种方法让结果与预期一致,最终自己给自己灌输了一个“与预期不一样的结果就没法用”的心理暗示,极端的情况可能还会导致个别人走上“学术不端”的不归路。
其实完全没有必要这样,与预期不一致也不是没有结果,把所有的结果都列出来,丢掉预先给自己设置的框架,单纯的从结果出发,只要几个结果之间能找到逻辑的联系,能给出一些合理的解释,那么也能讲一个不错的故事,文章也就出来了。
研究思路
接下来会分3部分来分别介绍一下宏组学研究从研究目的确定到执行的过程我是如何实现拆分和成本核算的。
当然水平有限,肯定做不到让大家看完了就全懂了,只是希望尽量的能够把与宏组学研究决策相关的几个关键点讲清楚。
第一部分主要是介绍一些宏组学研究的基本思路,所有的研究工作都是基于想要回答一个科学问题,没有一个明确的科学问题,研究工作也就无从谈起了。
现在宏组学相关的研究其实开展的已经非常广泛了,大部分简单的问题都已经有人做过了,现在能做的工作更多的是某一方向的细分内容或者是不同学科方向之间的交叉内容。
因为涉及到的方向非常多,我个人也没有能力把一些科学问题说的特别的细,下面的内容大多只是对于一些宏观研究方向的罗列,应该会对一些研究初期考虑是否能够使用宏组学的方法有一定的帮助,但是对于具体的研究内容肯定需要各位自己的总结和思考。
做了一个图对基本的研究思路做了一个归类,当然比较简陋、也比较表面,每一类也只是简单的举了一两个基本的例子。
虽然比较简陋,但是在选题的时候基本的思路就是这样的,核心的观点就是做的东西要是别人没做过的,或者至少没有完全回答清楚的问题。
现在大部分单一分类尺度的内容都已经被做过了,除非有一些特殊的研究靶标,比如说冷门的物种、特殊的环境、新型的添加剂、特定的处理等等。
如果这些东西你都没有,换句话说就是你没有别人拿不到的样本,那就只能做的相对麻烦一点。
两个基本的思路,一个是在单一问题上深入的研究,比如别人只观察到有差异或者关联,那你要做到回答这些表象下面的深层机制,这通常比较难,也更依赖于个人的能力。
第二个就是不同尺度的结合,比如说单一时间尺度和空间尺度都有人做了,那可以做一个时间+空间尺度的研究。再或者说正常发育阶段的有人做了,那可以在正常发育过程中结合一些人为处理。通常这种工作相对来说比较容易,但是常规工作量可能会大一些,而且这种工作其实谁都能做,要想不被别人抢先,可能也要花费更多的经费。
宏组学研究框架
上一部分中,我浅要的谈了一下宏组学研究的研究思路,也就是我们在开始进行研究之前所要确定的“科学问题”。
有了“科学问题”这个出发点,我们就可以进行研究方案框架的搭建工作。
整个的研究框架涉及以下几个问题:
确定具体需要的宏组学技术;
样本的设置和实验的流程;
其它相关数据的获取;
成本与成果的妥协。
接下来分别来介绍一下。
宏组学研究的分类
具体使用哪一种宏组学技术是确定研究方案的第一步,这直接关系到后续研究样本的设置、样本采集和保存的方法、组学数据获取的技术策略以及数据的分析策略等等,而这一问题完全取决于最初想要研究的“科学问题”。
我个人把宏组学研究基本上分为三类:单一宏基因组学、比较宏基因组学、多组学关联。
单一宏基因组学
顾名思义,就是对单一样品进行宏基因组学的测序和研究。
这种方法一般是针对稀有、珍贵的样本,比如极地、深海、太空等环境样本。
主要的研究目的是深入研究其中难分离难培养的微生物,尽可能的得到不可培养微生物的完整基因组信息,从而对其生态功能、环境适应性、进化等方面进行研究,部分研究还会探索其工业应用的价值。
这种研究通常样本数目较少,但是由于其需要尽可能的对测得的数据进行组装,因此所需的测序数据量通常较大,一般都会达到100G以上,有的甚至会测数百G的数据进行分析。
比较宏基因组学
这种方法是目前使用最多的研究方式,简单的说就是通过不同样本之间的比较来回答最初的“科学问题”。
这种方法主要的研究目的是分析不同环境、不同处理、不同时间节点、不同来源、不同性状等等总之就是不同的样本中微生物群落结构和功能的差异,以及这些差异与样品其它数据之间的关系。
那么很直观的就是至少要有不同的样本,单一样本肯定是没有办法进行比较的。
这种比较通常是基于统计学的方法,那也就是说不同样本之间要具有足够的生物学重复,不然一方面很多比较方法无法进行计算,另一方面样本量不足够统计学分析结果的准确性也会受到影响。
生物学重复
生物学重复这个问题其实困扰了非常多的人,很多人都想让别人告诉他多少个生物学重复就肯定足够,这是不可能的,因为理论上来说多少个都不够。
一条其实不用说大家也都知道的规则就是:“能获得多少样本就测多少样本”。
但这通常来说不现实,一方面有可能我们本身就拿不到几个样本,另一方面也是更为重要的就是两个字“差钱”!!!
当然公司都会告诉大家最低要求3个重复,那3个重复到底够不够呢?
某种意义上来说是够了,如果你对最终的成果没有要求,简单的说就是能发文章就行,那3个重复够了。
要是稍微对研究成果有点要求,恐怕3个重复都是不够的,要想发高水平的文章,那更是远远不够。
现在的高水平文章,不说都是几百个样本,至少也是几十个样本吧。
所以道理也很简单,想要发好文章就要舍得花钱多测点样本。
虽然道理大家都懂,但是有些人就是比较轴,非要去琢磨这个临界点,就想知道多少个样本恰好就够了,多一个样本也不想测。
这个其实也很简单,没测出来结果之前没人能说到底多少个样本就恰好够用,都是凭感觉,这个时候一定要想明白一个事情。
多测了样本,是多花钱了,不过文章发出来了之后多花点钱其实可以接受,但要是测的样本不够,后期想补都没法补,最后文章发不出来这个是没法接受的。
有舍有得嘛,最好还是认花钱多测点样本。
还有一些更不信邪的,非要去赌那些小概率事件,正常研究思路不想做总想着去以小博大,极端一点的比方说就想用1万块钱发10分的文章。
这种建议出门去买个双色球,中了直接千万富翁不需要搞科研了,没中说明你运气不行还是老老实实的做正常的研究吧。
比较+单一宏基因组学
宏基因组技术已经发展了很多年了,比较宏基因组的研究也已经非常多了,具体到现在来说,可能很多研究体系的简单比较宏基因组已经被人做过很多了,这就需要研究人员更进一步。
很多研究者就将比较宏基因组学和单一宏基因组学相结合进行研究,简单的说就是在比较宏基因组的基础上对数据进行深度的拼接,争取获得一些物种的基因组草图,从而为功能基因的宿主识别提供更准确的证据。
前面也说过了单一宏基因组学要求样本的测序数据量比较大,而比较宏基因组学要求测序样本的数目比较多,两者相结合那研究所需要的成本就是几何倍数的增加。
所以这种研究其实还是需要比较巧秒的设计的,对执行者个人能力的要求也很高,最好不要轻易尝试。
多组学关联
这个比较直观,宏基因组只能回答基因层面的结果,可以结合宏转录组、宏蛋白质组、宏代谢组等技术的结果在生物代谢网络水平得到更深入、更准确的研究结果。
另外一个方向是可以通过宿主的转录组、蛋白质组、代谢组数据与共生微生物的宏组学数据相结合,探索微生物与宿主的互作机制。
多组学关联属于投入大、回报大同时风险也大的研究方案。
投入大很好理解,单独的宏基因组成本就已经很高了,还要再同时测其它的组学数据,这个成本一般的实验室是很难承担的。
回报大也比较好理解,多组学关联研究由于数据很多、研究的非常深入,所以通常来说发表的都是“大文章”。
风险大其实往往是被忽视的一点,这么大的数据量、这么复杂的研究体系,首先对分析执行人的要求必然就很高,另外也非常容易遇到难以理解的、前后逻辑不通的、甚至是自相矛盾的结果。
所以说想要做好一个多组学关联研究还是非常难的,在开始实施之前已经要有血本无归的心理准备。
样本的设置
a.在分析不同组样品差异时,组内样品具有其它因素的混淆者有助于真实差异单元的发现
这个不难理解,比方说做一个人类疾病相关的研究,理论上来说疾病组和健康组发现的差异就是与疾病有关的结果,但实际上,人类的性别、年龄、生活方式、饮食、生活地域等等因素都会对其产生影响。
极端的一点说,如果疾病组都是男性而对照组都是女性,那么发现的结果必然包含很多的性别差异,也就造成了研究结果的不准确。
b.长期的时间跨度研究可以同时解决混淆者和群落稳定性的问题
这一点其实和上一点比较类似,比方说我们想要分析某种人类活动对周围环境的影响,我们如果只取一个时间点的受影响样本和对照样本,由于环境微生物还会受到其他气候环境条件的影响,我们得到的差异结果必然就有一部分的假阳性。
此时如果采集一定时间跨度内的样本进行综合分析,就可以有效的排除其它环境因素的干扰,其实就是我上一篇推文中所说的时间和空间尺度结合的研究。
c.对于所有研究,标准的技术和样品处理过程都十分必要
虽然说现在宏组学的技术已经比较成熟了,但是不同的实验过程,比如说不同的试剂、不同的测序平台、不同的样本处理方式等等依然会对测序结果产生很大的影响。
所以在整个研究中,一定要保证所有样本的处理和测序过程要完全一致,这可以去除试剂和操作因素导致的差异,同时要有不添加样品的阴性对照,以排除某些试剂的特定影响。
这一点对于大规模样本的研究或者是与前人已发表数据的综合分析尤为重要。
d.对于动物模型研究,食粪性和父母差异的影响是必须要考虑的
动物的食粪性会导致“cage effects”,就是位于同一个笼子的动物个体会有明显的趋同性。
同样来自不同父母的动物个体会有很多固有的先天差异,这会导致研究结果的不准确。
这两点都是在使用动物模型进行实验和验证时需要考虑的问题。
相关数据的收集
相关的数据也就是所谓的meta数据,在样品采集过程中尽可能多的收集meta数据,以消除混淆因素对结果的影响。
临床研究包括性别、年龄、抗生素使用情况、居住地、饮食等,环境样品包括地理位置、季节、pH、温度等,当然这些只是举例,并不是全部,总之就是能多收集就多收集,越多越好。
收集这些数据的目的是什么呢?
一方面在后续的分析中,可能需要将meta数据与测序数据进行关联从而回答一些研究中关注的问题。
另一方面也给了分析更多的可能性,比方说一开始的假设是研究个体间的性别差异,但是很不走运最后的结果没有发现什么明显的性别差异,此时如果有样本的其它meta信息,比如说年龄、饮食等等,就可以直接转而分析研究个体间的年龄差异,至少能保证这些数据不至于废掉吧。
此外还有一点非常重要,就是要严格的、详细的记录实验过程中的所有操作,包括样品采集和DNA提取的间隔时间、冷冻储存的时间、冻融次数等。
这样能够帮助我们在研究结果有异常的时候作出合理的判断,从而给出一些对应的解释。
成本与成果的妥协
其实无论是什么样的研究方案,所有的样本都进行宏基因组测序肯定是最好的,但是这也意味着研究的成分非常高,很多时候我们是无法承担如此高昂的测序成本的。
那么也就不可避免的要做出一些妥协,其实很简单,宏基因组价格比较贵,但是扩增子测序很便宜,我们可以大规模的对所有样本先进行扩增子的测序,之后通过数据分析挑选出一些关键的样本,再对这个关键的样本进行宏基因组的研究。
以上就是宏组学研究的方案设计部分,最后给出一个总结的图,大家可以看一下。
宏基因组研究策略
一个典型的宏基因组研究包括5步:
1.实验过程,包括样品收集、处理和测序;
2.测序reads的预处理;
3.数据分析,包括分类学、功能、基因特性分析等;
4.统计学和特定的生物信息学分析。
5.结果的验证。
第一部分实验的过程,在前文中已经说过了,测序reads的预处理这个没什么好说的,就是质量控制,大家都需要进行的工作也有基本的质控标准,参照执行就可以了。
本部分重点来说一下数据分析的过程。
这里主要是针对宏基因组研究,宏基因组研究的数据分析过程基本上可以概括为3个层次:Read、Contig和Genome。
这三个层次并不是一个层级的关系,而是互相依赖的一个整体。
Read层次的分析
Read就是宏基因组测序直接得到的序列,read层次的分析就是不经过其它处理,直接使用测序得到的短序列进行下游的分析,包括物种分类学和功能基因的注释及丰度计算。
这种分析策略的优势是定量的结果相对比较准确,并且因为不需要对数据进行过多的处理,所以学习成本相对较低。
但是这种策略也有其难以跨越的瓶颈,因为是序列直接与参考数据库比对进行注释,那么参考数据库就非常重要了,参考数据库的覆盖度和完整性对最终结果的影响非常的大。
我们都知道NCBI的NR和NT数据库是目前来说最为完整的数据库,但是read层次的宏基因组分析是无法直接通过与NR或NT数据库比对进行注释的。
这是因为本身宏基因组测序的数据量就非常的大,一个样本的read条数都是百万级,而NR和NT数据库本身也非常的大,如果直接进行比对,对计算机的要求和时间成本都是无法接受的。
首先普通的服务器压根就无法执行这个比对,就算勉强能够执行,一个样本的注释做几个月恐怕没人能接受。
因此这种方法的开发人员都会建立专门的marker基因数据库,这种数据库通常都比较小,通过一些marker基因来代表不同的物种分类学和功能分类,典型的工具就是MetaPhlAn和Humann。
但是因为是选择的marker,适用范围和覆盖程度都会存在一定的问题,比如说上面提到的这两个工具,都是基于人类微生物组计划开发的,对于人类相关的共生微生物注释结果就还不错,但是个人感觉对于环境微生物的分析偏差性还是挺大的。
所以说基于read的直接注释分析,虽然在定量上更为准确,分析工具的学习和操作也相对容易,但是所用分析工具是否适合自身的研究的体系是必须要考虑的问题。
基于read的直接注释分析更加适合于一些特定功能分类的注释和定量研究,比如说抗生素抗性基因、污染物降解关键基因、氮循环相关基因等,只要参考数据库建立的足够好,那么得到的结果基本上都会让人满意。
contig层次分析
contig就是测序的read经过拼接得到的相对较长的序列,也就是说contig层次的分析需要先对测序数据进行拼接。
基本的过程是先将序列拼接为contigs、之后识别ORF进一步对其进行注释分析。
相比于未拼接序列,拼接后的序列在定性方面更为准确,但定量上有一定偏差,这种方法的定量是通过read与拼接得到contigs的mapping,利用read的覆盖深度进行定量。
这种方法是目前基本上所有测序公司统一使用的方法,为什么公司都要用这种方法呢?是这个方法效果最好么?
其实不是,首先使用这种方法是出于成本的考虑,宏基因组最开始出现的时候是没有直接使用read进行分析的方法的。
那个时候并没有特定功能的专门的参考数据库也没有针对read注释开发的相应分析工具,对宏基因组注释只有NR、KEGG、GO等少数几个综合数据库。
还是刚才说的问题,数据量太大、数据库也很大,直接比对成本不能接受,所以拼接其实是一个变通的方式,通过对数据的拼接,将数量庞大的原始短序列,缩减到只有几百M的contigs数据,之后用contig中的基因与参考数据库比对进行定性分析,这就大大缩减了注释所需的成本。
之后再通过read与contig的mapping对其进行定量也是相对可以接受的结果。
我个人的感觉是,现在公司给的这些结果基本上是没办法直接使用的,就算有一些结果能用,对于现阶段的研究来说也是远远不够。
那为什么公司还一直在使用这个分析策略呢?为什么不添加一些其它的分析策略进来呢?
主要还是一个研究内容细化和成本的问题,公司要的是标准化,只有标准化才能控制成本,才能形成产品,但是研究人员要的是个性化,只有个性化才能达到研究目的发表文章。
而宏基因组恰恰又无法做到在标准化的方法中得到个性化的结果,这个东西并不像扩增子测序,在扩增子测序中不同的样品使用同样的分析流程就可以得到不同的结果,但是在宏基因组中,不同的功能基因组注释就需要不同的分析流程,而每一项分析的成本又都很高,最终导致公司只能给出一个非常非常基本的结果。
所以还是想强调一下,如果觉得宏基因组研究就是样品送到公司然后就能用公司给的结果写文章那就大错特错了,这东西真没这么简单。
Genome层次分析
这个其实就是现在比较火的binning,通过分箱的方式从宏基因组数据库中得到不可培养微生物的基因组草图,这样就可以把功能基因与物种分类通过实质的证据关联起来,从而得到更为深入、更为明确的研究结果。
这种分析策略其实是contig层次分析的一个延伸,做binning之前首先就需要对数据进行拼接,再以得到的contig为基础进行基因组草图的绘制。
binning这个东西比较复杂,之后会开专门的专题来讲,这里就提一点,对于自身没有分析能力的实验室,还是放弃binning这个方案吧,靠公司的结果几乎不可能成功。
总结
总结一下整个宏组学研究中需要确定的问题:
1.实验设计阶段
确定样品的时间、空间跨度范围及样品数量;
确定meta数据的内容及其测定方法;
确定样品的保存方法。
2. 宏基因组和宏转录组测序的分析过程
确定DNA、RNA的提取、纯化、扩增方法;
确定文库构建类型和建库方法;
确定测序平台、测序深度和测序数据量;
确定数据要进行分析的项目;
确定物种分类学注释采用的分析方法;
确定分析项目所使用的参考数据库、搜索工具和注释阈值;
确定数据拼接所用软件和拼接参数以及ORF识别所用软件;
确定ORF功能注释作用的参考数据库、搜索工具和注释阈值;
确定binning所用软件。
3. 宏蛋白质组和宏代谢组测序的分析过程
确定蛋白质和代谢物的提取方法;
确定蛋白质和代谢物测定平台及样品前处理方法;
确定蛋白质和代谢物的鉴定方法;
确定蛋白质和代谢物结果验证的方法。
最后就是要评估每一个步骤有没有能力完成,成本是否能够接受。
[1] Christopher Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017, 35, 833-844.
[2] Feng Ju et al. Experimental design and bioinformatics analysis for the application of metagenomics in environmental sciences and biotechnology. Environmental Science & Technology. 2015, 49(21), 12628-12640.
[3] Rob Knight et al. Best practices for analysing microbiomes. Nature Reviews Microbiology. 2018, 16, 410-422.
[4] Eric A. Franzosa et al. Sequencing and beyond: integrating molecular ‘omics’ for microbial community profiling. Nature Reviews Microbiology. 2015, 13, 360-372.
[5] Christopher Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017, 35, 833-844.
扩展阅读
高通量测序基础知识 微生物群落数据分析教程 抗生素抗性基因相关 转录组测序技术和结果解读 红皇后学术文献解读列表 基本分子生物学实验 PAST:最简便易用的统计学分析软件教程目录 每天学习一点R系列 微生物研究相关工具 微生物研究投稿期刊简介