徐振江:菌群研究和数据分析怎么做?21分钟带你入门
大家好,我是徐振江,来自南昌大学食品科学与技术国家重点实验室。
在这里我给大家介绍一下,如何在微生物组学的研究当中避免走一些弯路。
本演讲的幻灯片 .pdf 版将在热心肠菌群微信群分享,感兴趣的读者请按以下方法申请入群:
微生物组学研究可以分为以下这 4 个步骤。
首先,我们提出一个科学假说或者说一个科学问题;然后,我们再来设计一个合适的研究方案,来解答这个问题,验证或者推翻科学假说;在实施研究方案的过程当中,我们要避免一些干扰因子对我们的生物学分析的影响;最后拿到数据之后,我们进行一个数据分析:将生物信息学的方法应用其中,得到可靠的生物学结论。
怎样是一个好的科学假说呢?
比如说,如果我们有兴趣来研究肠道微生物组跟餐后血糖的关系的话,我们可以提这样一个假说:肠道微生物组是否可以比较好的预测餐后血糖升高的幅度呢?这是一种假说,对吧?
但是我们也可以把这个假说更精确一点、精细化一点,我们可以提这样一个假说:肠道微生物组是否可以预测汉族成人面食餐后血糖升高的幅度呢?这样一个更加精细的假说就会框定我们这样一个科学的研究的范围,能够让我们更加精细化的、更好的来验证这样一个假说,得到更可靠的、更精确的结论。
有了一个科学假说或者一个科学问题之后,我们如何设计研究方案呢?最简单的就是横断面的研究。
比如说我们对一个人群感兴趣,对糖尿病患者的肠道微生物感兴趣。我们无法研究所有的糖尿病患者,但是我们可以选取一些有代表性的糖尿病患者,将他们的肠道微生物拿过来研究,研究他们肠道微生物有什么样的特征。这就是横断面的研究。
更进一步,我们想对比健康人跟糖尿病患者之间,他们的肠道微生物有什么样的异同。我们就可以设计病例对照这样一种研究方案来进行。当我们有一些糖尿病患者之后,我们可以根据他们的年龄、种族和性别,挑跟他们匹配的一些健康人作为对照来进行研究。
这样的话,我们就排除了年龄、性别和种族这些因素的干扰,我们可以非常精细化地将糖尿病患者的肠道微生物组的变化给提炼出来。
进一步,发现了肠道微生物有什么样的不同之后,我们就可以进行干预性的研究,比如饮食干预或者药物干预。想看这种干预对糖尿病患者有什么影响的话,我们可以设置不同的实验组,进行不同的饮食或者药物干预,来进行干预前、干预后以及不同的干预之间的比较。
这种干预的方法,虽然我们也可以设计对照,来控制其它因素对各组人群或者动物之间的影响,但是毕竟各个样本、各个个体之间还是有一定的差异。
为了严格控制这种差异,有另外一种研究方案就是交叉设计。这种研究方案主要是针对每个个体而进行的。
在实验的每个个体当中,我们会进行两种或者两种以上的干预。在第一种干预进行之后,我们会有一个洗脱期,将第一次干预的影响消除掉、洗脱掉。然后我们再进行第二次干预。这种研究设计的好处就是可以将其它的和我们不感兴趣的因素都控制在最小的范围之内。
交叉设计的研究主要是每个人干预前和干预后他们自行自我比较,所以就排除了人与人之间的不同、个体与个体之间的不同。这是这种研究方案的好处。
另外一种研究方案就是前瞻性队列。这种研究方案主要是用来研究,在我们感兴趣的临床结局发生之前,是否可以用肠道微生物或者其它的生物因子来判断每个个体的生物结局、临床结局。
依然以糖尿病研究为例,如果我们想判断,肠道微生物组在糖尿病的发生发展过程当中起一个什么样的作用,我们是否可以通过肠道微生物来判断糖尿病的发生?
我们可以在之前就采集微生物组的样本,然后再跟踪随访。我们就可以利用他们的肠道微生物来判断、预测:他到底在多长时间以后或者说是否会产生糖尿病。这是前瞻性队列的好处——我们可以预判性的,可以通过预防性的实验手段来进行这种预测性的研究。
有了一个研究方案之后,我们可以结合我们常用的一些技术手段来进行研究。
最常用的可能大家都知道——扩增子测序、宏基因组测序,或者对代谢组学感兴趣的话,就是液相色谱串联质谱。
我们可以得到一个微生物组,它到底由哪些微生物组成,它的功能构成是什么样子的。然后,如果我们对其中的单菌感兴趣的话,可以将这个细菌挑出来进行分离培养,进行基因组的测序,甚至进行一些工程改造,来进一步研究单菌跟宿主之间的相互作用。
在这个过程当中,我们会需要对一些特定的微生物进行绝对定量,这时就可以用 qPCR,或者在细胞层面上进行统计,用流式细胞仪之类的手段。
以上这些都是从功能性的角度来看我们微生物群落里面到底有哪些功能。但是它是否具有活性,基因的表达到底是什么样子的,其实都是不一定的、未知的。
为了研究这些,我们可以进行宏转录组或者宏蛋白质组的研究。这些技术手段成本更高一些,所以应用的也相对而言少一些。但是如果我们对这些感兴趣的话,这些技术手段也是比较成熟的。
在进行这些微生物组学的研究之后,我们可能要进行更多的、更进一步的宿主跟微生物之间的相互作用的关系的研究。我们就可以用到 in vitro 或者 in vivo 的模型,可以用类器官或者无菌动物,或者悉生动物的模型来进行研究。
在这些研究实施的过程当中,会有非常多的干扰因素影响我们的结果。我在这就举一个例子。
我们这里是同样的样本,在上面两幅图里面,我们可以用不同的颜色来区分不同的因子对我们结果的影响。蓝色是表示我们感兴趣的生物因子,比如像疾病或者健康,它们可以很好的区分开来。
如果我们有另外一个技术层面的干扰因子,比如说不同的测序批次、不同的样本处理,也会得到这样一个分类的话、它们完全重合的话,我们其实就无法判断我们样本的聚类到底是由于我们的疾病造成的,还是由于我们的干扰因素造成的。
但是如果我们能够将这些样本随机化处理,就是说,不同的干扰因子随机的发生在我们的样本当中,我们就会得到下面这两幅图。
下面两幅图里面,我们也可以看出来,生物因子是可以将两类样本区分开来的。在这种情况下,因为干扰因子是随机化的,所以它就不会跟我们的生物因子重叠。我们就可以比较可靠的得到结论说,我们生物因子是影响了我们微生物组成的构成,它是可以很好的分成两类的,而不是由于其它的干扰因素造成的。
我们微生物组学研究的干扰因素到底包括哪些呢?这些干扰因素其实无处不在,所以我们在样本采集、在实验实施的过程当中,都要非常小心。
比如像我们的样本的采集,它们的保存、处理、测序,都会对我们样本微生物、最后你得到的 DNA 的结果,会有很大的影响。
比如像 DNA 的提取和扩增、测序平台以及测序批次,甚至同一个厂商的试剂不同的批次之间都有微小的差异,都会影响我们最后得到的微生物组成,或者说功能性研究的差异。
我们生物信息学也会对我们最后的结果有一定的影响。如果我们要对不同的数据集之间整合起来做一个荟萃分析的话,我们需要用统一的生物学软件、算法进行统一的处理。得到一个统一的表格、数据之后,我们再来进行下游的统计分析跟可视化分析。
在小分子的代谢组学研究当中也是一样的,质谱其实也受非常多的干扰因素的影响。比如像溶剂的选择、小分子如何萃取、电离模式——到底是正电还是负电荷的这种不同的电离模式,以及生物信息后面的处理,都会影响我们代谢组学的结果。
其中一个,大家可能也听说过一个影响,动物实验最重要的一个干扰因素就是笼子效应。所谓的笼子效应,就是因为我们的动物,尤其是小鼠,它们会互相吃粪便,所以养在同一个笼子里面的小鼠,它们的肠道微生物就会更加的趋同,就会更加相似。
所以如果你的处理组只有一只笼子的话,你这个处理组跟别的处理组发现有微生物的不同,这种时候的话,你就没法判断你的不同到底是由于笼子效应造成的,还是由于你的处理组造成的。
在这里就非常显著的可以看出来,这里有三个不同的处理。三个不同的处理组,每个处理组有两个笼子。所以你会看出来,有些笼子,它有些特异性的微生物是只在这个笼子里面出现,但是没有在处理组的其他笼子里面出现。这是非常重要的,所以我们一般在设计实验的时候,每一个处理组至少要设置两个笼子以上的实验动物。
然后,在我们后面的样本的处理过程当中,也有一些考虑因素。上面我介绍了另外一个需要非常小心的,就是 DNA 污染。这在一些低生物量的样本当中,比如像皮肤微生物、口腔微生物以及像胎盘微生物之类的,因为它们的生物量很少,有一点点 DNA 污染的话,它就会在测序结果里面呈现出来。
我们最近有一项研究就发现,高通量测序的时候,用 96 孔板进行 DNA 处理、提取、扩增的时候发现,有些 DNA 会从一个孔污染到另外一个孔,产生交叉污染。
我们如何来避免这样一种污染呢?其实我们可以在 96 孔板里面设置很多的对照,包括阳性对照、阴性对照。阳性对照呢,你可以在你的样本当中,在你的空白对照里面加一定量的你已知的比如像 E. coli 的 DNA。在阴性对照呢,那就更简单了,你就直接将一个空白的样本,进行同样的操作处理——提取 DNA,进行 DNA 扩增,拿去测序。
在这种阳性对照跟阴性对照设置过程当中,我们随机的放在 96 孔板的不同位置,就可以从后续的 DNA 结果当中、生物信息学方法分析当中,就可以判断,到底有哪些 DNA 是从你旁边的孔里面,通过气溶胶或者其它的方式,污染到旁边的孔的,以及污染量是多少。我们都可以从生物信息、从数据的角度来判断。
另外,我们在这个实验过程当中,很多时候要考虑到底需多少样本,对吧?我们需要纳入多少人到人群队列当中?我们需要多少个笼子、需要多少只老鼠来进行这个实验?
这里有一些已知的生物影响因子,以及技术层面的影响因子,对我们最后结论的影响因素有多大?比如像不同的物种之间、像人跟猴子、像人体的不同部位,这些对我们的微生物群落的影响是非常大的。所以这些影响因素 effect size(效应值)还是比较大的。
其次就是一些年龄、地域差别,还有一些长期的饮食以及药物的干预这类影响因素。比较小的影响因素就是其它的一些短期的干预。在技术层面,我们的样本处理会影响非常大,包括样本的保存以及生物信息学。然后试剂不同的批次影响稍微小一点。
所以要根据不同的研究方法,以及感兴趣的问题,来判断我们到底需要多少样本,来得到一个可靠、可以实质性的发现生物学差异的一个样本量。
我们拿到样本、拿到数据之后,就要进行大量的生物信息学分析了。
生物信息学分析其实是现代生物医学当中非常重要的,也是处于瓶颈的一个步骤,因为我们现在积累的生物数据量已经越来越大了。但是如何将不同研究当中的数据集整合起来,将这些海量的数据荟萃分析,如何在其中提炼出有用的生物学结论,现在都是生物信息学的一个瓶颈。
我们已开发了高效、靠谱、易用的一些算法跟生物信息学工具,来从事微生物组学的研究。比如 scikit-bio,它就是一个底层的 Python 的软件包,用来支撑后续的不同的生物信息学软件的开发。
还有去年刚刚发表出来的 Qiime2,很多不同的插件可以分析不同的功能,进行可重复的分析。然后还有 CALOUR、Deblur,可以进行不同的微生物组学的分析。从上游的 DNA 序列的处理,到中游的统计学分析,以及到下游的可视化的分析,都有一系列的工具。
然后生物信息学对感兴趣的朋友来说,一个非常重要的数据特点就是 compositionality(合成性)。所谓的 compositionality,是说基本上我们大多数研究当中所测到的那些微生物的量,都是一个相对的量。
也就是说我们只知道 Bacteroidetes 它在我们的样本当中所占的比例是多少,但是我们不知道它绝对含量是多少,我们不知道在原始的样本当中,到底有多少个 Bacteroidetes 的微生物细胞在里面。
相对量对我们的分析有什么样的影响呢?它的影响其实是非常巨大的。因为在我们的样本当中,一个微生物的升高就意味着另外一个微生物在相对量而言它会降低,不管真实情况是怎么样,它在相对丰度就会降低。
所以很多时候,它就会造成一个假阳性的这样强相关的一个结果。所以如果我们要做差异性丰度分析,或者说做相关性分析的时候,我们就要将 compositionality 的情况考虑进去。
这里就是一个非常好的例子。这是一项发表在 2015 年的研究。他们主要是想看肠道微生物在昼夜节律变化当中有什么样的不同的行为。
我们主要看左边的黑线,他们发现 Bacteroidetes 这一组的话,它们有一个明显的节律的变化。在白天的时候,它会开始降低,然后再慢慢升高,到晚上一直到达最高相对丰度。
另外一组微生物 Firmicutes 呢?它有一个类似于相反的这样一个表现。它在晚上的时候是比较低,白天的时候升高,然后到晚上又降低。
这两组微生物,如果我们只看相对丰度的话,它有一个非常强的负相关性。但是他们做的比较好的就是,通过其他的手段,他们检测到了肠道微生物里面整个微生物的绝对量是多少。
所以如果将绝对量考虑进去的话,他们就得到右边这样一条红色的曲线。在绝对量上面,Bacteroidetes 这种微生物,它同样还是有这样一个节律的变化。但是 Firmicutes 的变化,就不是那么明显了,甚至它跟 Bacteroidetes 的变化有点趋同。如果我们仔细看的话,它稍微有一点点正相关,而不是我们之前看相对变化的话,它是一个负相关的关系。
这就意味着什么呢?这就意味着,如果我们想要得到一个可靠的生物学结论的时候,我们就需要将微生物的测序过程当中,无论是从我们实验的角度得到绝对生物量,还是从后面生物信息的角度,来将 compositionality 的问题解决掉,我们才能得到一个可靠的结论。
这个问题之所以出现,主要是因为考虑相对丰度的时候,一个微生物的升高就会显得另外一个微生物在相对丰度上降低。虽然在实际情况当中,它们绝对微生物的量可能不是这样变化的。所以,我们一定要将 compositionality 的问题,纳入到我们生物信息学分析的考虑范围当中。
另外一个大家需要注意的就是数据的可挖掘性以及多面性。我们需要将不同的统计方法或者说不同的可视化分析应用到数据当中。因为我们的数据在不同的分析方法当中呈现出来的结果可能是非常不一样的。
在这里我也举一个例子。左边这个图得到的结论是,短期的饮食干预不会改变肠道微生物组。大家也可以看出来,同一种颜色来自同一个人的样本,它都聚类在一起,不管你的饮食干预与否,它们都不会相差太大。
但是右边这个图可以看出来,这种基于动物性的饮食方案,虽然只有 4 天的干预,但是它显著地改变了他们的肠道微生物,所以,从人与人之间的角度来看,它可能不会说改变到大到你跟别的人更相似。但是从另外一个角度来看,如果跟自己先前的肠道微生物的基线来比较的话,还是有非常大的改变。
所以从数据分析的角度来看,我们可以从不同的角度、不同的层面来分析我们的数据,可能会得到一些更有意思的结论。
最后,其实微生物组学也受到其它一些领域的学者的诟病。其中一个重要的原因就是我们数据分析、我们结论的可重复性。针对这个,我们其实也做了非常多的生物信息学方面的改进。
比如像最新版的 Qiime2 的软件就是针对这一问题,将得到结论过程当中的一些使用的数据来源,还有使用的算法跟工具以及设置的参数,都会列到其中。
所以,你如果看到这样一个结论的文件之后,你就可以非常好的按照里面提供的信息可重复地从原始数据得到一个同样的、可靠的结论。
同时,我们通过 Jupyter Notebook 以及 RStudio 这一类的分析平台,将我们的数据来源、说明文档、代码,以及统计方法、可视化得到的图都整合到一个文档当中。
这样我们就可以非常好的介绍这个数据为什么做这样的统计分析,这个统计分析得到什么样的结论,我们最后的结论、最后的图是通过什么方法得到的,都可以供大家公开来审阅,就可以得到一个非常好的、可重复性的生物学结论。
最后,我希望通过我刚才介绍的这一点,越来越多的学者对微生物组学感兴趣。然后通过各种不同的平台,我们互相交流,推动整个领域的前进。
希望有更多、更严谨、更有意义的微生物组学的研究,在越来越多的在文献当中、在我们的报道当中出现。将我们在一些评论当中看到的:微生物组学研究可重复性差,“遇事不绝,量子力学;机制难寻,肠道菌群”这一类的评论,都尽早的能够通过更严谨的研究将这些都杜绝。
最后,感谢大家的聆听!