随着二代测序技术的成熟,微生物组领域蓬勃发展,并产生了大量数据,近年来研究所涉及的样本量和测序数据量更是快速增加,那么面对如此庞大的数据我们应该如何处理呢?可以利用这些数据做什么呢?今天,我们特别共同关注微生物组领域中的数据科学,并对微生物组初创公司如何利用微生物组数据进行简要总结。希望本文能够为相关的产业人士和诸位读者带来一些启发与帮助。并不是每一个人都认为人类基因组计划是个好主意。早在 20 世纪 80 年代末和 90 年代初,当这个计划仍处于筹划阶段时,一些著名的科学家认为,对整个人类基因组进行测序,是一件费力而不讨好的事情。“我认为,这些信息将有不可估量的效用,但这一点并不那么显而易见。”麻省理工学院的生物学家 Robert Weinberg 如是写道1。批评人士担心,该计划将会抽走原本属于各个独立实验室的宝贵经费,然后投入到一个大型的政府计划中,而这个计划可能不会产生很多重要且富有意义的成果。然而,三十年后的今天,人类基因组计划不仅回了本2,而且几乎彻底改变了生物医学研究领域3,并为今天的生物技术产业奠定了基础。该计划影响科学和技术发展的主要方式之一,是提供免费可用的参考数据集,研究人员可以利用这些数据集,开发新的计算工具和测序技术。因此,生物医学研究领域,现已成为最大的数据科学领域之一。而肠道微生物组也有着类似的发展轨迹。肠道微生物组是指栖息在肠道中的亿万微生物,这些微生物对我们的健康而言至关重要,被看作是我们的“虚拟器官”4。研究发现,我们的微生物组对机体的新陈代谢、疾病的易感性乃至药物反应,都会产生微妙但普遍的影响。然而,直到最近,微生物组中的大多数微生物物种依然是“不可见的”,因为它们无法在培养皿上生长。为了追踪这些微生物,科学家们依靠对从粪便样本中收集的 DNA 进行测序。与人类基因组计划一样,研究人员正试图通过建立大型参考数据集,来促进微生物组的研究,这些参考数据集,是新的技术和数据分析工具的基础。在微生物组研究中,数据分析的关键挑战之一,是将粪便样本中提取的 DNA 序列片段,组装成完整的基因组。这份工作就像是,利用垃圾箱里的书页碎片,重新将成千上万的书页拼装起来。因此,如果你没有原始书本作为参考,这是很难做到的。但是,有了一台像样的电脑和一份文本的原版拷贝,这项工作就将变得十分容易。这就是为什么大量的研究团队,最近醉心于收集数十万份人类肠道微生物组样本以建构参考基因组序列5,6,比如 2019 年 7 月刚发布的一组新数据7。这项研究汇编了数千种微生物的基因组,以及超过 1.7 亿条非人类基因序列。在人体内,细菌基因的数量,大约是人类基因数量的 1 万倍。这些庞大的数据集对计算生物学家提出了新的挑战和机遇。这些计算生物学家为了人类健康,试图理解,甚至操纵人体微生物组。其中一个关键的挑战是,细菌基因组本身并没有那么有用。它们需要与其他数据一起进行分析。微生物组对我们很重要,因为它会随着年龄、饮食、药物甚至癌症等疾病的变化而变化。不仅如此,我们的肠道微生物还会与我们一起代谢食物,操纵我们的免疫系统,并与人体本身共同构成广泛的代谢网络。而为了做到这一切,肠道微生物表达了大量的基因。为了弄清楚微生物组,研究人员需要追踪这些细菌基因的表达,是如何随着时间的推移而变化的,以及为什么在不同患者之间出现差异。这通常涉及到,将微生物组信息与患者血液检测数据、表观遗传学数据、临床结果,甚至组织学图像联系起来。研究者正在建立整合这些不同数据类型的平台资源。ColPortal8 是一个专注于结肠直肠癌样本的平台,其将不同的数据集以一种利于数据分析的形式整合在一起,使得数据分析师更容易回答医学问题,而不是花费大量力气将数据整合在一起。另一个挑战是将最先进的分析方法,如机器学习,应用于成分混杂的大型微生物组数据集。机器学习算法可以很好地根据复杂数据中存在的微妙模式,对样本进行分类。例如,微生物组研究的目标之一,是根据患者微生物组组成的特征变化,来预测早期癌症9。如果这能成功,我们在 50 岁以后都应该做的常规结肠镜检查,可以被一种侵入性更小的筛查方法所取代,一种只需要粪便样本的筛查方法。然而,机器学习手段一般不适合非专业人员。遗憾的是大多数微生物组学家,不是机器学习的专家,他们也没有理由成为这方面的专家。为了确保高质量的机器学习技术在这个问题上发挥作用,一些项目专注于为微生物组数据构建机器学习工具。比如,欧盟资助的 ML4 Microbiome 项目10正在收集数据集,建立数据标准,并构建可广泛应用于研究社区的软件。而由明尼苏达大学的 Dan Knights 运营的“Microbiome Learning Repo”11,则是一个公开的机器学习工具库。在不久之前,微生物组数据科学家还需要从零开始构建这样的工具。如今,他们却可以把工作重心放在数据分析上了。这些新的微生物组平台资源,在实验室之外,又会产生怎样的影响呢?微生物组研究不仅仅是学术团队的课题;目前已有十多家生物科技初创公司,在这一领域开展工作,许多公司成立还不到五年。初创公司采用的微生物组技术可以分为几种常见的手段,以下的每一种手段都依赖于微生物组 DNA 测序和数据分析:微生物组移植:在治疗慢性胃肠道感染方面,利用健康捐赠者的粪便微生物组进行粪菌移植,取得了一定的成功。Rebiotix12 和 MaaT Pharma13 等公司,正在对细菌感染和溃疡性结肠炎等疾病的微生物组疗法,进行临床试验。成功的关键之一,将是确切地了解一个“好的”微生物组是什么样子的——这只有通过分析微生物组测序数据,才能弄清楚。“将细菌作为药物”:另一种手段是专注于特定种类的肠道微生物的代谢功能,而不是重现整个健康微生物组。Seres Therapeutics 公司14希望改善正在接受免疫疗法的转移性黑色素瘤(一种致死率很高的癌症)患者的治疗情况。由于微生物组与免疫系统相互作用,Seres Therapeutics 公司开发了一种针对免疫系统的细菌混合物,目的是帮助这些患者对治疗产生更好的应答。想要了解细菌是如何控制人体免疫系统的,关键是要知道它们表达什么基因,并模拟这些基因是如何协同工作的。微生物组工程:一种比较有野心的操纵微生物组的方法,是对其进行基因工程。法国公司 Eligo Biosciences15 正在利用一种来源于噬菌体的技术——CRISPR 基因编辑技术。具体地,该公司通过对肠道中的细菌进行基因编辑,让它们表达有益基因,或杀死传染性细菌。这项技术可能不会很快出现在临床上,但它依然可以从新的大型肠道微生物基因数据库中受益。Eligo Biosciences 公司的技术,还可以针对感染性细菌中的抗生素耐药性基因——这种方法依赖于从数亿细菌基因中,识别出这些基因。微生物组诊断:微生物组数据最有前景的应用之一,可能是在诊断上——尤其是对于癌症的诊断。肿瘤会产生很多不同寻常的代谢副产物,从而改变微生物组。像 Metabiomics16 这样的公司,就是基于这样一种想法,即微生物组的变化,可以被用于早期癌症的发现——早在症状出现之前。这种方法要想成功,就需要依靠良好的模型,以从微生物组每天或每周的波动中,梳理出任何有风险的迹象。微生物组数据非常复杂,即使以当今数据密集的生物医学科学的标准来看,也是如此。但就像大多数数据科学领域一样,研究的步伐正在加快,因为微生物组研究人员建立了新的工具和数据库,其他人可以使用这些工具和数据库来回答新的问题。在这种情况下,在这个领域里,研究工作逐渐从实验室工作台上转移到了键盘上的数据分析。
参考资料:
(滑动下方文字查看)
1. https://pubmed.ncbi.nlm.nih.gov/3223969/
2.https://www.genome.gov/27544383/calculating-the-economic-impact-of-the-human-genome-project
3. https://genomemedicine.biomedcentral.com/articles/10.1186/gm483
4. https://pubmed.ncbi.nlm.nih.gov/23833275/
5. https://pubmed.ncbi.nlm.nih.gov/30867587/
6. https://pubmed.ncbi.nlm.nih.gov/30661755/
7. https://pubmed.ncbi.nlm.nih.gov/32690973/
8. https://colportal.imib.es/colportal/help.jsf
9. https://pubmed.ncbi.nlm.nih.gov/32647386/
10. https://www.ml4microbiome.eu/ml4-microbiome-overview/
11. https://bio.tools/ML_Repo
12. https://www.rebiotix.com/about-rebiotix/
13. https://www.maatpharma.com/technology/#gutprint
14. https://www.serestherapeutics.com/our-programs/
15. https://eligo.bio/
16. http://metabiomics.com/preventing-cancer/
原文网址:
https://builtin.com/data-science/microbiome-research-data-science
作者|Michael White
编译|Jessica