「神谕」模型登Nature封面,麻省理工团队用 AI 破译基因密码!
一个深度学习模型,能够破译「非编码」DNA的进化历史和未来吗?
人类的每个细胞都包含大量基因,但编码DNA仅占人体细胞的1%,剩下的 99% 由非编码DNA 组成。
后者不仅未携带构建蛋白质的指令,更会产生突变,增加人类的患病几率;与此同时,传统的基因预测方式效率极低,难以满足现代常见疾病的防治需要。
如何加速预测体内基因表达所产生的影响,一直是人类亟需解决的难题。
3月9日,来自麻省理工学院和哥伦比亚大学等机构的研究团队传来喜讯:构建了一个名为「神谕」的深度学习神经网络模型。昨日,这一研究结果荣登《Nature》的杂志封面。
本篇文章,智药局与大家一起分享这项最新的研究成果。
什么是非编码DNA?
非编码DNA,又被戏称为垃圾DNA,它有一个重要功能:控制基因的「开关」,以及生成的蛋白质数量。
随着时间的推移,细胞会复制DNA以生长和分裂。在这些非编码区,突变时常会发生,包括功能上的微调,或是改变控制基因表达的方式。
很多突变都是不值一提的,甚至还有一些突变是有好处的。然而,这些突变偶尔也会增加一些常见疾病(比如2型糖尿病)的患病几率,或者更严重的一些疾病(比如癌症)的患病几率。
(图:基因表达在进化中的可塑性)
为了解决这一问题,MIT团队通过在酵母中输入上百万个完全随机的非编码DNA序列组成的数据集对模型进行训练,并观察随机序列对基因表达的影响。结果表明,神经网络非常准确地预测了每个启动子序列驱动基因表达的程度。
此外,研究人员还提出了一种独特的方法:从中合成500个序列,以此测量其驱动 YFP 表达的能力,从而设计了一种通用的基因表达模式,也证明计算机模拟的序列可有效驱动非常高和非常低的表达。
MIT团队怎么做到的?
麻省理工学院的研究生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,还有他们的同事们构建了一个神经网络模型,并在酵母中输入由上百万个完全随机的非编码DNA序列组成的数据集进行训练,观察每一个随机序列如何影响基因表达。
首先,为了确定该模型是否有助于合成生物学应用,如生产抗生素、酶和食物,研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。
然后,他们查阅了相关科学论文,以确定基本的演化问题,看看这一模型能否帮助解答这些问题。
该团队甚至还从一项现有研究中获取了真实世界的人口数据集,包含了世界各地酵母菌株的遗传信息。通过这种方式,他们能够描绘出过去数千年的选择压力,从而更深刻地理解今天的酵母基因组。
但是,为了创造一个可以探测所有基因组的强大工具,研究人员需要找到一种方法,在缺乏全面种群数据集的情况下,预测非编码序列的进化。
为了实现这一目标,Vaishnav 和他的同事们设计了一种计算方法,把框架里的预测绘制到二维图上。
(图:神经网络模型预测基因的二维图像)
如此一来便可以使用简单的方式,了解任何一个非编码DNA是如何影响基因表达和基因的适应性,且无需在实验室耗时耗力的做任何实验。
“适应度图谱待解决的一个问题是,我们没有一种方法能高效捕捉序列进化特性的方式,并将它们可视化。”Vaishnav解释说,“这种方法填补了空白,并为创建一个完整的健康环境这一长期愿景做出贡献。”
(图:非编码DNA的预测结果)
研究结果表明,人工智能不仅可以预测监管DNA变化的影响,也揭示出其潜在的原则管理数百万年的进化历程。
这项研究的意义有多大?
尽管这个模型在一些生长条件下只对酵母调控DNA的一小部分进行训练,但它能够对哺乳动物基因调控的进化做出有用预测。
目前,该项研究在诸如酿造、烘焙和生物技术中为酵母定制调节DNA的设计上有了实际应用;这项工作的扩展也可以帮助识别人类调控DNA中的疾病突变,而这些突变往往是当下很难发现且在临床上被忽视的。
50多年来,生物学家们都在试图通过非编码DNA序列来准确预测基因表达的强度。然而基因表达的生化机制是非常复杂的,即便是学界尽了最大的努力也没有实现这一目标。
在这项研究发表以前,研究人员大多只能使用已知的突变来训练模型(充其量有些微小的变化)。
然而,MIT团队构建的无偏模型,能够预测生物体的适应性和基因表达,这基于任何可能的DNA序列,哪怕有些基因序列从来没有见到过。
正如Vaishnav所言,“这项工作表明,在更丰富、更复杂、更多样化的数据集上,经过训练的人工智能基因调控模型有着光明的未来。”
团队成员介绍
Eeshit Dhaval Vaishnav是麻省理工学院博士,也是该项研究的第一作者。
(图:第一作者 Eeshit Dhaval Vaishnav博士)
Vaishnav 共发表过8篇顶刊论文。分别是《Nature》3篇,子刊《Nature Medicine》、《Nature Biotechnology》、《Nature Communications》各1篇,以及《Cell》1篇。此前在印度理工学院获得计算机科学与工程和生物科学与生物工程双学位。
Carl de Boer毕业于英属哥伦比亚大学,现担任生物医学工程学院助理教授,为联合第一作者。
(图:联合第一作者 Carl de Boer助理教授)
2008获得滑铁卢大学计算机科学和生物信息学学士学位,并于2014年获得多伦多大学分子遗传学博士学位,此后便一直从事博士后研究。2020年进入英属哥伦比亚大学成为助理教授。
Aviv Regev是麻省理工学院的生物学教授,作为该研究的资深研究员。
(图:资深研究员 Aviv Regev教授)
于1997年和2003年在特拉维夫大学获得硕士和博士学位,是麻省理工学院和哈佛大学Broad研究所的核心成员以及麻省理工学院生物系的教授,也是GenentechResearch和Early Development的负责人。曾与Sarah Teichmann一起创立并领导了人类细胞图谱项目。研究方向是生物网络、基因调控和进化。
参考资料:
https://www.nature.com/articles/s41586-022-04506-6
https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311
https://www.nature.com/articles/d41586-022-00384-0
—End—
推荐阅读