查看原文
其他

Nature|AI预测基因启动子序列的有效性和进化

智药邦 智药邦 2022-12-15
2022 年 3 月 9 日,Nature发表评论,对同期文章 AI predicts the effectiveness and evolution of gene promoter sequences 进行了简要介绍。

以下是全文内容。

生物学的一个长期目标是从 DNA 序列预测基因表达的能力。一种被称为神经网络的人工智能,结合高通量实验,现在让这一目标更近了一步。

基因表达影响生活的方方面面,例如细菌在特定环境中的生存方式,以及人体的解剖学和生理学研究。若人们能够借助调节基因表达方式的 DNA 序列,准确预测基因表达水平,那么我们探索生物领域的方式将迎来重大突破。然而,调节基因表达背后的生化机制极其复杂,50多年来,生物学家一直未能实现这一目标。近期,麻省理工学院的 Vaishnav 等人在 Nature 杂志上发表文章称,他们构建了从序列到表达模型(sequence-to-expression models),利用两项关键技术实现对酿酒酵母中基因表达的预测,这可以说为日后的目标实现带来了曙光。

这些研究者们使用的第一项技术是,测定在大量酵母中编码黄色荧光蛋白(YFP)的基因表达这些酵母中,不同的细胞携带不同的调控 DNA 序列,这些序列被称为启动子,它们位于一小段环状DNA上,位置靠近YFP基因,这使得它们能够驱动YFP的表达。研究者们使用了一个含超过3000万启动子(每个含80个碱基对)的集合,一个细胞一个细胞地定量测定了表达的YFP。

接下来,研究者们借助第二项技术,将得到的表达数据输入一种称为卷积神经网络的人工智能,并训练该网络根据这些数据中预测基因表达然后,他们验证了网络以一种令人印象深刻的规模预测基因表达的能力(图1)。

图1 学习预测基因表达。

a. Vaishnav 等人创建了一个含3000万启动子的文库,每个启动子长80个碱基对。他们探索了酵母细胞中这些启动子驱动YFP基因表达的能力。b. 研究者使用这些数据训练神经网络,以预测不同启动子序列对基因表达的驱动程度。c. 研究者检验了网络的预测能力。他们设计了数千个启动子(为简单起见,这里只显示了一个),发现该网络能够非常准确地预测每个启动子对基因表达的驱动程度。

例如,研究者们合成了数千个未用于训练的启动子序列,测定了它们驱动基因表达的能力,发现该神经网络非常准确地预测了每个启动子对基因表达的驱动程度另外,研究者们将随机起始序列输入这个神经网络,发现其根据启动子序列预测基因表达的能力,可将这些起始序列转换为预测驱动表达水平处于极端(非常高或非常低)的启动子序列,这项能力经过了十轮计算机模拟的进化。然后,研究人员合成了500个这样的序列,并测定了它们驱动YFP表达的能力。这些计算机模拟的序列确实可以驱动表达水平非常高和非常低的基因进行表达。这项实验和其他验证实验表明 Vaishnav 等人,确实创造了一个高效的系统来预测基因表达水平

这种预测还有助于阐明基因表达进化的其他方面。例如,研究者们通过计算预测出,对于大多数起始序列,三四个突变足以使那些表达量非常高或者低的序列发生进化,这一预测得到了后续的实验验证。本研究的另一个发现是,约70%的酵母基因在表达上得到了稳定的选择,这一选择偏好那些不会导致表达产物发生巨大变化的突变。此外,研究者们还发现,得到稳定选择的基因对调节性DNA突变的耐受性更强。即,这些基因的启动子改变表达水平的程度更小。

本研究意义重大。首先,它为后续研究者设计具有特定表达水平的基因提供了参考。其次,它揭示了基因调控进化的许多方面。另外,更重要的地方在于,它像过去几年生物领域内使用的其他深度学习工具(例如预测蛋白质折叠的工具)那样,为科学家解决更广阔范围内的问题铺平了道路。

尽管如此,这项研究仍有其局限性。首先,它只改变了基因序列中的启动子,而启动子只是能够影响基因表达的几种序列之一。它并没有对编码区序列的变异进行研究,编码区突变也可以影响基因表达产物。其次,本预测系统针对酵母开发,而酵母中的基因调控远没有人类中的复杂。例如,酵母中的调控DNA通常距被调控基因只有几百个碱基对的距离,而动物中这一距离可能为数百万个碱基对。因此,我们尚不确定本研究提出的方法是否适用于更复杂的基因调控过程。能够让我们略微感到乐观的一点在于,尽管用于训练的这3000万个序列只占所有80个碱基对组合(480种排列方式)的一小部分(约2*10-41),但是这个模型的预测成功率很高。序列空间中采样较为稀疏可能不是它的致命缺陷。

最后要说的是,这个方法类似于神话传说中的“神谕”,它只是预测了基因表达水平但并未对此做出解释。它没有告诉我们为什么启动子驱动基因表达的水平显示出高和低的区别,以及哪些转录因子结合在启动子上,或者它们如何相互作用。换句话说,它在阐明基因表达的调控逻辑方面仍处于一片空白。阐述调控逻辑方面需要我们做更多的工作。然而,考虑到预测基因表达这个问题长期存在,生物学家对于这项研究的结果就已经感到非常欢欣鼓舞了。

参考资料

doi:https://doi.org/10.1038/d41586-022-00384-0


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -


蛋白质结构与AlphaFold

●Nature|确定蛋白质结构的短暂状态

AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资

●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基

●Curr Opin Struc Biol|蛋白质设计的深度生成建模

●Nat Methods|用AlphaFold以原子精度预测蛋白质结构

●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究

●Nat Methods特刊|2021年度方法:蛋白质结构预测

迈入世界领先梯队!天壤自研蛋白质结构预测平台 TRFold,单张 GPU 16 秒实现精准预测

对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

Nature|人工智能助力蛋白质折叠预测

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存