Cell|解密脱氨酶之谜:AI驱动聚类重新定义蛋白质功能
Journal Club
汇聚思想,点燃新识
Journal Club 凝聚了一批热爱科学、享受科学、传播科学的探索者和发现者。他们志同道合,他们青春飞扬,他们与科学共舞。在这里,你可以收获最新、最真的行业资讯和来自科研一线的文献解读。你关心的就是我们要说的,我们将用最质朴、最客观的文字书写有深度、有温度的科学。Journal Club,与你畅游Journal世界,和你共享科学蔚蓝。
蛋白质的发现和蛋白质工程已经极大地改变了生命科学。传统的酶挖掘仅基于序列信息,在对蛋白质功能和进化轨迹进行分类和预测方面取得了成效1。然而,蛋白质的一维(1D)信息,无论是以核心氨基酸、特定的motif、整体氨基酸序列相似性还是隐马尔可夫模型(HMMs)的形式,都无法完全揭示蛋白质的功能特性。
然而,结构决定功能——蛋白质功能最终是由蛋白质的三维结构确定。因此,理解蛋白质结构将在蛋白质挖掘和聚类分类过程中提供可靠和合理的推断依据。虽然公开报道的蛋白质结构数量在增加,但与基于氨基酸序列发现的蛋白质数量相比仍然微不足道。但最近,随着人工智能(AI)领域的发展,很多蛋白质结构预测的方法已经被开发出来23,这些方法可以利用一维氨基酸序列准确预测高分辨率的三维蛋白质结构。因此,这些蛋白质结构预测方法应该能够实现对具有特定功能的蛋白质的大规模挖掘和分类。
2023年6月27日,来自中国科学院遗传与发育生物学研究所的研究员高彩霞课题组与来自齐禾生物的Kevin Tianmeng Zhao课题组合作,在《Cell》上发表了名为《Discovery of deaminase functions by structure-based protein clustering》的论文4。这篇论文聚焦于通过基于结构的蛋白质聚类来发现脱氨酶功能,识别脱氨酶家族内的新关系,并揭示出具有更小、更活跃的脱氨酶,其脱靶效应最小。AI辅助的截断技术使得在大豆植物中实现了高效的碱基编辑,同时能够进行AAV封装,为潜在的治疗应用提供了可能性。
脱氨酶样蛋白质是一种可以催化核酸中核苷酸和碱基的脱氨作用的蛋白质。它们在防御、突变、核酸代谢以及其他生物过程中发挥着重要作用,最近还被用于可编程的DNA和RNA碱基编辑器。
图1 基因组编辑策略与工具概述5
DNA和RNA碱基编辑器是一类革命性的基因编辑工具,使得人们可以精确地修改DNA和RNA分子中的特定碱基,从而实现基因组和转录组的定点编辑。其中,腺嘌呤(A)碱基编辑器和胞嘧啶(C)碱基编辑器是两个重要的分支,分别用于改变基因序列中的腺嘌呤和胞嘧啶碱基。腺嘌呤碱基编辑器(Adenine Base Editor)利用脱氨酶样蛋白质来将腺嘌呤(A)碱基转变为鸟嘌呤(G)碱基。这种技术可以在特定的基因位置实现单个碱基的变异,为基因功能研究和疾病治疗提供了新的可能性。胞嘧啶碱基编辑器(Cytosine Base Editor)则使用脱氨酶样蛋白质将胞嘧啶(C)碱基转变为胸腺嘧啶(T)碱基。这种编辑器使研究人员能够实现从C到T的单碱基转变,从而对单个碱基的突变进行精准纠正。
进行碱基编辑的过程如下图所示,此处以胞嘧啶脱氨酶的作用原理为例。首先是识别目标碱基:胞嘧啶脱氨酶通过与胞嘧啶碱基的氨基基团进行相互作用,识别目标碱基。这个识别过程是高度特异的,使蛋白质能够准确识别特定位置的胞嘧啶碱基。接着进行脱氨作用:一旦与目标胞嘧啶碱基结合,胞嘧啶脱氨酶会催化脱氨作用,将胞嘧啶的氨基基团转变为尿嘧啶的氨基基团,形成尿嘧啶(U)。这个反应导致碱基的化学结构发生改变。最后是DNA修复过程:在DNA修复过程中,尿嘧啶通常会被识别为不正常的碱基。细胞会启动一系列的修复机制,将尿嘧啶修复为正确的碱基,通常是胸腺嘧啶(T)。总之,胞嘧啶脱氨酶通过与DNA或RNA中的胞嘧啶碱基相互作用,催化其脱氨作用,从而导致碱基的改变。
图2 碱基编辑的原理示意图6
然而,迄今为止,只有少数针对单链DNA的载脂蛋白B mRNA编辑酶催化多肽(APOBEC)/激活诱导的胞嘧啶脱氨酶(AID)类脱氨酶以及一个针对双链DNA的脱氨酶(DddA)被用于生成胞嘧啶碱基编辑酶(CBEs)。雪上加霜的是,这些为数不多的脱氨酶仍然受限于序列环境限制,高脱靶率和庞大的蛋白质体积的影响,这使得它们通过腺相关病毒(AAV)病毒载体进行递送变得困难。并且,自从胞嘧啶碱基编辑技术于2016年首次引入以来,它在全球最重要的农作物之一——大豆植物中的基因编辑效果不佳,而其中的原因目前也尚未阐明。因此,仍然需要更加强大和高效的胞嘧啶碱基编辑酶(CBEs),以进一步拓展它们的实用性。
研究团队认为,将已知或预测的蛋白质结构进行比较和聚类,从而将脱氨酶分类到功能类群中可能会是一种有效的方法。因此,研究团队采用了人工智能辅助的蛋白质结构预测、结构比对和聚类的组合方法,以在脱氨酶之间建立蛋白质分类关系,他们的方法如图所示。
图3 本文提出的基于AlphaFold2预测结构的蛋白质聚类流程
他们首先从InterPro数据库中选择了238个蛋白质序列,这些序列被注释为具有脱氨酶结构域,同时还从c-Jun激活域结合蛋白(JAB)家族中选择了4个远离的外类候选蛋白质序列。他们接着从每个脱氨酶家族中随机选择了序列长度至少为100个氨基酸的15个候选蛋白质,并使用AlphaFold2预测它们的蛋白质结构。他们对所有候选蛋白质进行了多次结构比对(MSTAs),根据MSTA结果生成了反映蛋白质之间整体结构相关性的候选相似性矩阵。然后,他们使用无权重对组平均法(UPGMA)将这些相似性矩阵组织成一个结构树状图,如下图所示。
图4 用于反映结构相似性的结构相似性矩阵
这个结构树状图将这238个蛋白质聚类成了20个独特的结构类群,而每个类群内的脱氨酶具有明显的保守蛋白质结构域,如下图所示。
图5 基于蛋白质结构的分类将蛋白质分为不同的脱氨酶家族
图6 16个脱氨酶类群中的代表性预测结构
并且,他们发现,即使不使用诸如保守的基因邻域和结构域架构等上下文信息,也可以基于蛋白质结构比对生成准确的蛋白质聚类分类。在使用基于结构的分层聚类时,不同的类群反映出独特的结构,也就意味着不同的催化功能和特性。他们还发现,基于结构的聚类方法在筛选功能相似性方面比传统的基于一维氨基酸序列的聚类方法更加稳健和有效。例如,嘌呤代谢中参与的腺苷脱氨酶在使用基于氨基酸序列的聚类方法时被分成了不同的类群,但在他们基于结构的聚类方法中都被归为一个A_deamin类群。
接着,研究团队通过荧光成像技术对来自不同类群的239个脱氨酶结构域进行评估,以评估其脱氨活性。他们发现,SCP1.201、XOO2897、MafB19、toxin-deaminase和TM1506类群的脱氨酶表现出了单链DNA胞嘧啶脱氨活性。与APOBEC/AID样脱氨酶相比,不同的候选脱氨酶显示出不同的序列偏好。利用蛋白质的三维结构进行分类使得发现了新的功能性脱氨酶聚类。研究表明,通过验证SCP1.201脱氨酶的多样功能,有潜力开发增强和定制的精确碱基编辑工具。
此外,SCP1.201脱氨酶具有多种不同的功能,包括对单链DNA和双链DNA进行胞嘧啶脱氨的作用。通过人工智能辅助的蛋白质结构为基础的分类,研究人员分析了332个SCP1.201脱氨酶,揭示了独特的核心结构基序,并将其分成不同的类群。SCP1.201类群包含了Ddd和Sdd蛋白,其中Ddd蛋白能够进行双链DNA碱基编辑,而Sdd蛋白在单链DNA上表现出胞嘧啶碱基编辑活性。在SCP1.201类群内新发现的Sdd蛋白与高效的单链DNA胞嘧啶碱基编辑酶Sdd7具有相似的蛋白质结构。研究还对Sdd蛋白的Cas9无关非靶效应进行了评估,发现与rAPOBEC1相比,一些Sdd蛋白的非靶效应较低,表明在靶向和非靶向编辑之间具有更有利的平衡。这些发现为开发改进和定制的精确碱基编辑工具提供了潜在的可能性,同时也为我们对SCP1.201脱氨酶多样功能的认识提供了新的角度。
图7 SCP1.201脱氨酶的聚类和特征
新发现的Ddd蛋白家族,包括Ddd1、Ddd7、Ddd8和Ddd9,在50-GC位点尤其表现出与DddA相当甚至更高的编辑效率。具体来说,Ddd1和Ddd9在JAK2的C10(50-GC)残基以及SIRT6的C11(50-GC)残基上的编辑活性明显高于DddA。此外,DddA及其结构同源体Ddd7更倾向于编辑50-TC序列基序,而Ddd1和Ddd9则更倾向于编辑50-GC底物,Ddd8则更喜欢编辑50-WC(W为A或T)底物。这些新发现的Ddd蛋白家族通过使原本DddA无法编辑的基序得以编辑,扩展了双链DNA碱基编辑酶(DdCBEs)的应用范围和目标领域。Ddd蛋白家族的独特编辑模式和序列基序偏好突显了它们在未来基础编辑工程中的潜力。
图8 评估新发现的用于作为碱基编辑酶的Ddd蛋白质的特性
APOBECAID样脱氨酶因其较大的尺寸无法装入单个AAV颗粒以进行体内编辑,因此产生了双AAV策略的递送方法。借助AI辅助的蛋白质建模,对Sdd蛋白进行了截断工程以缩小其尺寸。多种截断变体的Sdd蛋白,包括Sdd7、Sdd6、Sdd3、Sdd9、Sdd10和Sdd4,在水稻原生质体中进行了内源性碱基编辑测试。与其全长蛋白相比,已确定了诸如mini-Sdd7、mini-Sdd6、mini-Sdd3、mini-Sdd9、mini-Sdd10和mini-Sdd4等迷你蛋白,其编辑效率相当甚至更高。这些迷你蛋白的结构在整个蛋白质结构比对中保持一致。成功截断Sdd蛋白使得可以构建基于单个AAV封装的SaCas9基因组编辑酶(CBEs),在AAV基因组编辑递送方面具有优势,相较于APOBECAID样脱氨酶。AI辅助的蛋白质工程在合理截断Sdd蛋白并使其适于AAV封装方面扮演了关键角色。
图9 为了用于动植物中对Sdd蛋白质进行截断工程
总结:
蛋白质功能的阐明及其在生物工程中的应用已经极大地推动了生命科学的发展。蛋白质挖掘的努力通常依赖于氨基酸序列,而非蛋白质结构。在这里,研究团队提出了一种使用AlphaFold2预测并随后基于预测的结构相似性对整个蛋白质家族进行聚类的方法。他们选择了脱氨酶蛋白进行分析,并发现了脱氨酶许多以前未知的特性。令人惊讶的是,他们发现DddA-like类群中的大多数蛋白质并不是双链DNA脱氨酶。他们设计了最小的单链特异性胞嘧啶脱氨酶,使得高效的胞嘧啶碱基编辑酶(CBE)能够被封装到单个腺相关病毒(AAV)中。重要的是,他们对这个类群中的一个脱氨酶进行了分析,发现它在大豆植物中具有强大的编辑能力,而这在以前对CBEs是不可行的。这些通过AI辅助的结构预测发现的脱氨酶极大地扩展了碱基编辑在治疗和农业应用中的实用性。
原文链接
https://doi.org/10.1016/j.cell.2023.05.041
参考文献
参考文献
1. Sharifi, F. & Ye, Y. Identification and Classification of Reverse Transcriptases in Bacterial Genomes and Metagenomes. http://biorxiv.org/lookup/doi/10.1101/2021.01.26.428298 (2021) doi:10.1101/2021.01.26.428298.
2. Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).
3. M, B. et al. Accurate prediction of protein structures and interactions using a three-track neural network. Yearb. Paediatr. Endocrinol. (2022) doi:10.1530/ey.19.15.15.
4. Huang, J. et al.Discovery of new deaminase functions by structure-based protein clustering. http://biorxiv.org/lookup/doi/10.1101/2023.05.21.541555 (2023) doi:10.1101/2023.05.21.541555.
5. Anzalone, A. V., Koblan, L. W. & Liu, D. R. Genome editing with CRISPR–Cas nucleases, base editors, transposases and prime editors. Nat. Biotechnol. 38, 824–844 (2020).
6. Komor, A. C., Kim, Y. B., Packer, M. S., Zuris, J. A. & Liu, D. R. Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage. Nature 533, 420–424 (2016).
供稿 | 刘安吉
审稿 | 孔方
责编 | 囡囡
排版 | 可洲
精彩回顾
精彩回顾
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟