Science | AlphaMissense:错义突变致病性的预言家
Journal Club
汇聚思想,点燃新识
Journal Club 凝聚了一批热爱科学、享受科学、传播科学的探索者和发现者。他们志同道合,他们青春飞扬,他们与科学共舞。在这里,你可以收获最新、最真的行业资讯和来自科研一线的文献解读。你关心的就是我们要说的,我们将用最质朴、最客观的文字书写有深度、有温度的科学。Journal Club,与你畅游Journal世界,和你共享科学蔚蓝。
基因组测序揭示了人类群体中广泛的遗传变异。错义突变是改变蛋白质氨基酸序列的遗传变异。致病性错义突变会破坏蛋白质功能并降低机体适应性,而良性错义突变的作用有限。对这些变异进行分类是人类遗传学中一个重要的持续挑战。在观察到的超过 400 万个错义变异中,只有大约 2% 被临床分类为致病性或良性,而其中绝大多数具有未知的临床意义。这限制了罕见疾病的诊断,以及针对潜在遗传原因的临床治疗的开发或应用。尽管变异效应多重检测 (MAVE) 可以系统地测量蛋白质变异效应 并且可以准确预测变异的临床结果,但由于成本和劳动力的原因,对变异致病性的全蛋白质组的研究仍然是不完整。而机器学习方法可以利用生物数据来预测未注释变异的致病性,从而进一步解释这些变异造成的影响。其中,AlphaFold能够根据蛋白质序列准确预测蛋白质结构,可作为预测蛋白质变异体致病性的基础。
2023年9月23日,来自英国伦敦的Google Deepmind团队在Science上发表了一篇题为“Accurate proteome-wide missense variant effect prediction with AlphaMissense”的文章。他们提出了 AlphaMissense,它根据人类和灵长类动物变异群体频率数据库基于AlphaFold进行了微调,以预测错义变异的致病性。通过结合结构背景和进化保护,他们的模型在广泛的遗传和实验标准上取得了很好的结果,所有这些都无需对这些数据进行明确的训练。他们提供了所有可能的人类单氨基酸取代的预测数据库,并将 89% 的错义变异分类为良性或致病(图1)。
图1. AlphaMissense对于错义突变致病性的预测
AlphaMissense 利用 AlphaFold 的两个关键功能:高度精确的蛋白质结构模型以及从相关序列中学习进化约束的能力。值得注意的是,AlphaMissense 并不预测突变氨基酸序列的结构变化,而是以数值的形式预测致病性。AlphaMissense 分两个阶段进行训练。在第一阶段,像 AlphaFold 一样通过预测 MSA 中随机位置的氨基酸来执行单链结构预测以及蛋白质语言建模(图2)。预训练后,就可以通过计算参考氨基酸概率和替代氨基酸概率之间的对数似然比来预测变异效应。在第二阶段,模型针对人类蛋白质进行了微调,针对 MSA 第二行中呈现的变异序列定义了额外的变异致病性分类。对于训练集,他们把人类和灵长类动物群体中经常观察到的变异作为良性变异,把人类和灵长类动物群体中不存在的变异作为致病性变异。为了提高训练集的质量和大小,本文通过使用初步的 AlphaMissense 模型来进行自蒸馏,以过滤掉预测为可能良性的未观察到的变异。
图2. AlphaMissense的概况
临床数据库会汇总导致人类疾病的错义变异。这些数据库可用于对致病性预测模型进行基准测试,但此类数据包含人为偏差,可能会歪曲临床相关变异的真实分布。在这些数据库上训练的模型(例如 ClinVar)也会继承这些偏差,并且通常无法推广到其他基准1。本文为了避免这些问题的出现,就没有直接在临床数据库上进行训练,并能够对不同的基准进行忠实的评估,包括 ClinVar 2中注释错义变异的保留测试集、来自罕见发育障碍患者和对照的新生变异3、ProteinGym 中的 MAVE 基准以及本研究中的其他 MAVE 基准。最终,AlphaMissense 在所有临床标准中都实现了先进的性能,而之前报道的其他模型在这些标准中没有始终这么排名靠前。
接下来,本文使用 AlphaMissense 预测了 19,233 个人体内经典蛋白质中所有 2.16 亿个可能的单个氨基酸突变的致病性,从而产生了 7100 万个错义变异预测。本文使用来自 ClinVar 的 2526 个变体的平衡验证集通过单变量逻辑回归模型来校准预测。由于具有更高的预测性能,与最近表现良好的无监督模型 EVE 相比,AlphaMissense可以以 90% 的精度对 ClinVar 测试的变体进行分类,比例增加了 25.8 %。总的来说,该模型使用 MSA 中存在的结构信息再集合进化信息来再基于目前已知的生物学知识做出预测。
而相比于其他的方法,AlphaMissense与MAVE数据也是最一致的(图3)。MAVE 实验通过在细胞中表达蛋白质突变体并使用生长或荧光读数测量活性来生成变异体效应图4。由于 MAVE 实验可以完全覆盖(并且通常饱和)感兴趣的蛋白质,因此它们提供了有关蛋白质区域的宝贵信息,而这其中的一些信息通常会被临床治疗遗漏,尽管 MAVE 数据的直接临床效用取决于测定读数和实验质量。
图3. AlphaMissense与MAVE数据也是最一致的
例如,本文研究了 AlphaMissense 是否能更好地预测 SHOC2 特定结构域驱动的致病性,这可以通过每个氨基酸位置的平均致病性来反映。AlphaMissense 每个位置的平均致病性与 MAVE 每个位置的平均值非常一致。根据 MAVE 测定,在 SHOC2 的前 80 个氨基酸中,位置 63 至 74 是致病性的(图 4)。该区域在结构上显示通过 RVxF 基序结合 PP1C(图 4)。AlphaMissense 是唯一能够正确预测这一重要功能区域突变致病效应的模型。
图4. AlphaMissense 是更好地预测SHOC2 特定结构域驱动的致病性
鉴于 Alpha-Missense 在不同基准上的性能提高,本文接下来通过在消融研究中系统地删除模型的组件来研究哪些组件对于其在 ClinVar 和 ProteinGym 测试集上的高性能是必要的。最后发现对大型结构数据库进行预训练和直接针对目标应用进行微调是两个很重要的方面。
最后,DeepMind为学界公布了四种资源。第一个数据集包含 7100 万个错义突变预测,涵盖了人类蛋白质组。每个错义变体都是通过导致氨基酸改变的单核苷酸变化来定义的。第二个资源是基因水平的 AlphaMissense 致病性预测,定义为基因中所有可能的错义突变的平均致病性。第三个是 19,233 种人类典型蛋白质中所有 2.16 亿个可能的单一氨基酸取代的扩展数据集。最后,他们提供了对 60,000 个替代转录异构体中所有可能的错义突变和氨基酸取代的预测,以供未来研究和评估异构体特异性效应。这些资源受益于可信预测的扩大覆盖范围,并且在多种情况下都具有价值。总之,AlphaMissense 预测帮助我们加深突变对蛋白质功能影响的理解,有助于发现致病基因,并提高罕见遗传病的诊断率。
原文链接
https://www.science.org/doi/10.1126/
science.adg7492
参考文献
参考文献
1.Grimm, D. G. et al. The evaluation of tools used to predict the impact of missense variants is hindered by two types of circularity. Hum Mutat 36, 513-523, doi:10.1002/humu.22768 (2015).
2.Landrum, M. J. et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res 46, D1062-d1067, doi:10.1093/nar/gkx1153 (2018).
3.Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat Genet 50, 1161-1170, doi:10.1038/s41588-018-0167-z (2018).
4.Fayer, S. et al. Closing the gap: Systematic integration of multiplexed functional data resolves variants of uncertain significance in BRCA1, TP53, and PTEN. Am J Hum Genet 108, 2248-2258, doi:10.1016/j.ajhg.2021.11.001 (2021).
供稿 | 田露
审稿 | 张颖
责编 | 囡囡
排版 | 可洲
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
精彩回顾
精彩回顾
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟