基于这一挑战,研究人员开发了新的实验技术,可以并行评估数千个突变的影响,并对这些结果进行解读,以便指导临床决策。然而,这些技术对于数千种蛋白质的研究是不现实的,特别是不能扩展到基于变体的关联分析,并且严重依赖于与人类疾病表型相关或至少与人类疾病表型相关分析的可用性。近日,来自哈佛医学院和牛津大学等单位的联合研究团队在Nature在线发表了题为“Disease variant prediction with deep generative models of evolutionary data”的文章。在该研究中,研究人员基于机器学习构建无监督生成模型,重新评估了基因组进化信息的临床价值。这种仅根据进化序列训练的人类遗传变异分类计算方法在预测变异致病性方面优于当前最先进的计算方法,并且与高通量实验的预测一样准确。该研究表明,进化信息模型可以为基因变异提供有价值的独立证据,或将在未来的研究和临床工作中具有广泛应用。
文章发表在Nature
主要研究内容
从进化角度预测基因变异致病性
该团队开发的变异效应进化模型(Evolutionary Model of Variant Effect, EVE)通过物种间序列变异的分布来了解错义变异的致病倾向。在第一步中,通过使用表达性深层生成模型学习每个蛋白质的氨基酸序列分布,从进化过程中的自然序列中获取信息,包括位置之间的复杂依赖关系。VAEs已经成功地学习了跨多个领域的复杂高维分布数据,包括对蛋白质功能的预测。在对进化序列进行训练后,研究人员通过从VAEs学习到的近似后验分布中取样,评估了每个单一氨基酸变异相对于野生型的相对可能性,并称之为“进化指数”。当将这一进化指数与临床标记进行比较时,发现其在区分致病性标记和良性标记的指标在蛋白质中明显一致,提示可以使用无监督的方法来推断致病性。之后研究人员将变量分为三类:良性、不确定或致病性。图1. 建模策略示意图,来源:Nature 研究人员将EVE模型应用于3219个人类基因上,这些基因在临床上与疾病相关。结果显示,该模型可以预测所有基因的所有标记变体的临床意义(AUC高达0.91),包括60个临床应用基因。同时,EVE在预测已知临床标签方面优于所有监督和非监督方法。将EVE模型预测与10种蛋白质的40000个实验数据进行比较,结果表明,EVE优于所有其他方法。图2. EVE能准确预测致病变异,来源:Nature