查看原文
其他

QB期刊 | 多基因风险评分: 效果估计和模型优化

QB期刊 2022-10-01

在全基因组关联研究(genome-wide association studies, GWAS)中, 通常单核苷酸多态性(single-nucleotide polymorphisms, SNPs)单独使用时,只能对表型实现较弱或中等的预测性能。多基因风险评分(Polygenic risk score, PRS)方法将多个SNPs汇聚起来, 包括一些在单独的测试中没有通过统计检验的SNPs, 实现了对疾病和性状的更好的预测性能。另一方面, PRS方法直接建模公开的GWAS统计汇总数据, 比起一些在个人基因型和表型上建模的基因风险方法具有更好的计算性能和更广泛的应用场景。在近期的许多GWAS分析中, PRS方法的构建和评估已经成为常规的后续分析。然而除了这些优点之外, PRS方法存在一些问题。只依赖汇总数据的PRS方法只有中等级别的预测能力。简单的PRS方法基于独立的遗传标志物和他们各自的边缘预测能力, 不能完全利用性状背后复杂的遗传结构, 因此不能提供准确的预测结果。

近日, 由美国威斯康星大学麦迪逊分校的统计系Qiongshi Lu教授课题组回顾了近期的PRS方法的研究进展。相关研究结果“Polygenic risk scores:effect estimation and model optimization” (点击文末“阅读原文”下载PDF全文)发表在Quantitative Biology期刊上。

全文概要

本文作者首先介绍了PRS方法将GWAS数据与连锁不平衡(linkage disequilibrium, LD)、基因组功能注释和基因多效性等信息进行整合的框架。其次, 作者介绍了近期的PRS模型微调方法。最后, 作者讨论了现有PRS应用的局限性, 并为PRS方法的未来发展指出一些方向。

表1: 文中分析的PRS方法

PRS的基本框架是多个等位基因的加权和:

  其中S是PRS, Xi是第i个SNP,wi是其权重,R是模型选中的SNP集合。最简单的PRS方法选择对某个性状的预测性能超过某一阈值的所有SNP作为集合, 权重则是SNP各自与性状的边缘相关系数。然而当SNP之间有强关联, 或GWAS方法的统计强度不足时, 这类PRS方法的性能就会降低。

考虑到基因组上普遍的连锁不平衡, 如何选择一组合适的SNP成为一个问题。作者总结了两类方法: LD修剪+阈值(LD-pruning+ thresholding)和LD聚集+阈值(LD-clumping + thresholding) 的基本原理和应用案例(PLINK,PRSice-2)。另一个问题是权重的计算, 简单地使用GWAS边缘权重不能得到很好的效果, 作者介绍了一系列计算权重的惩罚回归模型, 包括结合连锁不平衡效应的概率模型或频率模型(LDPred, PRS-CS, lassosum等)。针对一些遗传预测模型缺乏生物可解释性的问题, 一些方法加入了转录组和表观基因组的注释信息(AnnoPred, PANPRS等)。有一些基因突变会对多个相关的疾病或性状造成影响, 这称为SNP的多效性(pleiotropy)。基于这个现象, 聚合多个遗传相关的基因组关联分析有可能提高模型的预测准确率, 作者介绍了一些这方面的工作(PleioPred, MTAG等)。

作者特别强调了, 其介绍的大部分模型都存在一些微调参数, 比如阈值的选择、优化函数中的比例参数、惩罚回归模型中的惩罚系数等。这些参数增强了模型的灵活性, 但通常用来优化微调参数的交叉验证方法由于缺乏个体数据, 一般在PRS研究中并不适用。作者介绍了解决这个问题的SummaryAUC和PUMAS两个方法。

最后, 作者讨论了现有方法的局限性。第一, 对于大部分疾病, 现有方法的灵敏度和特异性还远不足以应用到临床干预上。现行的基于准确率的评估体系在如预测冠状动脉疾病的一些任务上与真实情况产生矛盾, 这提示我们需要开发更好的PRS方法评价指标。第二, PRS方法的生物解释需要慎重, 因为遗传相关通常伴随着生活环境的相关, 这二者产生的效应在模型中还难以被很好地区分开。第三点局限性是现有的PRS方法缺乏可迁移性, 在某个群体中构建的PRS模型通常不适用于另一群体, 原因可能是不同群体间在连锁不平衡模式、因果效应规模、等位基因频率和环境中间变量等因素上有差别, 这是PRS应用的巨大阻碍。作者希望未来出现的方法能为这些挑战提出新的思路和解决办法, 从而有利于风险预测研究的发展。



Quantitative Biology期刊介绍

    Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。 

       为了促进本领域的学术交流,欢迎大家扫描下面二维码进入《定量生物学》期刊交流群。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存