查看原文
其他

轻松上5分! — 连接表型和基因型的桥梁“孟德尔随机化”

MNR 生信人 2023-06-05

  

孟德尔随机化分析简介

医学研究中,因果关联推断旨在对可控的暴露因素与结局之间的因果关系进行估计与评价,从而通过控制或干预暴露因素的水平改变相应结局。例如特定暴露对于人群发病的影响效应分析、特定药物或手术方式作用于疾病的疗效评估等。基于因果效应的分析与评价,对于确定疾病病因及干预方式、控制疾病进展或预后等方面均具有重要的指导意义.


孟德尔随机化与恶性肿瘤相关思路
立即扫码上车


孟德尔随机化(MR)是基于全基因组测序数据、能有效减少偏倚、类似于RCT研究、用于揭露因果关系的统计学方法。MR可以用于评估因果推断,以遗传变异作为工具变量(IVs)来代表特定的暴露,以推断暴露与结果之间的因果关系,将表型对表型的因果研究转化成基因型的研究。优势在于:个体的遗传变异先于疾病的结局,这样便排除了由于逆向因果问题所带来的混杂偏倚;现代生物信息技术对遗传变异的测量能够达到很高的精度,这很大程度上降低了由于测量误差所带来的估计偏倚。


单核苷酸多态性(SNPs)是MR分析中最常用的一种遗传变异,主要是指在基因组水平上由单个核苷酸的变异(转换和颠换,二者之比为2 :1)所引起的DNA序列多样性。一般而言,SNP是指变异频率大于1 %的单核苷酸变异。SNP在人类基因组中的发生频率比较高,有些SNP位点还会影响基因的功能,导致生物性状改变甚至致病,是研究人类家族和动植物品系遗传变异的重要依据。因此被广泛用于群体遗传学研究和疾病相关基因的研究,在药物基因组学、诊断学和生物医学研究中起重要作用。


基因座(基因组中特定的位点。基因座可以是完整基因或单个核苷酸碱基对)中特定位点的单个核苷酸碱基已被不同的核苷酸取代,而出现在每个基因座上的不同可能的核苷酸称为等位基因(Alleles)。如果一个基因座中存在多个不同的等位基因,我们可以将这个基因座称为是具有多态性的。根据等位基因出现的频率,可以进一步分为主要的等位基因(major alleles)和次要等位基因(minor alleles)。给定SNP的群体中次要等位基因(最小等位基因)的比例称为“次要等位基因频率(最小等位基因频率,MAF)”。MAF常用来作为筛选SNP的条件。


MR模型中,遗传变异作为工具变量需满足3个核心假设:



关联性性假设:遗传变异(Z)与暴露因素(X)之间存在稳健的强相关关系(γ≠0)。独立性假设:遗传变异(Z)与影响“暴露因素(X)—结局(Y)”关系的混杂因素(U)独立(φ1=0)。排他性假设:遗传变异只能通过暴露因素对结局产生作用,而不能通过其他路径影响结局(φ2=0)。

孟德尔随机化分析流程为:
  • 第一步:是找工具变量,作为工具变量的基因都是从别人的研究中挑出来的。所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。可以选择从GWAS原文中获取、从已经发表的MR文章中获取、R program提取等方法;挑出来研究和暴露相关的基因SNPs。

  • 第二步:估计的工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。

  • 第三步:合并多个SNP的效应量,这个效应量是我们得到暴露和结局因果效应的前提。

  • 第四步就是用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。

孟德尔随机化分析的要求:1)、数据必须至少包括5列信息:SNP列;暴露的beta值;暴露的se值;结局的beta值;结局的se值。这里的beta值就是SNP对表型(暴露或者结局)的效应量,se是beta值的标准误(standarderror)。2)必须要保证暴露和结局的效应等位基因(effect allele)一致,将暴露和结局的SNP等位基因方向协同,根据EAF大小,剔除不能判断方向的palindromic(回型)SNP和incompatible SNP (A/G vs. A/C);3)检查是否有SNP与结局强相关。

敏感性分析的作用:1)评估结果是否稳健,结论是否靠谱;2)评估结果是否有潜在的偏倚(比如基因多效性,数据异质性);3)评估是否存在某一个工具变量严重影响结局变量;

敏感性分析主要用一下三个方法:1)基因多效性检验;2)异质性检验;3)“leave-one-out”法逐步剔除法,看每剔除一个SNP后,剩余SNP的效应值变化大不大。

孟德尔随机化与恶性肿瘤相关思路
立即扫码上车

由于现有观察性研究往往止步于相关性的判断,无法很好的控制混杂因素和排除由于逆向因果关系,可能在同一问题上,不同的研究会得到不同结果,并引发争议。MR非常适合在此类问题上做出基于因果效应的分析与评价,对于确定疾病病因及干预方式、控制疾病进展或预后等方面均有重要意义。

比如今天分享的文章,作者首先发现端粒长度与乳腺癌患病风险的相关性在临床研究中存在争议,且只有其中少数研究区分了雌激素受体(ER)不同的表达状态(阳性或阴性)。后作者就此问题设计了孟德尔分析(MR),得到因果效应关系。文章于2022/10/21发表在Frontiers in Oncology(IF 5.7)杂志,题为“Relationship between telomere length and the prognosis of breast cancer based on estrogen receptor status: A Mendelian randomization study”。


作者通过孟德尔随机化(MR)分析,将与暴露因子(端粒长度)相关的遗传变异作为工具变量(IVs)来评估暴露因子(端粒长度)和具有不同雌激素受体(ER)表达状态的乳腺癌患者的预后的相关及因果关系。由于等位基因是随机分配的,因此MR分析可以有效消除混杂因素的影响,并推断暴露与结果之间的因果关系。因ER表达状态有阳性和阴性表达两种,作者先通过双样本MR分析了端粒长度对乳腺癌患者整体预后的影响。接下来,再分别评估了端粒长度与ER+和ER-乳腺癌患者预后之间的关系。


  一

背景

乳腺癌是全世界女性最常见的癌症之一,占女性癌症死亡率的15%。影响罹患乳腺癌的风险和死亡率的危险因素包括乳腺癌的一级家族史,较早初潮的年龄,较晚的初次生育年龄,较晚的绝经年龄,超重或肥胖,口服避孕药和外源激素的使用等。

雌激素受体(ER)是乳腺癌重要的预后指标,大约70%的乳腺癌可以表达ER并对激素治疗敏感,因而比ER阴性的患者具有更好的预后。端粒是TTAGGG的串联重复序列,具有防止DNA双链断裂、染色体融合和降解的功能。在维持DNA结构完整性和调节细胞复制方面发挥着至关重要的作用。端粒随着细胞分裂周期而缩短,是生物体细胞衰老的标志。因此,端粒已被作为衰老和年龄相关疾病(如心血管疾病,癌症和糖尿病)的生物标志物广泛研究。

端粒长度与乳腺癌发病率和预后之间的关系尚不清楚。一些研究表明端粒长度与乳腺癌患病风险呈正相关,而另外一些研究得到了不同结果。此外,只有少数研究基于ER表达状态研究了端粒长度与乳腺癌发病率之间的关系,端粒长度与不同ER表达状态的乳腺癌的预后的关系尚未被研究。现有的研究得到不一样的结果,可能是由于现有的观察性研究不能完全排除反向因果关系和混杂因子,导致结论有偏差。孟德尔随机化(MR)是一种可以解决这些局限性的方法。


  二

材料和方法

1、数据收集
收集与暴露和结果相关的单核苷酸多态性(SNP)。从MRCIEU GWAS数据库获得与端粒长度(暴露)相关的SNP。从乳腺癌协会联盟(BCAC)进行的大型荟萃分析数据集中收集了与不同状态的ER的乳腺癌生存率相关的SNP。所有数据都属于欧洲人群。

2、工具变量的提取
  • 选择SNP作为IVs,以评估端粒长度和乳腺癌风险的相关性及因果关系。根据以下假设(1)关联性假设:遗传变异必须与暴露强相关(P<5×10-8);(2)独立性假设:遗传变异不能与任何潜在的混杂因素相关;(3)排他性假设:遗传变异仅通过暴露因素影响结果。

  • 连锁不平衡(LD)窗口设置为10000 kb,r2<0.01,以确保所选遗传变异的独立性。LD指的是不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联,使用两个参数r2和kb来衡量。r2:它是0~1之间的数据,越小则表示两个SNP间是越是完全连锁平衡的,也即这两个SNP的分配是完全随机的。kb:指考虑连锁不平衡的区域长度,因在遗传学上在染色体上距离很近的遗传位点通常是“捆绑”在一起遗传给后代的,这也就导致距离很近的位点之间的r2会很大。

  • 根据PhenoScanner数据库,检查了这些SNP是否可能违反假设(2)和(3),排除了与乳腺癌生存密切相关的SNP(BMI,体重,吸烟,胆固醇)。使用MR多效性残差和异常值检验(MR-PRESSO)检查了所选SNP的可能多效性。此外,为保证暴露和结局的效应等位基因(effect allele)一致,将指代暴露和结局SNP等位基因方向协同,剔除不能判断方向的palindromic(回型) SNP。所有数据均来自欧洲人口,这可以减少人口分层的影响。根据上述标准排除了不适当的IVs,并使用多种方法来确保结果的准确性。

  • 最后,包括104个SNP(乳腺癌总生存率),99个SNP(ER阳性乳腺癌生存率)和100个SNP(ER阴性乳腺癌生存率)用于进一步研究。


3.孟德尔随机化分析

反向方差加权(IVW)方法用于初步分析,以评估端粒长度与ER不同状态的乳腺癌预后之间的因果关系。反向方差加权是将两个或多个随机变量聚合以最小化总和方差的方法,总和中每个随机变量的权重与其方差成反比,方差通常用于组合独立研究的结果。使用Wald比率方法计算每个SNP的暴露-结果效应值。为了确保结果的准确性,使用了包括MR-Egger回归,加权中位数,惩罚加权中位数和最大似然等多种方法。

4.敏感性分析
敏感性分析用来评估结果是否稳健,结论是否靠谱,是否有潜在的偏倚(比如基因多效性:指一个基因影响多种表型;数据异质性),是否存在某一个工具变量严重影响结局变量(一般用“leave-one-out”法);

  • 多效性检验:通过漏斗图和MR-Egger截距测试,以检测多效性的存在并评估结果的稳健性。

  • 异质性检验:通过IVW和MR-Egger检验评估异质性,P值<0.05表明研究中存在异质性。MR-PRESSO R软件包用于评估校正前后MR分析结果之间是否存在差异。

  • 留一法(即leave-one-out法):使用IVW和MR-Egger法,以评估去除一个SNP后,其余SNP的综合效应与主效应是否一致,如果一致,则表明去除的单个SNP对MR分析没有产生过度影响。


  三

结果

1、孟德尔随机化分析
  • MR分析显示端粒长度与乳腺癌患者总体预后呈负相关(OR=1.84, 95% CI=1.08-3.14, IVW方法),表明端粒长度是乳腺癌预后的危险因素(图1)。

图1

  • 端粒长度也与ER阴性乳腺癌的预后呈负相关(OR=1.89, 95% CI=1.11-3.22,IVW法),表明端粒长度是ER状态乳腺癌预后的危险因素(图2)。

图2

  • 端粒长度与ER阳性乳腺癌(OR=0.99,95%CI=0.62-1.58,IVW法)的预后之间没有类似的关系(图3)。

图3

  • 为了确保研究结果的准确性,还使用其他方法评估了相关性,这些方法的结果是一致的(图 2和3)

2.敏感性分析
  • 异质性分析:IVW检验(Q=100.710,P=0.545)和MR-Egger检验(Q=99.691,P=0.545)在总乳腺癌,ER阴性和ER阳性乳腺癌中均未观察到明显的异质性。

  • 多效性分析:MR-Egger截距检验显示P值>0.05,表明不存在水平多效性。MR-PRESSO测试确保了结果的准确性(表1)。

表1

  • 留一法分别逐个剔除SNP后,对于剩下的SNP行效应量估计,结果显示剔除前和后的效应量没有较大的差异,提示没有单个SNP对MR估计结果产生显著影响。漏斗图未见异常的估计值(图S1和S2)。

图S1(A)

图S1(B)

图S1(C)

图S2(A)

图S2(B)

图S2(C)

  四

讨论与小结

这项研究表明,端粒长度与乳腺癌的预后有关,尤其是在ER阴性乳腺癌中;然而,端粒长度与ER阳性乳腺癌的预后之间没有显着相关性。这些发现表明,长端粒可以预测ER阴性乳腺癌的不良预后。


其机制可能在于淋巴细胞在炎症和肿瘤发生过程中受到刺激,并通过NF-kB途径调节端粒酶,从而调节端粒长度。长端粒可能使受损细胞存活更长时间,并继续分裂,额外的突变可引发恶变。维持端粒长度是肿瘤持续生长所必需的,特别是在晚期肿瘤中。癌细胞可以通过重新激活上调端粒酶来维持其永生。另外,癌细胞可以逆转端粒的磨损,以绕过衰老,这被称为端粒途径的替代性延长。


这项研究得到类似的结论,长端粒的遗传易感性可能通过端粒维持途径影响癌症死亡率。其机制可能是由于免疫系统受到抑制时,乳腺癌细胞端粒缩短的速度减慢,细胞凋亡减少。另一种解释是端粒很短的细胞可能诱导衰老或凋亡,抑制细胞的增殖潜能,从而支持肿瘤抑制活性。端粒在癌症中的具体功能机制尚不清楚。需要进一步的研究来确定这些机制。激素也与端粒长度密切相关,因为雌激素可以通过其对人端粒酶逆转录酶(hTERT)的作用和hTERT的AKT依赖性磷酸化的转录后修饰直接参与端粒酶活化促进。


看到这里是否对你有什么启发呢?作者从一个临床问题出发,查阅文献后找出争议点——分析争议存在可能的原因——已经有很多类似的文章了,怎么办呢?那就根据疾病本身的基础分类,将现有的研究范围“细化”从而找出研究领域新的空白。


很多与癌症预后相关结论,都可以巧妙利用这样思路。通过将癌症类型,研究人群等等的范围“缩小”或者“扩大”,从而挖掘出一个新的研究空白。更多思路,请联系我们~


孟德尔随机化与恶性肿瘤相关思路
立即扫码上车

END

不想错过每天的热点和技术欢迎大家添加生信人为星标推荐
撰稿  ▎MNR排版  ▎小北
最新思路推荐
肿瘤免疫

细胞死亡

单细胞

m6A专题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存