轻松上5分! — 连接表型和基因型的桥梁“孟德尔随机化”
孟德尔随机化分析简介
医学研究中,因果关联推断旨在对可控的暴露因素与结局之间的因果关系进行估计与评价,从而通过控制或干预暴露因素的水平改变相应结局。例如特定暴露对于人群发病的影响效应分析、特定药物或手术方式作用于疾病的疗效评估等。基于因果效应的分析与评价,对于确定疾病病因及干预方式、控制疾病进展或预后等方面均具有重要的指导意义.
孟德尔随机化(MR)是基于全基因组测序数据、能有效减少偏倚、类似于RCT研究、用于揭露因果关系的统计学方法。MR可以用于评估因果推断,以遗传变异作为工具变量(IVs)来代表特定的暴露,以推断暴露与结果之间的因果关系,将表型对表型的因果研究转化成基因型的研究。优势在于:个体的遗传变异先于疾病的结局,这样便排除了由于逆向因果问题所带来的混杂偏倚;现代生物信息技术对遗传变异的测量能够达到很高的精度,这很大程度上降低了由于测量误差所带来的估计偏倚。
单核苷酸多态性(SNPs)是MR分析中最常用的一种遗传变异,主要是指在基因组水平上由单个核苷酸的变异(转换和颠换,二者之比为2 :1)所引起的DNA序列多样性。一般而言,SNP是指变异频率大于1 %的单核苷酸变异。SNP在人类基因组中的发生频率比较高,有些SNP位点还会影响基因的功能,导致生物性状改变甚至致病,是研究人类家族和动植物品系遗传变异的重要依据。因此被广泛用于群体遗传学研究和疾病相关基因的研究,在药物基因组学、诊断学和生物医学研究中起重要作用。
基因座(基因组中特定的位点。基因座可以是完整基因或单个核苷酸碱基对)中特定位点的单个核苷酸碱基已被不同的核苷酸取代,而出现在每个基因座上的不同可能的核苷酸称为等位基因(Alleles)。如果一个基因座中存在多个不同的等位基因,我们可以将这个基因座称为是具有多态性的。根据等位基因出现的频率,可以进一步分为主要的等位基因(major alleles)和次要等位基因(minor alleles)。给定SNP的群体中次要等位基因(最小等位基因)的比例称为“次要等位基因频率(最小等位基因频率,MAF)”。MAF常用来作为筛选SNP的条件。
MR模型中,遗传变异作为工具变量需满足3个核心假设:
第一步:是找工具变量,作为工具变量的基因都是从别人的研究中挑出来的。所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。可以选择从GWAS原文中获取、从已经发表的MR文章中获取、R program提取等方法;挑出来研究和暴露相关的基因SNPs。 第二步:估计的工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。 第三步:合并多个SNP的效应量,这个效应量是我们得到暴露和结局因果效应的前提。 第四步就是用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。
作者通过孟德尔随机化(MR)分析,将与暴露因子(端粒长度)相关的遗传变异作为工具变量(IVs)来评估暴露因子(端粒长度)和具有不同雌激素受体(ER)表达状态的乳腺癌患者的预后的相关及因果关系。由于等位基因是随机分配的,因此MR分析可以有效消除混杂因素的影响,并推断暴露与结果之间的因果关系。因ER表达状态有阳性和阴性表达两种,作者先通过双样本MR分析了端粒长度对乳腺癌患者整体预后的影响。接下来,再分别评估了端粒长度与ER+和ER-乳腺癌患者预后之间的关系。
一
背景
二
材料和方法
选择SNP作为IVs,以评估端粒长度和乳腺癌风险的相关性及因果关系。根据以下假设(1)关联性假设:遗传变异必须与暴露强相关(P<5×10-8);(2)独立性假设:遗传变异不能与任何潜在的混杂因素相关;(3)排他性假设:遗传变异仅通过暴露因素影响结果。
连锁不平衡(LD)窗口设置为10000 kb,r2<0.01,以确保所选遗传变异的独立性。LD指的是不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联,使用两个参数r2和kb来衡量。r2:它是0~1之间的数据,越小则表示两个SNP间是越是完全连锁平衡的,也即这两个SNP的分配是完全随机的。kb:指考虑连锁不平衡的区域长度,因在遗传学上在染色体上距离很近的遗传位点通常是“捆绑”在一起遗传给后代的,这也就导致距离很近的位点之间的r2会很大。
根据PhenoScanner数据库,检查了这些SNP是否可能违反假设(2)和(3),排除了与乳腺癌生存密切相关的SNP(BMI,体重,吸烟,胆固醇)。使用MR多效性残差和异常值检验(MR-PRESSO)检查了所选SNP的可能多效性。此外,为保证暴露和结局的效应等位基因(effect allele)一致,将指代暴露和结局SNP等位基因方向协同,剔除不能判断方向的palindromic(回型) SNP。所有数据均来自欧洲人口,这可以减少人口分层的影响。根据上述标准排除了不适当的IVs,并使用多种方法来确保结果的准确性。
最后,包括104个SNP(乳腺癌总生存率),99个SNP(ER阳性乳腺癌生存率)和100个SNP(ER阴性乳腺癌生存率)用于进一步研究。
3.孟德尔随机化分析
多效性检验:通过漏斗图和MR-Egger截距测试,以检测多效性的存在并评估结果的稳健性。
异质性检验:通过IVW和MR-Egger检验评估异质性,P值<0.05表明研究中存在异质性。MR-PRESSO R软件包用于评估校正前后MR分析结果之间是否存在差异。
留一法(即leave-one-out法):使用IVW和MR-Egger法,以评估去除一个SNP后,其余SNP的综合效应与主效应是否一致,如果一致,则表明去除的单个SNP对MR分析没有产生过度影响。
三
结果
MR分析显示端粒长度与乳腺癌患者总体预后呈负相关(OR=1.84, 95% CI=1.08-3.14, IVW方法),表明端粒长度是乳腺癌预后的危险因素(图1)。
端粒长度也与ER阴性乳腺癌的预后呈负相关(OR=1.89, 95% CI=1.11-3.22,IVW法),表明端粒长度是ER状态乳腺癌预后的危险因素(图2)。
端粒长度与ER阳性乳腺癌(OR=0.99,95%CI=0.62-1.58,IVW法)的预后之间没有类似的关系(图3)。
为了确保研究结果的准确性,还使用其他方法评估了相关性,这些方法的结果是一致的(图 2和3)
异质性分析:IVW检验(Q=100.710,P=0.545)和MR-Egger检验(Q=99.691,P=0.545)在总乳腺癌,ER阴性和ER阳性乳腺癌中均未观察到明显的异质性。
多效性分析:MR-Egger截距检验显示P值>0.05,表明不存在水平多效性。MR-PRESSO测试确保了结果的准确性(表1)。
留一法分别逐个剔除SNP后,对于剩下的SNP行效应量估计,结果显示剔除前和后的效应量没有较大的差异,提示没有单个SNP对MR估计结果产生显著影响。漏斗图未见异常的估计值(图S1和S2)。
四
讨论与小结
这项研究表明,端粒长度与乳腺癌的预后有关,尤其是在ER阴性乳腺癌中;然而,端粒长度与ER阳性乳腺癌的预后之间没有显着相关性。这些发现表明,长端粒可以预测ER阴性乳腺癌的不良预后。
其机制可能在于淋巴细胞在炎症和肿瘤发生过程中受到刺激,并通过NF-kB途径调节端粒酶,从而调节端粒长度。长端粒可能使受损细胞存活更长时间,并继续分裂,额外的突变可引发恶变。维持端粒长度是肿瘤持续生长所必需的,特别是在晚期肿瘤中。癌细胞可以通过重新激活上调端粒酶来维持其永生。另外,癌细胞可以逆转端粒的磨损,以绕过衰老,这被称为端粒途径的替代性延长。
这项研究得到类似的结论,长端粒的遗传易感性可能通过端粒维持途径影响癌症死亡率。其机制可能是由于免疫系统受到抑制时,乳腺癌细胞端粒缩短的速度减慢,细胞凋亡减少。另一种解释是端粒很短的细胞可能诱导衰老或凋亡,抑制细胞的增殖潜能,从而支持肿瘤抑制活性。端粒在癌症中的具体功能机制尚不清楚。需要进一步的研究来确定这些机制。激素也与端粒长度密切相关,因为雌激素可以通过其对人端粒酶逆转录酶(hTERT)的作用和hTERT的AKT依赖性磷酸化的转录后修饰直接参与端粒酶活化促进。
看到这里是否对你有什么启发呢?作者从一个临床问题出发,查阅文献后找出争议点——分析争议存在可能的原因——已经有很多类似的文章了,怎么办呢?那就根据疾病本身的基础分类,将现有的研究范围“细化”从而找出研究领域新的空白。
很多与癌症预后相关结论,都可以巧妙利用这样思路。通过将癌症类型,研究人群等等的范围“缩小”或者“扩大”,从而挖掘出一个新的研究空白。更多思路,请联系我们~
END
撰稿 ▎MNR排版 ▎小北