IF12.3=蛋白质组+单细胞RNA测序+孟德尔随机化
大家好,我是雪梨~~欢迎来到雪梨的生信套路!
今天要给大家分享的是孟德尔随机化方法分析药物靶点。
孟德尔随机化(MR)分析药物靶点是一种生物信息学方法,旨在评估特定药物靶点与疾病结果之间的因果关系。该分析方法利用遗传变异作为自然随机分配的工具,通过遗传变异的随机性限制混杂的可能性,提高了因果推断的可靠性。感兴趣的药物靶点可以涵盖各种因素,包括与健康相关的行为、生物特征(如血压和BMI)、血液的循环成分(例如脂蛋白、代谢物、蛋白质)以及组织水平的基因表达。传统的MR分析通常使用整个基因组的多个SNPs,确保这些SNPs在连锁平衡中是独立的,以提高统计显著性。然而,新一代的MR方法更注重感兴趣的靶点,被称为“顺式作用”,致力于解决特定药物靶点的修饰是否会影响疾病风险的问题。这一方法的独特之处在于其专注于药物靶点的影响,而不仅仅是生物标志物与疾病的关联。例如,通过药物靶点MR分析,我们可以深入了解特定蛋白质的修饰是否能够减少某种疾病的风险,为精准医学和药物开发提供了更为精确的指导。
接下来,我们来解读一篇有关MR药靶的文章,以深入了解这一生信分析方法。
文献背景
Identification of novel protein biomarkers and drug targets for colorectal cancer by integrating human plasma proteome with genome
通过整合人血浆蛋白质组与基因组来鉴定结直肠癌的新型蛋白质生物标志物和药物靶点
期刊:Genome Medicine
IF:12.3(2023)
文献背景
技术背景
这篇文章主要涵盖了结直肠癌(CRC)的全球流行病学数据、治疗挑战,以及蛋白质组学在鉴定与CRC风险相关的循环蛋白标志物和治疗靶点方面的应用。
结直肠癌概况:结直肠癌是全球第三常见的恶性肿瘤,也是癌症死亡的第二大原因,2020年全球有190万新病例和90万死亡病例。该癌症的早期检测和靶向抗癌治疗仍需要进一步改善。
蛋白质组学的作用:蛋白质在血液循环中出现,可通过细胞分泌提供有关人体健康状态的信息。这些蛋白质不仅是生物标志物的主要来源,而且是可靶向的治疗靶点。之前的研究发现一些循环蛋白与结直肠癌风险相关,但这些研究存在局限性,如候选蛋白有限、观察性设计或样本规模较小。
蛋白质组学研究:大规模蛋白质组学研究鉴定了超过18,000个蛋白质定量性状位点(pQTLs),涵盖4800多种蛋白质。这些研究为通过孟德尔随机化(MR)系统地阐明血浆蛋白对CRC风险的因果效应提供了宝贵的数据资源。MR利用自然随机化的遗传变异作为一种自然实验,揭示暴露与疾病之间的因果关系,最小化逆向因果关系和混淆偏倚的可能性。
研究设计和方法:该研究通过整合人类血浆蛋白质组和基因组数据,采用两阶段的蛋白质组学MR框架,对CRC风险进行了全面的分析。同时,利用Bayesian colocalization、SMR和HEIDI等方法验证了蛋白质标志物与CRC之间的因果关系。此外,通过单细胞表达分析和蛋白质相互作用网络构建,探讨了这些蛋白质在结直肠肿瘤组织中的细胞类型表达和潜在治疗靶点的可行性。
数据来源:采用了来自11个先前发表的结直肠癌GWAS的欧洲血统病例和对照的元分析数据,以及来自FinnGen和UK Biobank的独立数据集。同时,整合了来自七个大规模蛋白质组学研究的pQTL数据,覆盖超过4800种蛋白质。
分析和验证方法:采用MR、Bayesian colocalization、SMR、HEIDI等方法进行蛋白质与CRC风险的验证,同时进行单细胞RNA-seq和蛋白质相互作用网络分析,评估潜在治疗靶点的可行性。
孟德尔随机化(MR)分析药物靶点的流程可以大致总结如下:
零假设检验和偏差校正:M3C引入了Monte Carlo参考过程,允许对零假设K=1进行显式检验,从而更加严格地评估数据中是否存在结构。此外,M3C通过生成参考分布消除了传统一致性聚类方法中的偏向于较高K值的问题,提供了更准确的聚类结果。
对K值选择的形式统计学方法:M3C提供了形式统计学方法,如Monte Carlo p-values和Relative Cluster Stability Index (RCSI),用于估计最优K值。相比于传统的基于启发式或经验判断的K值选择方法,这种形式统计学的方法更有助于客观、数据驱动的K值选择。
应对虚假结构:M3C通过对现有高调分层医学研究的再分析发现,一致性聚类方法在不考虑适当的参考分布情况下可能宣告存在结构,而实际上并不存在。M3C通过零假设检验和参考分布的使用,有助于识别并避免在数据中产生虚假结构的问题。
对多样化结构的适应能力:M3C对不同类型结构的适应性更强,其底层聚类算法采用自调节谱聚类,使其能够处理更广泛范围的数据结构,包括异性簇和方差不等的情况。
研究概述
这项研究致力于利用全面的蛋白质组学方法,通过整合人类血浆蛋白组和基因组数据,系统地鉴定与结直肠癌(CRC)风险相关的循环蛋白标志物。结直肠癌作为全球第三常见的癌症和第二主要癌症死因,对其早期检测和精准治疗的需求迫切。本研究旨在填补先前研究的局限性,通过大规模蛋白质组学研究的方法,更全面地理解这些蛋白质在CRC风险中的因果关系。
通过结合来自11个CRC GWAS的欧洲血统的元分析数据和七个大规模蛋白质组学研究的pQTL数据,研究团队构建了一个全面的研究框架。在这个框架下,研究者利用Mendelian randomization(MR)、Bayesian colocalization、SMR等方法,验证了候选蛋白与CRC之间的因果关系。通过单细胞RNA-seq和蛋白质相互作用网络的分析,深入挖掘了这些蛋白在结直肠肿瘤组织中的细胞类型表达和潜在治疗靶点的信息。
最终,研究发现了与CRC风险相关的多个循环蛋白,并提供了新的洞察力,为未来开发新的筛查标志物和治疗药物提供了有力的支持。这项研究不仅有助于深化对CRC发病机制的理解,还为个性化医学和精准治疗的发展提供了重要的基础。
研究结果
Table1
Table 1是包含了13个在蛋白质组学孟德尔随机化(MR)分析中识别出与结直肠癌(CRC)风险显著相关的循环蛋白的表格。表中包括这些蛋白的名称、与CRC风险相关的效应大小、统计显著性水平等信息。
Figure2
Fig. 2是火山图,这是一种用于可视化高通量数据分析结果的图表类型。在火山图中,X轴表示效应大小,Y轴表示统计显著性水平(-log10转换)。每个点代表一个蛋白,点的位置取决于其效应大小和统计显著性。蓝色为负相关的蛋白,红色为正相关的蛋白。火山图用于展示在发现阶段的蛋白质组学MR分析中,哪些蛋白与CRC风险显著相关。通过观察火山图,可以迅速了解到13个蛋白的显著性和效应方向,帮助他们进一步理解这些蛋白在CRC发病中的作用。
Figure3
Fig. 3是一张元分析估计图,用于展示在实验数据集和重复数据集中,13个蛋白在蛋白质组学孟德尔随机化(MR)分析中的关联结果。图中显示了在发现实验数据集(CRC meta-GWASs)和重复数据集(CRC GWAS摘要数据来自FinnGen和UK Biobank)中,13个蛋白在CRC风险中的关联性估计结果。每个蛋白在图中以一个点的形式表示,点的位置由其效应大小和统计显著性水平决定。此外,图中包括了各蛋白对应的连线,以表示它们在不同数据集中的一致性和方向性。通过观察图表,可以快速了解每个蛋白在不同数据集中的效应方向和显著性水平,以及这些蛋白在元分析中的整体关联结果。这有助于确认在重复数据集验证的蛋白是否在不同数据集中呈现一致的效应,并提供了一个全面的视图,以支持关于这些蛋白与CRC风险关系的结论。
Figure4
Fig. 4是一张展示在结直肠肿瘤组织中,13个循环蛋白对应的基因在单个细胞水平上的表达特异性的图表。Fig. 4A展示了在结直肠肿瘤组织中经过聚类的11个细胞群集,进一步分类为六个细胞类型(上皮细胞、B细胞、单核细胞、组织干细胞、T细胞、内皮细胞)。Fig. 4B-C显示了每个细胞群集中12个蛋白编码基因的单细胞表达情况。Fig. 4D强调了在结直肠肿瘤组织中六个蛋白编码基因的特异性富集情况,这是通过在logFC>0.5和FDR<0.05的水平上进行评估的。
研究总结
这项研究采用了蛋白质组宽关联分析的方法,系统性地研究了4853种血浆蛋白与结直肠癌(CRC)的关联。通过两个阶段的研究设计,研究团队首先在发现阶段识别了13种与CRC风险显著相关的血浆蛋白,包括GREM1和CHRDL2等。这些蛋白中,一些与CRC风险呈正相关,而其他则与风险呈负相关,为了验证这些关联,研究还进行了复制性分析。
通过贝叶斯共定位分析、SMR和HEIDI测试,研究进一步验证了其中6种蛋白与CRC之间的因果关系。在所有鉴定的蛋白中,有4种(GREM1、CLSTN3、CSF2RA、CD86)被确认为最具有说服力的证据,这表明它们可能是与CRC风险紧密相关的生物标志物。此外,还发现了一些新的与CRC相关的蛋白,如CLSTN3等,这为CRC的发病机制提供了新的线索。
通过单细胞表达分析,研究团队确定了这些蛋白在结肠肿瘤组织中的特定细胞类型富集,为深入了解这些蛋白在CRC中的生物学作用提供了线索。此外,通过蛋白-蛋白相互作用网络分析,研究展示了这些潜在蛋白靶点之间的相互作用关系,突显了GREM1和CHRDL2、MMP2和TIMP2等之间的潜在通路。
最后,研究对这些潜在蛋白标志物进行了可药性评估,发现其中一些蛋白已成为药物开发的靶点,包括CSF2RA、CD86等。这意味着这些蛋白不仅可能成为CRC的潜在治疗靶点,还可能为已有药物的再利用提供可能性。
总体而言,这项研究深入探讨了血浆蛋白与结直肠癌的关系,为CRC的生物学理解和治疗开发提供了重要的启示。然而,研究也存在一些限制,例如局限于欧洲人群、未考虑其他组织的蛋白水平等,因此需要更多的实验和临床研究来验证和进一步解释这些发现。
以上是孟德尔随机化分析药物靶点的全部内容啦~
如果换一种热门疾病,取一些组织样本,进行蛋白质组、单细胞RNA测序,再叠加孟德尔随机化进行生信分析,相信你也能直登高分SCI山顶位!
感兴趣的宝贝们快来投奔挑圈联靠的站姐——雪球老师吧!,跟着大部队走,这是生信发高分的最快途径了~
下方二维码扫了之后你将有机会收看最新的直播,主题为:“拆解生信最佳实践,手把手教你发表2024年第一篇SCI”。还有其他相关学术领域最新动态哦~
另外,现在添加雪球老师微信,回复W-14还可以领取雪球老师精心整理的T细胞耗竭干货~