今天我就驾着七彩祥云来拯救你的全外显子(WES)数据!
全外显子组测序是当前的热点技术,利用序列捕获或者靶向技术将基因组外显子区域富集后进行测序,通过标准分析流程能够识别单核苷酸变异(SNVs)、小插入缺失(InDels),结合大量的公共数据库提供的参考信息,能够更好地解释所得变异与复杂遗传疾病的关系。但是外显子数据产出包含的信息量较大,因不了解分析方法而不能有效使用外显子数据,极大的降低了数据外显子测序数据利用率。因此,这里总结了基于外显子测序数据进行分析的方法,方便老师进一步利用数据进行课题研究:
"1 突变位点注释及筛选指南
当拿到接触外显子测序的遗传学家在拿到外显子测序的结果时,最重要的信息就是基因的突变情况,因此数据分析的最主要工作就是利用各种数据库对突变位点进行注释。目前,我们已经对这些数据库进行了更新,针对遗传病研究的老师,特意涵盖了主流的数据库如ClinVar、DisGeNET、PheGenI,保证注释信息来源的全面性、准确性和时效性。
但面对如此繁杂的信息无从下手是一件十分令人头疼的事情。根据ACMG和ClinVar等组织官方发布的指南,联川生物整理了遗传病外显子测序结果筛选数据思路。根据客户的反馈,使用这份筛选建议,自己可以快速从大量的候选的致病突变信息中,快速找到与研究相关的关键基因。如果感兴趣的老师,转发至自己的朋友圈,获取58个赞记得私信后台领取。
2 突变基因全景图
突变注释格式(MAF)被广泛接受并用于存储检测到的体细胞变异,以MAF格式形式存储。maftools软件包就会尝试从数据中有效地汇总,分析,注释和可视化MAF文件.
棒棒糖图是显示蛋白质结构上的突变点。许多致癌基因具有比任何其他基因座更频繁突变的优先位点。这些斑点被认为是突变热点,棒棒糖图可以用于显示它们以及其他突变。
联川生物已经上线该模块云工具,欢迎尝鲜!https://www.omicstudio.cn/tool/71,https://www.omicstudio.cn/tool/72,让您动动鼠标就能实现绘制CNS级别的美图。
3 外显子测序家系分析
通过数据库注释和过滤将得到一些可能的致病突变。如果知道样本家系属于何种致病模式,可以基于遗传病的致病模式对突变信息进一步进行数据筛选。遗传病的模式包括常染色体显性遗传,常染色体隐性遗传,伴X染色体显性遗传,伴X染色体隐性遗传、伴Y染色体遗传和新生突变。
常染色体遗传病(白化病)遗传系谱图
常染色体隐性遗传病家系中,患者致病基因往往存在纯合突变,而患者的双亲往往是突变基因的杂合子,这时应当在搜寻在患者中呈纯合状态而在双亲中呈杂合状态的变异。
如果患病双亲是突变携带者但表型正常,往往患者同一致病基因的不同位点存在致病突变,可以对同胞患者及其正常双亲进行测序,分析时寻找子代复合杂合变异与双亲杂合变异共有的部分,从而发现致病位点。但常染色体显性遗传病家系中,常染色体显性遗传病,致病基因的变异在杂合状态下即可发病。常染色体杂合的变异往往很多,不容易获得变异信息。
新生突变模式是新发生的突变,筛选父母中均不存在的突变,但在新生儿中存在的突变,着重对此突变进行相关的研究。
4 肿瘤驱动基因和显著突变基因
目前各种肿瘤研究项目产生了大量的体细胞突变数据,如何识别其中的驱动基因突变和显著突变基因(Significantly mutated genes, SMGs)仍然一个很大的挑战。驱动突变基因通常肿瘤突变分为两种类型:一种促进肿瘤的增殖,使肿瘤获得选择性的生长优势,称为驱动突变(driver mutation)。另外一种对肿瘤增殖扩散影响很小或者没有影响的突变,称为乘客突变(passenger mutation)。显著突变基因(SMG),是指突变频率显著高于背景突变频率(BMR,background mutation rate)的基因,一般会综合考虑体细胞 SNV 和 INDEL 等变异。FeiXiongCheng(2016年)等将肿瘤驱动基因和SMGs的算法和工具分为了以下五类:
五类癌症驱动突变和显著突变基因(驱动基因)的计算方法和工具
(1)基于大多基因突变频率的算法(Mutation frequency based),典型工具包括MutSigCV,OncodriveCLUST。其中,MutSigCV是利用患者特异性突变频率和频谱,以及由基因表达和复制时间信息导出的基因特异性背景突变模型来校正变异。即通过建立在肿瘤形成过程中起作用的背景突变过程模型,分析每个基因的突变,以确定在给定背景模型的情况下比预期突变频率更高的基因。而则是OncodriveCLUST使用沉默突变作为背景突变模型,识别对特定蛋白质区域的突变聚类具有显著偏见的基因。
(2)基于基因功能的算法(Functional impact based),主要对基因及其蛋白质功能影响基因评估,包括SIFT、PolyPhen-2、OncodriveFM和FATHMM等工具.
(3)基于结构的分析(Structural genomics based),大多基于SNV,例如MESA,突变富集分析(mutation set enrichment analysis)使用了两种模型——MSEA-domain 和MSEA-clust。MSEA-domain是基于蛋白编码区的热点突变谱,MSEA-clust则是去基因组上找潜在的突变热点区域。
(4)基于网络和通路分析(Network or pathway based),基于网络和通路分析的算法可以很好的对肿瘤中突变产生的突变效应有一个很好的评估。
(5)基于数据整合的分析方法(Data integration based),整合体细胞突变、结构变异、基因表达、甲基化谱来构建网络分析方法是一个重要的研究方向。
5 突变频谱和突变特征分析
肿瘤突变频谱针对点突变进行定义,A,T,C,G四种碱基两两突变,共有4X3=12种排列,所以某个位点的突变可以划分为以下6种模式C>A(表示C>A和G>T)、
C>G(表示C>G和G>C)、C>T,(表示C>T和G>A)、T>A(表示T>A和A>T)、T>C(表示T>C和A>G)以及T>G(表示T>G和A>C)。另外,通过计算图片频谱间的cosine similarity相似度,用热图展现
癌症基因组中体细胞突变的突变过程都可能涉及DNA损伤或修饰,DNA修复和DNA复制(可能是正常的或异常的),并产生特征性的突变特征(mutational signature),可能包括碱基取代,小的插入和缺失,基因组重排和染色体拷贝数改变。
突变特征(mutational signature)一种方法是采用非负矩阵分解(NMF)等方法来从头识别突变特征。另一种方法是依赖于先前研究报道的突变特征集合,这样我们便可选择回归来求解突变过程相应的贡献情况。最常用的求解方式是非负最小二乘算法,可以实现对单样本突变特征的刻画。
一个典型的突变特征分析文章是2020年发表在Nature(IF:43.07)杂志上的一篇文章:The repertoire of mutational signatures in human cancer.内外因素一直驱动着肿瘤基因组发生体细胞突变,在这一过程中形成了具有特征性的突变标签集。作者联合ICGC和TCGA数据库进行了泛癌全基因分析(PCAWG),使用了涵盖大多数癌症类型的4,645个全基因组和19,184个外显子序列。作者的研究鉴定了49个SBSs(单碱基取代),11个DBSs(双碱基取代),4个CBS(多碱基取代)和17个indels(小插入和删除)特征标签。研究者也因此发现了新的特征。分离重叠的特征以及将特征分解可能和独特的DNA损伤,修复和复制机制的特征相关。
6 局部显著性拷贝数变异
拷贝数变异在肿瘤中非常常见,且它在致癌基因激活和抑癌基因失活上起着重要作用。用于检测一组样品中显着扩增或缺失的基因组区域。这个是癌症基因组CNV分析中十分常见也十分必要的内容。用于分析局部拷贝数变异显著性的软件,常用的就 GISTIC 软件,它是基于一组样品数据(WGS或者WES)来分析局部显著拷贝数情况,即可以寻找显著性缺失和扩增的基因和区域。
7 基因突变的共出现和互斥分析
肿瘤已存在的基因突变会影响其他基因的突变,突变分析时确定这些基因突变潜在的相互作用,能更好地了解健康细胞转化为癌细胞的过程和机制。探索一组基因是否在癌症中存在互斥性和共现性,用于研究癌症发生发展的潜在机制。互斥性(mutually exclusive):一组基因中只有一个在一种肿瘤中发生改变,这种现象被称为互斥性。共现性(co-occurrence):不同途径功能的基因突变可能发生在同一癌症中,这种现象被称为共现性。
如图oncogene1和oncogene2两个驱动基因同时表达, 过度激活ERK通路,其靶蛋白的过量表达,诱导细胞的衰老和死亡,从而抑制肿瘤发展进程。
8 肿瘤纯度和倍性评估
肿瘤纯度(tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。因为取样过程很难保证取到的所有细胞都是肿瘤细胞,往往是一个混合样品,因此需要进行肿瘤纯度 purity 的评估。肿瘤异质性较高,不一定是二倍体,如果直接分析拷贝数变异,得到的结果与实际情况会有较大的偏差,因此有必要对肿瘤进行倍性评估。
ABSOLUTE是最常用的评估肿瘤纯度的方法,它是基于拷贝数变异数据来评估纯度和倍性(也可结合突变数据),它还能使用大量不同的样本集合来帮助解决模糊情况,还可对样本中的亚克隆拷贝数改变和点突变做出解释展示combined的多个评估的结果(分布是按照combined的打分进行排序,靠前的推断的纯度较可靠)。
9 肿瘤异质性和克隆进化
肿瘤异质性是指肿瘤在生长过程中,经过多次分裂增殖,其子细胞呈现出分子生物学或基因方面的改变,从而使肿瘤的生长速度、侵袭能力、对药物的敏感性、预后等各方面产生差异。
一般认为,癌症是通过单个体细胞发生突变经过累积进化而来,该细胞的后代共享基因型,形成最初的癌症克隆群体。在后代中,克隆群体发生性的突变等可能会在单个肿瘤内产生新的亚群。肿瘤细胞会不断的增殖,过程中也会积累非驱动突变和其他突变。每当产生一个/若干个新的driver突变,肿瘤克隆就会逐渐演变成一个新的克隆/亚克隆,下图中不同颜色的肿瘤细胞就代表不同的克隆/亚克隆。可用于从单个患者获得的多个样本来推断肿瘤异质性,适用场景是统一肿瘤组织不同位置、不同时间的多份样本。
完
[1] Mayakonda A, Lin D-C, Assenov Y, et al. Maftools: efficient and comprehensive analysis of somatic variants in cancer [J]. Genome research, 2018, 28(11): 1747-56.
[2] Cheng F, Zhao J, Zhao Z. Advances in computational approaches for prioritizing driver mutations and significantly mutated genes in cancer genomes [J]. Briefings in bioinformatics, 2016, 17(4): 642-56.
[3] Lawrence M S, Stojanov P, Polak P, et al. Mutational heterogeneity in cancer and the search for new cancer-associated genes [J]. Nature, 2013, 499(7457): 214-8.
[4] Manders F, Brandsma A M, de Kanter J, et al. MutationalPatterns: the one stop shop for the analysis of mutational processes [J]. BMC genomics, 2022, 23(1): 1-18.
[5] Alexandrov L B, Nik-Zainal S, Wedge D C, et al. Signatures of mutational processes in human cancer [J]. Nature, 2013, 500(7463): 415-21.
[6] Mermel C H, Schumacher S E, Hill B, et al. GISTIC2. 0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers [J]. Genome biology, 2011, 12(4): 1-14.
[7] Carter S L, Cibulskis K, Helman E, et al. Absolute quantification of somatic DNA alterations in human cancer [J]. Nature biotechnology, 2012, 30(5): 413-21.
[8] Jiang Y, Qiu Y, Minn A J, et al. Assessing intratumor heterogeneity and tracking longitudinal and spatial clonal evolutionary history by next-generation sequencing [J]. Proceedings of the National Academy of Sciences, 2016, 113(37): E5528-E37.
NAT COMMUN:全外显子组测序发现斑秃存在KRT82基因的罕见变异|医学DNA专题
所见即所得,绘图高规格联川云平台,让科研更自由