嫌弃cosmic数据库的30个肿瘤突变signatures?
肿瘤基因测序后,通常会得到一定数量的基因突变位点信息,somatic突变在全基因组上发生的比例约百万分之一,如果是全基因组肿瘤基因测序, 可能会有3万个左右的somatic突变,如果是全外显子测序,是300个左右,如果是捕获基因测序,那么取决于基因是否是热点突变。
而且通常我们是大队列研究,几百个病人的几百个甚至上万个突变位点, 研究起来压力会很大,通常大家会看一下突变全景图,如下:
展现出在病人队列(上图是TCGA的食管癌队列)里面,突变人数较多的基因,如TP53等等。
还有另外一个很常规的分析点是:突变特征-肿瘤基因组上的指纹信息,首先需要理解突变上下文分类:
肿瘤突变频谱针对点突变进行定义,A,T,C,G四种碱基两两突变,共有4X3=12种排列,考虑到正负链碱基配对原则,正链上的A->C突变,对应负链上为T->G, 所以进一步转换成了一个组合的问题,所以某个位点的突变可以划分为以下6种模式:
1.C>A, 表示C>A和G>T两种
2.C>G, 表示C>G和G>C两种
3.C>T, 表示C>T和G>A两种
4.T>A,表示T>A和A>T两种
5.T>C,表示T>C和A>G两种
6.T>G,表示T>G和A>C两种
进一步考虑突变位点所处的序列上下文环境,即上下游各取一个碱基再加上突变位点的碱基,组成了3个碱基的motif, 可以有4X4X6=96种模式,每种模式的频率分布就是突变频谱。突变频谱可以当做一个肿瘤样本的特征,进行样本间的比较。
如下图;https://en.wikipedia.org/wiki/Mutational_signatures
这个概念由sanger研究所科学家提出来的:https://software.broadinstitute.org/cancer/cga/msp ,这96突变频谱的非负矩阵分解后的30个特征,也是由sanger那边的人整理,在cosmic数据库可以学习它。
不同的特征有不同的生物学含义,https://en.wikipedia.org/wiki/Mutational_signatures
比如文章 https://www.nature.com/articles/s41586-019-1056-z 里面,就是使用了 这些signature区分生存!
非负矩阵分解这个算法得到signature具体需要看文献;
https://cancer.sanger.ac.uk/cosmic/signatures
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6001047/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5753213/
对我们而言,主要是R包deconstructSigs用法:
Decomposition of mutational signatures was performed using deconstructSigs based on the set of 30 mutational signatures (‘signature.cosmic’) for samples with at least 20 somatic mutations. To increase robustness, the mutations for each sample were bootstrapped 100 times and the mean weights across these 100 iterations were used.
分解后,cosmic数据库里面的每个signature的比例如下:
但是很多时候,大家会觉得cosmic数据库30个signature的生物学意义并不好,会尝试自己分解出来自己的signature。比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这个文献里面的:
每个signature都要各自的96碱基突变比例分布,如下所示:
可以和https://cancer.sanger.ac.uk/signatures_v2/Signature_patterns.png的30个signature的96碱基排列组合比例进行对比。
如果你想知道这个分析如何实现,关注:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 ,加入一起学习吧!
文末友情宣传
生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期)你的生物信息学入门课 (必看!)数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课 生信技能树的2019年终总结 ,你的生物信息学成长宝藏 2020学习主旋律,B站74小时免费教学视频为你领路,还等什么,看啊!!!