查看原文
其他

TCGA的28篇教程-所以癌症的突变全景图

生信技能树 生信技能树 2022-06-06

长期更新列表:

使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程-  批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
TCGA的28篇教程-数据挖掘三板斧之ceRNA

通过前面的讲解我们都学会了如何下载TCGA数据库的各种数据,而且有心人都发现了下载途径多种多样,下载数据只是分析的起点,现在我们就讲解其中一个小应用哦。

数据来源于生信技能树前面讲解的TCGA的XENA

网盘链接: https://share.weiyun.com/56URQ3a

MAF格式的突变数据的全景图

有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:

require(maftools) 

options(stringsAsFactors = F) 

laml = read.maf(maf = 'GDC/TCGA.BRCA.mutect.c6a029e5-0ea3-410d-9e67-360bdfee2914.DR-7.0.somatic.maf.gz',

                clinicalData = 'TCGA_BRCA_filter_phe.tsv')

oncoplot(maf = laml, top = 30, fontSize = 12,

         clinicalFeatures =c('ER','PR','HER2'),

         sortByAnnotation = T)

就可以出图如下:

是不是觉得很神奇,简单几行代码就出了这么复杂的图!!!

代码里面的 somatic.maf.gz 文件直接下载即可。

但是TCGA_BRCA_filter_phe.tsv 这个文件需要自己根据TCGA里面对样本的描述的表型信息进行整理。

整理如下格式:

普通的人,用excel表格整理就好了。

会R的可以尝试R代码哦!

如果你不会整理,可以查看我们前面的教程:TCGA的28篇教程-整理GDC下载的xml格式的临床资料

自己的肿瘤外显子数据分析流程

当然,如果你是自己的测序数据,想得到跟TCGA的一样的突变数据,也可以根据下面的教程慢慢分析。

生信技能树GATK4系列教程

GATK4的gvcf流程

你以为的可能不是你以为的

新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧

曾老湿最新私已:GATK4实战教程

GATK4的CNV流程-hg38

然后是 CNV相关工具

WES的CNV探究-conifer软件使用

单个样本NGS数据如何做拷贝数变异分析呢

肿瘤配对样本用varscan 做cnv分析

使用cnvkit来对大批量wes样本找cnv

使用sequenza软件判定肿瘤纯度

还有vcf和maf的工具:

安装VEP及其注释数据库

肿瘤突变数据可视化神器-maftools


值得一提的是,教程虽然放在这里了,事实上你真正拿到数据实践的时候会遇到各种问题的,这就是目前主流的生信工程师的意义所在。

而且,maftools本身一个集成了很多肿瘤外显子下游分析的工具包,不仅仅是画全景图,希望你喜欢。

突变更重要的是分组


这么简单粗暴的查看某个癌症全部样本的突变全景图已经意义不大,毕竟本来就是公开的数据了,我们要想利用这些信息,必须结合自己的实际生物学问题。

比如你们可以看我GitHub里面的这3个代码,就是利用突变信息的一个非常棒的例子:

https://github.com/jmzeng1314/tcga_example

独家福利



如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存