肿瘤突变数据分析神器:maftools
一、简介
随着肿瘤基因组学的发展,现如今,我们已经能够轻松的在公共数据库获得大量的癌症数据,类似突变数据、表达数据、甲基化数据,及其对应病人的临床数据。但是拿到这些数据后之后,如何合理地运用它们,挖掘这些数据背后潜在的规律,则是一个难题。今天,我要介绍的就是一款对肿瘤突变数据进行可视化分析的R包:maftools。用户只需要提供maf格式的突变注释文件,就可以通过这个R包绘制数量众多且种类多样的图像了。
二、安装
maftools是依附于bioconducter的包,没错,在安装这个包之前,你必须要先安装biocManager,安装命令如下:
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("maftools")
(向左查看更多)
注:此包仅支持3.3以上的R版本
如果大家是从公共数据库上下载的maf格式的突变数据,这一步就可以跳过了,但如果手中只有vcf格式数据,就要用到另一个软件——vcf2maf,通过它来帮助我们将vcf文件转换成maf格式,并且它还能够帮助我们进行vep注释,vcf2maf的使用方法在这里便不作赘述,详情可见链接。(vcf2maf下载地址及使用方法:https://github.com/mskcc/vcf2maf )maf格式的文件中,必须要包含如下几个信息: Hugo_Symbol, Chromosome, Start_Position, End_Position, Reference_Allele, Tumor_Seq_Allele2, Variant_Classification, Variant_Type and Tumor_Sample_Barcode。所以在大家制作maf文件的时候,一定要注意自己的信息是否完备,然后maftools的官方还推荐了另外两个字段信息,分别是:VAF (Variant Allele Frequecy) 和amino acid change information。
1. 读取文件(此处示例为TCGA的maf数据,推荐添加对应样本临床数据)
Maf_data <- read.maf("TCGA.somatic.maf",clinicalData = "clinical.tsv",isTCGA = TRUE)
(向左查看更多)
2. 统计不同突变类型的个数
#样本
getSampleSummary(Maf_data)
#基因
getGeneSummary(Maf_data)
#以basename为前缀,输出summry和maf文件
write.mafSummary(maf = Maf_data, basename = 'basename')
(向左查看更多)
3. 突变信息统计可视化
我们可以用plotmafSummary函数来绘制一些描述突变信息的常规图像,代码如下:
plotmafSummary(maf = LIHC_maft_MAF, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE)
(向左查看更多)示例图展示:
上述六个图从左至右,由上及下分别是九种变异类型的频数分布柱状图、三种变异种类(SNP、INS、DEL)的频数分布柱状图、六种碱基变异类型的频率分布柱状图、每个样本中不同变异类型的堆积柱状图(对应图1九种类型)、每个样本中不同变异类型的频数分布箱型图(对应图1九种类型)、突变频率最高的10个基因的不同变异类型分布的堆积柱状图。
4. 瀑布图如果想观察每个样品中每个基因不同变异类型的分布,瀑布图是一个很不错的选择,代码如下:oncoplot(Maf_data,top=10)
注:每一列代表一个样本,每一行代表一个基因
5. 棒棒糖图这个图主要是为了观察在基因层面,不同变异类型对蛋白质的影响。绘制这个图需要我们在maf文件中提供氨基酸变化的信息,也就是之前提到的官方推荐添加的信息字段,maftools的默认列名为AAChange,如果不一样,我们需要指定我们存放氨基酸变化信息的列名(AACol),代码如下:lollipopPlot(maf = LIHC_maft_MAF, gene = 'TP53',AACol='Protein_Change',showMutationRate = TRUE)
rainfallPlot(maf = LIHC_maft_MAF, detectChangePoints = TRUE, pointSize = 0.4,tsb = "TCGA-UB-A7MB")
tcgaCompare(maf = Maf_data, cohortName = 'Example', logscale = TRUE, capture_size = 50)
plotVAF这个函数可用于绘制变异等位基因频率的箱线图,该图需要提供相应的VAF信息,同棒棒糖图,代码如下:
plotVaf(maf = LIHC_maft_MAF,vafCol = "vaf")
关于maftools的用法还有许许多多,其中包括但不仅限于对Gistic结果文件的分析、检测驱动基因等等,更多的使用方法大家可以去查看官方文档,而且R包里面也有更多更详尽的参数介绍,希望我的这篇介绍能够为大家的肿瘤分析尽微薄之力。
排版:市场部
百迈客生物基于高通量测序技术、生物信息分析技术和生物云计算技术,为广大科研工作者提供以综合技术服务、生物云分析、三代高通量测序以及试剂、仪器等科研周边业务。
公司拥有Nanopore、Pacbio、Illumina、Waters、10X genomics等主流服务平台,以及基于云架构的生物云计算平台—百迈客云,提供涵盖人重外显子、三维基因组、单细胞与空间转录组、基因组组装、转录调控、微生物、群体遗传、质谱及表观遗传等研究方向的技术服务。目前百迈客云平台拥有200多款基因分析工具,分析结果可直接用于文章发表,更有近百部科研相关视频和8大基因数据库助力科研工作者深度数据挖掘。自公司成立起先后在《Cell》、《Nature》、《Nature Genetics》、《Nature Communications》、《Plant Cell》等学术刊物发表论文数千篇,拥有国家发明专利技术40余项,软件著作权近200余项。我们一直秉承”生物科技创新,服务社会,造福人民”的企业使命,致力于打造“生物科技创新中心”的发展愿景,让生物科技更快,更好的提高人类生活质量。