查看原文
其他

肿瘤突变数据分析神器:maftools

何物 百迈客医学 2023-03-27

2021迎来了百迈客ONT平台全面更新升级,只为更准,更快,更实惠!同时迎来了新年第一波促销活动,三重钜惠好礼等您来拿,百迈客为您倾情打造的科研福利,让您搭上2021国自然的快车,那么您还在等什么?快快行动起来领取您的超级大礼吧!(详情请见“无缝衔接2021,百迈客好礼只为您来!”)

一、简介


随着肿瘤基因组学的发展,现如今,我们已经能够轻松的在公共数据库获得大量的癌症数据,类似突变数据、表达数据、甲基化数据,及其对应病人的临床数据。但是拿到这些数据后之后,如何合理地运用它们,挖掘这些数据背后潜在的规律,则是一个难题。今天,我要介绍的就是一款对肿瘤突变数据进行可视化分析的R包:maftools。用户只需要提供maf格式的突变注释文件,就可以通过这个R包绘制数量众多且种类多样的图像了。


二、安装


maftools是依附于bioconducter的包,没错,在安装这个包之前,你必须要先安装biocManager,安装命令如下:

if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("maftools")

  (向左查看更多)
注:此包仅支持3.3以上的R版本


三、准备输入文件
如果大家是从公共数据库上下载的maf格式的突变数据,这一步就可以跳过了,但如果手中只有vcf格式数据,就要用到另一个软件——vcf2maf,通过它来帮助我们将vcf文件转换成maf格式,并且它还能够帮助我们进行vep注释,vcf2maf的使用方法在这里便不作赘述,详情可见链接。(vcf2maf下载地址及使用方法:https://github.com/mskcc/vcf2maf )maf格式的文件中,必须要包含如下几个信息: Hugo_Symbol, Chromosome, Start_Position, End_Position, Reference_Allele, Tumor_Seq_Allele2, Variant_Classification, Variant_Type and Tumor_Sample_Barcode。所以在大家制作maf文件的时候,一定要注意自己的信息是否完备,然后maftools的官方还推荐了另外两个字段信息,分别是:VAF (Variant Allele Frequecy) 和amino acid change information。


四、使用方法及可视化展示

1. 读取文件(此处示例为TCGA的maf数据,推荐添加对应样本临床数据)

Maf_data <- read.maf("TCGA.somatic.maf",clinicalData = "clinical.tsv",isTCGA = TRUE)

(向左查看更多)

2. 统计不同突变类型的个数

#样本 
getSampleSummary(Maf_data)

#基因
getGeneSummary(Maf_data)

#以basename为前缀,输出summry和maf文件
write.mafSummary(maf = Maf_data, basename = 'basename')

(向左查看更多)

3. 突变信息统计可视化

我们可以用plotmafSummary函数来绘制一些描述突变信息的常规图像,代码如下:

plotmafSummary(maf = LIHC_maft_MAF, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE)
(向左查看更多)
示例图展示:

上述六个图从左至右,由上及下分别是九种变异类型的频数分布柱状图、三种变异种类(SNP、INS、DEL)的频数分布柱状图、六种碱基变异类型的频率分布柱状图、每个样本中不同变异类型的堆积柱状图(对应图1九种类型)、每个样本中不同变异类型的频数分布箱型图(对应图1九种类型)、突变频率最高的10个基因的不同变异类型分布的堆积柱状图。

 4. 瀑布图如果想观察每个样品中每个基因不同变异类型的分布,瀑布图是一个很不错的选择,代码如下:
oncoplot(Maf_data,top=10)

 注:每一列代表一个样本,每一行代表一个基因

 5. 棒棒糖图这个图主要是为了观察在基因层面,不同变异类型对蛋白质的影响。绘制这个图需要我们在maf文件中提供氨基酸变化的信息,也就是之前提到的官方推荐添加的信息字段,maftools的默认列名为AAChange,如果不一样,我们需要指定我们存放氨基酸变化信息的列名(AACol),代码如下:
lollipopPlot(maf = LIHC_maft_MAF, gene = 'TP53',AACol='Protein_Change',showMutationRate = TRUE)
 (向左查看更多)默认情况下,该函数会使用该基因的最长异构体,“棒棒糖”的高度表示该位点上变异的频数 6. 降雨图在癌症基因组中,尤其是实体瘤,是具有局部高频突变的位点的。而一般情况下我们可以在线性基因组层面上展示不同位点的变异距离来可视化这些局部高频突变的位点,这种图通常被称作降雨图。而maftools就为我们提供了rainfallPlot这个函数来帮助我们实现降雨图的绘制,代码如下:
rainfallPlot(maf = LIHC_maft_MAF, detectChangePoints = TRUE, pointSize = 0.4,tsb = "TCGA-UB-A7MB")
 (向左查看更多)
纵坐标表示变异距离,函数中,可用tsb参数来指定需要展示的样本,如果未指定该参数,则默认选用突变最多的样本。 7. 比较TCGA中的突变负荷maftools中的tcgacompare函数利用TCGA中33种癌症的突变负荷与我们分析数据的突变负荷进行比较,寻找最接近的癌症类型,代码如下:
tcgaCompare(maf = Maf_data, cohortName = 'Example', logscale = TRUE, capture_size = 50)
  (向左查看更多) 8. VAF可视化

plotVAF这个函数可用于绘制变异等位基因频率的箱线图,该图需要提供相应的VAF信息,同棒棒糖图,代码如下:

plotVaf(maf = LIHC_maft_MAF,vafCol = "vaf")
 

关于maftools的用法还有许许多多,其中包括但不仅限于对Gistic结果文件的分析、检测驱动基因等等,更多的使用方法大家可以去查看官方文档,而且R包里面也有更多更详尽的参数介绍,希望我的这篇介绍能够为大家的肿瘤分析尽微薄之力。

 

参考文档:
http://bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html
参考文献:
Mayakonda A, Lin DC, Assenov Y, Plass C, Koeffler HP. 2018. Maftools: efficient and comprehensive analysis of somatic variants in cancer.
 文:何物
排版:市场部
精彩回顾:
【实用贴】快速上手批量可视化助您完美作图
【实用贴】原始数据上传SRA新版流程
【实用帖】手把手教你如何上传GEO数据库
一键解密MD5值-您的数据完整吗?
柱形图看腻了?不如试试这个
【实用贴】小而强悍的截图神器——snipaste


百迈客生物基于高通量测序技术、生物信息分析技术和生物云计算技术,为广大科研工作者提供以综合技术服务、生物云分析、三代高通量测序以及试剂、仪器等科研周边业务。

公司拥有Nanopore、Pacbio、Illumina、Waters、10X genomics等主流服务平台,以及基于云架构的生物云计算平台—百迈客云,提供涵盖人重外显子、三维基因组、单细胞与空间转录组、基因组组装、转录调控、微生物、群体遗传、质谱及表观遗传等研究方向的技术服务。目前百迈客云平台拥有200多款基因分析工具,分析结果可直接用于文章发表,更有近百部科研相关视频和8大基因数据库助力科研工作者深度数据挖掘。自公司成立起先后在《Cell》、《Nature》、《Nature Genetics》、《Nature Communications》、《Plant Cell》等学术刊物发表论文数千篇,拥有国家发明专利技术40余项,软件著作权近200余项。我们一直秉承”生物科技创新,服务社会,造福人民”的企业使命,致力于打造“生物科技创新中心”的发展愿景,让生物科技更快,更好的提高人类生活质量。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存