查看原文
其他

【干货】SNP注释神器VEP如何C位出道?你的全外/人重选对软件了吗?

shenlize 联川生物 2022-05-21

 

做人的全基因组重测序或者全外显子测序,除了比对软件之外,注释软件也十分重要,我们熟知的有包括SnpEff和Annovar(哥伦比亚大学华人学者王凯教授开发)在内的常用SNP和Indel注释软件。

尽管上面提到的这两款常用的突变注释软件已经有许多高分论文的加持,但是VEP这款软件的出身依然是“根正苗红”!

VEP的出道便是巅峰


VEP全称是The Ensembl Variant Effect Predictor。对的你没有看错,来自大名鼎鼎的欧洲生物信息学中心,血统绝对纯正,所谓出道便是巅峰。

Ensembl(http://www.ensembl.org/)隶属于欧洲分子生物学实验室,全称European Molecular Biology Laboratory's European Bioinformatics Institute(https://www.ebi.ac.uk/),于1999年正式启动。NCBI生信数据库虽然能做到大而全,但是信息比较杂。相比之下Ensembl中数据格式较为规范,使用起来较为方便快捷,无论是命名还是信息整理都比较统一。

VEP被研究人员的喜爱程度究竟有几何?



(横坐标影响因子)

所以这款有着“皇家血统”的软件一开始便是含着金钥匙出身,即便VEP软件正式公布的时间是2016年,截止到2019年2月,引用次数已经超过了350次(影响因子低于2分的杂志我们没有统计)。其中影响因子超过10分的文章数87篇占比接近四分之一。被F1000 Prime推荐的文章数有24篇。

如果再来仔细研究下我们还会发现超过10分的文章中,Science、Cell、Nature Medicine、Nature Genetics、The American Journal of Human Genetics(2019年可能已经低于10分)、Nucleic Acids Research等经典的综合性杂志和遗传学杂志中的论文作者非常偏爱该软件。

那么接下来我们就来看看,VEP这款软件究竟有何过人之处。

当下重测序和外显子测序研究的困境


我们知道,无论是人动物还是植物,要对感兴趣的性状在染色体上的区域进行定位,全基因组关联分析(Genome-wide association study, GWAS)分析必不可少。早期在高通量测序普及之前,科学家大部分使用的还是SNP芯片。但是SNP芯片存在通量低覆盖度不全等问题。SNP标记少除了会导致在染色体上定位的区间过大,还无法发现许多新生突变位点。

当人全基因组测序的价格降到了1000美元以下后,产生了海量人重测序数据。对科学家来说,测序完成并不是终点,如何正确注释这些数据解释这些数据成为了一项新的难题。

所以测序成本的降低带来是分析成本的上升。例如,一个典型的二倍体人类基因组有大约350万个SNV和1000个CNV。其中有20000-25000个突变是落在蛋白编码区(protein coding region),在这2万多个突变当中有接近一半的突变改变了氨基酸。但是!!!只有50-100个才会导致protein truncating或蛋白功能丧失(loss of function variants)!

使用人工检查筛选突变的成本十分昂贵,还会产生新的问题,例如缺乏功能注释或在单倍型中存在多个突变。

我们知道对检测到的突变进行解释和注释,需要考虑到是否会改变mRNA或蛋白的影响,这就严重依赖于数据库的注释和参考基因组上的信息。

目前人的参考基因组注释主要来源于两个数据库:Gencode(发表于2013年的Genome Research)和Refseq(发表于2014年的NAR)。这两种注释都会受到版本更迭的影响,继而可能会影响乃至改变突变原有的解释。为了保证数据的重复性,必须严格跟踪基因的各个转录本数据库版本。

转录本集(Transcript sets)产生的方式在两种数据库中存在一定的差异:Gencode注释是基于基因组的,而Refseq转录本信息是独立于参考基因组的。尽管Refseq转录本能够根据参考基因组上的信息进行一定程度的纠正,并提供修改后的正确信息(如GRCH37版本参考基因组中的ABO、ACTN3和ALMS1),但是基因组本身和转录本上的注释信息本身存在巨大差异容易让科研人员对同一个基因在cDNA和基因组上的注释产生混淆(例如NM_000059.3: c.7397C>T, NC_000013.11:g.32355250T= 实际上表达的是同一个意思)。

Gencode数据库中,每个基因平均能产生4个不同的转录本(isoform),最夸张的GPR56(G蛋白偶联受体56)能够产生61个不同的转录本。所以随着数据的不断积累,这个数字还会不断增加,如何获得一致的突变注释信息将会是生物信息学家面临的一项巨大挑战。又例如rs150580082可以mapping到多个alternative haplotype representations (“ALTs”)上,但是只在其中一些ALTs中引入了一个终止密码子(stop codon)。在这种情况下仅考虑primary assembly mapping是不够的。

...

突变注释使用Human Genome Variation Socity(HGVS)命名也是基于转录本或蛋白。因此在使用HGVS的术语,可能也会产生混淆和歧义。若一个基因多有个转录本,可能就会存在多种可能的突变注释信息。如rs121908462是ADGRG1基因的一种致病性突变,位于16号染色体上。但是在Ensembl数据库中居然有126种HGVS描述,因为它与ADGRG1基因的75个转录本都有重叠,甚至在dbSNP数据库中都有103种不同的描述。

每个基因由于可变剪切产生更多的转录本继而导致更多的注释,对于后期分析来说增加了不稳定性和复杂性。

当然对于Ensembl的生物信息学家来说,这都不是事儿。William McLaren和Fiona Cunningham决定接受挑战,于2016年发布了VEP。VEP是一个软件套件,可以对基因组的编码区域和非编码区域的大多数类型的基因组突变进行注释和分析。

接下来我们就来看看VEP究竟强在何处。

VEP性能测试大比拼


接下来作者将自家的VEP与Annovar以及SnpEff之间做了全面的对比。

首先我们来看一些常规参数,除了SnpEff外,Annovar和VEP都是使用Perl语言来编写的。Perl语言目前已经变得越来越小众了,但是在文本处理上依旧拥有非常强悍的实力。另外VEP和SnpEff可以免费使用,而Annovar还需要经过一系列的注册和授权。

在输入格式上,三款软件都是vcf格式,这也是所有重测序数据在结束SNP calling和Indel calling后必定会生成的一个文件。不过VEP不支持bed格式,除此之外无论是HGVS还是dbSNP,VEP都能很好地支持。当然了,作为一款突变注释软件,如果连SNV/SNP和SV(结构变异)都无法注释那也太说不过去了吧!

在输出格式和输出文件结果来看,VEP几乎也是优于另外两款软件。

在操作界面上,三款软件除了本地Linux有软件之外,都有各自的Web端客户界面,方便老师直接在网页上进行小样本的操作。当然此外VEP还有自己的独特的独门绝技,那就是API加速,对于老生信科学家来说,PERL语言可以无缝链接。

无论是已知的数据库还是用户自己建立的物种数据库,三款软件大多数都能完美支持,但是VEP支持的物种多达5000种,比SnpEff的4500种还要多。

在分析结果类型上VEP不仅可以输出结果,还兼容了Annovar和SnpEff两款软件各自的有点。

另外,作者还对其他方面如非编码RNA以及已知突变等方面进行了对比。总之,VEP从综合性能上来说是一款非常优秀的突变注释软件。

VEP部分输出结果展示


VEP可以输出基因、转录本以及蛋白等各种形式,由于翻译会影响原汁原味的文字,这里直接贴上原文供老师“欣赏”。

Gene and transcript-related fields reported by the VEP

Protein-related fields reported by the VEP 

Regulatory element-related fields reported by the VEP

o-located variant-related fields reported by the VEP

我们可以看到,除了强大的注释功能外,许多老师关心的Phenotype以及Pubmed ID也被网罗到。

总结


VEP为老师提供了一种新的突变注释工具。通过标准方式自动化注释大大减少手动检查所需的时间,以便于管理与SNV/SNP、indel、CNV相关分析上带来的诸多挑战。

VEP引用了大量数据库,包括但不限于"Ensembl database v95"、"GRCh37"、"GENCODE 19"、"RefSeq"、"Regulatory build"、"PolyPhen 2.2.2"、"SIFT 5.2.2"、"dbSNP 151"、"COSMIC 86"、"HGMD-PUBLIC 2017.4"、"ClinVar"、"1000 Genomes Phase3"、"NHLBI-ESP V2-SSA137"、"gnomAD r2.0170228, exomes only"等。

这些数据库的引用能够从多个方面对突变进行注释,包括转录本、调控区域、先前观察到的突变频率、参考文献、临床信息以及表型信息结果展示等。

VEP根据突变注释的质量、数量、稳定性等因素,可以灵活让科研工作者选择转录或基因层面去分析,通过提供了几种方法来区分结果的优先级,甚至允许科研工作者构建自定义的过滤器,并对突变结果进行综合打分,使得定制化成为了可能这些措施减少了人工筛查的精力消耗。

非编码区域注释同样也很重要。许多基因都落在调控特定组织基因表达的位点上。描述转录物和组织之间的联系将有助于选择组织特异性转录本集进行变异注释和结果筛选。此外,通过提供调控区域与调控基因之间的联系,可以解释潜在的疾病分子机制。大队列大样本的数据,如Genotype-Tissue Expression project,旨在系统地描述不同组织中regulatory variants的影响。这些将被整合到VEP参考数据中,以便为VEP分析提供最新的数据。

所以这款强大的突变注释软件,你心动了吗?


相关阅读
▲▲▲

脚踏七彩祥“云”为您打造生物信息分析的“梦幻花园”

联川生物云平台使用指南

云平台|Haploview绘制曼哈顿图小技巧

云平台 | LEfSe在线分析教程

MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍

云平台|bio-Venn在线绘制Venn图

云课堂(5) | Circos画图入门教程

云课堂(6) | FigTree构建进化树(圆形)教程

云课堂(7) | FigTree构建进化树(柱状)教程

云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块

云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块

云课堂(10) | MicrobiomeAnalyst在线绘图教程

云课堂(11) | 真菌FUNGuide功能预测使用指南

云课堂(12) | 如何通过PS软件设置图片分辨率及拼图

云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南

蛋白质组数据上传指南 | 云课堂(14)

干货合集|2018年的科研技巧全在这儿了

干货合集|2017年的科研小技巧全在这儿了

干货合集|2017年的案例解析全在这儿了

科研圈高质量公众号大汇总|资料篇

联川生物2018年最全新品&用户文章汇总|年终盘点

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存