做遗传病外显子测序究竟要用到哪些数据库【全外专题】
我们做完了全外显子测序,会发现多达几十种甚至是上百种不同的数据库及软件的注释信息。面对如此多的结果,一些新手可能就会懵圈,那么多注释信息该如何抉择,哪个数据库和软件出来的结果更好呢?
理论上我们肯定认为注释信息要越多越好,不然就觉得自己“亏大了”。对于研究遗传病且对外显子结果非常熟悉的老司机来说,如此多如此全的注释信息无疑是锦上添花。但是对于刚起步的新手而言,这种“贪便宜”的做法会显得十分外行。
无用的优点是缺点。新手在面对繁杂的信息时,拿到关键有用的东西才是王道。
如果你是利用外显子研究遗传病的新手科研工作者,那么下面的文字可能会对你开展相关研究有所帮助。
下面我们就给大家展示一下联川生物外显子测序遗传病版本中所使用的高频数据库和软件,并将这些数据库及注释分为几个大类。每个大类中,一些极其重要的数据库和注释,我们会给予重点介绍。
目前全外突变注释数据库和软件大致分为几个大类,包括基础版数据库、表型数据库、有害性/致病性数据库、突变频率数据库以及同源区域基因名转换等。
温馨提示,数据库重要程度打分仅仅提供参考,各位老师还需根据自身研究目标出发选择合适的数据库才行。
Ensembl database(http://www.ensembl.org/)
实用度:☆☆☆☆
重要度:☆☆
在上一篇文章(【干货】SNP注释神器VEP如何C位出道?你的全外/人重选对软件了吗?)中,我们曾经对Ensembl数据库做过简单的介绍。这个血统纯正的数据库,是由隶属于欧洲分子生物学实验室的欧洲生物信息学中心创立。包括人、小鼠、果蝇在内的几十种模式生物,以及几百种已报到的高质量基因组信息都被收录在了Ensembl数据库中。
Ensembl数据库主要是可以对突变所在的基因信息如染色体位置正负链,以及突变所在位点信息是否属于有义突变和无义突变做一个注释。
GENCODE(https://www.gencodegenes.org/)
实用度:☆☆☆
重要度:☆☆
GENCODE隶属于ENCODE计划中的一部分,旨在继续完善人类参考基因组的注释工作。该数据库在测序中的作用主要是整体基因组层面的突变注释。与下面提到的Refseq数据库不同点在于,GENCODE是整体上基于基因组水平的。
Refseq(https://www.ncbi.nlm.nih.gov/refseq/)
实用度:☆☆☆☆
重要度:☆☆
与上面提到的GENCODE不同之处在于,Refseq数据库基本上都是转录本的注释信息,这些信息都独立于参考基因组。所以后期在分析上,需要与基因组注释信息等进行配合和校正。
The Ensembl Regulatory Build(https://www.ensembl.org/info/genome/funcgen/regulatory_build.html)
实用度:êêêê
重要度:êêêê
许多突变并不会只落在氨基酸密码子区(或者叫基因编码区),一些遗传疾病的发生,也跟基因调控区域上的突变有关。这些调控区域包括启动子区、启动子侧翼区(promoter flanking region)、增强子、转录起始位点、CTCF结合位点、转录因子结合位点以及染色质开放区域(也就是我们所说的ATAC-seq研究的区域)等。
这些区域上的突变虽然不会直接造成氨基酸和蛋白层面的改变,但是会影响基因本身的转录表达。所以也是外显子测序和人重测序在后期分析中十分重要的部分。
The NCBI dbSNP(https://www.ncbi.nlm.nih.gov/snp)
实用度:☆☆☆
重要度:☆☆☆
dbSNP数据库全称The Single Nucleotide Polymorphism database(dbSNP),也就是单碱基核苷酸多态性的意思。NCBI的风格就是大而全,除了常见的模式物种如人、大小鼠,dbSNP还收录了其他物种的多态性信息,包括但不限于单碱基替换(single-base nucleotide substitutions)、小片段插入缺失、可逆转录元件插入、微卫星重复变异(STRs or microsatellite repeat variations)。
dbSNP数据库能够关注多态性或突变落在基因功能区或保守的非编码区后如何影响mRNA转录以及蛋白结构的变化,从而影响表型的各个变化如代谢或信号通路转导。
dbSNP允许递交基因组DNA或者是cDNA片段和mRNA片段等,但是最小长度有要求。此外不同人群中,等位基因突变频率也有所不同,dbSNP中包含不同人群中该位点的突变频率。
HGMD(http://www.hgmd.cf.ac.uk/)
实用度:☆☆☆
重要度:☆☆☆
人类基因突变数据库(The Human Gene Mutation Database, HGMD )全面收集引起人类遗传疾病或与人类遗传疾病相关的核基因突变,系统整理了文献报道中的所有致病突变和与疾病相关的突变信息。
此数据库建立的初衷是用于突变机制的分析,但由于它收录最新的完整的有关人类疾病突变的参考数据,HGMD已经将这些数据提供给各个非盈利研究机构和商业机构。收集的数据包括了SNP、micro-deletions、micro-insertion、indels等。
专业版需要付费,每三个月更新一次。开放的公共网站用于提供非盈利学术机构使用,只提供已收录三年以上的数据。
OMIM(http://omim.org/)
实用度:☆☆☆☆☆
重要度:☆☆☆☆☆
大名鼎鼎的OMIM是几乎所有从事遗传病研究的科研工作者心目中神一样的存在。
OMIM全称为Online Mendelian Inheritance in Man,即在线人类孟德尔遗传的意思。OMIM持续更新的关于人类基因和遗传紊乱的数据库。主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。
由美国John Hopkins大学医学院Victor A McKusiek教授主编的《人类孟德尔遗传》(Mendelian Inheritance in Man:Catologs of Human Genes and Genetic Disorders,MIM)一书,一直是医学遗传学最权威的百科全书,被誉为医学遗传学界的《圣经》。
MIM包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。MIM制定的各种遗传病、性状、基因的编号,简称MIM号,为全世界所公认。
由于遗传病的相关数据积累呈指数型增加,在线人类孟德尔遗传数据库应运而生。
OMIM数据库是许多做遗传病老师非常重要的帮手,绝大多数已知的遗传病筛查如耳聋等,都离不开OMIM的帮助。即便是发现新的致病突变,OMIM也可以提供参考依据。所以做完外显子或人重测序后,OMIM注释几乎是所有遗传病研究人员首先要查看的。
OMIM在遗传学家心目中的江湖地位目前仍然无人动摇!
ClinVar(https://www.ncbi.nlm.nih.gov/clinvar/)
实用度:☆☆☆☆☆
重要度:☆☆☆☆
NCBI中大名鼎鼎的ClinVar是所有做外显子测序以及人重测序的研究人员使用非常高频的一个数据库。这个免费的数据库已经搜集了大量突变与表型相关联的信息作为证据。
其中ACMG筛选遗传病的方法被许多遗传学家采用,也是ClinVar中的一大亮点,具体标准整理后如上所示。
ClinVa整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,将变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库。
ClinVar采用的是星标系统(star-based system),可以评估某个特定突变在疾病中的本来或者注释作用。四星级是最高级,也就是说这个突变的功能已经经过了多位专家的测评。这样详细审查过程的好处在于用户能信任三、四星突变的功能注释。更多时候是只有一星的突变,这通常只基于单个提出注释功能的研究成果,还有没有星的,也就是提交者没有提供解释标准和支持证据。ClinVar 工具的一个问题在于其数据库中大多数临床上重要的突变(83%)都是某个家庭中独一无二的,或者非常罕见的。
DisGeNET(http://www.disgenet.org/home/)
实用度:☆☆☆☆
重要度:☆☆☆☆
DisGeNET数据库包含了全球最大的公开可用的人类疾病数据库之一,这个数据库的特点就是包含了大量与人类疾病相关的突变信息合集。
DisGeNET数据库中的信息究竟有多丰富?权威的遗传学家已沉淀的一些经典资料,一些高分文章GWAS研究中的相关联表型数据信息,动物模型研究数据,以及大量其他的权威文献记录都包括在内。所以该数据库信息量还是非常大的。
目前DisGeNET数据库已经更新到6.0版本,官方介绍说“The current version contains 628,685 gene-disease associations (GDAs), between 17,549 genes and 24,166 diseases, disorders, traits, and clinical or abnormal human phenotypes, and 210,498 variant-disease associations (VDAs), between 117,337 variants and 10,358 diseases, traits, and phenotypes”。这对遗传学家来说,信息量足够多。
PheGenI(https://www.ncbi.nlm.nih.gov/gap/phegeni)
实用度:☆☆☆☆
重要度:☆☆☆☆
与DisGeNET比较相似的是,PheGenI也是一个比较不错的表型数据库。跟Ensembl相似,NCBI也是一个巨无霸级别的存在,所以PheGenI也是背靠大树好乘凉。
PheGenI收录了大量的表型数据库,集合了NHGRI的GWAS研究与NCBI旗下的几个数据库进行合并整合,如dbSNP、dbGaP、OMIM、eQTL等。
这种以表型数据为导向的资源信息,目的在于为临床医生和遗传学家提供帮助,对GWAS的研究结果进行跟踪,有助于从一大堆的突变信息中找到对应的优先顺序。
遗传学家在PheGenI数据库中可以根据染色体位置、基因、SNP或表型进行搜索,并查看和下载结果,包括SNP的注释表、基因和关联结果、动态基因组序列查看器和基因表达数据。
目前,PheGenI数据库结果仍然在不断增加之中。
dbNSFP
实用度:☆☆☆☆
重要度:☆☆☆☆☆
dbNSFP作为十全大补丸型的数据库,堪称突变数据库中的巨无霸!我们熟知的SIFT、1000Genome、PolyPhen2、ClinVar、ExAC、gnomAD、FATHMM等一应俱全。夸张到什么程度?使用dbNSFP做注释,突变位点总计会产出约450多个选项,甚至前面我们提到的好多数据库都被dbNSFP一网打尽!
尽管如此,从优先级上来说,SIFT和PolyPhen2的打分还是占有非常大的权重。通常我们在筛选致病突变时,会先过滤掉Sift值>0.05以及PolyPhen2<0.95的突变信息,默认先留下damage程度较高的突变信息,也就是Sift<0.05以及PolyPhen2>0.95。接下来1000Genome在人群中罕见突变频率等信息也是我们筛选判断的依据。
总之,这款能够让科研工作者喂饱到吐的数据库,里面有大量信息值得老师去挖掘。
【干货】SNP注释神器VEP如何C位出道?你的全外/人重选对软件了吗?
【文献解读】如何从FFPE样本中提取高质量的DNA或RNA?
【10×单细胞应用解析】Nature Medicine:肾脏不同组分特异性遗传变异分析确定慢性肾病的新途径
【10×单细胞应用解析】Science: 小鼠肾脏单细胞转录组测序揭示了肾脏疾病的潜在细胞靶标