查看原文
其他

【直播】我的基因组67:clinvar数据库

2017-04-25 jimmy 生信技能树

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。而clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。




ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。






首先,我们去clinvar数据库的ftp里面找到数据库文件,然后下载,最新版记录了238310 个位点,如下:


数据库下载方式见论坛,我用的是shell命令:






数据库的详细说明,也自己去论坛里面看吧,我就不赘述啦。http://www.biotrainee.com/thread-991-1-1.html (阅读原文即可)

打开那个文件,可以看到里面其实就是有dbSNP数据库的ID了,因为能被clinvar数据库收录的,必然已经在dbSNP数据库,稍微懂点脚本的都知道,完全没必要用软件来注释了,就把在clinvar数据库里面的rsID挑出来了即可。


如果你不懂如何写程序,那么就用annovar或者snpeff这样的傻瓜式软件吧,稍微看点说明书也很容易学会。必然annovar注释会挑出CLINSIG CLNDBN CLNACC CLNDSDB CLNDSDBID这些重要的记录,放在*dropped文件里面,打开看就可以啦。






比较重要的信息如下:




CLNSIG=1;

CLNACC=RCV000319204.1|RCV000371607.1;

CLNALLE=1;

CLNDBN=Benign_familial_neonatal_seizures|Benign_Neonatal_Epilepsy;

CLNDSDB=MedGen:Orphanet|MedGen;

CLNDSDBID=C2930911:ORPHA1949|CN239199;




其中CLNDSDB指示着该记录来源的数据库,因为clinvar也只是一个二次整合的数据库。CLNDSDBID记录着来源数据库的来源ID,CLNDBN比较重要,是描述疾病

最重要的就是CLNSIG,在数据库的头文件可以看到信息描述如下:




##INFO=<ID=CLNSIG,Number=.,Type=String,Description="Variant Clinical Significance, 0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other">




先随便看一个benign的变异吧就是无害的,发现了rs1801249指到了Wilson_disease这货,我压根就不认识~


老规矩,谷歌一下,勉强了解了它,但是,我真的没有这个病呀~~~

    

    

    





威尔逊氏病(Wilsonsdisease,WD),是一种常染色体隐形遗传的铜代谢缺陷病,其基因定位于13q14.3,编码1个P型ATP酶,此酶参与铜跨膜转运的代谢过程。目前研究多认为由于WD基因突变使其功能降低或丧失而导致铜代谢异常,肝合成铜蓝蛋白速度减慢,胆汁排铜明显减少,铜沉积于肝、脑、肾、角膜、血细胞和关节等组织中,引起了相应脏器损害的临床症状。

而且最近的文献发现这个位点阿兹海默跟有关:

The data also showed that the genotype frequency distribution of the ATP7B c.1366 G greater than C polymorphism (rs1801244, Val456Leu) differed significantly between the AD patients and the normal subjects (p = 0.012).




好吧,你们说什么就是什么吧,反正我才26岁,神马阿兹海默的老年疾病我现在没办法反驳你。

然后有查了一下snp相关的数据,比如healthcoach7,还有pharmgkb,snpedia。


当然,最重要的是去clinvar数据库的网站上面查看:

其实benign本身不用太认真看的。

一般来说,被注释到Pathogenic的变异是值得重点关注的,我的里面有32个,就这么几个,我想已经用不着生物信息学工程师了,可以直接去excel表格里面自己一个个慢慢看了,然后对着文献自己尝试解读一下。当然,即使是clinvar里面记录的有害突变,你不幸运获得了,也不用害怕。

比如我随意扫了一眼我的32个有害突变,比如这个中间枫糖浆尿病2型

还有rs4774518预示着的Thyroglobulin synthesis defect,虽然也是有害突变,但是星级评分系统也是0级。

我已经没有心情看下去了,里面还有好几个癌症呀,还有各种奇奇怪怪的疾病相关突变。

说老实话,我现在还不是很理解这些数据库证据与患病直接的联系到底是什么关系!

最后,对于每个位点,还可以去看一看gnomAD的人群携带率,如果有纯和携带,这个致病性要打个问号的~



文:Jimmy

图文编辑:吃瓜群众


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存