Entrez ID是什么除了Entrez ID,还有什么如何搜索Entrez ID各种Gene ID间的转换什么鬼,Gene ID的版本问题
Entrez ID是什么
Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。
每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。
Entrez是什么
Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。
实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,不过事实上这两个词是不对等的,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。
除了Entrez ID,还有什么
Entrez ID只是Entrez gene数据库的编号系统,实际上是存在多种gene编号系统的,比如时常会在生物信息分析中用到的Ensembl ID。如果你想进一步了解什么是Ensembl,强烈建议你去看Jimmy大神对主流参考基因组的梳理直播我的基因组5。根据DAVID的Gene ID Conversion Tool的ID列表,如有AGILENT_ID、BGD_ID、ENSEMBL_GENE_ID、ENTREZ_GENE_ID、GENEBANK_ACCESSION等,截止2017.09共计有30种。
如何搜索Entrez ID
搜索基因的相关情况,可以使用Entrez Gene数据库进行检索,如下图所示,选择Gene数据库,并将感兴趣的基因的名称或ID键入,点击搜索即可。
如果键入的是Gene名称
其实更准确地说,如果键入的是Gene symbol,那么就会出现一个检索列表,如图所示,列表里面是各种物种的此基因的记录。根据物种选择相应的条目点击查看即可。
如果键入的是Gene ID
如果键入的是Gene ID,那么会直接跳转进入相应的基因页面,如下图,一个Entrez Gene记录,会包含多种基因信息:gene symbol、基因名称、种属、Entrez gene ID及Ensemble gene ID等。
各种Gene ID间的转换
在生信数据的预处理阶段,常会遇见各种Gene ID之间的转换如Entrez gene ID与Ensembl gene ID之间的转换,或者gene ID与gene symbol之间的转换。
转换可以使用网上工具完成,如DAVID的ID Conversion Tool、bioDBnet或ENSEMBL的bioMart转换工具。下面我就DAVID的ID转换工具进行演示:
DAVID ID转换工具的实际演示
任务 将一组Ensembl Gene ID转换为Entrez Gene ID,Gene列表如下
Gene Name | Ensembl Gene ID |
---|---|
collagen, type XV, alpha 1 | ENSG00000204291 |
chemokine (C-C motif) ligand 20 | ENSG00000115009 |
interleukin 1, beta | ENSG00000125538 |
R-spondin 3 homolog (Xenopus laevis) | ENSG00000146374 |
intercellular adhesion molecule 1 | ENSG00000090339 |
C-type lectin domain family 3, member B | ENSG00000163815 |
chromosome 15 open reading frame 48 | ENSG00000166920 |
claudin 1 | ENSG00000163347 |
打开DAVID ID转换工具
打开DAVID,并进入Gene ID转换工具。
上传序列
按照图示步骤进行即可,尤其需要注意的是,此时一定不要点击右侧的option1的提交,也不用管option1里面的Gene ID类型。否则,序列都没有上传,更不要谈ID转换了。
选择物种信息
有时输入的序列并不能被完全识别,这一定程度上和各个Gene ID数据库的版本有关系,因此在此页面内可以选择一下物种信息。如图所示,输入的8个ID还是被全部识别出来了。
重要 假如是要将Gene Symbol转换成各种Gene ID,此处的物种是必选项,按需选择。
选择ID转换工具
上一步结束后,请在结果页面中按照本图示进行操作,进入ID转换工具。
DAVID的操作逻辑 先将你的序列上传,然后选择物种信息,必要时还有背景信息,经过这几步之后,你就可以选择各种工具对你的序列进行分析和转换了。
进行ID转换
先选择要转换成的Gene ID类型,然后点击提交即可。
转换结果
如图示,Ensembl Gene ID已经转换为Entrez Gene ID。
什么鬼,Gene ID的版本问题
同一个ensemble ID在不同版本genecode中代表不同的基因
同样是ENSG00000211563,基因Symbol有MIR338、AC115099.1等。
注意 Ensembl Gene ID编号末尾的小数点后面的数字代表版本。
Source | Ensembl Gene ID | Symbol |
---|---|---|
Gencode_v19 | ENSG00000211563.2 | MIR338 |
Gencode_v23 | ENSG00000211563.3 | AC115099.1 |
Gencode_v26 | ENSG00000211563.4 | MIR3065 |
HGNC | ENSG00000211563 | MIR3065 |
GTEx | ENSG00000211563.2 | MIR338 |
同一个基因在不同版本genecode中的结果不同
同样是MIR338基因,存在多种Ensembl Gene ID
Source | Symbol | Ensembl Gene ID |
---|---|---|
Gencode_v19 | MIR338 | ENSG00000211563.2 |
Gencode_v23 | None | None |
Gencode_v26 | MIR338 | ENSG00000283604.1 |
HGNC | MIR338 | ENSG00000283604 |
GTEx | MIR338 | ENSG00000211563.2 |
因此考虑到Gene ID的版本复杂度,在实际的Gene ID转换以及对Gene ID进行相关分析时,一定要密切关注ID版本号有可能带来的错误。
参考
简述几种Gene ID的转换方法
#TCGA系列#使用HGNC数据库对miRNA名称ID进行转换
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。