查看原文
其他

冰糖 2018-06-04

Entrez ID是什么除了Entrez ID,还有什么如何搜索Entrez ID各种Gene ID间的转换什么鬼,Gene ID的版本问题

Entrez ID是什么

Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。

每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。

Entrez是什么

Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。

实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,不过事实上这两个词是不对等的,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。

除了Entrez ID,还有什么

Entrez ID只是Entrez gene数据库的编号系统,实际上是存在多种gene编号系统的,比如时常会在生物信息分析中用到的Ensembl ID。如果你想进一步了解什么是Ensembl,强烈建议你去看Jimmy大神对主流参考基因组的梳理直播我的基因组5。根据DAVID的Gene ID Conversion Tool的ID列表,如有AGILENT_ID、BGD_ID、ENSEMBL_GENE_ID、ENTREZ_GENE_ID、GENEBANK_ACCESSION等,截止2017.09共计有30种。

如何搜索Entrez ID

搜索基因的相关情况,可以使用Entrez Gene数据库进行检索,如下图所示,选择Gene数据库,并将感兴趣的基因的名称或ID键入,点击搜索即可。

如果键入的是Gene名称

其实更准确地说,如果键入的是Gene symbol,那么就会出现一个检索列表,如图所示,列表里面是各种物种的此基因的记录。根据物种选择相应的条目点击查看即可。

如果键入的是Gene ID

如果键入的是Gene ID,那么会直接跳转进入相应的基因页面,如下图,一个Entrez Gene记录,会包含多种基因信息:gene symbol、基因名称、种属、Entrez gene ID及Ensemble gene ID等。

各种Gene ID间的转换

在生信数据的预处理阶段,常会遇见各种Gene ID之间的转换如Entrez gene ID与Ensembl gene ID之间的转换,或者gene ID与gene symbol之间的转换。

转换可以使用网上工具完成,如DAVID的ID Conversion Tool、bioDBnet或ENSEMBL的bioMart转换工具。下面我就DAVID的ID转换工具进行演示:

DAVID ID转换工具的实际演示

  • 任务 将一组Ensembl Gene ID转换为Entrez Gene ID,Gene列表如下

Gene  NameEnsembl Gene ID
collagen, type XV,  alpha 1ENSG00000204291
chemokine (C-C motif)  ligand 20ENSG00000115009
interleukin 1, betaENSG00000125538
R-spondin 3 homolog  (Xenopus laevis)ENSG00000146374
intercellular  adhesion molecule 1ENSG00000090339
C-type lectin domain  family 3, member BENSG00000163815
chromosome 15 open  reading frame 48ENSG00000166920
claudin 1ENSG00000163347
  1. 打开DAVID ID转换工具

    打开DAVID,并进入Gene ID转换工具。

  1. 上传序列

    按照图示步骤进行即可,尤其需要注意的是,此时一定不要点击右侧的option1的提交,也不用管option1里面的Gene ID类型。否则,序列都没有上传,更不要谈ID转换了。

  1. 选择物种信息

    有时输入的序列并不能被完全识别,这一定程度上和各个Gene ID数据库的版本有关系,因此在此页面内可以选择一下物种信息。如图所示,输入的8个ID还是被全部识别出来了。

    重要 假如是要将Gene Symbol转换成各种Gene ID,此处的物种是必选项,按需选择。

  1. 选择ID转换工具

    上一步结束后,请在结果页面中按照本图示进行操作,进入ID转换工具。

    DAVID的操作逻辑 先将你的序列上传,然后选择物种信息,必要时还有背景信息,经过这几步之后,你就可以选择各种工具对你的序列进行分析和转换了。

  2. 进行ID转换

    先选择要转换成的Gene ID类型,然后点击提交即可。

  1. 转换结果

    如图示,Ensembl Gene ID已经转换为Entrez Gene ID。

什么鬼,Gene ID的版本问题

同一个ensemble ID在不同版本genecode中代表不同的基因

同样是ENSG00000211563,基因Symbol有MIR338、AC115099.1等。

注意 Ensembl Gene ID编号末尾的小数点后面的数字代表版本。

SourceEnsembl Gene IDSymbol
Gencode_v19ENSG00000211563.2MIR338
Gencode_v23ENSG00000211563.3AC115099.1
Gencode_v26ENSG00000211563.4MIR3065
HGNCENSG00000211563MIR3065
GTExENSG00000211563.2MIR338

同一个基因在不同版本genecode中的结果不同

同样是MIR338基因,存在多种Ensembl Gene ID

SourceSymbolEnsembl Gene ID
Gencode_v19MIR338ENSG00000211563.2
Gencode_v23NoneNone
Gencode_v26MIR338ENSG00000283604.1
HGNCMIR338ENSG00000283604
GTExMIR338ENSG00000211563.2

因此考虑到Gene ID的版本复杂度,在实际的Gene ID转换以及对Gene ID进行相关分析时,一定要密切关注ID版本号有可能带来的错误。

参考

简述几种Gene ID的转换方法

#TCGA系列#使用HGNC数据库对miRNA名称ID进行转换

还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存