Bioconductor注释专题:OrgDb
基因ID有多种EntrezID、ENSEMBLID、geneSymbol、UNIGENE….
众多基因ID间的转换,除了繁琐的在各个数据库之间进行手动查询之外,还可以方便快捷的使用OrgDb。
OrgDb背景介绍
打开bioconductor的packages主页(http://bioconductor.org/packages/release/BiocViews.html),可以看到bioconductor将packages分成三类:Software、AnnotationData和ExperimentData。而OrgDb就在AnnotationData中下的‘PackageType’下。
PackageType下还有其他众多注释包,如probe、cdf、BSgenmome、MeSHDb等等,他们将在本周的bioconductor专题与大家分享。
bioconductor的OrgDb系列注释包根据物种不同有19个:
Packages | Organism | Packages | Organism |
---|---|---|---|
org.Ag.eg.db | Anopheles | org.Hs.eg.db | Human |
org.At.tair.db | Arabidopsis | org.Mm.eg.db | Mouse |
org.Bt.eg.db | Bovine | org.Mmu.eg.db | Rhesus |
org.Ce.eg.db | Worm | org.Pf.plasmo.db | Malaria |
org.Cf.eg.db | Canine | org.Pt.eg.db | Chimp |
org.Dm.eg.db | Fly | org.Rn.eg.db | Rat |
org.Dr.eg.db | Zebrafish | org.Sc.sgd.db | Yeast |
org.EcK12.eg.db | E coli strain K12 | org.Ss.eg.db | Pig |
org.EcSakai.eg.db | E coli strain Sakai | org.Xl.eg.db | Xenopus |
org.Gg.eg.db | Chicken |
OrgDb使用
以下将以人的OrgDb包org.Hs.eg.db为例进行介绍:
描述性信息
直接调用org.Hs.eg.db,可以看到org.Hs.eg.db的一些描述性信息,如版本号、数据库类型(OrgDb)、物种、相关数据库的地址及时间等等。
# 安装
# 安装时间较长
## try http:// if https:// URLs are not supported
source("https://bioconductor.org/biocLite.R")
biocLite("org.Hs.eg.db")
# org.Hs.eg.db包基本信息
library(org.Hs.eg.db)
# org.Hs.eg.db太长,输入太麻烦,赋值给x,下同
x <- org.Hs.eg.db
x # org.Hs.eg.db的基本信息,见下图
# org.Hs.eg.db所包含的基因数据库ID信息
keytypes(x) # org.Hs.eg.db所包含的数据库ID信息,共26个,见下图
colmuns(x) # 同keytypes(x)
keys(x) # org.Hs.eg.db的值
length(keys(x,'ALIAS')) # ALIAS共有121154记录
length(keys(x,'UNIGENE')) # 29142
length(keys(x,'SYMBOL')) # 60048
基因ID转换
## 基因ID转换使用select方法
# 将ENSMBL ID转换为ENTREZ ID
ensids <- c("ENSG00000130720", "ENSG00000103257", "ENSG00000156414",
"ENSG00000144644", "ENSG00000159307", "ENSG00000144485")
select(x,keys = ensids, columns = 'ENTREZID', keytype = 'ENSEMBL') # 见下图
# 输入基因ID,查看其symbol及基因名称
select(x,keys = ensids, columns = c('SYMBOL','GENENAME'), keytype = 'ENSEMBL') # 见下图
# 查看TP53的众多相关信息
select(x,keys = 'TP53',columns = c('ENSEMBL','ENTREZID','UNIGENE','CHR','GO','GENENAME'),keytype = 'SYMBOL') # 见下图
省略部分
参考资料:
org.Hs.eg.db的biocondctor主页:http://bioconductor.org/packages/release/data/annotation/html/org.Hs.eg.db.html
org.Hs.eg.db的生信菜鸟团介绍:http://www.bio-info-trainee.com/710.html
猜你喜欢
生信菜鸟团-专题学习目录(6)
还有更多文章,请移步公众号阅读
▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。