R txdb创建与读取
txdb初识
谈到txdb,我们不得不提两个包,"GenomicFeatures"和“Txdb.Hsapiens.UCSC.hg38.knownGene”,这两个包都是用来创建Txdb对象。当然有的人用的是hg19,我这里采用最新的hg38,操作函数都是一样的,只是所包含的信息更多。
使用R加载两个包
首先,我们先把这两个包安装起来,接下来一步步来看Txdb究竟是什么东西
source("https://bioconductor.org/biocLite.R") biocLite("GenomicFeatures")
source("https://bioconductor.org/biocLite.R") biocLite("TxDb.Hsapiens.UCSC.hg38.knownGene")
1.第一步,查看GenomicFeatures所包含的txdb对象,实际上只是下面一个包的子集,
查看所有的信息,我们需要加载第二个包
samplefile<- system.file("extdata",
"hg19_knownGene_sample.sqlite", package="GenomicFeatures")
txdb<- loadDb(samplefile)
可以看到其只包含178个转录本,620个外显子,信息是很少的
2.接下来我们要加载hg38全部基因组信息
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene
txdb
这里面有几个最常见的函数:
genes(txdb)
exons(txdb)
transcripts(txdb)
cds(txdb)
可以看到genes函数,提取24183个基因信息,
exons(txdb)
而用exons函数可以提取这个txdb对象的exons信息,共289969个exon
transcripts(txdb)
可以提取转录本信息,共197782个转录本
还有cds函数等来提取到cds的信息
这里的图片我就不一一展示了,感兴趣的同学,可以自己试一下,其他函数
注意一点:无论什么函数返回的对象都是一个Granges对象
如何创建txdb对象
1. 创建TXdb对象
这里我使用了makeTxDbFromUCSC函数
函数 makeTxDbFromUCSC用来下载UCSC Genome Bioinformatics 转录本信息
mm9KG_txdb <- makeTxDbFromUCSC(genome="mm9", tablename="knownGene")
saveDb(mm9KG_txdb, file="fileName.sqlite")
这样我们就创建了一个小鼠的txdb对象
如何加载txdb对象
mm9KG_txdb <- loadDb("fileName.sqlite")
这样一条命令就可以了。
猜你喜欢
生信菜鸟团-专题学习目录(6)
还有更多文章,请移步公众号阅读
▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。