UCSC的使用方法(一)
UCSC是生物领域里常用的数据库之一,由University of California Santa Cruz (UCSC)创立和维护,主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。UCSC里也包括了一系列的分析工具,帮助用户浏览基因信息、查看已有基因组注释信息和下载基因序列等。
在生物信息分析过程中,有时会需要fasta、GTF或BED等格式的数据文件,而UCSC是这些文件的主要下载来源之一。本文主要以人的基因组信息为例讲述如何在UCSC上下载想要的数据库和交叉数据库。
UCSC主界面如图所示,我们找到Table Browser点击进入。
在Table Browser里,我们选定人的基因组,采用最新的GRCh38版本,然后再选择Gene and Gene Predictions里的NCBI RefSeq作为想要导出的本地数据库。在导出格式里,我们选择了比较常用的BED格式,然后点击get output。
在Create one BED record per下面有一些选项,比如这里默认是Whole Gene,当然我们也可以选择启动子区域、外显子加周边区域、5' UTR区域、3' UTR区域等生成我们想要的BED文件。
UCSC除了可以提供种类繁多的单一数据库下载外,还可以下载交叉数据库。
比如我们要在此次人类参考基因组下载的基础上,下载一个人类参考基因组和lincRNA数据库交叉的数据库,我们首先在第二张图的条件的基础上,点击intersection的create进入。
我们同样需要在Gene and Gene Predictions里找到lincRNA RNA-Seq数据库,点击submit。
后续的事情和下载单一数据库一样,到这里我们就成功下载两种数据库的交叉数据库了。
后续,我们还将会为大家带了UCSC的其他使用方法 ^_^