你看过 NCBI 的基因组和注释文件吗?
1
前言
我们知道下载基因组和注释文件的数据框有 ENSEMBL
、UCSC
、GENCODE
、NCBI
等数据框,至于 NCBI 数据库的基因组和注释文件我还没怎么下载过,这次来探索学习一下。
2
过程
首先进入 NCBI官网
选择 genome 选项,然后输入你的 物种名称 ,这里我用 小鼠 当作例子:
人:
Homo sapiens小鼠:
Mus musculus大鼠:
Rattus norvegicus
然后进入页面可以看到基因组版本
、基因组
、转录本
、蛋白质
和注释文件
的信息,点击深蓝色文字
即可直接下载。
再往下还有染色体的相关信息,例如大小,GC 含量,tRNA 数量,rRNA 数量,基因数量等等:
Browse the list
点进去可以看到 Mus musculus 物种的亚种的基因组信息:
亚种信息:
点击 RefSeq
或者 GenBank
能进入 ftp 下载的网址链接。那么这两个有什么区别呢?网上找了一些答案:
大概就是说用 refseq 的是比较准确的非冗余的具有代表性的序列,我们进入看看。
RefSeq:
继续进入:
我看可以看到我们需要的文件,还有很多文件可以打开 README.txt 文件查看具体的描述和解释。
GenBank:
进入可以看到不同亚种的信息的文件夹:
我们点第二个进入看看:
也可以下载相应亚种的 基因组文件 和 注释文件 ,大家按需下载。
这里还是推荐下载
RefSeq
的基因组文件和注释文件,比较有代表性一点
3
查看下载的文件
我们把基因组和注释文件下载下来看看:
$ less GCF_000001635.27_GRCm39_genomic.fna
>NC_000067.7 Mus musculus strain C57BL/6J chromosome 1, GRCm39
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
...
查看所有染色体:
$ grep '>' GCF_000001635.27_GRCm39_genomic.fna
>NC_000067.7 Mus musculus strain C57BL/6J chromosome 1, GRCm39
>NT_166280.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG1
>NT_166281.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG2
>NT_166282.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG3
>NT_162750.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG5
>NW_023337852.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG6
>NT_166338.1 Mus musculus strain C57BL/6J chromosome 1 unlocalized genomic scaffold, GRCm39 MMCHR1_RANDOM_CTG7
>NC_000068.8 Mus musculus strain C57BL/6J chromosome 2, GRCm39
>NC_000069.7 Mus musculus strain C57BL/6J chromosome 3, GRCm39
>NC_000070.7 Mus musculus strain C57BL/6J chromosome 4, GRCm39
>NT_187055.1 Mus musculus strain C57BL/6J chromosome 4 unlocalized genomic scaffold, GRCm39 MMCHR4UN_CTG6
>NC_000071.7 Mus musculus strain C57BL/6J chromosome 5, GRCm39
...
发现染色体的名字和其它数据库不咋一样,UCSC 和 GENCODE 是 chr1
之类的,ENSEMBL 是以 单纯的数字 1
等来命名的。
我们看看注释文件:
$ less -S GCF_000001635.27_GRCm39_genomic.gtf
#gtf-version 2.2
#!genome-build GRCm39
#!genome-build-accession NCBI_Assembly:GCF_000001635.27
#!annotation-source NCBI Mus musculus Annotation Release 109
NC_000067.7 cmsearch gene 3172239 3172348 . + . gene_id "Gm26206"; transcript_id ""; db_xref "GeneID:115487594"; db_xref >
NC_000067.7 cmsearch exon 3172239 3172348 . + . gene_id "Gm26206"; transcript_id "XR_004936710.1"; db_xref "GeneID:115487>
NC_000067.7 BestRefSeq%2CGnomon gene 3269956 3741733 . - . gene_id "Xkr4"; transcript_id ""; db_xref "GeneID:497097"; db_xre>
NC_000067.7 Gnomon exon 3740775 3741733 . - . gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "m>
NC_000067.7 Gnomon exon 3491925 3492124 . - . gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "m>
NC_000067.7 Gnomon exon 3283662 3287191 . - . gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "m>
NC_000067.7 Gnomon exon 3269956 3277540 . - . gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "m>
NC_000067.7 Gnomon CDS 3740775 3741571 . - 0 gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "C>
NC_000067.7 Gnomon CDS 3491925 3492124 . - 1 gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "C>
NC_000067.7 Gnomon CDS 3286248 3287191 . - 2 gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; gbkey "C>
NC_000067.7 Gnomon start_codon 3741569 3741571 . - 0 gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; >
NC_000067.7 Gnomon stop_codon 3286245 3286247 . - 0 gene_id "Xkr4"; transcript_id "XM_006495550.5"; db_xref "GeneID:497097"; >
NC_000067.7 BestRefSeq exon 3740775 3741721 . - . gene_id "Xkr4"; transcript_id "NM_001011874.1"; db_xref "GeneID:497097";
4
下载其它版本
点击 NCBI Datasets
,这是一个新功能,进入可以看到不同的版本和发布时间等信息:
可以看到既有 不同版本
的 GRCm38/39,也有 不同数据库
的 RefSeq 和 GenBank 的,也有 亚种
的版本:
我们可以勾选相应文件,这里假如下载 GRCm38 版本的,点击右边的 下载选项
,然后再勾选需要下载的文件即可,下载的文件是一个打包的文件:
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦。
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀ComplexHeatmap 之 Legends 续(二)
◀ComplexHeatmap 之 Legends 续(一)
◀ComplexHeatmap 之 Heatmap List 续(二)
◀ComplexHeatmap 之 Heatmap List 续(一)
◀ComplexHeatmap 之 Heatmap List
◀ComplexHeatmap 之 Heatmap Annotations 续(三)
◀ComplexHeatmap 之 Heatmap Annotations 续(二)