NGS基础 - 参考基因组和基因注释文件
参考基因组和基因注释文件获取
通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment。所以首先需要获取参考基因组和参考转录组信息。
Ensembl http://www.ensembl.org/info/data/ftp/index.html 是常用的信息齐全的参考基因组和GTF文件下载网站。
下图列出了几个常用动物物种的DNA序列和GTF格式的基因组注释。
Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式, 分别是primary
, toplevel
和unmasked
(dna)、soft-masked
(dna_sm)和masked
(dna_rm)。一般选择dna.primary
或dna_sm.primary
。
为什么选择
Primary
Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is best used for performing sequence similarity searcheswhere patch and haplotype sequences would confuse analysis.
为什么不选择
masked
Masked基因组是指所有重复区和低复杂区被
N
代替的基因组序列,比对时就不会有reads比对到这些区域。一般不推荐用masked的基因组,因为它造成了信息的丢失,由此带来的一个问题是uniquely比对到masked基因组上的reads实际上可能不是unique的。而且masked基因组还会带来比对错误,使得在允许错配的情况下,本来来自重复区的reads比对到基因组的其它位置。 另外检测重复区和低复杂区的软件不可能是完美的,这就造成遮盖住的重复序列和低复杂区并不一定是100%准确和敏感的。soft-masked
基因组是指把所有重复区和低复杂区的序列用小写字母标出的基因组,由于主要的比对软件,比如BWA
、bowtie2
等都忽略这些soft-mask
,直接把小写字母当做大写字母比对,所以使用soft-masked
基因组的比对效果和使用unmasked
基因组的比对效果是相同的。
基因注释GTF
文件在分析转录组数据时会用到,也从这获取,GTF
文件的解释见文件格式部分。ENSEMBL的基因注释文件与GeneCode(http://www.gencodegenes.org/)V26版本一致。
ENSEMBL中基因组和GTF文件中染色体的名字都没有添加chr
,最好收到添加,以保持与UCSC
或下游操作一致。
下载基因功能和结构注释信息
ENSEMBL数据库的BioMart http://www.ensembl.org/biomart/martview工具为下载基因的功能信息、序列信息、结构信息、ID的转换等提供了很大的便利。
注意在BioMart的Attribute选项里如果选择了蛋白相关的选项,得到的结果中只有蛋白编码基因的信息。如果要下载所有基因信息,请不要选择蛋白相关的选项。
具体使用如下,下载基因相关信息,首先选择Ensembl Genes 89
数据集
以Human为例,选择Human genes (GRCh38.p10)
如果下载全部的基因信息,Filters
部分可以略过不填。如果只想下载比如说某个GO通路的基因或给定列表的基因信息,可以在Filters
中指定对应的GO ID
。
Attribute
中包含基因的名字、位置、注释、在不同数据库中的名字、GO注释、KEGG注释、功能域信息等,按需选择下载。
选择好后,点击Results
,获取结果
Export al results to
选择存储到文件中。如果特别大,而自己网速又比较慢,可以选择通过邮件发送下载链接
。
也可以通过Biomart提取基因结构信息,比如5’ UTR、3’ UTR、外显子、内含子的坐标等。
Biomart下载很方便,但一个点击也比较麻烦,可以看到截图中存在XML
按钮,点击打开看到选择的下载信息都记录在了这个文件中。
wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query=
+
XML中的内容
(调整为一行,并且行尾加一个单引号)即可反复使用。如果想换一个物种,只需修改对应的Dataset name
即可。Linux命令系统学习见生信宝典文章集锦。
NGS系列文章
测序数据可视化 (三) - UCSC genomebrowser