RNA-Seq选择参考基因组
RNA-seq分析,选择合适的参考基因组其实也是有学问的。
例如,分析小鼠RNAseq,获取小鼠基因组序列,一般基因组数据库有:
UCSC的genome data
http://hgdownload.soe.ucsc.edu/downloads.html#mouse
NCBI的Genomes
ftp://ftp.ncbi.nih.gov/genomes/M_musculus/
Ensembl
http://www.ensembl.org/info/data/ftp/index.html
但是,需要注意的是,不管哪一个数据库,关于小鼠基因组序列,除了很熟悉的组装的染色体序列(UCSC中的chrN.fa);还有一些序列,现在只是知道它属于那一条染色体,并不能在染色体上定位(UCSC,chrN_random.fa);
这还不算完,全基因组测序从来都不是个简单的事情,总有一些序列(例如,UCSC,chrUn_random.fa)测序失败以及测完了也并不一定可以正确的找到它属于那一条染色体。
选择参考基因组时,我们需要思考一下,对于未组装到染色体上的那部分序列,我们应该怎么选择?
对于参考基因组,这儿提供两个方案:
1)组装的染色体序列+线粒体DNA序列,植物还得加上叶绿体DNA序列,整合成基因组参考序列。
有问题来了,RNAseq是整个细胞的RNA,属于无法正确在染色体定位和无法定位到特定染色体的序列的reads就出事故了,要么丢了,要么错误匹配到染色体其它位置了,咋办?
不用着急;首先大家可以看一下,其实我们丢掉的那部分序列相对于我们组装的染色体来讲是相当小了;
另外,mapping结果还可以根据reads的mapping qulity和read count数量滤掉一部分reads,大部分错误匹配的reads就没了。
这儿,reads的过滤,根据自己实际情况设定阈值。
2)所有序列组合在一起组成基因组参考序列。放在一起分析,比较省事,后面根据分析想要那部分结果,自己忽略其它的结果就万事大吉。
分析时还得根据自己实际情况具体分析,比如mapping qulity的设定,要知道RNAseq是反转录的数据,不可能没错误的;并且选择基因组参考序列时,要知道你要干嘛?只是想看个基因的表达,外显子表达,还是想发现新的转录本之类的。
说这么多,还是直接上手吧。