查看原文
其他

STAR,效如其名

2017-08-18 老牛 生信草堂

我们是谁?

生信草堂!

我们要什么?

值得广大朋友 信赖!

什么口号?

最专业的生信平台!



我们之前讲过回帖软件TopHat2HISAT2的用法,但是更早之前的STAR依旧受到很多人的青睐,本期的内容针对STAR做一番用法介绍。

       STAR是由冷泉港实验室的Alexander Dobin等人员开发的为了解决large (>80 billon reads) ENCODE Transcriptome RNA-seq dataset的有参比对问题。STAR全称Spliced Transcripts Alignment to a Reference,是用底层的C++语言编写,可以多核运行,具有极快的比对速度。

       该软件的的github下载地址是:https://github.com/alexdobin/STAR。最新的帮助文档是1776日,STAR版本是2.5.3ab,说明STAR依旧保持着一个很高的更新频率。

       我们可以根据网站的提示下载并安装STAR:


wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz

tar -xzf 2.5.3a.tar.gz

cd STAR-2.5.3a

make STAR





1

STAR建立genomeindex: 

/home/bio_software/STAR-2.5.3a/bin/Linux_x86_64/STAR   --runThreadN 30 --runMode genomeGenerate --genomeDir ./starhuman150 --genomeFastaFiles hg38.fa --sjdbGTFfile human.gtf  --sjdbOverhang 150


参数功能介绍:

       --runThreadN 30 为使用线程数

       --genomeDir ./starhuman  为生成文件的保存目录

       --genomeFastaFiles hg38.fa  为建库使用的基因组序列

       --sjdbGTFfile human.gtf   为基因组注释文件

       --sjdbOverhang 150   一般建议用测序reads.length-1



2

接着运行比对:

mkdir starout

/home/bio_software/STAR-2.5.3a/bin/Linux_x86_64/STAR --runThreadN 6 --outSAMtype BAM SortedByCoordinate --genomeDir ./starhuman150 --readFilesIn AA_R1_trimmed.fastq AA_R2_trimmed.fastq--outFileNamePrefix  AA



参数功能介绍:

       --runThreadN 6  使用线程数

       --outSAMtype BAM SortedByCoordinate  将结果SAM文件排序并生成BAM,使用的软件和samtools效果类似

       --genomeDir ./starhuman150  上面建立的index目录

       --readFilesIn AA_R1_trimmed.fastq AA_R2_trimmed.fastq  要输入的测序数据

       --outFileNamePrefix  AA 可以自定义生成文件的前缀

      

       STAR的比对数据很快,6线程运行每小时可达到每小时50GB的数据处理量。另外后续的组装分析如果选用cufflinks,则STAR针对cufflinks设置了单独的参数。

       有的时候STAR会报一些错误,比如说两个双端测序的输入文件可能不匹配,其原因为数据清洗时没有配对清洗,对此我们在用trim_galore软件进行数据清洗时,则应加上--paired参数进行配对清洗。








       



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存