STAR,效如其名
我们是谁?
生信草堂!
我们要什么?
值得广大朋友 信赖!
什么口号?
最专业的生信平台!
我们之前讲过回帖软件TopHat2和HISAT2的用法,但是更早之前的STAR依旧受到很多人的青睐,本期的内容针对STAR做一番用法介绍。
STAR是由冷泉港实验室的Alexander Dobin等人员开发的为了解决large (>80 billon reads) ENCODE Transcriptome RNA-seq dataset的有参比对问题。STAR全称Spliced Transcripts Alignment to a Reference,是用底层的C++语言编写,可以多核运行,具有极快的比对速度。
该软件的的github下载地址是:https://github.com/alexdobin/STAR。最新的帮助文档是17年7月6日,STAR版本是2.5.3ab,说明STAR依旧保持着一个很高的更新频率。
我们可以根据网站的提示下载并安装STAR:
wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz
tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a
make STAR
用STAR建立genome的index:
/home/bio_software/STAR-2.5.3a/bin/Linux_x86_64/STAR --runThreadN 30 --runMode genomeGenerate --genomeDir ./starhuman150 --genomeFastaFiles hg38.fa --sjdbGTFfile human.gtf --sjdbOverhang 150
参数功能介绍:
--runThreadN 30 为使用线程数
--genomeDir ./starhuman 为生成文件的保存目录
--genomeFastaFiles hg38.fa 为建库使用的基因组序列
--sjdbGTFfile human.gtf 为基因组注释文件
--sjdbOverhang 150 一般建议用测序reads.length-1
接着运行比对:
mkdir starout
/home/bio_software/STAR-2.5.3a/bin/Linux_x86_64/STAR --runThreadN 6 --outSAMtype BAM SortedByCoordinate --genomeDir ./starhuman150 --readFilesIn AA_R1_trimmed.fastq AA_R2_trimmed.fastq--outFileNamePrefix AA
参数功能介绍:
--runThreadN 6 使用线程数
--outSAMtype BAM SortedByCoordinate 将结果SAM文件排序并生成BAM,使用的软件和samtools效果类似
--genomeDir ./starhuman150 上面建立的index目录
--readFilesIn AA_R1_trimmed.fastq AA_R2_trimmed.fastq 要输入的测序数据
--outFileNamePrefix AA 可以自定义生成文件的前缀
STAR的比对数据很快,6线程运行每小时可达到每小时50GB的数据处理量。另外后续的组装分析如果选用cufflinks,则STAR针对cufflinks设置了单独的参数。
有的时候STAR会报一些错误,比如说两个双端测序的输入文件可能不匹配,其原因为数据清洗时没有配对清洗,对此我们在用trim_galore软件进行数据清洗时,则应加上--paired参数进行配对清洗。