查看原文
其他

PANDA姐的转录组入门(3):了解fastq测序数据

2017-07-15 沈梦圆 沈梦圆

sra文件转换为fastq格式🔄

/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump -h

--split-3 
Legacy 3-file splitting for mate-pairs: First biological reads satisfying dumping conditions are placed in files *_1.fastq and *_2.fastq If only one biological read is present it is placed in *.fastq Biological reads and above are ignored.

也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq, *_2.fastq这样分开。如果还有出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。1

--gzip 
Compress output using gzip 
输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”) 
--bzip2 
Compress output using bzip2 
输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)2

ls *.sra|while read id;do(/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump --split-3 $id);done 
我们的数据是Illumina的双端测序3,所以我们用fastq-dump --split-3命令来把sra格式数据转换为fastq。 
总共有7个测序数据,所以最好是同步改名,用-A参数,为了节省空间,用--gzip压缩4。

perl -F'\t' -alne 'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}' SraRunTable.txt > Rename.txt 

perl -F'\t' -alne 'print "/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump --split-3  --gzip  -A  $F[1] $F[0].sra" '  Rename.txt > sratofq.sh

rm *.sra 
chmod  -w  *.gz

数据校验及备份存放💾

在此最开始之前应该做个md5sum数据传输完整性验证; 
或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存;5

md5sum *.fastq.gz  >md5sum.txt

关于代码的复制粘贴问题,有些教程的代码不可以直接复制粘贴,容易出错6

质控FastQC👌

mkdir /mnt/d/rna_seq/work && cd /mnt/d/rna_seq/work 
ln mkdir /mnt/d/rna_seq/data/* .  # 建立软连接 
mkdir /mnt/d/rna_seq/work/1_FastQC_Raw_Data 
ls *.gz|while read id;do(/mnt/d/Software/Biosoft/fastqc/FastQC/fastqc $id   -o /mnt/d/rna_seq/work/1_FastQC_Raw_Data  -t  3);done


  1. NCBI SRA文件中下载,分离出从对短序paired-end reads 

  2. sra的工具fastq—dump的参数命令(sra格式转换为fastq格式) 

  3. PRJNA323422 

  4. RNAseq数据完整生物信息分析流程第一讲之文献数据下载 

  5. 关于数据校验及备份存放的思考 

  6. 一个RNA-seq的反思:老司机翻车 

~ 送个冰淇淋给我呗 ~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存