PANDA姐的转录组入门(3):了解fastq测序数据
sra文件转换为fastq格式🔄
/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump -h
--split-3
Legacy 3-file splitting for mate-pairs: First biological reads satisfying dumping conditions are placed in files *_1.fastq
and *_2.fastq
If only one biological read is present it is placed in *.fastq Biological reads and above are ignored.
也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq
, *_2.fastq
这样分开。如果还有出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。1
--gzip
Compress output using gzip
输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”) --bzip2
Compress output using bzip2
输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)2
ls *.sra|while read id;do(/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump --split-3 $id);done
我们的数据是Illumina的双端测序3,所以我们用fastq-dump --split-3
命令来把sra格式数据转换为fastq。
总共有7个测序数据,所以最好是同步改名,用-A
参数,为了节省空间,用--gzip
压缩4。
perl -F'\t' -alne 'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}' SraRunTable.txt > Rename.txt
perl -F'\t' -alne 'print "/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump --split-3 --gzip -A $F[1] $F[0].sra" ' Rename.txt > sratofq.sh
rm *.sra
chmod -w *.gz
数据校验及备份存放💾
在此最开始之前应该做个md5sum
数据传输完整性验证;
或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存;5
md5sum *.fastq.gz >md5sum.txt
关于代码的复制粘贴问题,有些教程的代码不可以直接复制粘贴,容易出错6
质控FastQC👌
mkdir /mnt/d/rna_seq/work && cd /mnt/d/rna_seq/work
ln mkdir /mnt/d/rna_seq/data/* . # 建立软连接
mkdir /mnt/d/rna_seq/work/1_FastQC_Raw_Data
ls *.gz|while read id;do(/mnt/d/Software/Biosoft/fastqc/FastQC/fastqc $id -o /mnt/d/rna_seq/work/1_FastQC_Raw_Data -t 3);done
问题:
FastQC报告中哪些是值得关注的?注意事项:
1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。
2、其中一些指标并不适合所有数据。要根据具体数据类型,具体分析。可阅读的资料:
fastqc官网
来聊聊一个建库失败数据的质控问题
不同组学研究建议采用的测序策略
看一眼你的测序数据质量-Fastqc安装使用和结果解读-吐血分享
这是一个随意的视频
https://v.qq.com/txp/iframe/player.html?vid=h05268o7eri&width=500&height=375&auto=0
中途救助洗澡洗到一半没水的师妹,后面视频录得有点乱,前面还可以看看滴~
NCBI SRA文件中下载,分离出从对短序paired-end reads ↩
sra的工具fastq—dump的参数命令(sra格式转换为fastq格式) ↩
PRJNA323422 ↩
RNAseq数据完整生物信息分析流程第一讲之文献数据下载 ↩
一个RNA-seq的反思:老司机翻车 ↩
~ 送个冰淇淋给我呗 ~