目前的二代测序技术有单端测序(Single-read)和双端测序(Paired-end和Mate-pair)两种方式。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。本期主要介绍双端测序中的 Paired-end reads 情况。
测序原理
PE/MP 测序也叫双向测序,是对一个长的序列测得其两端的序列。两端的序列形成"一对",中间的距离叫插入长度(insert length)。
Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。
Paired-end Reads 序列方向:→←
生物信息中的 Paired-end Reads
Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的 (或1:N:0:CCGTCC和2:N:0:CCGTCC)后缀,通过这种方式来标示paired-end reads。
在拼接前,通常需要进行去除低质序列、接头等预处理,比如使用FASTX-Toolkit中的fastq_quality_filter去除低质序列,造成有些paired-end的前面序列被剔除,有些后面的序列被剔除,paired-end序列无法成对的错落出现,在做后续分析时需要将单独的reads挑出来,具体实现方法见:paired-end reads的拼接;但其实有些预处理软件会自动保存成paired-end 和unpaired 的结果,如 Trimmomatic。
bam 文件中提取fastq reads。
bedtools
的bamToFastq
工具可从sorted 后的bam文件中提取fastq序列:bamToFastq -i XX.sorted.bam -fq XX.R1.fastq -fq2 XX.R2.fastq
;
参考链接
1. Mate Pair and Paired-End Sequencing – Illumina
2. paired-end reads的拼接
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。