Paired-end Reads

原创： hope 2018-06-04

目前的二代测序技术有单端测序(Single-read)和双端测序(Paired-end和Mate-pair)两种方式。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。本期主要介绍双端测序中的 Paired-end reads 情况。

测序原理

PE/MP 测序也叫双向测序，是对一个长的序列测得其两端的序列。两端的序列形成"一对"，中间的距离叫插入长度（insert length）。
Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序。
Paired-end Reads 序列方向：→←

Fastq格式中paired-end reads的编号相同，但是其有/1或者/2的 (或1:N:0:CCGTCC和2:N:0:CCGTCC)后缀，通过这种方式来标示paired-end reads。
在拼接前，通常需要进行去除低质序列、接头等预处理，比如使用FASTX-Toolkit中的fastq_quality_filter去除低质序列，造成有些paired-end的前面序列被剔除，有些后面的序列被剔除，paired-end序列无法成对的错落出现，在做后续分析时需要将单独的reads挑出来，具体实现方法见：paired-end reads的拼接；但其实有些预处理软件会自动保存成paired-end 和unpaired 的结果，如 Trimmomatic。
bam 文件中提取fastq reads。 bedtools 的bamToFastq工具可从sorted 后的bam文件中提取fastq序列：bamToFastq -i XX.sorted.bam -fq XX.R1.fastq -fq2 XX.R2.fastq；

1. Mate Pair and Paired-End Sequencing – Illumina

2. paired-end reads的拼接

还有更多文章，请移步公众号阅读

如果你生信基本技能已经入门，需要提高自己，请关注上面的生信技能树，看我们是如何完善生信技能，成为一个生信全栈工程师。

如果你是初学者，请关注下面的生信菜鸟团，了解生信基础名词，概念，扎实的打好基础，争取早日入门。