凌波微课|扩增子研究第七讲:高通量下机数据质控标准
The following article is from 凌波微课 Author Young
我是主讲人小Young,今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序下机数据格式和质量评估标准,今天我们就带大家看一下高通量下机数据质控标准。
本期凌波微课主要有三个方面的内容:
PART 1
数据质控整体流程
高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。
Illumina测序的下机数据一般为fastq格式,至于fastq格式的说明我们已经在上期《凌波微课|扩增子研究第六讲:高通量下机数据评估标准》中有详细描述,Illumina PE250测序序列首先需要对reads的质量进行质控过滤;接着根据PE reads之间的overlap关系,将成对的reads拼接(merge)成一条序列;最后按照barcode和引物序列拆分得到每个样本的优质序列,并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体。
PART 2
数据质控基本概念
扩增子barcodes
为什么扩增子有barcode?基因组测序、RNA-Seq、ChIP-Seq等等,都是一个文库对应一个样品,因此不需要使用barcode进行数据拆分。而扩增子使用barcode的原因是扩增子目前研究对象是细菌活真菌多样性,其对数据量要求最多3-5w条序列即可饱合。而Illumina测序仪的通量很高,采用Index来区分每个文库,而每个文库的数据量仍然可以达到千万的级别,加上建库测序的成本也不会低于千元。对于扩增子动辄成百上千的样品即太贵,又浪费。因此将扩增子样本添加上barcode(标签),通常将20-50个样品混合在一起,构建一个测序文库,达到高通量测序大量样品同时降低实验成本的目的。
通常的测序仪下机数据,只经过Index比对,拆分成来自不同文库的数据文件,分发给用户。而扩增子的一个文库包括几十个样品,还需要通过每个样品上标记的特异Barcode进一步区分,再进行下游分析。
那么Barcode一般在扩增子的位置和类型?
Barcode位于引物的外侧,比较典型的有三种,下图展示的为最常用的barcode位于两端,此外还有右端和左端两类也比较常用。
碱基质量值(Quality Score或Q-score)
Fastq数据中的质量字符并不是和质量值Q值直接对应起来的,fastq数据格式中的质量字符是ASCII值,在Phred+64体系中,ASCII值-64的结果就是Q值,在Phred+33体系中,ASCII值-33的结果就是Q值。在Phred体系中,Q = -10log10(P), 碱基质量值与误率的对应关系表如下所示:
注:Q10准确率为90%,Q20准确率为99%,Q30准确率为99.9%,Q40准确率为99.99%,Q50准确率为99.999%。
PCR Duplication
Duplication出现的类型有两种,一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplication。
由于这些重复序列不能带来额外信息,相反会影响变异检测结果准确性,因此下游生信分析中这些重复序列是需要去除的去掉。这也就意味着Duplication rate越高,数据利用率越低,测序成本浪费的也就越多。因此在NGS生信分析中首要了解的就是Duplication rate的占比。重复序列包括3种情况:a. 完全重复,如(Full length);b. 前端重复,如(Prefix);c. 中间一段重复,如(Substring)。
PCR扩增对Duplication Rate的影响:
PCR扩增带有一定的偏好性和错配率,会影响最终形成文库的覆盖度和测序准确性。PCR本身对于不同GC含量的样本的扩增效率是不同的,中等GC含量扩增效率最高,高GC含量扩增最慢,也就是说PCR循环越多,扩增困难和扩增容易的片段之间相差就会越大,对应的分子多样性就会越低,Duplication就会增大。另外PCR本身在扩增的过程中可能会产生一些碱基的错配,错误的扩增可能会导致dup值升高。因此对于PCR过程中的Duplication值,我们可以人为的增加投入样本的量(增加样本DNA的多样性),同时降低PCR的循环数,选择均一性和保真性较好的扩增酶,就可以将这一过程中产生的Duplication,控制在合理的范围内。
Cluster生成对Duplication的影响:
Cluster在flowcell上的生成也是一个PCR过程。这个PCR比较容易被人遗忘。如果cluster变少,影响Duplication rate。原因是比例少的分子可能不能产生cluster,唯一性分子数减少,进而影响Duplication rate。适当的cluster生成密度,不仅能够获得最佳的数据产量,也能够获得较低的Duplication rate。目前的平台中,我们都希望cluster是单克隆(monoclonal)的,多克隆(Polyclonal)的cluster会出现空间距离过近而导致图像识别时相互overlap的cluster被测序识别程序过滤掉,造成的直接影响就是cluster密度过高,数据产量降低,整张芯片的cluster多样性降低,造成Duplication rate升高。
嵌合体 (Chimera)
样品在PCR的过程中,会有一些意外因素导致PCR产物由不同的模板复制得到不同的部分,使得PCR产物出现原本不存在的序列,称为嵌合体。嵌合体序列由来自两条或者多条模板链的序列组成,示意图如下:
PART 3
数据质控标准
16S扩增子测序数据主要来自HiSeq2500产出的双端各250 bp (PE250)数据,因为读长长且价格便宜(性价比高)。PacBio读长长可直接测序16S全长1.5kb代表未来的趋势。
测序公司通常会返回raw data和clean data两种数据,raw data为测序获得的原始数据,而clean data则为去除含有接头序列及测序不确定N比例较高的结果,通常直接采用clean data进行质量评估及后续分析。
采用Trimmomatic软件,窗口大小为10 bp,步长为1 bp,从5'端第一个碱基位置开始移动,从第一个平均质量值低于20的窗口处截断序列;
要求截断后的序列长度≥ 150 bp;
且不允许存在模糊碱基(Ambiguous base)N;
根据PE reads之间的overlap关系,将成对reads拼接(merge)成一条序列,最小overlap长度为10bp;
拼接序列的overlap区允许的最大错配比率为0.2,筛除不符合序列;
根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2;
序列的嵌合体通过Usearch(http://drive5.com/usearch/)与gold database比对去除。
输入序列被切割成4个没有重叠的部分chunk。
每一个用来去比对数据库的序列,每一个chunk匹配上的数据库中的序列被标记出来。
通过计算相似性最近的两条父链被发现。
如果得分超过阀值则认定为嵌合体。
今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。
下一期,我们将为大家介绍OUT物种分类注释。
玩转科研就来凌波微课,我们下期见!
扩展阅读
高通量测序基础知识 微生物群落数据分析教程 抗生素抗性基因相关 宏组学研究之“道” 转录组测序技术和结果解读 红皇后学术文献解读列表 基本分子生物学实验 PAST:最简便易用的统计学分析软件教程目录 每天学习一点R系列 微生物研究相关工具 微生物研究投稿期刊简介