凌波微课|扩增子研究第六讲:高通量下机数据评估标准
学生信,做分析,就上凌波微课!
我主讲人Young。今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序流程,测序之后得到原始下机数据,今天我们就带大家看一下高通量下机数据评估标准。
本期凌波微课主要有两方面的内容:
1.高通量测序原始数据格式说明
2.下机数据质量评估下机数据
我们来看一下具体的下机数据,高通量测序得到的一般是FASTQ格式的raw data。二代测序方式一般有2种:single read单端测序和paired-end read双端测序。大多数数据为双端测序,测序仪原始下机的数据我们称为raw data,根据index序列区分各个样本的数据,提取出的数据以fastq格式保存。二代测序的每个测序片段我们称为read,质控完的数据称为clean data。既然是双端测序,那么文件就是成对出现的,分别记录reads两端的信息:一般的命名是*.1.fq.gz、*.2.fq.gz(' * ' 表示通配符),这是一个fastq文件,通常以fq或fastq作为后缀。
三代(Pacbio或者Nanopore)全长扩增子测序能直接将16S rRNA序列完全覆盖,因此测序结果只有一个fastq文件。
Fastq格式
接下来我们来具体看一下什么是Fastq格式。Fastq格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。核酸序列由4种碱基的排列顺序表示,每一个碱基对应的质量得分由单个ASCII字符表示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的数据标准。
① 第一行以@开头,之后为序列的标识符以及描述信息;
② 第二行为序列信息;
③ 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选,但“+”不能省略);
在fastq格式中,第四行的碱基对应的质量得分以ASCII码显示,而不是通常意义的得分数值。这一碱基质量得分通常在使用的时候会转化为数字形式。因为Illumina平台是依赖于荧光判断碱基种类,因此在测序的过程中可能会检测到混合颜色的荧光,就会产生一定的碱基错误概率;
碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。最初由Phred程序的开发者定义,一般称为Phred quality。通常使用的Phred碱基质量值公式为:Q=-10*log10(P),P为碱基错误概率。也就是Q=20时,碱基错误概率为0.01,Q=30时,碱基错误概率为0.001。
碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。比如,对于碱基质量值为Q20的碱基识别,100个碱基中有1个会识别出错;对于碱基质量值为Q30的碱基识别,1,000个碱基中有1个会识别出错;Q40表示10,000个碱基中才有1个会识别出错。
FASTQ格式数据,第一行序列的标识符以及描述信息解读:
@M05453:168:000000000-C9YJ4:1:1101:19577:1261 1:N:0:ATCACG
我们对原始fastq数据组装之后,就得到fasta序列文件。FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。
第一行首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。
FASTA格式支持的核苷酸和氨基酸代码,具体代码如下:
FASTA格式是序列存储的最常见的格式,例如基因组序列、转录本序列、exon序列、cDNA序列、蛋白序列、UTR序列、基因序列、CDS序列等。FASTA文件常见后缀名:fasta、fa、fna、faa。这些都是可用的FASTA格式文件。
下机数据质量展示
那么,如何对下机数据质量进行直观的展示呢?多样性测序通常采用Illumina PE250平台,因此得到的reads长度为250bp。Illumina下机数据一般会提供这两幅图用于评估数据的质量。以reads碱基位置作为横坐标,对单个样本中的碱基分布和质量进行统计。
碱基分布图:横坐标是reads碱基坐标,纵坐标是所有reads 的A、C、G、T、N 碱基分别占的百分比。在文库较均匀随机的情况下,四种颜色的分界线应该波动极小,呈一条直线。正常情况下,N应该是极少的,同时ATGC4种碱基的波动比较小,基本上成一个直线,在序列起始位置,碱基比例有一定波动是正常现象。
今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。
玩转科研就来凌波微课,我们下期见!
下一期主题预告
高通量数据质控标准
往期精彩
凌波微课|扩增子研究第五讲:微生物群落研究建库测序流程凌波微课|扩增子研究第四讲:微生物群落研究策略凌波微课|扩增子研究第三讲:微生物群落研究的目的凌波微课|测序技术发展史及应用凌波微课|分子钟学说和现代应用凌波微课|微生态群落中单个物种的绝对定量?凌波微课|藻类与陆生植物起源凌波微课|读播:如何回复审稿意见凌波微课|如何消除数据的批次效应?选对工具很重要凌波微课|生物学重复,你有必要知道的那些事儿!凌波微课|生物学重复,值得你拥有!
凌波微课|微生物组多样性研究新热门——16s rDNA全长扩增子测序
凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。
凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。关注我
发现更多精彩
关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!