凌波微课|扩增子研究第六讲：高通量下机数据评估标准

Original Young 凌波微课 2023-08-18

收录于合集

#聊科研 72 个

#知识速享 42 个

学生信，做分析，就上凌波微课！

高通量下机数据评估标准

同学们，大家好！学生信，做分析，就上凌波微课！欢迎大家扫描视频上方的二维码，关注凌波微课，加入凌波微课交流群，参与我们的课程和课下交流。

我主讲人Young。今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序流程，测序之后得到原始下机数据，今天我们就带大家看一下高通量下机数据评估标准。

本期凌波微课主要有两方面的内容：

1.高通量测序原始数据格式说明

2.下机数据质量评估

下机数据

我们来看一下具体的下机数据，高通量测序得到的一般是FASTQ格式的raw data。二代测序方式一般有2种：single read单端测序和paired-end read双端测序。大多数数据为双端测序，测序仪原始下机的数据我们称为raw data，根据index序列区分各个样本的数据，提取出的数据以fastq格式保存。二代测序的每个测序片段我们称为read，质控完的数据称为clean data。既然是双端测序，那么文件就是成对出现的，分别记录reads两端的信息：一般的命名是*.1.fq.gz、*.2.fq.gz（' * ' 表示通配符），这是一个fastq文件，通常以fq或fastq作为后缀。

三代（Pacbio或者Nanopore）全长扩增子测序能直接将16S rRNA序列完全覆盖，因此测序结果只有一个fastq文件。

Fastq格式

接下来我们来具体看一下什么是Fastq格式。Fastq格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。核酸序列由4种碱基的排列顺序表示，每一个碱基对应的质量得分由单个ASCII字符表示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的数据标准。

FASTQ文件中，一个序列通常由4行组成：

① 第一行以@开头，之后为序列的标识符以及描述信息；

② 第二行为序列信息；

③ 第三行以+开头，之后可以再次加上序列的标识及描述信息（可选，但“+”不能省略）；

④ 第四行为质量得分信息，与第二行的序列相对应，长度必须与第二行相同。

在fastq格式中，第四行的碱基对应的质量得分以ASCII码显示，而不是通常意义的得分数值。这一碱基质量得分通常在使用的时候会转化为数字形式。因为Illumina平台是依赖于荧光判断碱基种类，因此在测序的过程中可能会检测到混合颜色的荧光，就会产生一定的碱基错误概率；

碱基质量值（Quality Score或Q-score）是碱基识别（Base Calling）出错的概率的整数映射。最初由Phred程序的开发者定义，一般称为Phred quality。通常使用的Phred碱基质量值公式为：Q=-10*log10(P)，P为碱基错误概率。也就是Q=20时，碱基错误概率为0.01，Q=30时，碱基错误概率为0.001。

碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。比如，对于碱基质量值为Q20的碱基识别，100个碱基中有1个会识别出错；对于碱基质量值为Q30的碱基识别，1,000个碱基中有1个会识别出错；Q40表示10,000个碱基中才有1个会识别出错。

FASTQ格式数据，第一行序列的标识符以及描述信息解读：

@M05453:168:000000000-C9YJ4:1:1101:19577:1261 1:N:0:ATCACG

左右滑动查看

我们对原始fastq数据组装之后，就得到fasta序列文件。FASTA格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

第一行首先以大于号“>”开头，接着是序列的标识符，然后是序列的描述信息，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性。

第二行是序列信息，只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。直到下一个大于号，表示该序列的结束。

FASTA格式支持的核苷酸和氨基酸代码，具体代码如下：

FASTA格式是序列存储的最常见的格式，例如基因组序列、转录本序列、exon序列、cDNA序列、蛋白序列、UTR序列、基因序列、CDS序列等。FASTA文件常见后缀名：fasta、fa、fna、faa。这些都是可用的FASTA格式文件。

下机数据质量展示

那么，如何对下机数据质量进行直观的展示呢？多样性测序通常采用Illumina PE250平台，因此得到的reads长度为250bp。Illumina下机数据一般会提供这两幅图用于评估数据的质量。以reads碱基位置作为横坐标，对单个样本中的碱基分布和质量进行统计。

碱基分布图：横坐标是reads碱基坐标，纵坐标是所有reads 的A、C、G、T、N 碱基分别占的百分比。在文库较均匀随机的情况下，四种颜色的分界线应该波动极小，呈一条直线。正常情况下，N应该是极少的，同时ATGC4种碱基的波动比较小，基本上成一个直线，在序列起始位置，碱基比例有一定波动是正常现象。

测序质量分布图，对于每一条下机的read，测序仪会自动给出其每一个碱基的质量得分，该图中横坐标依然是下机reads中碱基的排列位置，纵坐标是该位置上碱基的平均质量，以箱线图的形式进行展示，如果大部分碱基的质量得分超过20，就表示测序文库的质量没有问题，数据可以用来进行下一步的分析。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。

玩转科研就来凌波微课，我们下期见！

下一期主题预告

高通量数据质控标准

往期精彩

凌波微课|微生物组多样性研究新热门——16s rDNA全长扩增子测序

红皇后学术以微生物群落研究为核心，重点关注扩增子测序和宏基因组测序，同时辐射转录组、蛋白质组合代谢组。

在分析技术上，主要为基于R语言的组学数据统计、分析和可视化解决方案。

凌波微课，创意于2020年不平凡的春天，由高通量测序及组学研究领域从业近十年的技术团队精心打造。

凌波微课的讲师们，实战经验丰富，旨在通过在线微课程及线下交流，帮助科研学生及科研工作者们由简入繁，掌握科研思路及生信分析的实际操作。凌波微课，用心服务科研用户，打造专业培训品牌，助力科研提升。

关注我

发现更多精彩

关注凌波微课公众号，回复“入群”，即可加入凌波微课课下交流群，更多干货等你呦！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

凌波微课|扩增子研究第六讲：高通量下机数据评估标准

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

凌波微课|扩增子研究第六讲：高通量下机数据评估标准

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡