查看原文
其他

凌波微课|扩增子研究第六讲:高通量下机数据评估标准

Young 凌波微课 2023-08-18

学生信,做分析,就上凌波微课

高通量下机数据评估标准
同学们,大家好!学生信,做分析,就上凌波微课!欢迎大家扫描视频上方的二维码,关注凌波微课,加入凌波微课交流群,参与我们的课程和课下交流。

我主讲人Young今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序流程,测序之后得到原始下机数据,今天我们就带大家看一下高通量下机数据评估标准。

本期凌波微课主要有两方面的内容:

1.高通量测序原始数据格式说明

2.下机数据质量评估


下机数据

我们来看一下具体的下机数据,高通量测序得到的一般是FASTQ格式的raw data二代测序方式一般有2种:single read单端测序paired-end read双端测序大多数数据为双端测序,测序仪原始下机的数据我们称为raw data,根据index序列区分各个样本的数据,提取出的数据以fastq格式保存。二代测序每个测序片段我们称为read,质控完的数据称为clean data。既然是双端测序,那么文件就是成对出现的,分别记录reads两端的信息:一般的命名是*.1.fq.gz、*.2.fq.gz(' * ' 表示通配符),这是一个fastq文件,通常以fq或fastq作为后缀

三代(Pacbio或者Nanopore)全长扩增子测序能直接将16S rRNA序列完全覆盖,因此测序结果只有一个fastq文件。


Fastq格式

接下来我们来具体看一下什么是Fastq格式。Fastq格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。核酸序列4种碱基的排列顺序表示,每一个碱基对应的质量得分单个ASCII字符表示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的数据标准。

    FASTQ文件中,一个序列通常由4行组成:

    ① 第一行以@开头,之后为序列的标识符以及描述信息;

    ② 第二行为序列信息;

    ③ 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选,但“+”不能省略);

    ④ 第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

fastq格式中,第四行的碱基对应的质量得分以ASCII码显示,而不是通常意义的得分数值。这一碱基质量得分通常在使用的时候会转化为数字形式。因为Illumina平台是依赖于荧光判断碱基种类,因此在测序的过程中可能会检测到混合颜色的荧光,就会产生一定的碱基错误概率;

碱基质量值(Quality ScoreQ-score)是碱基识别(Base Calling)出错的概率的整数映射。最初由Phred程序的开发者定义,一般称为Phred quality通常使用的Phred碱基质量值公式为:Q=-10*log10(P),P为碱基错误概率。也就是Q=20时,碱基错误概率为0.01Q=30时,碱基错误概率为0.001

碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。比如,对于碱基质量值为Q20的碱基识别,100个碱基中有1个会识别出错;对于碱基质量值为Q30的碱基识别,1,000个碱基中有1个会识别出错;Q40表示10,000个碱基中才有1个会识别出错。

FASTQ格式数据,第一行序列的标识符以及描述信息解读:

@M05453:168:000000000-C9YJ4:1:1101:19577:1261 1:N:0:ATCACG
左右滑动查看

我们对原始fastq数据组装之后,就得到fasta序列文件。FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

第一行首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。

第二行是序列信息,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。直到下一个大于号,表示该序列的结束。

FASTA格式支持的核苷酸和氨基酸代码,具体代码如下:


FASTA格式是序列存储的最常见的格式,例如基因组序列、转录本序列、exon序列、cDNA序列、蛋白序列、UTR序列、基因序列、CDS序列等。FASTA文件常见后缀名:fastafafnafaa。这些都是可用的FASTA格式文件。


下机数据质量展示

那么,如何对下机数据质量进行直观的展示呢?多样性测序通常采用Illumina PE250平台,因此得到的reads长度为250bpIllumina下机数据一般会提供这两幅图用于评估数据的质量。以reads碱基位置作为横坐标,对单个样本中的碱基分布和质量进行统计。

    碱基分布图:横坐标是reads碱基坐标,纵坐标是所有reads ACGTN 碱基分别占的百分比。在文库较均匀随机的情况下,四种颜色的分界线应该波动极小,呈一条直线。正常情况下N应该是极少的,同时ATGC4种碱基的波动比较小,基本上成一个直线,在序列起始位置,碱基比例有一定波动是正常现象。

测序质量分布图,对于每一条下机的read,测序仪会自动给出其每一个碱基的质量得分,该图中横坐标依然是下机reads中碱基的排列位置,纵坐标是该位置上碱基的平均质量,以箱线图的形式进行展示,如果大部分碱基的质量得分超过20,就表示测序文库的质量没有问题,数据可以用来进行下一步的分析。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。

玩转科研就来凌波微课,我们下期见!


下一期主题预告




高通量数据质控标准






往期精彩




凌波微课|扩增子研究第五讲:微生物群落研究建库测序流程凌波微课|扩增子研究第四讲:微生物群落研究策略凌波微课|扩增子研究第三讲:微生物群落研究的目的凌波微课|测序技术发展史及应用凌波微课|分子钟学说和现代应用凌波微课|微生态群落中单个物种的绝对定量?凌波微课|藻类与陆生植物起源凌波微课|读播:如何回复审稿意见凌波微课|如何消除数据的批次效应?选对工具很重要凌波微课|生物学重复,你有必要知道的那些事儿!凌波微课|生物学重复,值得你拥有!

凌波微课|微生物组多样性研究新热门——16s rDNA全长扩增子测序


红皇后学术以微生物群落研究为核心,重点关注扩增子测序和宏基因组测序,同时辐射转录组、蛋白质组合代谢组。
在分析技术上,主要为基于R语言的组学数据统计、分析和可视化解决方案。

凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。

凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。

关注我

发现更多精彩

关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存