Microbiome：HiSeq平台16S扩增子超高通量测序文库构建方法

原创 2017-08-09 刘永鑫 植物微生物组

Microbiome：HiSeq平台16S扩增子超高通量测序文库构建方法

摘要

背景

先进的测序技术和生物信息分析，使微生物群体分析的技术路线非常成熟。然而，在数据产生过程中的技术仍需改进，如增加通量并降低成本，建立评估体系来鉴定测序中的引入的偏好。

方法

我们采用三重索引(Index)的扩增子测序策略，以极低的成本产生大量样品的数据，并且只比传统方法多很短的时间。设计采用两阶段PCR方法，每个样品整合了三类标签(barcode)，伴有添加第4索引的可能。当Illumina平台测序扩增时，添加的杂合间隔序列(spacers)有助于克服低复杂度测序偏差(bias)的情况。

结果

文库的制备方法采用人工重组群落进行评估，包括样品的索引、PCR循环次数、模板浓度。并进一步通过重测序标准的环境样品评估方法。评估方法在人类粪便的研究队列中，表现在很好的实验一致性。在样品间的差异，主要来自批次效应，如DNA提取、样品的Index都是主要的偏好来源。PCR循环数与嵌合体形成比例高度正相关，以及与高GC含量物种的相对丰度估计负相关。文库测序采用HiSeq和MiSeq均展示可测序上千的样品以极低的成本。

结论

本文提供了目前最系统的关于16S rRNA基因扩增子测序方法最系统的评估和偏好(bias)分析。三重索引极大的减少了样品样备中长自定义DNA oligo数量的需求，并最小化杂合spacer长度。本设计极大的减少实验成本。测序偏好的发现，为现有方法提供高标准的指导。最终，生物学的现象存在稳定的差异，其强度远大于各种偏好引起的变异。

关键字

16S rRNA基因扩增子测序，Illumina文库制备，索引PCR，人工重组菌群，环境测序，评估标准，PCR偏好，嵌合体形成

图表

图1.三重索引两步PCR实验设计

两步PCR整合三重索引(Index)策略。第一轮PCR(PCR1)，模板序列(绿色)目标区域被扩增。此轮反应的引物还包括索引序列、杂合的间隔序列(heterogeneity spacer 红色)和部分Illumina接头(蓝色)。第二轮PCR(PCR2)引物第三个索引(深蓝色)用于Illumina测序文库的区分。

图2.33个人工群落的测序相对丰度

采用MiSeq 96次重复和HiSeq 24次重复结果的数据分布箱线图。图中两个测序平台分别是箱体比较(HiSeq - HS, MySeq - MS)在33种菌中在丰度分布；颜色间隔为方便组的区分；红色线为物种丰度的期望值。箱体线外的圈为异常值。

图3. 主成分分析引物对结果丰度的影响

a. 样品按反向引物上色，b. 样品按正向引物上色；本图展示引物对扩增结果的系统影响程度。可以看出反向引物对结果存在影响较明显，可在第一轴明显分开；正向引物影响不大，部分可以第二轴分开；

图4. GC含量与相对丰度相关分析：负相关

同样的起始量，GC含量越高，反而相对丰度越低，不容易被扩增和测序。

图5.主成分分析循环数和起始DNA量对结果丰度的影响

表现循环数没有引起太大的变化，而起始DNA浓度可以在第二轴明显分开。

图6. PCR循环数与相对丰度的关系

图中点代表P-value值对应左Y轴坐标；物种的GC含量用垂线表示对应右Y轴坐标；黑虚水平线为物种的期望丰度；蓝虚线为显著性阈值0.05；红色代表负正关，绿色代表正相关。右侧高GC含量的菌丰度与PCR循环数显著负相关。

图7.PCR循环数与嵌合体比例的关系

发现PCR循环数与嵌合体含量呈明显正相关；同样25+10的两步法比30+5的嵌合体更少。

图8. 重组菌群和健康人体的Beta多样性分析

证明了当前的方法足以发现之前研究的结果，并且与标准方法结果差异不大

文章推荐方法细节

高标准的DNA提取和样本处理方法
PCR退火时间30s
PCR1中的正反向Index要不同
标准化双Index样品的DNA量
第一轮PCR后混样
第二轮PCR 10次循环
纯化，采用1：1 AMPure进行片段选择
测序采用HiSeq 2500的PE250模式

点评

本文在实验建库的多个环节进行了系统的测试和分析，为最终结果中误差的产生提供了很多的理论依据，同时为实验操作提供指导。这些导致偏好的原因对分析人员更重要，方便改进分析策略和出现问题的原因推断及解决。

我们组的方法和其类似，应该效率各方面绝不比其差，为什么没有考虑过发表呢？此外，实验室的高通量培养组学、高通量细菌鉴定和分析技术，也应该有很多同行急需的，可以考整理发表。

热心肠日报：科普版介绍

Microbiome：Illumina HiSeq平台的新文库制备方法

原标题：新的超高通量16S rRNA基因扩增子测序文库制备方法用于Illumina HiSeq平台
① 介绍一种三指数扩增子测序方法用于大规模样品测序；② 在两阶段PCR基础上，每个样本整合三个条形码，或增加第四个指数，并包含异质性间隔区以克服Illumina平台扩增子测序的低复杂性问题；③ 样本间变异主要与批处理效果相关，如DNA抽提，而样本标引亦是偏差的重要来源，PCR循环数严重影响嵌合体形成、影响对高GC含量物种相对丰度的估计；④ 该方法显著减少文库制备所需的长制定DNA寡核苷酸数，不同长度的异质性间隔区使对PhiX的需求最小化。

英文摘要原文

Microbiome [IF:8.496]
A novel ultra high-throughput 16S rRNA gene amplicon sequencing library preparation method for the Illumina HiSeq platform
DOI: 10.1186/s40168-017-0279-1
Abstract:
Background Advances in sequencing technologies and bioinformatics have made the analysis of microbial communities almost routine. Nonetheless, the need remains to improve on the techniques used for gathering such data, including increasing throughput while lowering cost and benchmarking the techniques so that potential sources of bias can be better characterized.
Methods We present a triple-index amplicon sequencing strategy to sequence large numbers of samples at significantly lower c ost and in a shorter timeframe compared to existing methods. The design employs a two-stage PCR protocol, incorpo rating three barcodes to each sample, with the possibility to add a fourth-index. It also includes heterogeneity spacers to overcome low complexity issues faced when sequencing amplicons on Illumina platforms.
Results The library preparation method was extensively benchmarked through analysis of a mock community in order to assess biases introduced by sample indexing, number of PCR cycles, and template concentration. We further evaluated the method through re-sequencing of a standardized environmental sample. Finally, we evaluated our protocol on a set of fecal samples from a small cohort of healthy adults, demonstrating good performance in a realistic experimental setting. Between-sample variation was mainly related to batch effects, such as DNA extraction, while sample indexing was also a significant source of bias. PCR cycle number strongly influenced chimera formation and affected relative abundance estimates of species with high GC content. Libraries were sequenced using the Illumina HiSeq and MiSeq platforms to demonstrate that this protocol is highly scalable to sequence thousands of samples at a very low cost.
Conclusions Here, we provide the most comprehensive study of performance and bias inherent to a 16S rRNA gene amplicon sequencing method to date. Triple-indexing greatly reduces the number of long custom DNA oligos required for library preparation, while the inclusion of variable length heterogeneity spacers minimizes the need for PhiX spike-in. This design results in a significant cost reduction of highly multiplexed amplicon sequencing. The biases we characterize highlight the need for highly standardized protocols. Reassuringly, we find that the biological signal is a far stronger structuring factor than the various sources of bias.
First Authors:
Eric J de Muinck, Pål Trosvik
Correspondence:
Arvind Y M Sundaram
All Authors:
Eric J de Muinck, Pål Trosvik, Gregor D Gilfillan, Johannes R Hov, Arvind Y M Sundaram

Reference

https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-017-0279-1
http://www.biorxiv.org/content/early/2017/04/05/124057
http://www.xunludkp.com/papers/read/1074875780?kf=mobile.searc

阅读更多微生物组文章，欢迎扫码关注“植物微生物组”

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！