【文献解读】方法详解:应用Nanopore三代测序技术解析人类肠道病毒组
简介
标题:Medicine in Microecology:应用Nanopore三代测序技术解析人类肠道病毒组
杂志:Medicine in Microecology
影响因子:新杂志
发表时间:2020年05月08日
解读:路引Wendy
编辑:很跩的土豆
导读:前面的推送已经探讨了应用Nanopore三代测序技术解析人类肠道病毒组的结果。今天我们再次推送这篇文章,主要是详解该文中涉及到的肠道病毒组的提取、Nanopore测序建库和测序数据的分析流程。希望该文的推出,能够让对肠道病毒组感兴趣的小伙伴,能够复制本研究的研究流程。
原文链接:【文献阅读】Medicine in Microecology:微生物所王军组发表Nanopore三代测序人类肠道病毒组的方法
正文
1. 病毒分离、纯化、富集
由于粪便样本的宏基因组测序通常仅包含很小一部分的病毒序列,而且大多数来源于细菌和古菌,病毒富集是非常必要的。因此,研究者结合包括过滤、超速离心等一系列富集方法对粪便样本中的病毒样颗粒(VLPs)进行富集。VLPs分离后加DNase和RNase处理以去除非病毒来源的游离DNA/RNA。(图1中第1步到第7步)。简述如下:
(1)清洗:冷冻粪便样本(约1.5克)在15ml无菌PBS中重悬,并彻底均质化。
(2)离心:4°C,4500rpm,离心10分钟,以去除食物残渣;上清再次4°C,4500rpm,离心10分钟。
(3)过滤:使用0.45 μm PVDF膜过滤上清,去除真核和细菌大小的颗粒
(4)超离心:4°C,180000 g,3h。
(5)纯化:400ul无菌PBS重悬颗粒。
(6)消化:37°C,8U的TURBO DNaseⅠ (Ambion)和20U的RNase A (Fermentas),30min。
(7)提取:试剂盒,QIAamp MinElute Virus Spin Kit (Qiagen)
Fig. 1. An integrated novel workflow for enrichment of virus-like particles (VLPs), extraction of nucleic acids and ONT sequencing. The complete workflow consists of four fragments: (1) Washing and filtration of fecal samples using sterile PBS and PVDF membrane including step 1–3; (2) Precipitation of VLPs including step 4–5; (3) Extraction, amplification and purification of viral nucleic acids including step 6–8; (4) Construction of library and ONT sequencing including step 9–10.
2. 病毒逆转录和随机扩增
处理后的核酸进行定量,一式两份,一份直接进行Nanopore建库测序以分析病毒丰度和甲基化;另一份经反转和随机扩增后测序。流程如:
(1) 逆转录:20ul体系,使用引物Rrm (5′-GACCATCTAGCGACCTCCAC - NNNNNN-3′)合成第一链cDNA;对于双链cDNA合成,使用100 pmolRrm 和Klenow片段。
(2) 随机扩增:200ul体系,包括4 μM 引物Rm(5′-GCCGGAGCTCTGCAGAATTC-3′),90 μM dNTPs,80 μM Mg2+, 10x 缓冲液和 1 U 的KOD-Plus DNA polymerase (Toyobo)。扩增产物使用试剂盒提纯。
3. 建库及测序
PromethION文库是按照商品说明完成(SQK-LSK109 和 EXP-NBD104)。cDNA/DNA和原始DNA加barcode。Multiplexing时,所有样本都汇集在一起。ONT MinKNOW 软件(v.19.10.1)用于收集原始测序数据,Guppy(v.3.2.4)用于完成测序后对原始数据的本地数据调用。PromethION运行了96小时。
4. ONT 序列分析和组装
Qcat(牛津Nanopore技术)是一种从 FASTQ 文件多路处理ONT reads的 python 命令行工具。使用基因组大小 = 2k 和默认参数,使用Canu软件对原始DNA组和扩增的cDNA/DNA组的病毒序列进行组装,其中包括reads校正,reads修整和重叠群构建。
5. 对比现有数据库
使用mimimap2将qcat过滤好的原始reads序列与NCBI病毒基因组数据进行比对,以识别肠道病毒体组成。将数据(NCBI) 病毒基因组数据库的参考基因组对照,该数据库包括所有已知的病毒基因组序列。为了提高病毒分类的准确性,使用以下两个标准:(1)参考病毒基因组覆盖深度≥5X;(2)参考病毒基因组的覆盖率宽度≥50%。
为识别Canu组装好的重叠群的类别,应用了两种方法和三个数据库,包括minimap2, blastn, NCBI 病毒基因组数据库, 人类肠道病毒数据库(GVD)和NCBI 核酸数据库。minimap2对contigs的比对结果的筛选标准同上,而blast的筛选标准为contig匹配长度大于等于1000 bp,核酸相似度大于等于98%,e值小于等于10-5。
6. 对比现有数据库
使用mimimap2将qcat过滤好的原始reads序列与NCBI病毒基因组数据进行比对,以识别肠道病毒体组成。将数据(NCBI) 病毒基因组数据库的参考基因组对照,该数据库包括所有已知的病毒基因组序列。为了提高病毒分类的准确性,使用以下两个标准:(1)参考病毒基因组覆盖深度≥5X;(2)参考病毒基因组的覆盖率宽度≥50%。
为识别Canu组装好的重叠群的类别,应用了两种方法和三个数据库,包括minimap2, blastn, NCBI 病毒基因组数据库, 人类肠道病毒数据库(GVD)和NCBI 核酸数据库。minimap2对contigs的比对结果的筛选标准同上,而blast的筛选标准为contig匹配长度大于等于1000 bp,核酸相似度大于等于98%,e值小于等于10-5。
7. 噬菌体ORFs的鉴定和注释
Seeker是一种基于深度学习框架的新预测工具,对原始DNA组中的噬菌体进行鉴定。根据multiPhATE分析流程(https://github.com/carolzhou/multiPhATE),使用PHANOTATE (一种注释噬菌体基因组的工具)对噬菌体的ORF进行识别。使用blastp 将ORFs的氨基酸序列与Phantome (http://www.phantome.org. )和 pVOGs数据库对照,参数为“相似度≥ 60 %,e-value≤0.01”。并使用jackhmmer对pVOG数据库使用默认参数进行hmm搜索。使用usearch聚类相似度≥ 99%的两个或多个样本中重复的ORFs。为了验证这些 ORFs,使用Bowtie2对相同样本的illumina数据进行maping。ORF的覆盖率由 weeSAM ( https://github.com/centre-for-virus-research/weeSAM )计算,只纳入ORFs映射reads≥ 10。
8. 甲基化分析
Tombo v1.5 用于检测原始 DNA 样本中核酸的甲基化状态。分析甲基化参数:对数似然性阈值为2.5、甲基化位点过滤阈值为显著修改片段≥0.7、覆盖深度≥10X。使用Integrative Genomics Viewer (IGV Version 2.5.3) 默认参数可视化5-甲基细胞素 (5mC) 和 N6-甲基化DNA修饰 (6mA) 的不同甲基化位点。MEME (Version 5.0.5)识别可能的甲基转移酶识别基序及绘制基序的徽标,参数为“-dna –mod zoops”。webLogo (https://weblogo.berkeley.edu/logo.cgi)用于绘制识别的模式图谱。
总结:Nanopore测序分析肠道病毒组是属于较新的研究内容,在方法学上,还有很大的改进空间,逐步探索、完善,才能获得更好分析结果。
索引
往期文献:
【文献解读】新冠病毒病毒活性与COVID-19患者肠道菌群的关系
【文献解读】Protein Cell:扩增子和宏基因组数据分析实用指南
【文献解读】SciRep:ONT MinION和Illumina Miseq对室内尘埃微生物组16S rRNA测序的区别
【文献解读】Cell Reports:去除宿主和胞外DNA以提高微生物基因组得率(痰液样本)
参考
[1] Medicine in Microecology 4 (2020) 100012
后记
随着测序技术的不断发展,科学研究进入了数据井喷的时代。然而,测序样本的处理流程、测序数据的分析流程甚至是数据分析过程中的数据库搭建问题,都给测序技术的普及化设置了壁垒,严重阻碍了该项技术向广大科研工作者中推广。此外,基于长读长的三代测序技术的发展更是引入了一套完全有别于二代测序数据处理的分析流程,为了让更多学者认识三代测序、在科学研究中用好三代测序,本公众号应运而生。期待与您一起学习、成长。
^_^ 边学习,边分享,每天进步一点点 ^_^