从测序到宏基因组：聚焦菌群生信分析方法最前沿 | 热心肠日报

Original 热心肠小伙伴们热心肠研究院 2023-03-02

今天是第2439期日报。

Nature子刊：基于三代测序的宏基因组分析助力完整微生物进化研究

Nature Methods[IF:47.99]

① 基于Pacific Biosciences或Oxford Nanopore的三代测序技术已成为获得闭环微生物基因组的常规手段，即使对特殊大量数据的读取，也可通过Oxford Nanopore测序获得；② 微生物宏基因组研究中，三代测序基因组重组完成度达到90%以上，污染率低于5%，远优于二代测序的50%和10%；③ 三代测序与Hi-C和从头DNA修饰检测等技术联合应用，有望实现菌株水平基因组和质粒的组装；④ 三代测序技术有望促进“细菌与古菌基因组百科全书，GEBA”项目的开展。

Long-read metagenomics paves the way toward a complete microbial tree of life
01-12, doi: 10.1038/s41592-022-01726-6

【主编评语】微生物是自然界中种类繁多的一类生物，与人类健康、环境等均有这密切的关系，然而由于此前技术的限制，人们对于微生物的鉴定和认识远远低于自然界实际的微生物种类和数量，因此构建微生物的完整的进化树更是镜花水月。近年来随着三代测序技术的的成熟和实施成本的大幅下降，基于三代测序的宏基因组技术已经开展在微生物学领域的研究，成为有效鉴定微生物的研究方法，使得很多此前无法开展的研究具有了可能。近期一篇发表在Nature子刊，Nature Methods的评论就三代宏基因测序技术的出现对研究微生物进化方面进行了评述，对于该技术在该领域的作用进行了前瞻性预测。（@Zhonghua）

Nature子刊：助力从Hi-C数据中识别高质量病毒基因组新工具—ViralCC

Nature Communications[IF:17.694]

① ViralCC是一种新的基于宏基因组Hi-C数据的开源分箱工具，用于恢复高质量病毒基因组及检测病毒-宿主对；② 相比其他基于Hi-C数据的工具，ViralCC利用病毒-宿主邻近结构作为Hi-C交互的补充信息源；③ 使用多个不同微生物生态系统（如人类肠道、牛粪和废水）的模拟和真实宏基因组Hi-C数据集，发现ViralCC优于现有基于Hi-C的分箱工具以及专门用于宏基因组病毒分箱的最先进工具；④ ViralCC还可揭示微生物群落中病毒和病毒-宿主对的分类结构。

ViralCC retrieves complete viral genomes and virus-host pairs from metagenomic Hi-C data
01-31, doi: 10.1038/s41467-023-35945-y

【主编评语】将高通量染色体构象捕获（Hi-C）技术引入宏基因组学，可以从微生物群落中重建高质量的宏基因组组装基因组（MAGs）。尽管最近利用Hi-C测序恢复了多种真核生物、细菌和古细菌基因组，但很少有基于Hi-C数据的工具被设计用于检索病毒基因组。近日，美国南加州大学研究人员在Nature Communications发表最细研究，开发了一种新的基于宏基因组Hi-C数据的开源分箱工具ViralCC（https://github.com/dyxstat/ViralCC），用于恢复高质量病毒基因组及检测病毒-宿主对，并在多种真实和模拟数据中应用，发现其分箱性能较好，值得进一步测试。（@九卿臣）

使用HiFi测序有助于识别MAG中的罕见突变

Genome Research[IF:9.438]

① 开发了strainFlye流程（需要输入HiFi reads和组装的contigs），用于鉴定和分析使用HiFi读数组装的MAG中罕见突变；② 使用深度HiFi测序揭示绵羊肠道数据集中多个MAG存在数万个假定的非致命罕见突变；③ 调用strainFlye流程p-mutation命令重新计算了绵羊肠道数据集的多样性指数，发现其MAG多样性指数差异很大；④ strainFlye可识别相关突变的热点和冷点，详细说明MAG的生长动态，借助link模块还可将HiFi读数连接到MAG的大部分突变位置。

Analyzing rare mutations in metagenomes assembled using long and accurate reads
2022-12-23, doi: 10.1101/gr.276917.122

【主编评语】HiFi reads是基于Sequel II平台推出的CCS测序模式产生的兼具长读长和高准确度的测序序列，有利于生成更完整的MAG，也促进了识别潜在的突变位置。近日，美国加州大学圣地亚哥分校在Genome Research发表最新研究，开发了strainFlye流程，通过相关数据集测试证明可以较好地鉴定和分析HiFi reads组装的MAG中的罕见突变，值得相关人员测试。（@九卿臣）

在微生物组测序数据中，如何选择差异丰度分析方法？

Briefings in Bioinformatics[IF:13.994]

① 差异丰度分析（DAA）是微生物组数据分析中一项中心统计任务，DAA工具可有效筛选微生物候选物，便于进一步的验证；② 时间/空间特性是微生物组研究的重要特征，但众多DAA工具时常会产生非常不一致的结果；③ 基于真实数据的模拟对11种DAA相关工具首次全面评估，发现线性模型方法LinDA、MaAsLin2和LDM比基于广义线性模型的方法性能更稳健；④ LinDA方法在假阳性控制和功率间有较好的权衡，且是唯一在强成分效应下能有效控制FDR的方法。

Benchmarking differential abundance analysis methods for correlated microbiome sequencing data
01-06, doi: 10.1093/bib/bbac607

【主编评语】如今，差异丰度分析（DAA）是微生物组数据分析中一项中心统计任务，DAA工具可有效筛选微生物候选物进而有利于进一步验证相关发现，但目前的相关工具的结果仍存在较大的差异，阻碍了相关生物学结果的解释。近日，美国梅奥医学中心的研究人员在Briefings in Bioinformatics发表最新研究，基于真实数据对11种DAA相关工具的性能进行了基准测试，发现线性模型方法（如LinDA、MaAsLin2和LDM）比基于广义线性模型的方法性能相对更稳健。此外，发现没有一种评估方法在各种设置中是最佳的，性能最佳的方法主要取决于生物学真相和数据特征，其中LinDA方法在假阳性控制和功率间能有较好的权衡，值得相关人员进一步测试。（@九卿臣）

用于校正微生物组数据中批次效应的新工具—PLSDA-batch

Briefings in Bioinformatics[IF:13.994]

① 开发了基于偏最小二乘判别分析（PLSDA）的多变量和非参数批量效应校正方法PLSDA-batch；② PLSDA-batch先估计具有潜在成分的处理和批次变化，从数据中减去批次相关成分，并将生成的批次效应校正数据输入到对应下游统计分析中；③ 提出了两个变量来处理不平衡的批次 x 处理设计，并在通过变量选择估计组分时避免过度拟合；④ 在模拟和真实案例研究中应用PLSDA-batch，相比现有方法相其性能具有较强竞争力，特别是对于不平衡批次 x 处理设计。

PLSDA-batch: a multivariate framework to correct for batch effects in microbiome data
2022-12-18, doi: 10.1093/bib/bbac622

【主编评语】多项研究发现微生物组数据很容易受到批次效应的影响，现有的批次效应校正方法主要是针对基因表达数据开发的，没有很好地考虑微生物组数据的固有特征。近日，澳大利亚墨尔本大学研究人员在Briefings in Bioinformatics发表最新研究，开发了一种基于偏最小二乘判别分析（PLSDA）的多变量和非参数批量效应校正方法PLSDA-batch（https://github.com/EvaYiwenWang/PLSDAbatch），在真实和模拟数据中发现该工具在保留处理差异的同时可以有效消除批量差异，值得进一步测试。（@九卿臣）

Cell子刊：有效应对微生物META基因型分析陷阱的策略

Cell Systems[IF:11.091]

① 宏基因组数据中存在遗传变异信息，而许多基因分型工具在调用变异信息之前进行序列比对；② 随着测序数据的增长，微生物基因组数据库纳入众多普遍存在密切相关的物种，降低了宏基因分型工具的性能；③ 对齐唯一性过低形成的多映射读取是普遍的错误分析来源，因此在实际分析中，需要在保留正确对齐与限制不正确对齐间进行权衡；④ 使用读取配对和数据库自定义的后对齐过滤器可以减少误差，改善宏基因分型性能，以对快速增长的基因组集合。

Pitfalls of genotyping microbial communities with rapidly growing genome collections
01-18, doi: 10.1016/j.cels.2022.12.007

【主编评语】在微生物宏基因组研究中，基因多态性是对微生物群落进行分型、进化研究的主要序列特征。目前主要的研究手段是将获得的序列信息通过特定开发的算法软件与已有的基因组参考序列进行比对分析从而做出判断。然而，随着测序数据的海量增长，可对比数据库中参考基因信息越来越多，也越来越复杂，而二代测序获得短读序列在这种情况下进行序列比对，必然会导致把基于序列比对的分析方法的短板无限放大，降低META基因型分析工具的性能。近期一篇发表在Cell子刊，Cell System的研究论文就针对该情况进行了深入的比较研究，对不同错误来源对结果的影响进行了评价，进而评估了几种不同的策略，可以有效提升目前META基因型分析的性能。这些研究结果对未来微生物宏基因组研究具有一定的指导意义。（@Zhonghua）

华中师范大学：评估微生物组多类表型最佳的关联工具—multiMiAT

Briefings in Bioinformatics[IF:13.994]

① 开发出一种基于微生物组的多类别表型的最佳关联测试工具multiMiAT；② 在多指标logit模型框架下，首先引入了基于微生物组回归的多类别表型内核关联测试（multiMiRKAT）；③ multiMiAT集成了multiMiRKAT、评分测试和MiRKAT-MC，以保持在不同关联模式下的卓越性能，且大规模的模拟实验也证明了该方法的卓越性能；④ multiMiAT还可应用于真实的微生物组数据实验，以检测肠菌与结直肠癌发展的临床状态，以及与艰难梭菌感染的不同状态间的关联。

multiMiAT: an optimal microbiome-based association test for multicategory phenotypes
01-25, doi: 10.1093/bib/bbad012

【主编评语】随着生物信息学的快速发展，基于微生物组的关联测试工具已被广泛开发，以检测微生物组和宿主表型之间的关联。然而，现有的方法在检测微生物组与多分类表型（如疾病严重程度和肿瘤亚型）间的关联方面仍没有展示出令人满意的性能。近日，华中师范大学蒋兴鹏及团队在Briefings in Bioinformatics发表最新研究，开发了一种用于评估微生物组多类表型最佳的关联工具multiMiAT（https://github.com/xpjiang-ccnu/multiMiAT），在模拟和真实数据中性能较好，值得测试。（@九卿臣）

化学类匹配助力基因与代谢产物的相关性

Microbiome[IF:16.837]

① 为减少潜在的BGC-MS/MS谱链接的长列表，匹配独立为基因组学和代谢组学而开发的自然产物（NP）本体，开发NPClass评分：在NPLinker平台上实现的经验类匹配评分；② 对189株菌株的三组组学数据集应用NPClass评分，与单独使用基于共现的策略相比，链接的数量平均减少了63%；③ 使用NPClassScore时，这些数据集中96%的实验验证链接被保留和确定了优先级；④ NPLinker平台利于整合组学挖掘工作流程，以发现新的NP并了解微生物组中的复杂代谢互作。

Enhanced correlation-based linking of biosynthetic gene clusters to their metabolic products through chemical class matching
01-23, doi: 10.1186/s40168-022-01444-3

【主编评语】肠道微生物产生数以万计的具有不同功能的代谢物。近年来，一些组学技术，比如代谢组学、宏基因组学等极大的促进了这些产物和基因的挖掘。本文基于NPLinker平台，实现了这些组学技术的“共现”，减少了相关性链接，并提高了精确度。（@Bingbing）

浙大Nature子刊：通过机器学习在短肽全库中高效筛选抗菌肽

Nature Biomedical Engineering[IF:29.234]

① 提出一个结合经验判断、分类、排序和回归任务组合形成的管道（SMEP），可识别和预测多肽的抗菌功能；② 在长度6-9的多肽全库上测试，发现筛选出的抗菌肽有效率达98.2%；③ 相比之前管道，SMEP执行效率提升很大，只需约19天可完成对5000亿级别样本库的全扫描，并筛选出最佳抗菌肽；④ SMEP弱化了人工干预，整体过程可完全自动化完成，不需要领域专家的额外介入；⑤ 在患有细菌性肺炎小鼠中，所确定的多肽雾化配方显示出与青霉素相当的治疗效果。

Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences
01-12, doi: 10.1038/s41551-022-00991-2

【主编评语】在过去几十年里，多肽合成和修饰化学的技术进步极大促进了治疗多肽的发现和翻译，目前，超80种多肽药物已获监管机构批准，550-750种多肽正处于临床或临床前阶段。然而，由于肽序列的组合空间很大，系统地鉴定功能肽仍具有较大困难。近日，浙江大学计剑、赵俊博、张鹏及团队在Nature Biomedical Engineering发表最新研究，开发了一种结合经验判断、分类、排序和回归任务组成的全新机器学习管道（SMEP），极短时间内即可实现在含有数千亿候选序列的六肽-九肽全序列文库中抗菌肽的识别。此外，对其中3条代表性的抗菌六肽进行了实验研究，发现在患有细菌性肺炎的小鼠中，所确定的多肽雾化配方显示出与青霉素相当的治疗效果。总之，该研究报告的机器学习管道可能会加速新功能肽的发现，值得关注。（@九卿臣）

iMeta：南方科技大学团队综述二三代宏基因组分析的策略和工具

iMeta[IF:N/A]

① 本文系统地提供了一个整合Nanopore长读长测序和illumina短读长测序的宏基因组学分析的知识框架；② 本文整合汇总了基于illumina & Nanopore集成的微生物组学宏基因组数据分析的常见策略；③ 本文总结了illumina和Nanopore测序算法基础和工具的应用属性；④ 本文系统地总结了从 DNA 提取到数据处理策略的完整工作流程，以便使读者能够在环境菌群的调查中更好的开展综合illumina & Nanopore 测序的宏基因组学研究。

Strategies and tools in illumina and nanopore-integrated metagenomic analysis of microbiome data
01-09, doi: 10.1002/imt2.72

【主编评语】本综述旨在为那些对宏基因组分析中的illumina短读（Short Reads, SRs）和Nanopore长读（Long Reads, LRs）测序整合感兴趣或正在努力的研究人员提供一个及时的知识框架。本综述提出的讨论将促进人们对自然、工程和人类菌群的群落功能和组装的生态学理解的改善，使来自多个学科的研究人员受益。（@刘永鑫-农科院-宏基因组）

iMeta：国内团队开发了原核微生物泛基因组与基因组分析平台IPGA

iMeta[IF:N/A]

① IPGA平台是一个免费、易于使用、基于web的在线服务平台，可以为没有生物信息学基础的科研工作人员提供最新的泛基因组分析服务；② IPGA可以分析、比较和可视化泛基因组以及单个基因组，使用户无需安装任何特定的工具实现该目的；③ IPGA提出了一个评分系统，帮助用户评估由不同包生成的泛基因组谱的可靠性，并给出最合理的结果，从而用于后续分析；④ IPGA提供了系统发育推断、基因组共线性评估和目标基因组注释等一系列下游分析模块。

IPGA: A handy integrated prokaryotes genome and pan-genome analysis web service
2022-09-14, doi: 10.1002/imt2.55

【主编评语】该研究，作者提供了一个可以对较大规模微生物基因组进行比较分析的集成原核生物基因组和泛基因组分析平台-IPGA，平台提供了基于基因组注释与泛基因组注释的包括进行系统发育分析、基因组共线性分析和核心基因差异分析等后续分析在内的整合流程，并提供了免费、简单的页面操作环境。平台入口：https://nmdc.cn/ipga/。（@刘永鑫-农科院-宏基因组）

感谢本期日报的创作者：Sunflower，九卿臣，往、昔℡，拍了花宝贝，芃，刘永鑫-农科院-宏基因组

点击阅读过去10天的日报：

0210 | 31分Cell子刊双发：慢性疲劳综合征中，菌群出了什么问题？

0209 | 肠菌如何防护呼吸道病毒感染？孟广勋/赵立平/张晨虹等Nature子刊揭示新机制

0208 | 聚焦“肠-肝轴”：7篇高分文章一览最新研究突破

0207 | 68分Nature子刊：二代类器官技术助力肠道免疫研究

0206 | 于君团队GUT：增强大肠癌免疫治疗再添新思路

0205 | 保肝护肝该怎么吃？4项近期研究带来启示

0204 | 《自然·综述》聚焦：改善高血压，肠道菌群有何潜力？

0203 | 运动耐力好不好？一种常见肠菌或是关键

0202 | 赵方庆等GUT：15页综述详解母婴菌群

0201 | 1月，最值得看的30篇肠道健康文献！