子刊火力全开:9文聚焦微生物组数据挖掘 | 热心肠日报
今天是第1671期日报。
Cell子刊:人体菌群中天然CRISPR系统和靶标的鉴定
Cell Host and Microbe[IF:15.923]
① 本研究分析了来自17个不同身体位点2355个人体宏基因组的CRISPR基因座和cas基因,鉴定出290万个CRISPR间隔子,进行了CRISPR系统的分类和功能表征;② 与肠道/泌尿生殖道部位相比,口腔环境显示出较高的CRISPR出现频率;③ CRISPR间隔区的功能潜力暗示与限制性修饰系统有关;④ cas基因谱伴随着CRISPR亚型按身体位点分化,当与cas基因系统结合时,CRISPR-Cas亚型具有高度的位点和分类群特异性。
Identification of Natural CRISPR Systems and Targets in the Human Microbiome
11-19, doi: 10.1016/j.chom.2020.10.010
【主编评语】本研究使用2355个宏基因组对整个人体菌群中的CRISPR位点和cas基因进行了分析,通过将间隔区序列与每个样品的宏基因组和相应的基因家族对齐,从而产生了290万个间隔区的功能和分类学概况,进而进行了CRISPR系统的分类和功能表征,与cas基因丰度的定量一起,本文揭示了CRISPR-Cas系统及其靶标的潜在作用,以及细菌与病毒关系的进化特性和原理。该研究也提供了人类菌群中天然CRISPR-cas基因座和靶标的全面数据库。(@刘永鑫-中科院-宏基因组)
Cell子刊:基于深度学习的微生物基因组小蛋白编码基因的自动预测和注释
Cell Host and Microbe[IF:15.923]
① 用于smORF识别的深度学习方法可学习smORF序列具有生物学意义的特征;② 模型学会了识别Shine-Dalgarno序列,降低每个密码子中的摆动位置优先级以及对在密码子表中找到的同义密码子进行分组的功能;③ 通过SmORFinder注释工具对26种细菌的核心基因组分析,确定了几个功能未知的核心smORFs;④ 作者为数千个RefSeq分离基因组和人类微生物组计划宏基因组预先计算了smORF注释,并通过网站提供了这些数据。
Automated Prediction and Annotation of Small Open Reading Frames in Microbial Genomes
12-07, doi: 10.1016/j.chom.2020.11.002
【主编评语】使用现有的研究工具常常忽略了小蛋白质,Durrant和Bhatt使用深度学习模型来改进对人类菌群中常见的小蛋白质的检测。为了方便注释特定的小型开放阅读框(smORFs),本文引入了SmORFinder。该工具结合了每个smORF家族的隐马尔可夫模型和深度学习模型,这些模型可以更好地推广到训练集中未被见到的smORF家族,从而丰富了对Ribo-seq翻译信号的预测。该注释工具可免费获得,并且可以重新分析成千上万个公开可用的基因组。(@刘永鑫-中科院-宏基因组)
Nature子刊:高效的多重细菌基因组编辑工具
Nature Biotechnology[IF:36.558]
① 引导RNA辅助转座子靶向插入(INTEGRATE)将高效、无缝的转座整合与CRISPR介导靶向相结合;② 可实现大片段DNA(10-kb)在细菌基因组中单个方向上的高精度插入,效率可达到100%;③ INTEGRATE不依赖于每个靶位点的同源臂,可使用多个靶向的CRISPR阵列快速地将多个基因组同时插入同一细胞,实现多位点不同片段的特异性整合;④ 与Cre-LoxP系统联用实现细菌基因组大片段的精准敲除;⑤ 系统也适用于产酸克雷伯氏杆菌及恶臭假单胞菌的基因组改造。
CRISPR RNA-guided integrases for high-efficiency, multiplexed bacterial genome engineering
11-23, doi: 10.1038/s41587-020-00745-y
【主编评语】现有的细菌中千碱基大小的DNA序列的定点整合技术效率低、依赖重组,其应用受到限制。Nature Biotechnology近期发表的文章,开发出一种引导RNA辅助转座子靶向插入(INTEGRATE)技术,可实现大片段DNA(10-kb)在细菌基因组的高精度插入,同时利用CRISPR阵列可实现多位点不同片段的特异性整合,是一种多重、千碱基规模的基因组编辑技术。(@爱的抉择)
Nature子刊:分类未知代谢物的代谢组学新工具,或将助力菌群研究
Nature Biotechnology[IF:36.558]
① 开发一种系统性化合物类别注释的计算工具:CANOPUS;② CANOPUS通过深度神经网络,从碎片质谱中预测了2497种化合物类别,包括所有生物学相关的类别;③ CANOPUS尤其针对无法获得质谱或结构参考数据的化合物,并能预测缺乏串联质谱训练数据的类别;④ 与四种基线方法相比,CANOPUS具有高效预测性能;⑤ CANOPUS具有广泛的用途,使用CANOPUS研究了菌群对小鼠消化道代谢组的影响、大戟属植物的化学多样性,以及海洋天然产物的结构分析。
Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra
11-23, doi: 10.1038/s41587-020-0740-8
【主编评语】使用非靶向的代谢组学,能在生物学样本中检测上千种代谢物,是微生物组等研究领域中重要的研究手段,但目前对结构未知的分子进行分类预测和结构注释仍有很大挑战。Nature Biotechnology近期发表的一项研究,开发了一种计算工具CANOPUS,能对高分辨率碎片质谱中的未知代谢物进行系统分类,具有广泛的应用前景,包括用于研究天然产物、食品组学、环境研究、药物降解、病理学等。(@mildbreeze)
Nature Reviews:预测生物学实现建模、理解和驾驭微生物的复杂性(综述)
Nature Reviews Microbiology[IF:34.209]
① 预测生物学通过整合生物学、物理学和工程学的不同专业知识,形成了对生物设计一种新兴的、定量的理解;② 本文分别综述了预测生物学的关键领域,与微生物固有的复杂性相关的挑战,以及定量方法在提高微生物学预测性方面的价值;③ 利用计算建模的、实用性的、机器学习的非规范应用,可以提供强有力的定量见解,包括为生态相互作用生成粗粒度预测,提高计算效率以加速模型预测,阐明药物干扰与细胞反应之间的因果机制关系。
Predictive biology: modelling, understanding and harnessing microbial complexity
05-29, doi: 10.1038/s41579-020-0372-5
【主编评语】预测生物学是合成生物学和系统生物学(特别是微生物学)的下一章。曾经似乎不可行的任务正日益得到实现,例如设计和实现执行复杂的传感和驱动功能的复杂的合成基因回路,以及将具有特定,预定组成的多物种细菌群落组装在一起。通过整合生物学,物理学和工程学领域的各种专业知识,使这些成就成为可能,从而使人们对生物学设计有了新的定量认识。随着越来越多的多组学数据集的出现,它们在将理论转化为实践中的潜在效用仍然坚定地植根于控制生物系统的基本定量原理。在这篇综述中,作者讨论了微生物学日益引起人们关注的预测生物学的关键领域,与生俱来的微生物复杂性相关的挑战以及定量方法在使微生物学更具可预测性方面的价值。(@刘永鑫-中科院-宏基因组)
Nature子刊:人类肠道微生物组的高分子量DNA提取、纳米孔测序和宏基因组组装方法
Nature Protocols[IF:10.419]
① 本文提出了一种从人类粪便样本中提取微克量的高分子量DNA用于长读长测序的实验方法;② 该方法将新的多酶裂解步骤与DNA纯化和大小选择方法结合,只需不到1克的起始样品,就可以产生微克数量的DNA,其片段峰长为几十kb;③ 该方法描述了从人类粪便样品中提取、测序组装和分箱高分子量DNA的具体实验步骤;④ 作者还开发了一种下游生物信息学分析的工作流程,用于碱基识别、易出错的读长装配和长读长宏基因组数据的循环化。
Improved high-molecular-weight DNA extraction, nanopore sequencing and metagenomic assembly from the human gut microbiome
12-04, doi: 10.1038/s41596-020-00424-x
【主编评语】人类肠道微生物组的短读长宏基因组测序和从头基因组组装可产生细菌基因组草图,而无需分离和培养。虽然长读长测序已成功应用于装配连续的细菌分离体基因组,但从粪便样本中提取足够分子量、纯度和数量的DNA进行宏基因组测序仍是一个挑战。在此,作者提出了一种从人类粪便样本中提取微克量的高分子量DNA的方案,该方案适用于下游长读长测序的应用。作者还推出了Lathe (www.github.com/bhattlab/lathe),这是一种用于长读长碱基检出,装配,长读长或Illumina短读长的一致细化和基因组环化的计算工作流程。总而言之,此方案可以在大约10天内,从2 d的动手实践和计算量下从复杂的人类肠道样本中产生高质量的连续或环状细菌基因组。(@刘永鑫-中科院-宏基因组)
Nature子刊:机器学习挖掘anti-CRISPR蛋白家族
Nature Communications[IF:12.121]
① CRISPR-Cas是细菌和古细菌的适应性免疫系统,已被用于开发强大的基因组编辑工具;② 在无休止的寄生军备竞赛中,病毒进化出多种抗防御机制,包括多种anti-CRISPR蛋白(Acrs);③ 为了建立一个预测模型,需要一个由两部分组成的训练集:一个由先前发现的Acrs组成的正集,和一个由确定非Acrs的蛋白质组成的负集;④ 二分类模型在测试集上达到78%的精度值和57%的召回率;⑤ 本文证明了机器学习方法对候选Acrs的识别具有很强的预测和鉴别能力。
Machine-learning approach expands the repertoire of anti-CRISPR protein families
07-29, doi: 10.1038/s41467-020-17652-0
【主编评语】CRISPR-Cas是适应性免疫系统,存在于几乎所有的古细菌和大约40%的细菌中,在无休止的寄生军备竞赛中,病毒进化出多种抗防御机制包括特异性抑制CRISPR-Cas的多种anti-CRISPR蛋白(Acrs),尽管发现Acrs对理解原核生物中宿主-寄生相互作用的生物学机制及其调节CRISPR在DNA编辑应用的潜力十分重要,但Acrs的发现仍然是一项艰巨的任务。本研究描述了一个系统的机器学习方法,用来预测Acrs,基于几个已知的Acrs属性和一个使用已知Acrs的启发式的二次筛选,以进一步丰富候选Acrs。本研究表明,这种方法对Acrs有显著的预测作用,该项工作搜索不断扩大的病毒基因组数据库、宏基因组和其他MGE。这种策略的迭代应用将极大地扩展Acrs的多样性,并且可能发现其他抑制防御系统。(@刘永鑫-中科院-宏基因组)
整理的7万个人类宏基因组样本的元数据
Nucleic Acids Research[IF:11.501]
① 目前公共数据库中宏基因组数据呈指数增长,但非标准化的元数据给数据的管理与再利用带来了挑战;② HumanMetagenomeDB数据库整理了SRA和MG-RAST数据库中人类宏基因组的元数据,涵盖580个研究,69 822个宏基因组,203个属性;③ 通过快速搜索、高级搜索和交互地图三大功能,用户可以查询到需要的结果并根据提供的代码进行下载;④ HumanMetagenomeDB数据库为实现统一的人类宏基因组数据库奠定了基础,也为新的元数据和本体提供了简单的指导。
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes
11-22, doi: 10.1093/nar/gkaa1031
【主编评语】HumanMetagenomeDB的主要目标是简化对感兴趣的公共人类元基因组的识别和使用,其集中并标准化了SRA和MG-RAST数据库中存在的人类宏基因组的元数据。它涵盖了超过69 822个与人类相关的宏基因组和203个属性。该新颖的数据库具有友好的用户界面,允许用户探索、选择和下载经过整理的元数据,从而帮助来自不同领域的科学家根据自己的兴趣选择样本。该数据库的可用性为统一的人类宏基因组数据库奠定了基础,为新的元数据和本体的协调提供了简单的指导。总之,该数据库改进了人类宏基因组的元数据本体的协调性,并简化了不同研究之间的简单查询,解释和对基础数据的简单访问。HumanMetagenomeDB可在https://webapp.ufz.de/hmgdb/上公开获得。(@刘永鑫-中科院-宏基因组)
NetCoMi:R中微生物组数据的网络构建和比较
Briefings in Bioinformatics[IF:8.99]
① 当前的高通量测序计数数据仅携带相对或组成信息,因此需要专用的统计分析方法;② NetCoMi是一个全面的R软件包,可实现构建,分析和比较微生物关联网络的完整工作流程;③ NetCoMi整合了广泛的方法列表,这些方法考虑了标记物基因和宏基因组测序数据的特殊特征,包括零计数处理,标准化和关联估计的方法;④ 该软件包还提供了用于构建样本相似性网络以及差异网络的功能,包括识别差异关联类群的适当方法。
NetCoMi: network construction and comparison for microbiome data in R
12-03, doi: 10.1093/bib/bbaa290
【主编评语】本文介绍了NetCoMi,一个用于微生物组数据的网络构建和比较的R软件包,它在单个可重现的计算工作流程中集成了每个分析步骤的现有方法。该软件包提供了用于构建和分析单个微生物关联网络以及量化网络差异的功能。这样就可以洞悉单个类群,类群组或整个网络结构在各组之间是否发生了变化。NetCoMi还包含用于构建差异网络的功能,从而允许评估单对类群在两组之间是否存在差异关联。此外,NetCoMi有助于构建和分析微生物组样品的异种网络,从而可以对整个微生物组样品采集的异质性进行高级图形化汇总。可在https://github.com/stefpeschel/NetCoMi上获得NetCoMi软件包以及教程。(@刘永鑫-中科院-宏基因组)
感谢本期日报的创作者:刘永鑫-中科院-宏基因组,Jack Chen,白蓝木,陈苗,周云燕
点击阅读过去10天的日报:
1211 | 今日Science:粪菌移植+PD-1疗法,临床抗癌传好消息
1210 | 3篇高分论文:利用宏观生态学原理研究菌群渐入佳境
1208 | 连发两文:30分Nature Reviews详解乳糜泻
1205 | 5文聚焦心血管:"更植物",更健康饮食=更低发病
1204 | 今日Science重磅综述:菌群如何帮助人类适应环境
1203 | Nature双发:菌群原位成像重大突破+真菌多糖抗肠炎
1202 | 黄秀娟等高分双发:纵论亚洲发展中国家IBD诊疗
点击阅读原文,查看更多热心肠日报的内容