查看原文
其他

Nature子刊:机器学习方法扩展了anti-CRISPR蛋白家族的所有成员

宏基因组 宏基因组 2023-08-18

机器学习方法扩展了anti-CRISPR蛋白家族的成员

Machine-learning approach expands the repertoire of anti-CRISPR protein families

原文链接:https://www.nature.com/articles/s41467-020-17652-0

Nature Communicaton [IF: 12.121]

发表时间: 2020-07-29

第一作者:Ayal B. Gussow1

通讯作者:Eugene V. Koonin1(koonin@ncbi.nlm.nih.gov)

其他作者:Allyson E. Park2, Adair L. Borges2, Sergey A. Shmakov1, Kira S. Makarova1, Yuri I. Wolf1, Joseph Bondy-Denomy2

作者单位:

1 美国国立卫生研究院国家生物技术信息中心(National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA)

2 加州大学旧金山分校微生物和免疫系(Department of Microbiology and Immunology, University of California San Francisco, San Francisco, CA, USA)

摘要

CRISPR-Cas是细菌和古细菌的适应性免疫系统,已被用于开发强大的基因组编辑工具。在寄生关系(host-parasite)的无休止军备竞赛中,病毒进化出多种抗防御机制,包括特异性抑制CRISPR-Cas的多种anti-CRISPR蛋白(Acrs),因此具有基因组编辑工具调节工具的巨大应用前景。大多数Acrs都是小且高度可变的蛋白质,这使得运用生物信息学方法预测它们成为一项艰巨的任务。我们提出了一种用于Acrs综合预测的机器学习方法。该模型在未见的(unseen)测试集上测试时显示出很高的预测能力,并预测了2500个候选Acrs家族。对最佳候选Acrs的实验验证表明,两个未知的Acrs (AcrIC9,IC10)和另外三个最佳候选Acrs被巧合地识别并发现具有anti-CRISPR活性。这些结果大大扩展了预测Acrs的范围,并为实验验证Acrs提供了资源。

介绍

研究anti-CRISPR的意义

所有的生命形式都是在来自众多病毒和其他寄生遗传因素的持续压力下进化的,因此进化出了多种防御系统。CRISPR-Cas是适应性免疫系统,存在于几乎所有的古细菌和大约40%的细菌中,并已被用于开发强大的基因组编辑工具。在无休止的寄生军备竞赛中,病毒进化出多种抗防御机制,包括目前已知由46个不同家族组成的多种anti-CRISPR蛋白(Acrs)。Acrs采用不同的机制来消除CRISPR-Cas系统的活性。迄今为止研究的大多数Acrs与CRISPR-Cas效应蛋白的重要功能位点结合,并对来自窄谱(narrow range)细菌或古细菌的特定CRISPR-Cas变体表现出高度的特异性。然而,一些Acrs具有更广泛的特异性,例如,作为核酸模拟物(nucleic acid mimics)。此外,最近发现了具有酶活性的Acrs,如乙酰转移酶(acetyltransferases)和核酸酶(nucleases)。显然,Acrs是具有巨大的应用潜力的基因组编辑的调节工具

已有的检测方法

尽管发现Acrs对理解原核生物中宿主-寄生相互作用的生物学机制及其调节CRISPR在DNA编辑应用的潜力十分重要,但Acrs的发现仍然是一项艰巨的任务。Acrs的氨基酸序列是极其多变的,这可能反映了细菌和古细菌中CRISPR-Cas系统的高度可变性和多样性。即使使用最强有力的序列分析方法,Acrs的小尺寸和高度进化可变性的结合阻碍了对它们的检测。目前已知的Acrs家族是使用各种定制(customized)的方法发现的,两种主要的生物信息学方法是guilt-by-association和自我靶向(self- targeting)

guilt-by-association

寻找通常在Acrs下游编码的含HTH的同源物。这种蛋白被称为anti-CRISPR相关蛋白(Aca,图1),在病毒中明显比Acrs本身更保守,这极大地促进了它们的检测。然后搜索编码Aca同源物的基因组邻近区域,寻找潜在的Acrs。

图1 已知Acrs的特征

Fig. 1: Characteristics of known Acrs.

(a) 一个directon的示意图。Acrs蛋白的特征是位于一个含HTH结构域的基因的上游,称为Aca。Acrs通常存在于可能的可移动基因元件中,如噬菌体。Acr directon用金色显示,而周围的蛋白质用蓝色显示。典型地,Acrs与小的、未鉴定的蛋白质直接相关。

(b) Acr长度的密度图。X轴表示蛋白质长度的对数,以氨基酸为单位。Y轴表示根据x值的数据估计的概率密度函数

(c) Acr directons蛋白质平均长度的密度图。X轴表示氨基酸中蛋白质平均长度的对数。Y轴表示根据x值的数据估计的概率密度函数

self-targeting

包含CRISPR-Cas系统的原核生物基因组包含靶向相同基因组区域的间隔区(spacers),这种系统被称为自我靶向(self-targeting)。在这种情况下,CRISPR-Cas系统理论上应该瞄准并杀死宿主细胞。因此,具有自我靶向基因组的生物体只有在携带Acrs以阻止CRISPR-Cas发挥作用时(或者,通过采用另一种策略保持CRISPR-Cas沉默)才能存活

目前存在的问题

尽管这两种方法取得了显著的成功,并得到了许多实验验证的支持,但这两种方法都没有提供检测Acrs的整合方法。Acrs除了极端的序列可变性,都能在抑制CRISPR中的作用之外,几乎没有其他显著特征。在这里,我们描述了一个系统的机器学习方法,用来预测Acrs,基于几个已知的Acrs属性和一个使用已知Acrs的启发式(heuristics)的二次筛选,以进一步丰富候选Acrs(Acr candidates)。我们表明,这种方法对Acrs有显著的预测作用,我们预测了2500个以前未被检测到的Acrs家族,并实验验证了最佳候选Acrs

结果

已知Acrs的描述性特征

Characteristic features of the known Acrs

我们方法背后的一般概念是将Acrs倾向于共享的少数特征整合到一个检测模型中。因此,我们的第一步是整合和量化以前发现的Acrs共同的特征。为了跟踪已知的Acrs,我们依赖于审编过的Acrs数据库和我们自己的手动审编的结果。在我们整理数据时,共有39个Acrs家族是已知的。我们用这个原始集合在NCBI的非冗余数据库(NR)中使用PSI-BLAST(Position Specific Iterated - BLAST)迭代搜索同源物(homologs),并为每个Acrs家族构建一个蛋白序列多重比对。

然后,我们使用这些比对作为我们PSI-BLAST搜索本地蛋白质序列数据集的查询(query),该数据集包括原核的和原核病毒的蛋白质,共由182561570个蛋白质组成。所有e值低于10e- 4阈值的命中(hits)都经过人工筛选,以消除明显的假阳性,例如对非常大的蛋白质的部分假阳性命中(hits)或对具有明确指定功能(与anti-CRISPR活性无关)的蛋白质的命中(hits),以创建高置信度的Acrs数据库。最终的阳性集合由3654个Acr组成,跨越32个家族(7个已知的Acrs家族在我们的数据库中没有出现)。

Acrs最显著和最明显的共同特征是它们的序列短(small size)(加权平均Acr长度:104 aa,表1),并且倾向于形成由(溶源)病毒基因组中的同向紧密间隔的基因编码的小蛋白质集合(以下称为定向子(directons)图1表1)。我们假设这些定向子(directons)基因主要由共同转录的早期抗防御基因组成。

表1 已知Acrs的特征表

所有评估特征的加权平均值,以及它们是否用于最终模型的情况。

除了这些独特的特征,我们还考虑了其他可能具有预测性的蛋白质特征,如蛋白质编码基因在一个定向子(directon)内的间距(“定向子间距(Directon Spacing)”,表1)或蛋白质疏水性(“平均疏水性(Mean Hydrophobicity)”,表1)。我们还考虑了当使用PSI-BLAST (e值 < 10e-4,“蛋白质被注释(Protein is Annotated)”,表1)在NCBI保守结构域数据库(Conserved Domain Database,CDD)或原核病毒直向同源群(Prokaryotic Virus Orthologous Groups,pVOG)中搜索保守结构域时,蛋白质是否具有显著的命中。因为具有保守结构域的蛋白质可能执行其他无关功能,就不太可能是Acrs。总的来说,我们构建了一个由12个特征组成的集合(表1),它们一起提供了一个用于识别候选Acrs(Acr candidates)的可量化特征的概要(compendium)。

训练和测试数据集

Training and test sets

为了建立一个预测模型,需要一个由两部分组成的训练集:一个由先前发现的Acrs组成的正集,和一个由确定不是Acrs(非Acrs)的蛋白质组成的负集。 对于正集,Acrs按其家族和内部相似性进行加权,以确保相关和高度相似的Acrs不会在训练数据集中出现过多。

因为没有明确的标准来确定已知非Acrs蛋白质组,我们通过随机选择病毒和原核蛋白质构建了阴性组,假设大多数蛋白质是非Acrs。通过从1000个随机选择的原核病毒基因组和4000个随机选择的含CRISPR-Cas的原核生物基因组的组合中随机选择蛋白质来构建负训练数据集。类似于正集,我们试图避免对特定的蛋白质家族进行过采样(oversampling)。因此,这些蛋白质通过序列相似性进行聚类,并且对于每个聚类,选择单个代表。我们从这个集合中随机选择了3500个蛋白质来组成阴性的非Acrs数据库

在我们研究预测模型的时候,另一个Acrs的集合发表了。我们将这些作为一个未见(unseen)的测试集纳入我们的分析中,也就是说,一组在训练阶段不可用的Acrs,我们可以用来测试我们的模型。 因此,我们的训练集由2018年9月前发布的所有已知的Acrs组成(正集:n = 2775,26个族;负集:n = 2600),测试集包括在该日期之后发表的Acrs (阳性集合:n = 879个蛋白质,6个家族;阴性组:n = 600个蛋白质)。

模型训练和评估

Building and evaluating a predictive model

鉴于我们相对较小的正集,我们试图确定一个倾向于低方差(low variance)的模型。因此,我们选择了一个由极其随机的树组成的随机森林(a random forest of extremely randomized trees)。作为一种具有高度随机成分的集成方法,它相比其他机器学习方法更不可能对训练数据进行过度拟合,同时允许特征的非线性映射来标记数据和特征的复杂相互作用。

该模型由一个具有1000棵决策树的随机森林组成。在训练模型时,每棵决策树都是基于训练数据的随机抽样建立的。决策树中的每个分割是通过在特征的随机子集上随机选择多个值,然后将使错误分类的可能性最小化的值设置为决策树分割的阈值来确定的。因此,最终的随机森林由1000个决策树组成,其中每个决策树的叶节点对应于训练集的成员。

当使用该模型评估候选蛋白质时,候选蛋白质遍历每个决策树。在每棵树中,它都在一个叶子节点中结束,叶子节点包含训练集中的Acrs和非Acrs的混合。该树为候选对象分配一个等于其叶节点中Acrs的分数。由模型指定的分数是所有1000棵树的分数的平均值。

使用我们开发的模型和训练集,我们通过三重交叉验证的五次迭代(five iterations of threefold cross- validation)来评估模型的性能。在每次迭代中,模型在三分之二的Acrs家族上进行训练,并评估其预测其他家族的能力。对于测试集中的每种蛋白质,我们使用随机森林模型预测了一种蛋白质成为Acrs的可能性。由于给定正负集合中样本权重不平衡,我们在训练模型时对负集合进行加权,使其组合权重等于正集合的权重。这个权重被应用于模型训练和评估。

我们依靠曲线下(under the curve,AUC)的接收机工作特性(receiver operating characteristic,ROC) 面积来评估模型性能,并使用遗传算法进行特征选择。ROC是根据真阳性率(正确识别的Acrs比例)和假阳性率(预测为Acrs的非Acrs比例)绘制的。平均而言,在所有15次交叉验证迭代中,我们发现我们的方法对Acrs有显著的预测作用,AUC为0.93(permutation p:0.001)。

接下来,我们使用该模型来预测未见(unseen)测试集中的Acrs。发现该模型能显著区分Acrs和非Acrs,AUC为0.83(permutation p:0.001;图2)。这一结果表明,我们的方法确实能够预测训练集中不存在的Acrs。

图2 在未知(unseen)测试集上评估模型

Fig. 2: Model assessment on an unseen test set.

(a) 模型的ROC曲线在一个未见(unseen)的测试集上的得分。

(b) 使用置换模型分数计算的1000个AUC的直方图,与代表无效AUC分布的未见(unseen)测试集进行比较。正如校准良好的评估所预期的,null AUC分布以0.5为中心,表明随机分离。正确模型分数的AUC为0.83,用红线表示。

我们通过设置分类阈值,将模型输出的分数转换为二分类预测,从而最大化训练集中的交叉验证平衡的精度。二分类模型在测试集上达到78%的精度值(precision)和57%的召回率(recall)(permutation p:0.001)。在测试集中评估的六个Acrs家族中的三个成员在大部分时间被检测到(AcrIF12-IF14),而其余三个家族的成员在不到一半的时间被检测到,测试集中的AcrIE7的单个成员未被模型检测到。

使用这个模型预测Acrs

Using the model to predict Acrs

在最近发现的Acrs测试集上正式展示了我模型的预测能力后,我们试图利用这个模型来生成一个富集的Acrs数据集。我们将模型预测与基于已知Acrs的其他富集方法相结合,期望这种结合最终能富集真正的Acrs,但需要注意的是,明确应用额外的富集方法会使预测性能偏离模型报告的性能,并可能使结果集偏向于忽略与已知Acrs的亲缘关系远的其他Acrs家族。

首先,我们试图定义一个富含Acrs蛋白质的合适搜索空间。最初的数据集由182561570个蛋白质组成,其中大部分(182332040个)来自原核生物,其余由病毒编码(229530个)。Acrs通常在原核病毒基因组中编码,或者在似乎是整合病毒(溶源病毒)或其他可移动遗传元件(mobile genetic elements,MGEs)的原核基因组区域中编码。 因此,我们确定了原核生物数据库的一个子集,该子集由包含完整CRISPR-Cas系统的基因组组成,前提是这些基因组更有可能包含具有针对相应CRISPR-Cas变体的Acrs的溶源噬菌体。我们进一步寻求将原核生物蛋白质组限制在由(假定的)溶源病毒编码的蛋白质上。虽然有许多方法可以预测完整的溶源病毒及其边界,但这些方法都不能全面鉴定原核生物基因组中的溶源病毒区域,主要是因为许多溶源病毒被灭活并部分退化(deteriorated)。事实上,许多已知的Acrs是在病毒蛋白附近编码的,但不一定在编码标志性病毒基因的明显有活性的溶源病毒内,或者在明确的溶源病毒边界内部。因此,我们没有明确预测溶源病毒,而是通过将原核生物蛋白质组筛选到已知病毒蛋白质附近编码的蛋白质中来富集病毒相关序列。最终得到的原核病毒和疑似溶源病毒的组合数据集由10938430个蛋白质组成。
由于这些蛋白质在很大程度上与病毒有关,我们预期这一组蛋白质可以被用来富集Acrs。

用我们的随机森林模型对这组蛋白质进行了评估,得到了1546505个候选Acrs的初始集合。我们进一步筛选这些蛋白,只保留那些对保守结构域数据库(Conserved Domain Database,CDD)或原核病毒同源群(Prokaryotic Virus Orthologous Groups,pVOG)没有比对结果(hits)的蛋白,产生892830个蛋白。这组蛋白质通过序列相似性聚类,产生232616个蛋白质家族。基于已知的Acr特征,将启发式的筛选方法应用于这些家族中的每一个,以进一步富集真实Acrs的候选集。Acrs的标志性特征是它们(i)编码在HTH蛋白的上游,(ii)在自我靶向基因组中发现。因此,我们要求每个家族中至少有一名成员符合这些标准。筛选后,剩下11304个家族。在这些家族中,有20个家族包含了来自初始正集合的已知Acrs。

在使用标志性的Acrs特征进行筛选之后,我们根据我们的初步观察结果开发并应用了额外的启发式筛选的阈值。由于编码Acrs的基因倾向于形成小的directons,我们试图估计候选家族中平均directons大小的启发式筛选最大阈值,这将丰富我们的真Acrs蛋白质组。因此,我们在11304个已知Acrs的集合中寻找当应用时保留最大部分的阈值,同时尽可能多地去除掉候选家族。为了量化这个特征,我们使用了平衡精度度量(balanced accuracy metric),它等于两组之间正确分类分数的平均值。我们发现五个基因的最大平均directons大小给出了最高的平衡准确度。因此,我们移除了平均directons大小超过五个基因的蛋白质家族。筛选后,剩下5507个家族。在剩余的家族中,18个包括来自初始正集合的已知的Acrs。

为了消除额外的假阳性,我们针对我们的序列数据集对每个蛋白质家族比对进行了PSI-BLAST,并且在Acrs是高度可变的、快速进化的蛋白质,在病毒或原病毒环境之外未知编码的前提下,去除了在不同原核生物中具有大量同源物的家族。我们发现最大化平衡准确度的原核生物同源物数量的探索式截止值是374。因此,我们将我们的集合限制在对原核蛋白质集合没有超过374个显著命中(hits)的聚类。接下来,我们通过限制包含在病毒基因组中至少一个编码同源物或原核生物同源物与溶源病毒同源物比例小的家族来富集病毒蛋白质。

我们发现最大化平衡准确度的原核生物与原病毒比率的截止值是3。最后,我们试图排除那些在用HHBlits评估时有大量注释的家族,从而包括特征明确的非Acrs。我们发现最大化平衡准确度的阈值是52。经过这一筛选,留下了2526个家族。在留下的家族中,17个包括来自初始正集合的已知的Acrs。

虽然,通过应用这些启发式方法,我们可能会过滤掉一些由模型预测的真实Acrs,并使我们的预测偏向于已知Acrs的特征,但我们预计,总的来说,这种方法丰富了真实Acrs的蛋白质集合。应用上述筛选方法后,我们的富集组由2526个蛋白质家族组成图3)。

图3 对候选Acrs的启发式筛选

Fig. 3: Heuristic filtering of the Acr candidates.

(a) 启发式筛选步骤的流程图。最初的集合由232616个家族组成,首先对包括至少一个下游编码含一个HTH结构域的蛋白质的成员和至少一个来自自靶向基因组的成员的家族进行过滤,这是Acr的两个特征。应用了四个额外的筛选标准,用于平均directon大小、HHBlits的命中数、同源物数目和病毒同源物的富集情况。阈值是根据这里提供的数据设定的。

(b) 一个展示在每个步骤步骤中候选Acrs和已知Acrs与初始正集的百分比的条形图。红色条表示每一步剩余Acrs的百分比,蓝色条表示每一步剩余所有候选Acrs的百分比。初始正集合中剩余已知Acrs的原始数量显示在每个红色条的上方。

预测的Acrs的特征

Characteristics of predicted Acrs

我们针对已知的Acrs和Acrs相关序列的数据集,对所有2526个候选蛋白家族进行了PSI-BLAST。对于这些家族中的26个,检测到Acrs集合的显著命中(hits)。在这些蛋白质家族中,22个包含已知的Acrs。 其余四个与已知Acrs的相关序列有显著相似性的家族和先前描述的Acrs directons内编码的非特征性的蛋白质同源,即在Listeria monocytogenes AcrIIA1-4的基因组邻近区域,所有家族都被怀疑具有Acrs活性,尽管在测试时没有显示出这种活性。这些蛋白质以前被命名为OrfA、OrfB和OrfE。

除去这26个家族后,我们获得了2500个候选Acrs家族,包括16919个推定的Acrs。一个家族的平均规模为7,最大的家族包括319名成员,将近一半的家族(49%)只有一个成员(图4)。

图4 预测的Acrs家族规模的直方图

Fig. 4: Histogram of predicted Acr family sizes.

为图片清晰起见,排除了134个成员超过25个的家族。未显示的家族的中值为52个成员,最大值为319个成员。

给定不同的聚类大小,每个预测的Acrs被分配到一个相应地与聚类大小成反比的权重,以确保相关的和高度相似的预测Acrs不会在汇总统计中出现过多。具体来说,每个预测的Acrs被赋予1/n的权重,其中n是其聚类中预测的Acrs的数量。

预测的Acrs的加权平均大小为109 aa,标准偏差为71.6(图5a)。正如设计所预期的,Acrs基因倾向于形成小的directons(加权平均值:3.4;加权标准差:1.47)由短基因组成(预测Acrs方向中蛋白质大小的加权平均值:200 aa,加权标准差:155;图5b)。预测Acrs的加权平均等电点(isoelectric)为7.73,加权标准差为2.6,加权平均疏水性为0.31,加权标准差为0.5。根据TMHMM和SignalP预测,加权后15%的预测Acrs具有至少一个推定的跨膜螺旋(transmembrane helix)或信号肽(signal peptide),正如所预期的,其显著低于基于负集的预期(28%,表1)。

图5 候选Acrs的蛋白质长度分布

Fig. 5: Protein length distribution of the Acr candidates.

预测的Acrs蛋白质长度的密度图。平均值(109 aa)用虚线表示。

预测的Acrs directons的平均蛋白质长度的密度图。平均值(200 aa)用虚线表示。

使用JPred,我们预测了预测的Acrs数据集中一致(consensus)序列的二级结构。对α-螺旋有贡献的氨基酸的平均百分比是39%,对β-折叠有贡献的氨基酸的平均百分比是13%。在阴性组中,预测96%和88%的蛋白质分别包含至少一个α螺旋或β折叠,并且对α螺旋和β折叠有贡献的氨基酸的平均百分比分别为39%和15%。尽管这些值没有显著差异,我们测试了这两个类别的分布是否有显著差异。我们发现候选组和阴性组中对β-折叠有贡献的氨基酸分布之间存在显著差异,但对α-螺旋没有这种差异。

候选的Acrs分布在广泛的物种中(n= 1770)Escherichia coli 占候选Acrs的最大份额,为2.37%。Peptoclostridium difficil (1.46%)和Clostridium botulinum (1.16%)位居前三。当考虑每种CRISPR-Cas亚型在含有预测Acrs的基因组中出现的频率时,包括多种亚型的情况,三种最常见的亚型是I-E、I-C和I-B(分别占基因组的27.9%、23.8%和22.2%)。

在2500个候选Acr家族中,10%包括至少一个病毒基因组中的编码成员,279个病毒株至少编码一个Acrs。在分析的病毒基因组中,197个(71%)编码一个预测的Acrs,66个(24%)编码两个,其余的(5%)编码三个或更多的Acrs。古细菌病毒也在这一组中有所表现,在21种古细菌病毒中发现了33种预测的Acrs。

单个病毒株中预测Acrs的最大数目是5个,在Ruegeria噬菌体DSS3-P1中观察到,其中4个落在相同的含HTH的directon上。发现最常编码一个以上Acrs的病毒是Mycobacterium噬菌体,其次是BacillusSynechococcus噬菌体。在古细菌病毒中,发现最常见的编码一个以上Acrs的病毒是墨西哥Sulfolobales rudivirus,其次是Sulfolobus islandicus 病毒。

我们试图检查最大的预测Acrs家族的基因组背景,并衡量它们在相似基因组邻域出现的频率。我们检查了十个最大的Acrs家族,并为这些家族在不同基因组邻域中的成员生成了一个存在-缺失的矩阵(图6),基因组邻域被定义为每个Acrs上游和下游的十个基因。每一列是一个基因组邻域(按相似性排序),每一行代表一个Acrs家族。尽管这个子集中较大的Acrs家族倾向于出现在相似的基因组邻域中,但在这些邻域中,我们也发现了分散的预测Acrs singletons。这种模式类似于在已知Acrs中观察到的模式,在已知Acrs中,存在于给定directon中的Acrs在密切相关的菌株之间变化,一些Acrs出现在几乎所有directon的实例中,而其他Acrs偶尔出现。

图6 基因组中Acrs家族的存在-缺失矩阵。

Fig. 6: Presence–absence matrix of Acr families in genomic contexts.

二元矩阵,其中每一列是不同的基因组邻域(按相似性排序),每一行代表一个Acr族。每个单元格代表附近Acr家族成员的存在与否,红色代表存在,灰色代表不存在。

候选Acrs的个例分析

Case by case analysis of top Acr candidates

接下来,我们更详细地检查了候选Acrs集中的最佳候选。我们构建了一个用于深入检查的集合,通过筛选具有四个以上成员的家族,并选择具有最高平均模型分数的30个家族。使用HHPRED、PSI-BLAST对照NR库和每个候选的基因组背景来探索这前30个家族。此外,从Proteobacteria中选择了31个与I-C型、I-E或I-F型有关联的最佳候选和Pseudomonas aeruginosa的这些亚型进行交叉试验。

Additionally, an overlapping but distinct set of 31 top candidates from Proteobacteria possessing associations with type I-C, I-E, or I-F were selected for experimental inter- rogation against these subtypes in Pseudomonas aeruginosa.

以前已经表明,Acrs通常在由小基因组成的短directons上编码,通常包括一个编码含HTH结构域蛋白质的基因。这种构型已经在多个Acrs家族和许多病毒和溶源病毒基因组中观察到。这种结构的一个典型例子是AcrIIA1-4族。我们的五大候选Acr家族之一候选4338(以下简称C4338)的成员发现于L. monocytogenes 的疑似溶源噬菌体和噬菌体中,与AcrIIA1相邻,该家族成员的四分之三发现于自靶向(self-targeting)基因组中。在我们分析的时候,没有发现C4338与任何先前发现的AcrIIA基因同源。然而,在分析完成后不久,正在准备这份手稿时,关于anti-CRISPR功能的C4338测试的初步结果已经被独立发表。C4338已被鉴定为一种anti-LmoCas9(AcrIIA12),支持我们的方法发现Acrs的效用

在一个噬菌体(Listeria 噬菌体B054)和四个疑似溶源噬菌体(一个在Listeria innocua中,三个在L. monocytogenes中)中鉴定出C20391家族的成员。所有溶源噬菌体编码的同源物都在携带CAS-II-A的自靶向基因组中发现。这些基因组中的三个也携带CAS-II-B。该群中所有溶源噬菌体编码的成员都在也编码AcrIIA1的细菌基因组中发现,其中两个也编码AcrIIA2和IIA3。鉴于编码该家族蛋白质的所有基因组都包含CAS-II-A,我们预测这是其anti-CRISPR活性的目标,尽管很难排除CAS-II-B的目标。作为已知Acrs的特征,C20391同源物通常以由三个基因组成的短directons编码。这些基因中的一个含有HTH结构域,与L. monocytogenes 的OrfD同源。OrfD先前已被鉴定为Acrs directons的标记,并且是AcrIIA1的一个远缘同源物,但是该蛋白本身并未显示出Acr活性。该家族的所有成员都与另一个预测的Acr家族C12805的成员相邻编码。C12805包括不与C20391相邻的三个额外成员,但都在与AcrIIA4的直接结合中发现,并且在仅含有CAS-I-B的Listeria 菌株的溶源噬菌体中发现了一个额外的候选成员,C42626。

C42626的基因组邻域中,一个实例包括含有HTH的扩增版本的AcrIIA4(由L. monocytogenes L99编码),而AcrIIA4的其余两个实例缺少HTH结构域。然而,对截短的(truncated AcrIIA4)AcrIIA4上游的核苷酸序列的检查表明,这种截短(truncation)可能是序列注释中的错误,并且AcrIIA4的这些实例的N-末端可以延伸以匹配 L. monocytogenes 99中的AcrIIA4同源物,包括HTH结构域。此外,AcrIIA4包含HTH结构域的区域与OrfD包含HTH结构域的部分相似(38%同一性),因此AcrIIA4的延伸形式似乎是OrfD和AcrIIA4的融合。

因此,候选物C20391、C12805和C42626都包含已知Acrs的标志特征,包括它们落在已知Acrs邻域和已知Acrs标记物附近的趋势。这一确凿的证据极大地提高了我们对这些是真实Acrs的信心,并进一步验证了该方法的预测能力。

经实验验证为AcrIC9的C23907家族成员,在一个噬菌体(Rhodobacter RcapNL)和整合在Rhodobacter capsulatus 自靶向基因组中的三个RcapNL溶源噬菌体中被识别到。C23907属于一个由三个基因组成的小directon,其中第二个基因包含一个HTH结构域。这种含HTH的基因是Aca3的一种远缘同源物,Acrs是一种先前发现的与Acrs相关的基因,进一步支持了对C23907具有anti-CRISPR功能的预测。第三个directon中的基因是无特征的。包含Acr的三种自我靶向溶源噬菌体出现在具有两种CRISPR系统的基因组中,I-C型和VI-A型,它们都是C23907的潜在靶标。

Clostridium 中发现了C27905家族的成员。一半的同源物是在自我定位的基因组中发现的。作为Acrs的特征,C27905基因通常属于2-4个基因的一个小的directon,其中在这个directon中编码的第二个蛋白质包含一个HTH结构域。directon序列中的其他蛋白质是无特征的。这一组中的所有基因组都含有CRISPR I-C,这是一个潜在的目标C27905。

Xanthomonas 中发现了C11640家族的成员,实验证明为AcrIC10。在Xanthomonas translucens 中鉴定出8个基因,在Xanthomonas sp. SHU199 中鉴定出1个基因。9个同源物中的8个在自我靶向基因组中被发现。C11640倾向于属于两个基因的一个小的directon,这是已知Acrs的特征,其中directon中的第二个基因包含一个HTH结构域。所有含有C11640的基因组都有I-C CRISPR系统,这是C11640的一个潜在目标。

为了检验这些预测,在表达I-C型、I-E型或I-F的CRISPR-Cas系统的P. aeruginosa 菌株中进行了Acrs验证。I-E型和I-F型系统在内源(endogenous)水平表达,天然间隔物(spacer)分别靶向噬菌体JBD8和DMS3m,而I-C型系统在菌株PAO1中异源(heterologously)表达,带有工程间隔物(spacer)。选择与这三种亚型之一相关的并存在于Pseudomonas 中的候选Acrs,与来自Proteobacteria的前30的Acrs组成员相结合,进行实验验证。在这项工作中鉴定的两个候选物(C40699和C25827)被发现与通过与Aca相关的独立鉴定的两种I-C CRISPR抑制剂同源。C25827与AcrIC3同源(100%氨基酸同一性,100%覆盖率),C40699与AcrIC4同源(89.4%氨基酸同一性,98%覆盖率)。合成了其余29个基因,23个被成功克隆到表达载体中。除了AcrIC3和AcrIC4之外,还证明了两种蛋白(AcrIC9和AcrIC10)的anti-CRISPR活性,这两种蛋白也靶向I-C型系统 (图7)。AcrIC9长度为79个氨基酸,呈高酸性,很像之前描述的模拟Acrs蛋白的DNA。这种蛋白质被发现是高度活性的,是I-C型的CRISPR-Cas完全失活。在我们的实验条件下,AcrIC10有94个氨基酸,是一种相对中性的蛋白质,其活性比AcrIC9弱约100倍。

图7 anti-CRISPR蛋白AcrIC9和AcrIC10的鉴定

Fig. 7: Identification of anti-CRISPR proteins AcrIC9 and AcrIC10.

噬菌体DMS3m或JBD8在P. aeruginosa 菌苔上从左到右(十倍系列稀释)点滴定,P. aeruginosa 菌株表达X轴上表示的的CRISPR-Cas系统(X轴、I-C型、I-F型或I-E型),其中crRNA靶向指示的噬菌体和指示的Acr或空载体(Y轴)。在针对所有三个系统筛选所有候选Acrs蛋白的过程中,每个组合都被筛选一次。检测到抑制后,用肉眼确认阳性结果,重复三次。

AcrIC9和IC10是测试的两个最高置信度候选对象,AcrIC4和IC3分别是测试的第四和第六个最高置信度候选对象。在剩余的21种候选Acr蛋白中,有4种在I-C型菌株中是有活性的,因此没有针对I-C进行测试,只有6种在实验室因COVID- 19而关闭之前针对I-F型进行了测试。综上所述,这些结果证实了用我们的方法进行的最佳候选很可能是有活性的Acrs。

讨论

由于Acrs在病毒及其原核宿主之间进化军备竞赛中的作用,以及它们在基因组工程应用中作为CRISPR-Cas抑制工具的潜在用途,Acrs引起了广泛研究人员的极大兴趣。在这里,我们证明了机器学习方法对候选Acrs的识别具有很强的预测和鉴别能力。这一结果似乎出人意料,因为Acrs缺乏独特的功能。然而,这些数量很少的,相当普遍的特征,包括Acrs基因的小尺寸,它们在短directons上的排列,另外,包含HTH蛋白的基因,进化保守性差,与病毒和溶源病毒的关联,以及自我靶向性,似乎足以进行明显强有力的Acrs预测。潜在的原因似乎是,在原核生物的病毒中,大多数与病毒复制和形态发生没有直接关系的基因都参与了抗防御功能。一个显著的例子可以在古细菌病毒中找到,其中有高达40%的基因似乎编码Acrs。因此,我们的预测可能有一个警告:我们预测为Acrs的一些基因可能会针对其他非CRISPR防御系统。相反,存在这样的可能性,使用这里描述的方法,我们只检测到一个,尽管是主要的,Acrs类别,而其他的可能表现出不同的特性。

尽管有上述警告,这里应用的敏感数据库搜索、机器学习和启发式筛选的组合产生了2500个以前未被检测到的强Acr候选家族,它们构成了一个广泛的资源,我们可以在网上(http://Acrcatalog.pythonanywhere.com/)获得,用于Acr-CRISPR交互的结构和功能研究,以及潜在的后续应用。这里和其他地方提出的实验验证证实了许多最佳候选。由于多种原因,在本试验中,对*P. aeruginosa* 中的单个I-C型、I-E型和I-F型代表的CRISPR-Cas抑制试验呈阴性的基因可能缺乏抑制活性。它们可能是对所测试亚型的不同变异体或完全不同的亚型特异的Acrs,或在免疫的不同阶段起作用的Acrs,如间隔区获得。用于代表I-C型、I-E型和I-F型系统的三个模型菌株不一定反映候选Acrs和这些系统的不同变体之间的潜在相互作用,也不一定反映发现Acr候选的基因组中存在的不同CRISPR-Cas类型和亚型。未来的工作将需要测试这些候选人对相关系统的兴趣物种。最后,这些候选Acr蛋白中的一些可能会抑制其他基于非CRISPR的细菌免疫系统,因为正如最近显示的那样,抗防御基因显示出在MGe中聚集的强烈趋势。这项工作中描述的Acrs信号可能广泛应用于其他原核免疫系统的抑制剂。

目前的原核病毒基因组数据库范围有限,但增长迅速,这主要归功于大量病毒的宏基因组发现。此外,到目前为止,除了病毒之外,还没有对其他基因如质粒或转座子进行过靶向搜索。鉴定整个原核移动体中Acrs的分布是理解军备竞赛的下一个关键步骤,军备竞赛有望导致大量Acrs的发现。因此,这项工作的明确延伸包括搜索不断扩大的病毒基因组数据库、宏基因组和其他MGE。这种策略的迭代应用将极大地扩展Acrs的多样性,并且可能发现抑制其他防御系统。

国内外anti-CRISPR相关课题组

Huang Lab at HIT  http://homepage.hit.edu.cn/huangzhiwei

Guo Lab at UESTC  http://cefg.uestc.cn/anti-CRISPRdb/

Bondy-Denomy Lab at UCSF  https://bondydenomylab.ucsf.edu/

Davidson Lab at Toronto U  http://individual.utoronto.ca/Davidsonlab/index.html

Westra lab at Exeter U  https://westralab.wordpress.com/

延伸阅读

github code  https://github.com/gussow/acr

Dong, D., Guo, M., Wang, S., Zhu, Y., Wang, S., Xiong, Z., Yang, J., Xu, Z. and Huang, Z., 2017. Structural basis of CRISPR–SpyCas9 inhibition by an anti-CRISPR protein. Nature, 546(7658), pp.436-439.

Dong, C., Hao, G.F., Hua, H.L., Liu, S., Labena, A.A., Chai, G., Huang, J., Rao, N. and Guo, F.B., 2018. Anti-CRISPRdb: a comprehensive online resource for anti-CRISPR proteins. Nucleic acids research, 46(D1), pp.D393-D398.

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存