科研(IF:47.99) |Nat Methods:通过邻近测序定量单细胞中的胞外蛋白、蛋白质复合物和mRNA
生科云网址:https://www.bioincloud.tech/
编译:微科盟-苏天行,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读我们提出了邻近测序(Prox-seq),用于同时测量数千个单个细胞中的蛋白质、蛋白质复合物和mRNA。Prox-seq将邻近连接技术(PLA)与单细胞测序相结合,以测量目标蛋白质的所有成对组合中的蛋白质及其复合物,提供了二次缩放的复用。我们验证了Prox-seq并分析了T细胞和B细胞的混合物,以表明它能够准确识别这些细胞类型,检测已知的蛋白质复合物。接下来,通过研究人类外周血单个核细胞,我们发现幼稚CD8+T细胞显示有CD8-CD9蛋白复合物。最后,我们研究了人巨噬细胞Toll样受体(TLR)信号传导过程中的蛋白质相互作用。我们观察信号特异性蛋白复合物的形成,发现在脂多糖(TLR4)和Pam2CSK4(TLR2)刺激下CD36共受体活性和附加信号整合,并表明蛋白复合物定量识别巨噬细胞接收的信号输入。Prox-seq为单细胞表型提供了一种尚未开发的测量模式,并可以发现不同细胞类型中未表征的蛋白质相互作用。
论文ID
原名:Quantification of extracellular proteins, protein complexes and mRNAs in single cells by proximity sequencing译名:通过邻近测序定量单细胞中的胞外蛋白、蛋白质复合物和mRNA
期刊:Nature MethodsIF:47.990发表时间:2022.12通讯作者:Savaş Tay通讯作者单位:芝加哥大学
实验设计
实验结果
我们首先试图证明PLA产物可以用scRNA-seq测量,并且PLA数据可以显示细胞类型特异性差异。我们选择了与T细胞和B细胞标志物相对应的11个蛋白质靶点(补充表1)。Prox-seq探针与两个同型对照一起用于这些靶点。将该组合应用于T细胞(Jurkat)和B细胞(Raji)的混合物,然后使用Drop-seq流程(补充表2)对其进行分析。
Prox-seq测量表明,细胞可以使用mRNA、蛋白质或总PLA产物精确地聚类(图1e–h)。蛋白质丰度可以通过从Prox-seq探针A或B(补充方法)中检测到蛋白质靶点DNA条形码的总次数来估计。我们发现,通过mRNA或蛋白质对细胞进行聚类,可以识别相同的细胞类型(图1e,f,h)。类似地,我们可以使用所有169种PLA产物对细胞进行聚类,其中除了蛋白质丰度外,还包括蛋白质邻近信息(图1g)。无论使用何种数据类型,一旦细胞聚集,Prox-seq显示出基因表达和蛋白质丰度之间的良好一致性(图1i)。然而,我们发现单个细胞的mRNA和蛋白质之间的相关性在基因之间变化很大,并且通常是适度的,与其他研究类似(图1和补充图2)。我们还发现,PD1–CD3和CD3–CD3复合物的PLA产物是Jurkat集群中最显著富集的(Wilcoxon秩和检验分析、Benjamini Hochberg调整后P值分别为2.2×10−55和5.1×10−53;图1j)。流式细胞术证实CD3和PD1是Jurkat特异性蛋白(扩展数据图1)。对于Raji集群,ICAM1–HLA-DR和HLA-DR–HLA-DR是最显著富集的两种PLA产物(Wilcoxon秩和检验,Benjamini Hochberg调整后P值分别为2.7×10−54和2.4×10−46;图1j)。流式细胞术证实ICAM1和HLA-DR确实在Raji细胞上唯一表达(扩展数据图2)。
我们接下来试图证明Prox-seq能量化单细胞中的蛋白质表达。我们用一组13种Prox-seq探针处理Jurkat和Raji细胞,并使用基于微孔板的测序方法(补充方法)分析PLA产物。选择基于微孔板方法是因为这种方法通常每个细胞可以产生更多的UMI。该组合允许我们测量多达91种潜在的成对蛋白质复合物(图1b)。我们观察到极小的非特异性抗体结合(补充图3)。将流式细胞术与Prox-seq进行比较显示,平均荧光强度与UMI之间具有高度相关性(Spearman相关系数,0.88)(扩展数据图3)。Prox-seq探针若是没有配对连接,则不会产生量化数据。为了确保该特性不干扰蛋白质定量,我们执行了一个改进的Prox-seq协议,该协议能够测量连接和未连接的Prox-seq探针(扩展数据图4)。我们发现,90%以上的Prox-seq探针与其他探针连接,这直接解释了Prox-seq定量与流式细胞术一致性(扩展数据图3和4b)。这些结果表明,Prox-seq准确地表征了单细胞中的蛋白质种类,并包含了其他测定(如REAP-seq和CITE-seq)的蛋白质定量特征。
Prox-seq的一个独特特征,以及与现有单细胞蛋白质组学技术相比的一个主要优势是,它揭示了每个靶蛋白的配对蛋白质相互作用(图1)。蛋白质之间的相互作用可能是由于稳定复合物的形成或由于蛋白质的随机(瞬时)靠近。单独的PLA产物计数不能区分这些可能性(补充方法)。因此,我们试图鉴定能指示蛋白质复合物的PLA产物。在不存在复合物的情况下,通过随机靠近形成PLA产物的概率取决于其相应探针A和B在细胞表面上的浓度。基于这一假设,我们根据Prox-seq探针丰度计算了每个PLA产物预期的随机计数。该预期的随机值反映了没有复合物的情况下,来自随机连接的PLA产物的最大量(补充方法)。当我们将这些值与实验数据进行比较时,我们发现几种PLA产物的丰度高于预期的随机值,表明存在稳定的蛋白质复合物(图2和补充图4和5)。例如,正如预期的那样,CD28-CD28和CD3-CD3同源二聚体在Jurkat细胞中是高丰度复合物(图2b),而PDL1-PDL1同源二聚物在Raji细胞中以非常高的丰度存在(图2c)。测量的和预期的随机计数之间的差异(Δ),表明PLA产物计数来源于每个细胞上的稳定蛋白质复合物(图2)。
为了进一步改进随机邻近背景的估计,我们开发了一种计算方法(图2a–e和补充方法)。原始Prox-seq数据提供了测量的PLA产物计数的矩阵,从中我们计算了每个蛋白质复合物的最大背景范围。然后,我们执行了一个迭代算法来进一步细化背景估计。首先,算法计算每个PLA产物的预期随机计数,作为背景的原始估算。然后,该算法求解描述所有可能的蛋白质复合物的二次方程组,并产生新的估算。为了解释单细胞变异,我们执行了Benjamini–Hochberg法校正的单侧t检验(所有复合物每次迭代一次)。如果蛋白质复合物估计值在统计学上不显著,则算法预测PLA产物不对应于稳定的复合物,并且先前迭代的蛋白质复合物估算值保持不变(补充方法)。如果复合物估计值具有统计学意义(调整后的P值<0.05),则算法预测PLA产物对应于稳定的蛋白质复合物,复合物计数用当前迭代的估计值更新(图2a)。接下来,更新的蛋白质复合物计数用于调整PLA产物计数,算法开始下一次迭代。当两次连续迭代之间蛋白质复合物计数的绝对变化低于收敛阈值时,算法收敛(补充方法)。当我们迭代时,我们更新了对背景构成的估计,因此预期的随机计数随着每次迭代而变化(图2d,e)。
测量的计数和最终精制背景之间的差异,揭示了其他几个低丰度的、但显著高于随机连接背景的复合物(图2f,g)。我们将我们的算法应用于Jurkat细胞和Raji细胞,发现四种蛋白质的50%以上PLA产物计数要归因于蛋白质复合物,包括:Jurkat中的CD3和CD28同源二聚体,以及Raji细胞中的PDL1和HLA-DR同源二聚体(图2f,g)。我们通过Fisher精确概率检验获得了类似的结果,也鉴定了我们发现的主要蛋白质复合物(补充图6)。
需要注意T细胞中CD3和CD28同源二聚体的鉴定,因为它们在我们的组合中是作为阳性对照的。CD3-Prox-seq探针靶向CD3ε蛋白,其中两个是TCR复合物的一部分。已知CD28通过二硫键在细胞表面形成稳定的同源二聚体。虽然先前的研究不清楚PDL1是否在细胞表面形成同源二聚体,但PDL1的所有晶体结构都具有同源二聚物的特征。HLA-DR被认为存在于B细胞表面单体和同源二聚体之间的平衡中。因此,我们的蛋白质复合物估算算法正确地鉴定了四种已知蛋白质复合物的存在。然而,B7和ICAM1都被认为经历了某种程度的同源二聚化。 ICAM1确实具有归因于同源二聚体的最高数量的PLA产物,但由于其非常高的表达水平,同源二聚体仅占ICAM1 UMI的一小部分(约27%;图2g)。B7同源二聚体的缺失增加了该组合中的单克隆抗体无法与二聚体结合的可能性。总之,我们所提出的算法允许确定与蛋白质复合物相对应的额外的、低丰度的PLA产物,并提供了一个统计框架来鉴定和量化数据中的这些复合物。
接下来,我们探索了Prox-seq测量大量蛋白质复合物的潜力,并测试了其可扩展性。通过比较Jurkat和Raji细胞探针的不同大小的重叠Prox-seq组合,我们确定了组合大小对非特异性抗体结合的影响(扩展数据图5)。随着组合大小的增加,非特异性结合的增加可以忽略不计(扩展数据图5d)。这与REAP-seq和CITE-seq中先前报道的低非特异性结合水平一致,它们也使用条形码抗体探针进行蛋白质检测。然后,我们生成了一组针对38个免疫细胞标记物的Prox-seq探针对,主要关注T细胞标记物(补充表3)。该组合测量了多达741种独特的蛋白质复合物。我们将该组合应用于单个人类外周血单个核细胞(PBMC),并使用两种不同的方法分析样本:基于微孔板的方法,以最大限度地提高我们测量潜在罕见蛋白质复合物的能力;以及基于液滴的10x方法,以高通量方式同时测量mRNA和PLA产物。
基于微孔板的数据显示,蛋白质测量结果清楚地鉴定了预期的细胞类型:CD8+T细胞、CD4+T细胞和非T细胞(不表达CD3;图3a)。我们的复合物检测算法确定了这些细胞中不同水平的20种蛋白质复合物(图3b)。如前所述,我们鉴定了几种已知的同源二聚体,包括CD3同源二聚体、CD28同源二聚体和CD9同源二聚体(图3b)。此外,我们确定了CD3-CD8和CD3-CD4蛋白复合物的存在(图3b)。这两种复合物的形成,与我们用抗CD3抗体混合物刺激T细胞的结果一致。示例性的单细胞热图,如CD4+T细胞(图3c)和CD8+T细胞(图3d),在检测到的PLA产物和蛋白质复合物方面显示出明显的差异。
除了这些已知的蛋白质复合物,我们还发现了CD9和CD8之间潜在的新相互作用。对于CD8+T细胞,我们观察到细胞可以分裂为两个明确的亚群。在一个亚群中,CD9-PLA产物主要被鉴定为与自身配对(CD9-CD9)。其他亚群显示CD9-PLA产物主要与自身以外的蛋白质配对(图3e)。然后,在CD9–CD9 PLA产物不受欢迎的情况下,我们试图确定哪种蛋白质与CD9相互作用。有趣的是,对CD9-CD9-PLA产物低表达的亚群的分析确定了CD9-CD8蛋白复合物的存在(图3f)。这不是以前已知的复合物。而已知CD9参与免疫突触形成,与CD3共定位并与CD3蛋白共沉淀。这种蛋白质复合物的出现并不能明确归因于蛋白质表达水平的变化,因为CD3、CD8和CD9在两种细胞群中都有类似的表达(图3g)。虽然CD4+T细胞也在较小程度上显示了这两个亚群,但在这些细胞中未发现CD4-CD9蛋白复合物(扩展数据图6)。
为了探索蛋白质复合物和mRNA之间的相互作用,并鉴定两种CD8+T细胞亚群,我们使用10x的工作流程进行了匹配实验。该实验同时测量了8700多个单细胞的mRNA、蛋白质复合物和蛋白质水平。我们能够根据其mRNA水平对细胞类型进行聚类。PLA产物信息与mRNA信息所识别的细胞类型密切相关(图4a,b)。
接下来,我们研究了每个靶点的mRNA和蛋白质水平之间的相关性。我们再次发现,mRNA和蛋白质在簇的水平上相关,但仅在单细胞水平上适度相关(图4c和补充图7)。PLA产物反映了各种簇的蛋白质和复合物的水平(图4d)。这种混合物能够测量多达741种蛋白质复合物。在这741个潜在复合物中,我们确定了37个存在,这与基于微孔板的方法确定的20个复合物在很大程度上重叠(扩展数据图7,补充表4和补充数据1)。在这37种蛋白质复合物中,有21种在文献或IntAct蛋白质复合物数据库中得到支持(补充表4)。Prox-seq未能鉴定IntAct数据库中发现的8种蛋白质复合物(补充表4)。这些复合物中都包含一种蛋白质,其平均表达量低于每个细胞5个UMI。
使用10x genomics工作流程的测量再现了基于微孔板方法的结果,即基于CD9-CD9 PLA产物水平将CD8+T细胞分为两个亚群(图4e)。在具有低CD9-CD9 PLA产物的亚群中,发现CD9与CD8在蛋白质复合物中(图4f)。借助mRNA信息,我们发现这两种细胞类型显示出非常不同的转录谱(图4g)。没有CD9-CD8蛋白复合物的细胞显示GZMB和NKG7基因的上调(图4h)。这些基因都是活化淋巴细胞的标记物(补充数据2)。相反地,具有CD9-CD8蛋白复合物的细胞显示出SELL和CCR7基因的上调,这两个基因都是幼稚T细胞的标记(图4h)。此外,我们还观察到CCR7蛋白的差异表达(图4i)。总之,这些数据表明CD9-CD8蛋白复合物的存在是幼稚CD8+T细胞的标志。我们注意到,某些细胞显示的激活状态不太可能是对我们的Prox-seq混合物的反应。虽然混合物中确实包含刺激性抗体,但抗体暴露的整个时间过程为30分钟,远远少于激活T细胞所需的时间。
我们开发了一组Prox-seq探针对,靶向已知参与核转录因子(NF-κB)信号通路的15种表面蛋白,而前者是先天性免疫的一种中枢介质(补充表5)。该组合测量每个细胞上多达225个蛋白质二聚体。首先,将原代人巨噬细胞暴露于脂多糖(LPS)和或Pam2CSK4(PAM),以激活NF-κB的配体。LPS激活TLR4,PAM激活TLR2,两种受体都向NF-κB通路发出信号。未处理的细胞作为对照。对于每个配体,细胞被刺激5分钟、2小时或12小时(图5a)。然后,收集细胞,固定并用基于微孔板的Prox-seq处理。固定用于保持5分钟刺激组的受体相互作用,并防止抗体诱导刺激和引入伪影。
总体而言,刺激2小时后PLA产物明显增加,12小时后急剧下降(图5b)。然而,这一趋势并不普遍,一些PLA产物在整个时间过程中都在上升,或仅在12小时出现(图5b)。相反,12小时的总蛋白水平始终较低(图5c)。我们发现,一种蛋白质产生一对PLA产物的趋势并不是严格意义上的蛋白质表达水平的结果。例如,TLR2在其首选的PLA产物作用对象中显示出重大变化,这取决于时间和刺激剂,并不总是跟踪这些作用对象的蛋白质水平(图5d)。与先前的NF-κB动态单活细胞成像研究一致,LPS刺激显示出更快的反应,大多数PLA产物在5分钟达到峰值,而PAM显示出较慢的反应,在2小时达到峰值(图5e)。
Prox-seq非常适合研究当细胞遇到两种不同信号时,信号是如何整合的。当LPS和PAM同时用于巨噬细胞的组合刺激时,PLA产物的平均变化在刺激持续时间内以相加的方式显示了两种刺激的特征,具有宽的峰值,该峰值持续到最后在12小时下降(图5e)。蛋白质显示出与PLA产物相似的趋势(图5f)。这种简单的相加性表明,对于我们测量的蛋白质,LPS和PAM是独立运行的,没有协同作用。这一结果与先前使用活细胞显微镜鉴定LPS和PAM34之间非整合信号的研究一致。
NF-κB转录因子的活细胞显微镜测量可以预测细胞是否受到LPS或PAM的刺激。我们推断,受体组织的变化也可以在混合刺激场景中识别刺激配体。我们使用LPS或PAM刺激后每个时间点的PLA计数数据训练逻辑回归分类器。对于2小时时间点,我们的分类器能够识别PAM样或LPS样巨噬细胞反应(图6a)。该分类的最大系数是TLR2–TLR2 PLA产物的存在,其在LPS处理的细胞中高度升高(图6b和扩展数据图8d)。五重交叉验证验证了2小时时间点是构建分类器的最佳选择(扩展数据图8a–d)。然后将该分类器应用于与LPS和PAM共同刺激的单细胞,并分类为LPS样、PAM样或混合反应细胞(扩展数据图8e–g)。大多数单细胞被分类为LPS或PAM样细胞,但一些细胞表现出两种信号类型的特征(混合反应细胞)。技术人工物无法解释混合反应细胞的存在(补充图8)。值得注意的是,在活细胞显微镜研究中也观察到类似的混合反应细胞。可以从蛋白质数据中产生具有类似预测能力的分类器;然而,与单独的蛋白质相比,总PLA产物提供了更微妙的信息(扩展数据图8h–j)。例如,发现与PAM处理的细胞相比,LPS处理的细胞中所有蛋白的表达都较低,而PLA产物IL-8Rb–MD2和IL-1R–TGFBR1在前者中表达较高(扩展数据图8h)。与逻辑回归分类器的结果一致,TLR2–TLR2蛋白复合物在LPS处理巨噬细胞后2小时出现,然后在12小时消失(图6c)。相反,在PAM刺激下,该蛋白复合物在早期时间点(2小时)不存在,并且在PAM处理后仅12小时出现(图6c)。虽然已知TLR2同源二聚体存在,但以前并不认为它参与LPS或PAM信号传导。
最后,我们探索了PLA产物数据中显示的单细胞信号响应的变异性。当我们比较所有PLA产物的平均值和方差时,我们观察到与对照组相比,在所有刺激条件下,方差显著减少(图6d和补充图9)。这种配体刺激后单细胞变异性的降低,在以前NF-κB信号的单活细胞显微镜研究中同样可见。我们观察到,低方差PLA产物均含有CD36 Prox-seq条形码(图6e和补充图10)。含有CD36的所有PLA产物的直方图显示了对照细胞中的两种模式,由UMI的数量分隔(图6f和补充图10)。LPS处理导致细胞转移到较高的UMI模式(图6f)。由于这种变化已经在5分钟内发生,PLA产物的增加不太可能是蛋白质表达增加的结果。相反,CD36参与了我们的探针组合靶向的其他蛋白质的相互作用和重排。5分钟时新的CD36蛋白复合物的出现进一步支持了这一点(图6c)。CD36是一种清道夫受体,可识别多种细菌脂质和脂蛋白分子。它还被证明是TLR2和TLR4的共受体,在我们的研究中,这两种受体都受到配体的刺激。此外,氧化低密度脂蛋白刺激可诱导CD36与TLR4和TLR6形成蛋白复合物。总之,这些结果表明Prox-seq可以鉴定信号传导过程中受体成分的重排和细胞间变异。
我们接下来探讨了与其他单细胞测序模式相比,Prox-seq是否具有不同的测序深度要求。正如单细胞测序的典型情况,我们发现基于微孔板的方法提供了最高的文库复杂性(补充表2)。当mRNA也被回收时,10x Genomics工作流程提供了文库复杂性和成本之间的最佳权衡。为了进一步探索测序深度和Prox-seq性能之间的关系,我们进行了下采样分析,由此从细胞中随机移除测序序列,以模拟较低的测序深度(扩展数据图9)。我们发现,对于蛋白质和PLA产物形式,每个细胞的UMI数量和每个细胞的特征(其中特征可以是蛋白质、PLA产物或蛋白质复合物)随着每个细胞的平均序列数接近10000而增加(扩展数据图9a–d)。我们的数据显示,序列计数超过每个细胞10000条序列时,才会发生回报递减(扩展数据图9f–g)。因此,我们建议用户在对PLA产品进行测序时,每个细胞至少读取10000次。
讨论
总之,我们提出了一种实用且广泛适用的技术,用于同时测量单个细胞中的细胞外蛋白、蛋白复合物和mRNA,并展示了其在不同生物背景下的应用。我们预计Prox-seq将是理解信号传导、分化、发育和细胞决策的重要工具,而这些在很大程度上是由蛋白质相互作用的变化驱动的。与常用的单细胞测序方法的兼容性使其被许多实验室广泛采用。最重要的是,Prox-seq可以识别成对蛋白质复合物的成员,为单细胞测序提供了新的模块化。在这项研究中,我们证明了在完整的单个细胞中检测表面蛋白,而原则上Prox-seq可以应用于细胞内蛋白以及细胞裂解物。
Prox-seq有一些固有的限制。其中一些来自抗体的需求。单克隆抗体主要用于本研究,因为它们能够可靠地定量同源二聚体。然而,单克隆抗体可能比多克隆抗体具有更高的假阴性率。多克隆抗体由于具有多个表位,应该以失去可靠量化同源二聚体的能力为代价,来改善一些假阴性的担忧。与其他基于抗体的试验类似,应验证抗体与Prox-seq的兼容性。此外,当抗体指向受体时,抗体测定通常具有刺激性。如果不希望这样,应在Prox-seq分析之前固定细胞。最近已经提出了用于固定细胞的单细胞测序方法;然而,通常会有一些数据质量的损失。
在这项研究中,我们还开发了一种算法,用于更好地预测表面蛋白之间的随机连接背景,这允许识别额外的低丰度复合物。Prox-seq的数据结构导致PLA产物之间的耦合,影响蛋白质复合物丰度的准确定量。我们的预测算法解决了这一挑战,但仍有一定的局限性。在蛋白质复合物定量之前,细胞必须聚类。该算法的一些参数是启发式选择的,这会导致预测的蛋白质复合物根据参数发生变化。此外,该算法目前没有考虑PLA产物计数的分布。我们预计,利用PLA产物计数的分布可以进一步提高统计能力,降低假阳性率。
虽然存在这些限制,但Prox-seq准确地识别了各种细胞类型,测量了人PBMC中预期的和未表征的蛋白质复合物,并研究了巨噬细胞TLR信号传导过程中的蛋白质重排和复合物形成。我们在T细胞中检测到已知的蛋白质复合物,如CD3同源二聚体和CD28同源二聚体。我们还发现了人原代幼稚CD8+T细胞上CD8和CD9之间的新受体相互作用。最后,我们观察到巨噬细胞在LPS和PAM刺激下受体排列的不同时间变化,并显示了TLR信号的相加整合,这得到了先前活细胞显微镜和单细胞模型研究的支持。
单细胞测序技术的最新进展使得能够在单细胞水平上对转录组、基因组和表观基因组进行全面表征。有几种方法扩展了这些方法,以纳入基于抗体的蛋白质测量。此外,单细胞质谱领域也在快速发展。然而,与其他分析物相比,在单细胞水平上测量蛋白质复合物的速度较慢。Prox-seq提供了二次缩放的复用能力,以大大增加可测量的蛋白质复合物的数量。目前,可实现对蛋白质复合物进行高度复用的测量,但仅限于组织样品,而不能应用于单细胞。适用于单细胞的方法在其复用能力方面受到限制,通常测量少于10个复合物;而使用Prox-seq,我们已经证明了在单个PBMC中研究741种可能的蛋白质复合物的能力。此外,Prox-seq结合了scRNA-seq,从而同时提供多种单细胞数据类型,这大大增强了单细胞的多组分析能力。
https://www.nature.com/articles/s41592-022-01684-z
----------微科盟更多推荐----------
科研 |Nat Commun:基于组织膨胀的空间分辨蛋白质组学
获取此文献原文PDF、申请加入学术群,联系您所添加的任一微科盟组学老师即可,如未添加过微科盟组学老师,请联系组学老师46,无需重复添加。
请关注下方公众号
了解更多蛋白质组知识