科研 |南方医科&上海交大:从成像、序列和网络的异构数据中学习蛋白质亚细胞定位的多视图模式(国人佳作)
编译:微科盟-草重木雪,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读定位蛋白质组学旨在提供细胞内蛋白质定位模式的自动化高分辨率描述。在过去的几十年里,人们在定位蛋白质组学方面做了许多努力,从而产生了大量的蛋白质亚细胞定位的自动化预测器。然而,这些预测器大多仅从高通量的显微图像或蛋白质氨基酸序列训练,统一的异构蛋白质数据源还有待开发。通过整合多种数据类型,包括细胞或组织中的蛋白质表达图像、氨基酸序列和蛋白质相互作用网络,对蛋白质亚细胞位置的模式进行分类等,本文由此提出了一种基于序列、图像、网络的蛋白质亚细胞定位器(SIN-Locator),从而构建蛋白质的多视图描述。本研究通过手工特征和深度学习特征对蛋白质进行编码,并实现多种组合方法。我们的实验结果表明,最优的整合可以在一定程度上提高分类的准确性,SIN-Locator的实用性已经通过应用于人类蛋白图谱中新发布的蛋白得到了证明。此外,我们还研究了不同数据源的贡献以及数据部分缺失的影响。这项工作有望为蛋白质定位分析中多源数据的协调和组合提供线索。
论文ID
原名:Learning protein subcellular localization multi-view patterns from heterogeneousdata of imaging, sequence and networks译名:从成像、序列和网络的异构数据中学习蛋白质亚细胞定位的多视图模式期刊:Briefings in BioinformaticsIF:11.622发表时间:2022.01通讯作者:徐莹莹 & 沈红斌
通讯作者单位:南方医科大学 & 上海交通大学
实验设计
实验结果
如图1所示,SIN-Locator是通过处理蛋白质的异构数据源并测试其鉴别蛋白质亚细胞定位模式的实用性来构建的。这里使用的是包含有涉及7个主要亚细胞位置的1239个蛋白质的IF数据集和包含有3个更广泛的亚细胞位置类别的1201个蛋白质的IHC数据集。这两个数据集都属于质膜类,但与IHC图像相比,IF图像的视野更小,因此它们可以显示更细粒度的亚细胞位置模式,例如线粒体、核仁和高尔基体。两个数据集也使用相同的序列和PPI网络特征描述符,而图像描述符由于图像特征的不同而存在部分差异。蛋白质特征提取的细节见材料和方法,和表S1。
图1 构建和验证SIN-Locator的流程图
1. 利用图像数据得到的分类结果
作为基线,我们首先研究了仅使用蛋白质图像的分类性能。考虑到IF和IHC图像显示不同尺度的蛋白质分布模式,我们分别实施了它们的实验。细胞和组织图像的成熟SLF特征、一组通用(GenP)生物图像描述符和来自ResNet50的迁移学习特征和最佳拟合网络被用作图像编码器。然后我们通过逐步判别分析选择信息量最大的特征并输入支持向量机(SVM)模型。由于两个数据集都有多标记蛋白质(一个蛋白质被多个亚细胞位置标注),我们利用二元关联模式,为每个亚细胞位置类训练一个二元支持向量机来处理它们。我们采用五重交叉验证来评估每个特征集的识别能力,将蛋白质随机均匀分成5组,每重以4组作为训练集,其余组作为测试集。在每个折叠点上独立地进行特征选择,避免了估计偏差。多标记学习指标被用来评价结果(补充文本)。
图2 由图像数据得到的结果
(A-C)和(D-F)分别为IF图像和IHC图像的实验结果。(B) 利用三种组合方法整合SLFs和最优拟合描述符的性能。(C) SLFs和最佳拟合描述符之间的预测重叠和组合权重。重叠表示两个描述符的预测是相同的。图显示了蛋白质的数量和亚群的准确性。(E) 通过不同组合方法集成GenP和ResNet50补丁描述符的性能。(F) GenP和ResNet50补丁描述符之间的预测重叠和组合权重。NP:核浆;CY:胞质;MT:线粒体;PM:质膜;NI:核仁;GA:高尔基体;CP:细胞质;NC:细胞核。
图像分类结果如图2所示。多标记分类的混淆矩阵用于可视化类之间的误分类,其中矩阵的每一行代表一个真实标签,每一列代表预测。图2中混淆矩阵左下角的值较高,因为数据不平衡和样本被错误分类为多数类的趋势。为了减少数据不平衡的不利影响,我们尝试通过向下采样或向上采样对数据集进行再平衡,但并没有获得更高的性能,原因可能是多标记样本很可能分布在单个类的簇之间,边界附近增加的样本使分类更加困难。我们可以看出,核仁中相当一部分蛋白质被错误地分类为核质,这是因为这两个结构都在核中,而且物理上很接近。同样,质膜中的大部分蛋白质被分配到细胞质/细胞质中,尤其是在IHC分类实验中。这是因为这两类蛋白的染色模式在免疫组化图像中似乎比较分散,很难区分。
对于IF图像,最佳拟合编码器优于其他特征,尤其是对于少数类。通过多核学习将其与SLF特征集成时,在子集准确度(具有完全正确预测的蛋白质的百分比)、准确度和F1分数方面的性能可以提高约1-2%。多核组合方法的性能最好,因为它还可以调整特征集之间的权重。另外三种合并方法都不能很好地拟合数据,合并时甚至稀释了明显的信号。
在这里,我们还测试了其他特征集(表S3)和CNN编码器(图S1)的组合,结果表明SLFs+最佳拟合可以在较低的计算成本下获得最好的结果。为了深入了解这两个特征集的属性,我们进一步利用了它们模型的预测重叠和组合权重。如图2C所示,SLFs模型和最优拟合模型在827幅图像上的预测结果相同,具有78.84%的预测准确率。最佳拟合在非重叠预测上取得了较好的效果。此外,在多核学习中得到的核权值β也表明了最佳拟合编码器的巨大贡献。
对于IHC图像,从IHC补丁中提取的GenP和ResNet50特征在亚细胞位置分类中表现出更好的性能。这与我们之前的IHC图像分类工作是一致的。四种组合方法均能提高结果,多核学习使F1分数提高了约15分。图2F中的结果比较了GenP和ResNet50编码器的贡献,表明ResNet50作为一个深度CNN模型在该分类任务中更有效。
图3 由序列和PPI网络数据得到的结果
(A) IF数据集上不同特征集的性能。(B) IHC数据集上不同特征集的性能。H+D意味着结合HummPLoc 3.0和DeepLoc功能。
2.利用序列和PPI数据得到的分类结果
我们同时也评估了仅使用蛋白质氨基酸序列或PPI网络数据的性能。如图3所示,IHC数据集的结果高于IF,因为前者任务只有三个类别要分类,而后者有七个。这两个数据集导致了相似的结果模式。Hum-mPLoc 3.0特征产生了比DeepLoc特征更好的性能,将它们结合起来可以将准确率提高1-4%。最优的组合方法仍然是多核学习。此外,我们还发现基于序列信息的模型在区分核原生质和核仁模式方面表现不佳。由node2vec编码的PPI网络在两个数据集上获得了不错的性能,证明蛋白质相互作用确实对亚细胞定位分析有用。
与图像数据相比,序列和PPI网络可以获得更好的分类结果。在IF数据集和IHC数据集上,使用序列的F1值比使用图像的F1值分别高0.0753和0.0845。在亚细胞定位水平上,序列和PPI网络都具有更高的区分细胞质和质膜模式的能力,这意味着这两个位置的蛋白质可能具有相似的视觉模式,但物理化学性质和功能却截然不同。
图4 不同的数据源中蛋白质特征的可视化
数据源包括图像、序列、PPI和所有数据类型(从左到右)。此处使用t-SNE来显示特征在(A) IF数据集和(B) IHC数据集中分别区分不同亚细胞位置的能力。每个点代表一个蛋白质,水平和垂直坐标表示通过t-SNE减少的两个维度。
3. 组合多个数据类型的结果
上述结果表明,三种蛋白质数据类型在亚细胞定位模式分析中都是有效的,特别是在使用深度学习特征时。我们通过t分布的随机邻域嵌入来可视化蛋白质分布特征,其中显示了每个数据源的最佳性能特征组合(图4)。具有多个亚细胞位置(图4中的灰色点)的蛋白质,特别是位于细胞核和细胞质/细胞质溶胶的蛋白质,在单标记蛋白簇之间被发现。这表明可以在二进制关联分类模式中有意义地使用这些特征。此外,我们可以观察到图像和PPI网络在区分核原生质和核仁方面有更好的性能,而序列数据在这方面则较差。与此同时,这些序列似乎能有效地将质膜与其它物质分离开来。当串联多个数据类型的特征时,所有的亚细胞位置类都可以清晰地区分出来,说明这些数据源的信息在蛋白质位置分析中可以相互补充。
图5 结合异构数据的结果
(A-B)和(C-D)分别为IF数据集和IHC数据集的性能。(A和C)不同数据类型组合的性能。(B和D)三种数据类型之间的预测重叠和组合权重。图显示了蛋白质的数量和亚群的准确性。
为了研究数据集成是否能获得更好的分类结果,我们进一步应用多核学习和深度神经网络对数据源进行组合。结果证明,整合蛋白质成像、序列和网络的组合方法,即SIN-Locator,可以实现比单一数据模型更好的分类性能(图5),尤其是在使用深度神经网络时。本文所使用的网络是一个前馈人工神经网络,它包含两个隐整流线性单元(ReLU)层,每层有600个神经元。我们通过搜索层数和每一层的神经元数量来确定体系结构。由于特征提取步骤已经利用了深度神经网络,并导出了深度信息,因此该网络的深度不是很大。与最优单数据模型相比,IF数据集的子集准确度、准确度和F1分值分别提高了9.62-17.53%、9.46-16.52%和0.1115-0.1868。IHC数据集分别提高了4.11-13.98%、3.46-13.32%和0.0135-0.0980。这些结果表明,不同来源的合成信息可以增强蛋白质亚细胞定位的预测。
为了解不同数据的投票如何影响分类,我们分别比较了由图像、序列和PPI网络训练的三个预测器的预测结果。从图5可以看出,序列模型的预测精度高于其他两个模型,这说明序列信息在定位理解中的重要性。序列与PPI网络模型的预测一致性高于与图像的预测一致性。这是因为前两个数据源都描述了蛋白质的功能特性,而图像显示的是蛋白质的物理位置。它们的异质性和互补性有利于组合模型的准确性。此外,基于图像的模型在区分细胞核和核仁方面的性能优势,以及基于序列的模型在区分细胞质和质膜方面的性能优势也体现在组合权重上。
表1 通过对HPA数据库中的更新数据应用分类器获得的F1分数的结果
DNN =深度神经网络;MKL =多核学习。
4. 将SIN-Locator应用于蛋白质图谱的更新数据
我们将SIN-Locator分类器应用于新版本的人类蛋白质图谱(HPA)数据库中的更新蛋白质,这使我们能够测试SIN-Locator在新蛋白质上的效用。根据HPA 19版到20版的更新,我们收集了U-2 OS细胞系或结肠组织中新加入和改变亚细胞位置标注的蛋白质作为验证数据集。蛋白质的数量,以及将仅基于图像的预测器和SIN-Locator应用于验证数据集的F1分数如表1所示。如预期的那样,添加了蛋白质序列和PPI信息的SIN-Locator性能得到了提高。在IHC数据集上获得的增强似乎比在IF数据集上得到的增强高得多。尽管IF和IHC分类任务引入了类似的信息,在3类分类任务(IHC),而非7类分类任务(IF)中,获得的准确性可能更高。此外,多核学习比深度神经网络的结果更好,说明多核方法可能对新的蛋白质更加稳定和有效。我们模型的预测显示出与版本20而非版本19中更新的注释有更高的一致性,这表明自动化模型可以成为注释校正的有用工具。
验证实验中的F1得分比之前的5重交叉验证结果低得多。这一现象有两个潜在的原因。首先,新添加或注释改变的蛋白质相关信息可能比较稀疏或位置不同。它们的同源序列和相互作用网络也可能相对较少或不完整,这限制了SIN-Locator的性能。其次,多标记蛋白在验证数据集中的比例为51.27%,是我们训练数据集的3倍以上。多标记样本模式识别的困难导致F1得分较低。如果只考虑单标记样本,F1得分在IF数据上提高了0.1173,在IHC数据上提高了0.0180。此外,我们还使用不同类别的敏感性、特异性和AUC作为评估标准(表S6),表明IF数据的敏感性低,特异性高。这意味着该模型倾向于错过多标记蛋白质的亚细胞定位预测中的类别。这是由于在训练过程中多标记样本的比例较低,这提示在未来的工作中增加多位置蛋白质。
表2 本研究中使用的数据集的总结
讨论
在本研究中,我们设计了一个灵活的方法,SIN-Locator,统一多个数据源来预测蛋白质亚细胞位置。我们利用每个数据源获得一个最优的特征空间,然后利用该特征空间构建最终的集成模型。实验结果证明了这些蛋白质数据源集成的有效性。结果表明,在我们的基准数据集上,氨基酸序列数据对蛋白质定位模式的表征起着最重要的作用,与PPI网络的重叠信息比与蛋白质图像的重叠信息更多。
比较本研究中测试的组合算法的结果,调整不同源权重的多核学习是一个潜在的有效选择。在集成学习策略方面,例如堆叠法、装袋法和提升法也有可能用于这项任务。由于不同的蛋白质数据源擅长区分不同的亚细胞模式,我们将在未来的工作中研究更多的多分类器系统,它们可以更好地相互补充。
目前,在Swiss-Prot中,只有24%的注释蛋白得到了实验支持。在这种情况下,自动化模型的理论预测可以为wet-lab实验提供有价值的参考或补充。本研究表明,融合多种数据类型可以增强对新蛋白质亚细胞位置的预测,但实际应用中可能存在数据源不完整的问题。这个问题是具有挑战性的,特别是对PPI网络。如果只计算对STRING的置信度在95%以上的相互作用链接,那么含有PPI信息的人类蛋白的数量将从19354个下降到9380个。对于这个问题,我们还训练了只使用两种类型数据源的模型(图5)。可以看出,它们的分类性能也优于单一的数据分类器,尤其是结合了序列数据和图像数据的模型。总体而言,SIN-Locator 在部分数据缺失的情况下仍然可用且性能良好,可与wet-lab实验验证一起使用,以帮助了解更多蛋白质的亚细胞位置。
随着生物数据的日益密集,多源数据的并行利用将变得越来越重要。在未来的工作中,更多的数据类型可以用来推断蛋白质的空间定位或其他生物特性。例如,含有形状信息的蛋白质三维结构将为蛋白质描述提供另一种可能的视角。最近,Alphafold 2在蛋白质结构预测方面取得了惊人的成绩。理论蛋白质结构预测的进展也可以作为理解蛋白质细胞定位以及本研究中研究的序列、图像和PPI网络的有用数据源。
此外,异质数据的联合应用可以应用于疾病相关蛋白的分析。众所周知,一些蛋白质会改变病变细胞的亚细胞位置,因此基于图像的模型可以用来筛选这些蛋白质作为生物标志物。其中一些生物标记蛋白也有氨基酸替换,这最终导致蛋白质运输中断和功能受损。因此,我们的基于图像的模型可以首先检测到错误定位的蛋白质,然后根据相关的构象和功能障碍加以利用,这将促进蛋白质定位生物标志物的分析,并为药物靶点的鉴别提供线索。对于在疾病条件下不改变氨基酸的生物标记蛋白,序列和PPI信息的引入仍有望提高对蛋白质错位的预测和检测。我们计划在未来探索这些方向。
https://pubmed.ncbi.nlm.nih.gov/35018423/
----------微科盟更多推荐----------
科研(IF:28.547) |蛋白质组成和组织结构的空间定位:基于多重抗体成像的引物(Nat. Methods)
科研 |J. Allergy Clin. Immunol.:改变的白细胞亚群和免疫蛋白质组表明肥大细胞增多症的促炎机制
如果需要原文pdf,请扫描文末二维码领取
蛋白质组长期接受科研文章/经验投稿,期待与您交流更多蛋白质组学问题
(联系多组学老师即可投稿&申请入群)
请关注下方公众号
了解更多蛋白质组知识
蛋白质组仅用于学术成果分享与交流,不涉及商业利益。
也严禁他人将本公众号的内容用于商业运营。