iScience︱罗杰斯/余乐正团队合作开发可用于深度学习模型理解和可视化的工具

Original 罗杰斯岚翰学术快讯

2024-08-27

撰文︱罗杰斯

责编︱王思珍，方以一

编辑︱王如华

深度学习（deep learning，DL）是当今最流行的人工智能（artificial intelligence, AI）研究趋势之一，它为众多研究领域带来了革命性的进步。对于大多数人而言，深度学习技术仍然遥不可及，这是由于现阶段的DL方法环境依赖性较强，包括软硬件在内的使用门槛依旧相对较高所导致的。在生命科学领域也面临着类似的问题，并且随着新一代测序技术的飞速发展，相关数据数量迅猛增长，也进一步推动计算科学家设计更加用户友好的深度学习工具以解决日益增长的使用需求。因此，一些深度学习工具或软件包被开发出来用于解决上述问题，例如Kipoi [1]、Selene [2]、Janggu [3]、BioSeq-BLM [4]以及autoBioSeqpy[5]等，它们有着相对友好的用户界面或简单的命令行接口，可降低使用门槛，让用户更加专心于自己的专业领域。

尽管已取得了令人鼓舞的研究进展，人们对DL模型的作用机制仍然需要进一步研究，对DL模型的内部运作和行为，以及数据的处理过程仍然无法给出一个清晰的说明。相较于传统机器学习算法，DL模型网络结构可设计得十分复杂，导致其运作机制类似于一个黑盒子（black box），无法用人们可以理解的语言进行描述，也让模型输出结果的缘由变得难以解释，进而限制了其在生命安全、判别决策等领域中的应用。因此，深入了解DL的工作机制并对其预测结果进行合理解释是验证DL模型性能的重要手段。

2022年11月7日，四川大学网络安全学院敬闰宇助理研究员、贵州师范学院化学与材料学院余乐正教授、西南医科大学药学院罗杰斯副研究员合作在iScience上发表了题为“layerUMAP: A tool for Visualizing and Understanding Deep Learning Models in Biological Sequence Classification Using UMAP”的研究。该研究开发了名为layerUMAP的命令行工具，其能够解析深度学习模型结构并可视化模型内部网络层所学习到的特征。layerUMAP有效整合了深度学习软件autoBioSeqpy以及流形数据降维工具UMAP[6]。该工具的一大亮点是提供了一个交互式功能，允许用户分析任意指定的网络层。通过layerUMAP，用户可以非常轻松地执行两个重要的视觉反馈任务，即可视化观察深度学习模型从原始数据中所学习到的隐藏特征和逐层剖析深度学习模型以观察隐藏特征在不同中间层中的演变。此外，对于卷积层等输出为高维的特殊网络层，layerUMAP还提供了几种降维方法，可通过不同维度方向以及不同的方式对数据进行降维处理以实现可视化。layerUMAP和autoBioSeqpy一样都是基于命令行进行操作的，这个设定特别适合于非专家用户以及深度学习初学者。该研究还通过革兰氏阴性菌分泌蛋白分类识别和单细胞细胞类型鉴定两个实例，对layerUMAP的使用及其功能进行了介绍。

在实例1中，该研究利用autoBioSeqpy工具设计了五个DL模型结构用于区分六种不同类型的革兰氏阴性菌分泌蛋白。研究将这五种方法使用相同的独立测试集进行测试，在数值上可看到卷积神经网络结构（Convolutional neural network，CNN）（图1a, e）表现出最佳预测性能。同时，研究也使用layerUMAP对这五个DL模型的最后一个隐藏层输出进行了可视化展示，可视化结果可看做预测结果的另一种展示（图1b）。除了预测性能，该研究还比较了模型的训练参数和运行时间（图1c, d）。最后综合评价结果表明，CNN模型是区分不同类型革兰氏阴性细菌分泌蛋白的最佳模型。在实际应用中，layerUMAP默认输出DL模型的最后一个隐藏层。如果在命令行中调用‘–interactive’参数，layerUMAP将提供一个autoBioSeqpy所建立的DL模型的所有网络层的列表。通过指定列表中网络层名字或是序号，用户可以输出任意网络层的中间结果进行可视化输出。利用该功能，layerUMAP可逐层剖析DL模型，并观察数据在模型内部的演变（图2）。另外，研究也展示了layerUMAP针对高维的中间数据处理时提供的计算降维或是部分信息提取处理（图3）。

图1 layerUMAP验证模型分类结果

（图源：Jing RY, et al., iScience, 2022）

图2 CNN模型的层间演化

（图源：Jing RY, et al., iScience, 2022）

图3 UMAP可视化多维卷积输出

（图源：Jing RY, et al., iScience, 2022）

在实例2中，该研究参照ResNet框架[7]设计了一个残差全连接网络（residual fully connected network，RFCN）用于单细胞细胞类型的鉴定（图4a）。RFCN直接使用scRNA-seq实验中测得的基因表达矩阵作为输入，输出为细胞类型预测的概率。将RFCN应用于胰腺组织、PBMCs和肺癌细胞三个scRNA-seq数据集上，经过预测效果对比，实验结果表明RFCN能够对每个数据集进行高准确性的分类（图4b）。同时，layerUMAP可视化功能也再次验证了RFCN模型的有效性（图4c）。

图4 RFCN一个用于识别细胞类型的深度神经网络模型

（图源：Jing RY, et al., iScience, 2022）

文章结论与讨论，启发与展望综上所述，该研究开发了一款名为layerUMAP的交互式可视化分析工具，其目的是帮助使用者更好地理解深度学习模型的建模过程，并通过可视化结果的主观效果来改进模型。该研究详细展示了如何使用layerUMAP来理解深度学习模型的工作机制和预测性能，并结合流形学习工具来分析模型中间输出的分类效果。两个实例结果表明layerUMAP能够提供有价值的可视化结果并进一步指导模型的优化。另外，由于深度学习模型的架构具有较高的自由度，研究人员已开发出知识蒸馏模型、多任务学习等结构。目前，layerUMAP还不能自动捕获并可视化上述架构的各层隐藏输出，这些特性会在后续工作中逐步增加并改进。

原文链接：https://doi.org/10.1016/j.isci.2022.105530

文章第一作者为四川大学网络与安全学院敬闰宇助理研究员。贵州师范学院化学与材料学院余乐正教授和西南医科大学药学院罗杰斯副研究员是本文的共同通讯作者。四川大学化学学院李梦龙教授也参与了本研究。本研究得到了国家自然科学基金等项目的资助。

欢迎扫码加入岚翰生命科学：文献学习2

群备注格式：姓名-单位-研究领域-学位/职称/称号/职位

往期文章精选

【1】CRPS 综述︱黄璐/陈寅/周建华评述基于微流控平台的单细胞通信的研究进展

【2】PNAS︱苏乾/金大勇团队报道细胞内纳米温度计同时监测溶酶体和线粒体温度动态变化

【3】JCI︱臧星星团队发现KIR2DL5-PVR免疫检查点通路有望成为肿瘤免疫治疗新靶点

【4】Pharmacol Res︱李锋/关邯峰课题组揭示Cytohesin-2/ARF1调控破骨细胞分化和影响骨质疏松发生发展的机制

【5】iScience︱李朝阳/赵金存/陈新文团队合作建立细胞膜外表面受体鉴定体系

【6】Current Biology︱山东大学李远宁课题组合作在真核生物基因组进化领域取得新进展

【7】Cell Metab 综述︱曹旭团队评述骨内感知系统调控骨稳态及骨痛

【8】CDD | 唐靖/刘志峰团队合作揭示EGFR激酶活性和Rab GTPases协调EGFR胞内转运调控脓毒症巨噬细胞极化

【9】Cancer Commun︱黄晓军团队优化难治或复发急性髓性白血病治疗策略的优化：整体治疗策略

【10】GUT︱宁康团队利用迁移学习克服区域效应，并基于微生物特征实现跨区域疾病诊断

参考文献（上下滑动阅读）

[1] Avsec, Ž., Kreuzhuber, R., Israeli, J., Xu, N., Cheng, J., Shrikumar, A., Banerjee, A., Kim, D.S., Beier, T., Urban, L., et al. (2019). The Kipoi repository accelerates community exchange and reuse of predictive models for genomics. Nature biotechnology 37, 592–600.

[2] Chen, K.M., Cofer, E.M., Zhou, J., and Troyanskaya, O.G. (2019). Selene: a PyTorch-based deep learning library for sequence data. Nature methods 16, 315–318.

[3] Kopp, W., Monti, R., Tamburrini, A., Ohler, U., and Akalin, A. (2020). Deep learning for genomics using Janggu. Nature communications 11, 1–7.

[4] Li, H.-L., Pang, Y.-H., and Liu, B. (2021). BioSeq-BLM: a platform for analyzing DNA, RNA and protein sequences based on biological language models. Nucleic acids research 49, e129–e129.

[5] Jing, R., Li, Y., Xue, L., Liu, F., Li, M., and Luo, J. (2020). autoBioSeqpy: a deep learning tool for the classification of biological sequences. Journal of Chemical Information and Modeling 60, 3755–3764.

[6] McInnes, L., Healy, J., and Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.

[7] He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778.

本文完

继续滑动看下一个

岚翰学术快讯

向上滑动看下一个

直播回放｜柳刀传志冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座第十一期)

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

劝人买股票，“股市神棍” 上海爷叔出门被揍了

独家|渣男副县长包养情妇的钱从哪里来的？

原来男生内裤这么舒服！新疆长绒棉打造，软得像奶皮、滑得像真丝！比不穿还

iScience︱罗杰斯/余乐正团队合作开发可用于深度学习模型理解和可视化的工具

您可能也对以下帖子感兴趣

直播回放｜柳刀传志 冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座 第十一期)

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

劝人买股票，“股市神棍” 上海爷叔出门被揍了

独家|渣男副县长包养情妇的钱从哪里来的？

原来男生内裤这么舒服！新疆长绒棉打造，软得像奶皮、滑得像真丝！比不穿还

生成图片，分享到微信朋友圈

iScience︱罗杰斯/余乐正团队合作开发可用于深度学习模型理解和可视化的工具

您可能也对以下帖子感兴趣

直播回放｜柳刀传志冲上云霄——百年医学教育的三次改革（中日精益医疗专项基金系列讲座第十一期)