查看原文
其他

iScience︱罗杰斯/余乐正团队合作开发可用于深度学习模型理解和可视化的工具

The following article is from 岚翰生命科学 Author 罗杰斯


来源“逻辑神经科学”姊妹号“岚翰生命科学”

撰文︱罗杰斯

责编︱王思珍,方以一

编辑︱夏  叶


深度学习(deep learning,DL)是当今最流行的人工智能(artificial intelligence, AI)研究趋势之一,它为众多研究领域带来了革命性的进步。对于大多数人而言,深度学习技术仍然遥不可及,这是由于现阶段的DL方法环境依赖性较强,包括软硬件在内的使用门槛依旧相对较高所导致的。在生命科学领域也面临着类似的问题,并且随着新一代测序技术的飞速发展,相关数据数量迅猛增长,也进一步推动计算科学家设计更加用户友好的深度学习工具以解决日益增长的使用需求。因此,一些深度学习工具或软件包被开发出来用于解决上述问题,例如Kipoi [1]、Selene [2]、Janggu [3]、BioSeq-BLM [4]以及autoBioSeqpy[5]等,它们有着相对友好的用户界面或简单的命令行接口,可降低使用门槛,让用户更加专心于自己的专业领域。


尽管已取得了令人鼓舞的研究进展,人们对DL模型的作用机制仍然需要进一步研究,对DL模型的内部运作和行为,以及数据的处理过程仍然无法给出一个清晰的说明。相较于传统机器学习算法,DL模型网络结构可设计得十分复杂,导致其运作机制类似于一个黑盒子(black box),无法用人们可以理解的语言进行描述,也让模型输出结果的缘由变得难以解释,进而限制了其在生命安全、判别决策等领域中的应用。因此,深入了解DL的工作机制并对其预测结果进行合理解释是验证DL模型性能的重要手段。


2022年11月7日,四川大学网络安全学院敬闰宇助理研究员、贵州师范学院化学与材料学院余乐正教授、西南医科大学药学院罗杰斯副研究员合作在iScience上发表了题为“layerUMAP: A tool for Visualizing and Understanding Deep Learning Models in Biological Sequence Classification Using UMAP”的研究。该研究开发了名为layerUMAP的命令行工具,其能够解析深度学习模型结构并可视化模型内部网络层所学习到的特征。layerUMAP有效整合了深度学习软件autoBioSeqpy以及流形数据降维工具UMAP[6]。该工具的一大亮点是提供了一个交互式功能,允许用户分析任意指定的网络层。通过layerUMAP,用户可以非常轻松地执行两个重要的视觉反馈任务,即可视化观察深度学习模型从原始数据中所学习到的隐藏特征和逐层剖析深度学习模型以观察隐藏特征在不同中间层中的演变。此外,对于卷积层等输出为高维的特殊网络层,layerUMAP还提供了几种降维方法,可通过不同维度方向以及不同的方式对数据进行降维处理以实现可视化。layerUMAPautoBioSeqpy一样都是基于命令行进行操作的,这个设定特别适合于非专家用户以及深度学习初学者。该研究还通过革兰氏阴性菌分泌蛋白分类识别和单细胞细胞类型鉴定两个实例,对layerUMAP的使用及其功能进行了介绍。

  


在实例1中,该研究利用autoBioSeqpy工具设计了五个DL模型结构用于区分六种不同类型的革兰氏阴性菌分泌蛋白。研究将这五种方法使用相同的独立测试集进行测试,在数值上可看到卷积神经网络结构(Convolutional neural network,CNN(图1a, e)表现出最佳预测性能。同时,研究也使用layerUMAP对这五个DL模型的最后一个隐藏层输出进行了可视化展示,可视化结果可看做预测结果的另一种展示(图1b)。除了预测性能,该研究还比较了模型的训练参数和运行时间(图1c, d)。最后综合评价结果表明,CNN模型是区分不同类型革兰氏阴性细菌分泌蛋白的最佳模型。在实际应用中,layerUMAP默认输出DL模型的最后一个隐藏层。如果在命令行中调用‘–interactive’参数,layerUMAP将提供一个autoBioSeqpy所建立的DL模型的所有网络层的列表。通过指定列表中网络层名字或是序号,用户可以输出任意网络层的中间结果进行可视化输出。利用该功能,layerUMAP可逐层剖析DL模型,并观察数据在模型内部的演变(图2)。另外,研究也展示了layerUMAP针对高维的中间数据处理时提供的计算降维或是部分信息提取处理(图3)


图1 layerUMAP验证模型分类结果

(图源:Jing RY, et al.iScience, 2022)


图2 CNN模型的层间演化

(图源:Jing RY, et al.iScience, 2022)


图3 UMAP可视化多维卷积输出

(图源:Jing RY, et al.iScience, 2022)


在实例2中,该研究参照ResNet框架[7]设计了一个残差全连接网络(residual fully connected network,RFCN)用于单细胞细胞类型的鉴定(图4a)。RFCN直接使用scRNA-seq实验中测得的基因表达矩阵作为输入,输出为细胞类型预测的概率。将RFCN应用于胰腺组织、PBMCs和肺癌细胞三个scRNA-seq数据集上,经过预测效果对比,实验结果表明RFCN能够对每个数据集进行高准确性的分类(图4b)。同时,layerUMAP可视化功能也再次验证了RFCN模型的有效性(图4c)


图4 RFCN一个用于识别细胞类型的深度神经网络模型

(图源:Jing RY, et al.iScience, 2022)


文章结论与讨论,启发与展望综上所述,该研究开发了一款名为layerUMAP的交互式可视化分析工具,其目的是帮助使用者更好地理解深度学习模型的建模过程,并通过可视化结果的主观效果来改进模型。该研究详细展示了如何使用layerUMAP来理解深度学习模型的工作机制和预测性能,并结合流形学习工具来分析模型中间输出的分类效果。两个实例结果表明layerUMAP能够提供有价值的可视化结果并进一步指导模型的优化。另外,由于深度学习模型的架构具有较高的自由度,研究人员已开发出知识蒸馏模型、多任务学习等结构。目前,layerUMAP还不能自动捕获并可视化上述架构的各层隐藏输出,这些特性会在后续工作中逐步增加并改进。

原文链接:https://doi.org/10.1016/j.isci.2022.105530


文章第一作者为四川大学网络与安全学院敬闰宇助理研究员。贵州师范学院化学与材料学院余乐正教授和西南医科大学药学院罗杰斯副研究员是本文的共同通讯作者。四川大学化学学院李梦龙教授也参与了本研究。本研究得到了国家自然科学基金等项目的资助。




欢迎扫码加入逻辑神经科学 文献学习2

群备注格式:姓名-单位-研究领域-学位/职称/称号/职位

往期文章精选

【1】Transl Psychiatry︱朱遂强/朱舟团队揭示卒中导致的结构失连接可预测卒中后抑郁风险

【2】Neurosci Bull︱张丹丹团队报道内隐认知重评对抑郁症情绪调节的益处:来自行为和电生理学的证据

【3】Cell Reports︱李家立团队揭示阿尔茨海默病易激惹精神症状发生的神经环路基础

【4】NAR︱PGG.MHC:人类主要组织相容性复合体基因数据库和分析平台


【5】Neuron︱牛建钦/易陈菊团队发现发育中少突胶质前体细胞分化与星形胶质细胞足突形成的偶联机制

【6】Cell Reports | 张纪岩团队揭示成年小鼠脑膜中造血干细胞的存在及特征

【7】Neurosci Bull︱王守岩/仇子龙团队报道MECP2倍增综合症中与社交障碍相关的前额叶异常神经振荡

【8】Transl Psychiatry丨来滨/郑平课题组揭示CREB和GR介导慢性吗啡诱导内侧前额叶皮层miR-105降低

【9】iScience︱哥伦比亚大学彭岳青团队揭示感觉输入通过丘脑皮质通路调节失神性癫痫小鼠的异常脑电

【10】INT J CANCER︱梁夏/梁鹏团队合作揭示胶质瘤细胞-神经元突触连接是影响细胞瘤空间发病位置的重要因素

优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会(2023年1月7-8日 腾讯会议)【2】第十届近红外训练营(线上:2022.11.30~12.20)【3】第九届脑电数据分析启航班(训练营:2022.11.23—12.24)欢迎加入“逻辑神经科学”【1】“ 逻辑神经科学 ”诚聘副主编/编辑/运营岗位 ( 在线办公)【2】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)



参考文献(上下滑动阅读)

[1] Avsec, Ž., Kreuzhuber, R., Israeli, J., Xu, N., Cheng, J., Shrikumar, A., Banerjee, A., Kim, D.S., Beier, T., Urban, L., et al. (2019). The Kipoi repository accelerates community exchange and reuse of predictive models for genomics. Nature biotechnology 37, 592–600.

[2] Chen, K.M., Cofer, E.M., Zhou, J., and Troyanskaya, O.G. (2019). Selene: a PyTorch-based deep learning library for sequence data. Nature methods 16, 315–318.

[3] Kopp, W., Monti, R., Tamburrini, A., Ohler, U., and Akalin, A. (2020). Deep learning for genomics using Janggu. Nature communications 11, 1–7.

[4] Li, H.-L., Pang, Y.-H., and Liu, B. (2021). BioSeq-BLM: a platform for analyzing DNA, RNA and protein sequences based on biological language models. Nucleic acids research 49, e129–e129.

[5] Jing, R., Li, Y., Xue, L., Liu, F., Li, M., and Luo, J. (2020). autoBioSeqpy: a deep learning tool for the classification of biological sequences. Journal of Chemical Information and Modeling 60, 3755–3764.

[6] McInnes, L., Healy, J., and Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.

[7] He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778


本文完

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存