查看原文
其他

【综述专栏】神经网络可解释性综述

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

作者:知乎—蝴蝶Molly

地址:https://www.zhihu.com/people/hu-die-molly

A Survey on Neural Network Interpretability 2020 AI
论文阐述了解释性的重要性,并提出了一种新的解释性分类方法,该分类方法分为三个维度:参与类型(被动解释性与主动解释性)、可解释性的类型和可解释性焦点(从局部解释性到全局解释性)。这种分类法为相关文献中论文的分布提供了一个有意义的3D视图,因为其中的两个维度不是简单的分类,而是允许有序的子类别。最后,论文总结了现有的可解释性评价方法,并提出了新分类方法启发下可能的研究方向。

可解释性定义

可解释性是用可理解的 术语 向人类提供解释的能力。
可理解的术语 应该来自与任务相关的领域知识(或根据任务的常识)。
在实践中使用的一些可解释的“术语”如下表1:

可解释性的重要性

1. 高可靠性要求: 由于一些意想不到的失败是不可避免的,我们需要一些方法来确保我们仍然在控制之中。深度神经网络不提供这样的选项。在实践中,它们经常被观察到在某些情况下会出现意想不到的性能下降,更不用说来自对抗性例子[22]和[23]的潜在攻击。可解释性可以使潜在的故障更容易检测(在领域知识的帮助下),避免严重的后果。此外,它可以帮助工程师查明根本原因并提供相应的修复。
2. 道德和法律要求: 第一个要求是避免算法上的歧视。例如,一种新药要获得监管机构的批准,如食品和药物管理局(FDA),还需要具有可解释性。除临床试验结果外,通常还需要研究其生物学机制。
另一个关于可解释性的法律要求是[25]中的“解释权”。根据欧盟一般数据保护条例,条例(GDPR)[26]第22条,人们有权不受自动决定的影响,自动决定会对他或她产生法律影响或类似的重大影响。数据控制器应保障数据所有者获得人工干预、表达其观点和对该决定提出异议的权利。如果我们不知道网络是如何做出决定的,就没有办法确保这些权利。
3. 科学用途:深度神经网络正在成为科学研究领域的强大工具,其中的数据可能具有复杂的内在模式(例如,基因组学[27],天文学[11],物理学[28],甚至社会科学[29])。当深度网络达到比旧模型更好的性能时,它们一定发现了一些未知的“知识”。可解释性是揭示它的一种方式。

本调查的贡献如下

1. 在参考文献[15]的基础上,我们进一步定义了可解释性。
2. 分析了可解释性的真实需求,并将其归纳为3组:可解释性作为系统的重要组成部分,应该是高度可靠的,伦理或法律要求,可解释性提供工具,以增强相关科学领域的知识。
3. 提出了一种包含三维空间的新分类法(被动和主动的方法,解释的格式,局部-半局部-全局可解释性)。分类可以在一个有意义的3D视图中可视化,并提供更多的见解,以了解不同尝试的可解释性深层网络是如何相关的,也为填补可解释性研究的空白提供建议。

可解释性的分类

我们提出了一种新的三维分类法(见图1):
1. 被动方法与主动方法维度,
2. 所产生的解释的类型/格式,
3. 分别从局部可解释性维度到全局可解释性维度。
第一个维度
被动解释过程从一个训练过的网络开始,所有的权值都已经从训练集学习到。然后,这些方法尝试提取逻辑规则或提取一些可理解的模式。
而主动方法则需要在训练前做一些改变,例如引入额外的网络结构或修改训练过程。这些修改促使网络变得更加可解释(例如,更像一个决策树)。这种积极干预最常见的形式是正规化。
与以前的调查相比,其他两个维度给予的是有序值。例如,之前提出的解释器[21]的维度类型产生了决策树、决策规则、特征重要性、敏感性分析等子类别。
第二个维度是解释的类型/格式
逻辑规则提供了最清晰和明确的解释,而其他类型的解释可能是隐性的。例如,显著性映射本身只是特定输入上的掩码。
通过观察显著性图,人们构建了一种解释:“模型之所以做出这种预测,是因为它关注于这一极具影响力的部分和那一部分(输入)。”
严格地说,隐性解释本身并不是完整的解释,需要进一步的人为解释,通常是人们看到隐性解释时自动进行的。
我们在这里认识到四种主要的解释类型:逻辑规则,隐含语义,归因和例子解释,按解释力的降低顺序排列。
最后一个维度从局部到全局可解释性
全局可解释性意味着能够理解模型的整体决策逻辑,而局部可解释性则侧重于对单个预测的解释。然而,在此篇论文提出的维度中,存在一个过渡,而不是一个硬划分之间的全局和局部可解释(即半局部可解释)。
局部解释通常利用目标输入的信息(例如,其特征值、梯度)。但全局解释试图将输入的范围尽可能广泛(例如,规则学习中的顺序覆盖,特征重要性排序的边际贡献)。
表II给出了四种可解释性方法类型的表现形式:
表III 给出了最近几年可解释性相关文章,通过本篇论文的三维分类方法进行分类:
III和IV两节分别讲passive和active两大类。(后续内容参考上两表内容)

III.网络训练好后的解释(passive)

现有的网络解释方法大多是被动的方法。他们试图理解已经训练过的网络。
A. Passive, Rule as Explanation
在大多数情况下,规则提取方法提供了全局解释,因为它们只从目标模型中提取单个规则集或决策树。
1) Passive, Rule as Explanation, (Semi-)local:
根据论文的分类,这类方法关注于训练过的神经网络和特定的输入(或一小组输入),并产生一个逻辑规则作为解释。Dhurandhar等人[38]通过找出应该最少且充分存在的特征以及应该最少且必然不存在的特征来构建局部规则解释。
2) Passive, Rule as Explanation, Global:
大多数时候,我们希望对网络有某种形式的整体解释,而不是它在单个点上的局部行为。我们再次将这些方法分为两组。
一些规则提取方法利用网络特定的信息,如网络结构或学习的权值。这些方法在以前的文献中称为分解方法[92]decompositional approaches。分解方法通过观察网络中的连接来生成规则。由于许多方法都是在深度学习时代之前开发的,它们大多是为经典的全连接前馈网络设计的。
而其他方法则将网络视为一个黑匣子,只使用它为经典规则学习算法生成训练示例。它们被称为教学方法pedagogical approaches。
B. Passive, Hidden Semantics as Explanation
第二种典型的解释是隐藏的神经元或层的意义。
类似于 grandmother cell hypothesis在神经科学中,人们渴望将抽象概念与某些隐藏神经元的激活联系起来。以动物分类为例,一些神经元可能对动物的头部有较高的反应,而另一些神经元可能会寻找动物的身体、脚或其他部位。这种定义上的解释提供了全局的可解释性。
现有的隐语义解释方法主要集中在计算机视觉领域。最直接的方法是显示神经元在“寻找”什么,即可视化。
C. Passive, Attribution as Explanation
Attribution是指根据输入特性对输出(预测)的影响,对输入特性给予信任或批判。解释将是一个实值向量,它用分数[30]的符号和振幅表示特征的重要性。对于具有有意义的特征的简单模型(例如线性模型),我们可以为每个特征全局分配一个分数。当涉及到更复杂的网络和输入时,例如图像,很难说某个像素总是对输出有类似的贡献。因此,许多方法都是在局部进行归因。
D. Passive, Explanation by Example
我们回顾的最后一种解释是例子解释。当被要求解释一个新输入时,这些方法会返回支持或反例的其他示例。一个基本的直觉是找到模型认为最相似的例子(就潜在表示而言)[111]。这是局部可解释性,但我们也可以在一个类或更多类中寻找一组具有代表性的样本来提供全局可解释性。

IV. 在培训期间进行积极的解释性干预(Active)

除了从训练好的网络中被动地寻找人类可理解的模式外,研究者还试图在网络训练过程中施加可解释性限制,即我们分类法中的主动解释方法。一个流行的想法是在损失函数上添加一个特殊的正则化术语ω (θ),也被称为“可解释性损失”(θ收集网络的所有权值)。

V.评估可解释性

Doshi-Velez和Kim[15]提出了三种评估方法:基于应用的、基于人的和基于功能的。第一个是衡量可解释性对最终任务的帮助程度(例如,更好地识别错误或减少歧视)。以人为基础的方法是,例如,直接让人们通过以人为对象的实验来评估解释的质量(例如,让用户在多种解释中选择质量最高的解释)。基于功能的方法寻找解释质量的代理(例如,稀疏性)。最后一种方法不需要昂贵的人体实验,但如何正确地确定代理是一个挑战。
本篇论文:
对于逻辑规则和决策树,提取的规则模型的大小经常被用作[53],[87],[94]的标准(例如规则的数量,每条规则的前因数,决策树的深度等)。严格地说,这些标准更多地衡量的是解释是否可以有效地解释。
隐语义方法对网络中的某些隐单元进行解释。网络解剖[18]通过计算隐藏单元与特定概念的匹配度来量化其可解释性。至于隐藏的单位可视化方法,目前还没有一个好的测量方法。
对于归因方法,他们的解释是显著图/掩码(或根据具体任务的特征重要性等)。Samek等人[114]通过性能退化来评估显著性映射,如果输入图像按从显著到不显著斑块的顺序被噪声部分掩盖。[45]和Hooker等人提出了一种类似的评估方法。[115]建议使用固定的无信息值而不是噪声作为掩码,并在再训练模型上评估性能退化。Samek等人也将熵作为另一种度量方法,他们认为,好的显著性地图关注的是相关区域,不包含太多的无关信息和噪声。Montavon等人[30]希望解释函数(将输入映射到显著性映射)是连续的/平滑的,这意味着当看到相似的输入时解释(显著性映射)不应该变化太多。

VI.应用

在实践中,不同的解释方法各有优缺点。被动网络(post-hoc)方法由于其直接性和可应用于大多数现有网络而得到了广泛的研究。人们可以选择利用网络内部信息的方法(比如连接权值、梯度),这些方法通常会更多有效率(例如,见第三- c1a段)。除此之外,还有一些与模型无关的方法,这些方法不需要模型架构,它们通常计算某个输入特征的边际效应。但是这种通用性也是被动方法的缺点,特别是因为没有简单的方法可以与其他领域知识/先验结合。主动(可解释性干预)方法有一些关于网络应该如何优化的想法。这个网络可以被优化到很容易被决策树适应,或者有更适合目标任务的首选特征属性。(再次强调,这种主动干预的另一面是需要网络和解释方法之间的兼容性。)
至于第二个维度,解释的格式,逻辑规则是最清楚的(不需要进一步的人为解释)。然而,它应该控制解释的复杂性(例如,决策树的深度),否则解释在实践中不会有用。隐藏语义本质上解释了网络的一部分,大部分工作集中在计算机视觉领域。归因非常适合解释个体的输入。但通常很难从归因(与逻辑规则相比)得到对网络的总体理解。举例解释的解释力是最低的(最隐含的),并且不会获得很多研究兴趣。
对于最后一个维度,当我们更关心每一个单独的预测(例如,信用或保险风险评估)时,局部解释更有用。对于一些科学研究领域,如基因组学和天文学,全球解释更受欢迎,因为它们可能揭示一些常识。请记住,在局部和全局可解释性之间并没有明确的界限。在一些解释融合方法(例如MAME)的帮助下,人们可以从多级(从局部到全局)解释中受益。
从新分类法的角度来看,可解释性研究仍有几个可能的研究方向。第一,主动解释性干预方法。对被动方法的一些分析也表明,神经网络不一定要学习人类容易解释的表示。因此,如何在不损害网络性能的情况下主动地使网络具有可解释性仍然是一个有待解决的问题。在调查过程中,我们看到了越来越多的最近的工作填补了这一空白。
另一个重要的研究方向可能是如何在网络中整合领域知识。正如我们在本文中看到的,可解释性就是提供解释。解释建立在可理解的术语(或概念)之上,这些术语或概念可能是特定于目标任务的。我们已经有很多方法构造解释不同类型的,但使用的与领域相关的条款的解释仍非常简单(见表1)。如果我们可以利用更多的域/任务相关的术语,我们可以获得更多信息的解释和更好的可解释性。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“综述专栏”历史文章


更多综述专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存