Google新作:注意力机制是否真的能够提供模型的可解释性?
动机
但注意力机制是否真的能够提供模型的可解释性,为什么要使用注意力作为模型可解释性研究的一个重要途径呢?为了回答这个问题,并深入研究注意力机制在可解释性研究中发挥的作用。就有了本文这个工作。
1.1 注意力的作用
这是本文的一个出发点,接下来,针对注意力是否可以用于可解释,文本展示了相关工作。
1.2 注意力是否能用于可解释
为了更好的进行注意力机制争辩的分析,本文以一个非常简单的注意力例子进行分析,结构如下图。输入的序列首先通过 LSTM,然后在此基础上计算注意力在隐层状态上的权重分布,然后以这个注意力例子进行分析
Jain 和 Wallace [1] 通过实验证明可以找到一组完全不同的注意力权重,但模型最后的输出是相同,从而证明了注意力是不能用于解释的。
Serrano 和 Smith [2] 通过修改注意力权重发现模型中的注意力权重并不能识别出对输出最终的输入部分,证明注意力不能用于解释。
Grimsley 等人 [3] 从因果推理的角度进行分析,他们认为如果可解释性的因果定义已经被提前定义了,那么通过定义的方式不能说注意力结果就是解释,这点涉及到因果推理的很多内容,这里就不再赘述。
为了反驳以上观点,说明注意力是可以用于解释的,主要列举了一下的一个工作
Wiegreffe和Pinter [4] 通过反驳 [1] 中的实验设定,首先注意力机制需要跟整个模型联合起来运行才是有用的,单纯找到一个对抗分布是没有意义的,不能为了分布而找分布。于此同时,本文提出了一些实验方法,包括 uniform-weights baseline,expected variance, diagnose attention 等,通过这些实验发现能够通过一定的方法获取针对同一输出结果的不同注意力解释,因此注意力能够用于解释,但范围是受限的。
基于梯度:主要分为以下三种;
利用梯度表示: 利用梯度与输入相乘的方法: 利用积分梯度的方法: 基于传播:这里主要介绍了 layer-wise 相关传播的方法 [5];
基于遮挡:这个方法主要通过遮挡或者擦除输入特征中的部分特征,然后分析其对模型的影响,从而得出相关输入的显著性。因此这种类型的方法主要分为两种,基于遮挡的方法和基于擦除的方法,作者分别介绍了在 CV 领域的一篇文章和 NLP 领域一篇关于擦除方法的文章。
1.4 显著性 v.s. 注意力
另外,作者也部分为显著性方法就是最终解,还有其他的一些方法有待发掘,例如反事实分析等,于此同时,显著性方法也有一些缺陷,例如对模型中间过程表示能力的缺陷,对输入变化太敏感等问题,这些也是一些值得研究的方向。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。