论NLP可解释的评估:什么才是“好”的解释?
©PaperWeekly 原创 · 作者|李泺秋
学校|浙江大学硕士生
研究方向|自然语言处理、知识图谱
前言
基于 probing task 测试模型的语义理解能力 从模型的 embedding、activation、attention 到 saliency 的可视化分析 构造特定语言现象的 challenge set 作某种方面质量评估的 用各种启发式方法生成 adversarial sample 分析模型鲁棒性的 生成模型预测的自然语言解释文本(NL Explanation Generation) 寻找简单的替代模型,或者将模型的局部分类面简化(LIME 等) ……
如何评估解释的好坏?
如果没有一个直接的、统一的标准,又有什么制定标准的原则可以是值得参考和遵守的?
1. 可解释的评估包含似然性和忠实性的评估,而人的参与只会把评估变为似然性评估,对证明模型具有真正的可解释能力——即忠实性方面毫无用处。
2. 忠实性的评估可以分为三个基本的原则假设,即模型假设、预测假设和线性假设(关于具体假设的内容请见下文)。
3. 忠实性不应该是一个“是”或“否”的评估,不然完全忠实的模型如同真空中的球形鸡,是不存在的。我们应该在更细微的“灰度”上评估忠实度,即使这些解释不具有全局性和明确的忠实性,也可以使解释有用。
NLP可解释领域现存的问题
1. 当前的解释方法受实际用例和应用程序的启发,以非常特殊性(而非普遍性)的方式定义解释。但是,这种视角通常无法区分解释质量的各个方面,例如可读性(readability),似然性(plausibility)和忠实性(faithfulness——Herman,2017 年)。
2. 此外,尽管很多工作可能会隐式或显式地评估对特定解释技术的忠诚度,但对忠诚度并没有统一和正式的定义。
3. 最后,当下还有一种趋势:将忠实性视为二元属性,然后说明解释方法不忠实。本文认为这是徒劳的——几乎不可能完全满足这些假设,并且通过反例来证明一种解释方法的真实性也太容易了。
对于第 1 点和第 2 点,本文对忠实性作出了定义:和似然性无关,忠实的解释可以准确地表示模型预测背后的推理过程。并且本文认为,在要求解释如实的情况下,不完善或误导性的评估可能会造成灾难性的影响。 本文通过明确所有可解释的尝试背后的三个假设,将看似不同的评估方法串联起来,并提供了有关忠实的理想属性的讨论基础。 对于第 3 点,本文主张在实践中对忠诚度有更实际的看法,采用分级标准来衡量一种解释在实践中是否忠实的程度和可能性。对于某个特定领域,如何构建这些标准的确切形式以及设计针对性的具体评估方法,是未来工作的主要挑战。
区分忠实性与似然性
此处参考文献:
arxiv 2017,《The promise and peril of human evaluation for model interpretability》EMNLP 2019,《Attention is not not explanation》
NIPS 2017,《A unified approach to interpreting model predictions》 arxiv 2018,《Evaluating neural network explanation methods using hybrid documents and morphological prediction》
arxiv 2018,《Faithful multimodal explanation for visual question answering》
arxiv 2018,《A humangrounded evaluation benchmark for local explanations of machine learning》
arxiv 2016,《”what is relevant in a text document?”: An interpretable machine learning approach》
arxiv 2018,《Looking deeper into deep learning model: Attribution-based explanations of textcnn》
arxiv 2019,《A human-grounded evaluation of SHAP for alert processing》
2019 年 microsoft 的一篇论文《Interpreting interpretability: Understanding data scientists use of interpretability tools for machine learning》指出,尽管没有保证,即使是专家也倾向于过于相信解释的真实性。
固有的解释性
通过事后方式解释现有模型; 设计固有可解释的(inherently interpretable)模型。
这里就不得不提到之前的一篇《The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?》,对注意力解释方法的局限性和对应的显著性方法作出详细阐述。可以阅读以下本人的解读进一步了解:https://zhuanlan.zhihu.com/p/287126616
通过效用评估
此处引用:2018,CHI,《Trends and trajectories for explainable, accountable and intelligible systems: An HCI research agenda.》2019,IUI,《What can ai do for me? evaluating machine learning interpretations in cooperative play.》
这里的分析可以看出,所有基于可视化的方法的评估都无法证明解释的忠实性。然而,目前几乎所有的文章都是拿几个热力图比较一下,感性分析……
忠实性评估的几条指南
破了这么多旧观念,终于该到立论的部分了——
明确评估对象。混用似然性和忠实性是有害的:应该明确评估其中一个,并针对每个评估使用适当的方法。当然,在设计解释技术时也应如此-明确要优先考虑的属性。 忠实度评估不应包括对解释质量的判断。我们注意到:(1)人类无法判断一种解释是否忠实:如果他们理解了模型,那么解释就没有必要了;(2)由于类似原因,我们也无法获得对此问题的监督。因此,人的判断不应参与对忠诚度的评估,因为人的判断会衡量似然性。
这似乎是一个悖论:因为无法理解模型内部发生的事情,所以需要可解释方法;但是因为无法理解模型,我们也难以确定解释是否忠实反映了模型内部的决策过程…… 因此,对于忠实性最好的评估还是基于某些客观指标!
忠诚度评估不应涉及人为提供的金标准。我们应该能够解释与正确的模型预测相同的错误模型预测。依靠金牌的评估方法受到人类先验对模型应该做什么的影响,并再次将评估推向了似然性的方向。
不要相信“固有的可解释性”主张。除非另有证明,否则固有的可解释性只是一个主张而非事实。“固有可解释”模型提供的解释必须遵循与事后解释方法相同的标准,并使用同一套评估技术对其忠诚度进行评估。
再次强调:注意力之类的方法只具有似然性,但是其对模型的工作方式的解释非常非常非常有限!具体请参考上面的专栏文章。
IUI 系统的忠实性评估不应依赖于用户表现。HCI 设置中的最终任务用户性能仅表示似然性与模型性能之间的相关性,但是这种相关性很小。尽管评估某些用例的解释效用很重要,但它与忠诚度无关。
定义忠实性
假设1(模型假设):当且仅当两个模型使用相同的推理过程时,它们才会做出相同的预测。
推论 1.1:如果解释系统导致对做出相同决策的模型进行不同的解释,那么它就是不忠实的。
2019,EMNLP,《Attention is not not explanation.》展示了如何通过对抗性训练模型推导这些反例,这些模型可以模仿原始模型,但提供不同的解释,同时还利用了这一假设来表明某些解释确实包含有关模型行为的有用信息。
推论1.2:如果解释导致的决定与其解释的模型不同,则它是不忠实的。
2018,ACM,《A survey of methods for explaining black box models.》
2019,AAAI,《Faithful and customizable explanations of black box models.》
假设2(预测假设):对于相似的输入,当且仅当其推理相似时,模型才会做出相似的决策。
推论2:如果解释系统为相似的输入和输出提供不同的解释,则它是不忠实的。
假设3(线性假设):输入的某些部分对模型推理比其他部分更重要。而且,输入的不同部分的贡献彼此独立。
推论3:在某些情况下,热力图的解释可能是不忠实的。
实现忠实的解释是不可能的吗?
通往更好的可解释评估
跨模型和任务:在特定模型或任务级别的忠诚度(以灰度表示)。也许某些模型或任务可以进行充分忠实的解释,即使对于其他模型或任务并非如此。例如,该方法可能不忠于某些问答任务,但忠实于情感分析,可能基于这些任务的各种句法和语义属性。 跨输入空间:在输入空间的子空间级别(如相似输入的邻域或奇异输入本身)上的忠诚度。如果我们能够在某种程度上确信特定决策的解释是否忠实于模型,即使该解释方法不被普遍认为是忠实的,也只能将其用于特定领域或实例。
结论
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。