ACL 2022 | 面向对话状态追踪任务的回合级公平评测
论文标题:
Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances
文章链接:
代码链接:
为了解决现有的问题,作者提出了一种新的评价度量,即灵活目标精度(FGA)。FGA 是 JGA 的一个广义版本。但与 JGA 不同的是,它试图给局部正确的错误预测给予一个惩罚奖励,因为出现这种错误的根本原因很可能来自于更早轮次的错误。通过这样做,FGA 灵活地考虑了累积层面和回合层面预测的性能,并提供了比现有指标更好的洞察力。作者还表明,FGA 是一个更好的鉴别 DST 模型性能的鉴别器。
本文首先介绍了三个传统 DST 系统评价度量缺陷所在:
“Extract Match” 比较了 ground truth belief state Bt 和 Predicted belief state B0t。“Turn Match” 表示回合级非累积 belief state 预测的正确性。箭头表示错误的传播。
2.1 JGA
(2)从以上结果来看,虽然联合目标精度是评价 DST 的方便指标,但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此,一旦发生了错误的预测,就很难在随后的回合中得到正确的预测。例如,在图 1 中,第 2 轮的预测出现了错误,这影响了以后所有的预测。所以,如果模型错误预测了第一个回合,很可能 JGA 为零。因此,JGA 可以破坏 DST 模型的真正潜力,并提供一个被低估的性能。
P 是 X 中唯一域槽对的集合,Q 是 Y 中唯一域槽对的集合。
基本上,在公式 1 中,|X| 和 |Y| 分别表示假阴性和假阳性的数量。请注意,如果真域槽对的值被错误预测,那么这个错误预测将被计算两次(X 和 Y 一次)。|P∩Q| 有助于纠正这种过度计数。在 MultiWOZ 中,|S| 的值为 30。
Method(Flexible Goal Accuracy)
(1)本轮的槽值对信息预测错误
(2)该轮的槽值对信息预测正确,但前几轮的槽值对信息预测错误
FGA 与 JGA 的工作方式不同,只适用于第 2 类错误。与 JGA 不同,FGA 不会完全惩罚第 2 类错误。它根据错误轮次(terr)和当前轮次(t)之间的距离分配一个惩罚分数,惩罚与这个距离(t−terr)成反比。主要思想是随着时间的推移忘记错误,以便获得对 DST 模型的公平判断。
算法流程:
Input:对话状态标签,预测的对话状态,对话的轮次
算法从第一个对话轮次开始迭代,每一轮下 w 初始值为 1,找到犯错误的轮次,然后开始判断是哪类错误:
(1)找到开始出现预测错误的轮次(第一类错误),若该轮为第 0 轮(最开始的轮次),w 设为 0,terr 标记为 t(轮次数)
(2)若该轮词不为 0,则取出标签以及预测值中该轮次独有的槽值对,即不在上一轮的对话状态且存在于该轮的对话状态中的槽值对。
(a)若预测的该轮槽值对不属于正确的对话状态或者正确的该轮槽值对不属于该轮次预测的对话状态(分别对应判断多预测和少预测的槽位,两个条件都可以判断预测正确的槽位,而值预测错的情况),评判为第一类错误,w 设为 0,terr 标记为 t。
(b)否则判断为第二类错误,计算第一类错误和本轮错误的距离 x=t-terr,利用指数分布,计算 w=1 − exp(−λx),作为奖励分数,同时 f=f+w 在迭代完成后,将 f/N 作为最终的分数。
可以看出,错误距离越远,奖励 w 越高,反之,w 越低,而 λ 可以视为奖励分数的严格程度:当 λ=0,则该分数变为了JGA,当 λ 趋于正无穷时,该指标对第二类错误不起作用,只报告第一类错误,即只分析每轮次犯下的错误,不管错误的累积效应。
“M1”和“M2”分别表示精确匹配和回合级匹配。“FGAx” 表示使用 λ=x 计算出的 FGA 值。
实验结果表明,Trippy 是 SOTA 的效果。然而,我们可以注意到,Trippy 在回合级匹配中并没有相同的性能增益。它比 SOM-DST 和 Hi-DST 有更少的回合级匹配。这种曲变的行为可能是利用其复杂的特征化来增强 JGA 的副作用。相比之下,Hi-DST 明确地优化了回合级非累积信念状态,从而以牺牲 JGA 为代价实现了更好的回合级精度。
此外在这四种模型中,由于 SOM-DST 具有复杂的选择性覆盖机制,因此它们对这两个目标都表现良好。现在,通过比较表 1 的数量,我们可以推断出 FGA 在考虑精确匹配和回合级匹配的同时,在提供公平的估计方面做得更好。此外,我们还可以注意到,与现有的指标相比,FGA 作为 DST 模型更好的鉴别器。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧