WWW 2021 | 通过强化学习控制对话式检索的风险

Original 金金 PaperWeekly 2022-07-04

收录于合集 #强化学习 16个

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

本文由犹他大学发表于 WWW 2021。考虑到当前的对话式系统可能由于提出一些不好的澄清式问题，导致用户拥有不好的搜索的体验，本文作者提出了一种基于强化学习的 agent，来判断基于当前的状态，系统应该向用户返回澄清式问题还是结果。

论文标题：

Controlling the Risk of Conversational Search via Reinforcement Learning

论文链接：

https://arxiv.org/abs/2101.06327

模型

该模型主要包括问题/答案重排序网络、决策网络以及他们的训练方法，具体来说，该模型首先根据当前对话的上下文信息，对候选的澄清式问题集合和候选答案集合中所有的元素给出匹配分数，因为本文希望验证提出的 agent 在各类的匹配网络上，都能做出较好的决策，所以主要考虑了 Bi-encoder（分别建模上下文和候选，并通过内积得到相关性分数）和 poly-encoder（一种快速且交互式的相关性编码器）两种模型来实现重排序。

生成候选集合的排序分数后，作者通过一个 DQN 的网络，将上下文信息和候选集合信息所生成的 embedding 以及重排序分数作为输入，分别计算提出问题和给出答案的预测 reward，具体来说，该网络通过了一个两层的前向传输层，并考虑到输出是 reward 而不是分类结果，故最后一层没有使用激活函数。

在训练阶段，作者使用二元的 cross-entropy loss 来训练重排序模型，并通过 MSE loss 计算真实 reward 和预测 reward 之间的差距。具体来说，作者使用结果列表的 MRR 为选择返回的 reward，而如果选择提问，提出一个好的问题则给定一个固定的奖励，而提出一个差的问题则给出一个固定的惩罚，由此训练 DQN 网络，使其能够尽量好的作出决策。

实验

本文的实验在 MSDialog 数据集上进行，作者比较了 3 种固定的策略（即固定提出 0-2 个澄清式问题），以及一个简单的分类方法。选择的评价指标是候选答案排在第一位的比例（Recall@1），候选列表的 MRR 以及作出错误决策的比例（Decision Error），并考虑了用户能忍受的最多错误问题数，实验结果如下：

可以看到，当我们使用 poly-encoder 这种更加好的匹配网络时，我们的模型都显著更好，虽然有一项上 MRR 略低，但是 MRR 指标更偏向于不提出澄清式问题，并不能作为主要的评价指标。而当我们使用较差的匹配网络时，可以看到用户容忍度较高的情况下，固定提出一个问题效果较好，这是因为该模型主要在提出 0-1 个问题之间权衡，而在该条件下，不提出问题的效果太差（即 Q0A），一定程度上可以解释本文模型效果略低于提出一个问题。

结论

在本文中，作者列出了在对话搜索中向用户提出澄清问题的风险。本文提出了一种考虑风险的对话代理，该代理通过综合评估和比较在提出澄清问题和回答用户的询问之间做出决策。在训练时，作者提出强化学习来训练，而无需何时提出澄清问题以及何时向用户提供答案的标注数据。通过使用不同用户模型的模拟实验，作者证明了该代理可以在与检索系统进行交互时提高回答质量和用户体验。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

WWW 2021 | 通过强化学习控制对话式检索的风险

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

WWW 2021 | 通过强化学习控制对话式检索的风险

您可能也对以下帖子感兴趣