WWW 2021 | 通过强化学习控制对话式检索的风险
论文标题:
Controlling the Risk of Conversational Search via Reinforcement Learning
论文链接:
https://arxiv.org/abs/2101.06327
模型
该模型主要包括问题/答案重排序网络、决策网络以及他们的训练方法,具体来说,该模型首先根据当前对话的上下文信息,对候选的澄清式问题集合和候选答案集合中所有的元素给出匹配分数,因为本文希望验证提出的 agent 在各类的匹配网络上,都能做出较好的决策,所以主要考虑了 Bi-encoder(分别建模上下文和候选,并通过内积得到相关性分数)和 poly-encoder(一种快速且交互式的相关性编码器)两种模型来实现重排序。
生成候选集合的排序分数后,作者通过一个 DQN 的网络,将上下文信息和候选集合信息所生成的 embedding 以及重排序分数作为输入,分别计算提出问题和给出答案的预测 reward,具体来说,该网络通过了一个两层的前向传输层,并考虑到输出是 reward 而不是分类结果,故最后一层没有使用激活函数。
在训练阶段,作者使用二元的 cross-entropy loss 来训练重排序模型,并通过 MSE loss 计算真实 reward 和预测 reward 之间的差距。具体来说,作者使用结果列表的 MRR 为选择返回的 reward,而如果选择提问,提出一个好的问题则给定一个固定的奖励,而提出一个差的问题则给出一个固定的惩罚,由此训练 DQN 网络,使其能够尽量好的作出决策。
可以看到,当我们使用 poly-encoder 这种更加好的匹配网络时,我们的模型都显著更好,虽然有一项上 MRR 略低,但是 MRR 指标更偏向于不提出澄清式问题,并不能作为主要的评价指标。而当我们使用较差的匹配网络时,可以看到用户容忍度较高的情况下,固定提出一个问题效果较好,这是因为该模型主要在提出 0-1 个问题之间权衡,而在该条件下,不提出问题的效果太差(即 Q0A),一定程度上可以解释本文模型效果略低于提出一个问题。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。