最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务

Original 金金 PaperWeekly 2022-07-04

收录于合集

©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

交互性是信息搜索任务的核心，人类对话是最自然的交流工具。几十年来，这一直激励研究人员和从业者想象与信息搜索系统的对话交互。自动语音识别（ASR）和用于语言理解和生成的深度学习模型的最新进展，包括智能手机等设备的普及，引起了人们对对话式信息检索（CIS）领域的日益浓厚的兴趣。

尽管以前的工作主要关注对话环境中的单模态交互和信息搜索，但众所周知，人类对话是多模态的。我们不仅通过语言交流，而且还使用多种方式进行交流。尽管如此，信息搜索仍然主要通过视觉渠道（即键入的查询和搜索结果列表）进行。这些特性要求开发 CIS 系统，提供多模式项目并通过多种模式的渠道与用户交互。

本文从多个角度介绍多模态对话信息搜索（MMCIS）任务。首先给出了 MMCIS 的模态类型和定义，并介绍了 MMCIS 的优点以及支持的场景，最后提到了存在的研究挑战以及现有平台。

论文标题：

Towards Multi-Modal Conversational Information Seeking

论文链接：

https://www.johannetrippas.com/papers/deldjoo2021towards.pdf

多模态系统中的模态类型

我们首先从用户和系统结合的视角给出多模态对话式信息检索的流程，该过程显示所涉及的不同组件/功能：

用户通过激活肌肉（例如声带、手）来输入人类动作，对应于几种人类生物/感官模式。
用户使用多个物理输入设备（键盘、鼠标）或更高级的设备（例如运动或眼睛注视跟踪传感器）与计算机进行通信。这些输入设备对应不同的交互通道。
机器输入设备感测到的信息以音频、文本、图像、视频或演示媒体的形式产生不同的数据表示。这些数据在不同的语义级别（即低级别、语义）上提供了对用户意图的不同理解级别。音频、图像和文本对应不同的处理方式。
计算机通过应用各种计算机视觉、NLP、音频分析和数据融合来处理来自构成模态的信息，再次对应于处理模态。
计算机通过适当的设备（例如，屏幕、扬声器）输出消息。计算机可以发送统计原始数据（例如，静态图像、音频文件或视频剪辑）或从抽象表示动态生成的数据（例如文本、图形或语音合成的生成）。
最终，系统输出会刺激多种用户感官（例如，视觉、听觉）。

下表提供了不同交互渠道的示例列表，涉及处理和演示模式的模态。

MMCIS定义

上一部分介绍了多模态系统中的模态类型。然而，当涉及到 MMCIS 系统时，多模态变得更加复杂，这主要是由于 MMCIS 系统的多轮和信息访问性质。因此，鉴于前面介绍的多模态基础，将 MMCIS 三个维度定义如下：

对话处理方式（C）
用户系统交互中的多模态（I）
处理和访问信息项的多模态 (D)

因此，每个 MMCIS 系统中的多模态可以正式表示为：

维度一：对话中的处理方式（C）

我们用表示用户和系统之间的对话与对话交互，其中包含有关第交互的所有信息，包括参与者（用户或系统），内容和上下文（例如，时间、位置或设备）。我们基于处理模态交替和组合的两个概念来定义多模态处理会话 𝐶，如下所示：

会话中的处理模态交替：如果每个会话交互使用单一的处理模态，但相邻两个交互之间的处理模态发生变化，那么通过处理模态交替，会话是多模态的。形式上，如果满足以下两个条件，则对话 𝐶 是多模态交替的：

会话中的处理模态组合：如果会话中的一个会话交互由多个处理模态组成，则该会话是多模态组合的。形式上，对话 𝐶 是多模态的组合，如果：

维度二：用户系统交互中的多模态（I）

独立于 𝐶 中对话交互的处理模态，如果交互通道或结果呈现模式涉及多种交互模态，那么对话信息访问系统在维度 II 或用户方面是多模态的。系统交互。示例：用户使用语音界面和/或可视屏幕与系统交互。

维度三：处理和访问信息项的多模态 (D)

如果信息访问系统中使用的信息项（例如，检索或推荐的文档）需要不同的处理模态或信息项的模态和 𝐶 中的对话交互不同，则系统在维度 III 方面是多模态的。示例：系统在多轮对话中响应用户的关键字搜索查询检索音乐。

总之，C 表示系统在对话期间从用户那里接收到的信息。因此，C 侧重于交互的系统端，其中多模态是指处理模态。我代表用户与系统交互以及系统与用户交互的所有交互渠道。D 侧重于信息项和处理数据。因此，D 具有面向系统的数据收集视图，并以处理方式为中心。

MMCIS的优点及适用场景

我们强调了在多模态通道上进行搜索、结合上下文、高准确性、学习能力和增强可访问性的一些优势。

结合上下文：研究者们已经做了很多工作来将上下文纳入搜索；然而，先进的多模态交互和数据应该越来越多地包含在未来的模型中。此外，有意结合上下文特征可以实现从顺序（单模态）到并行设计（多模态）的转变。
高准确性：多模态系统可以帮助克服错误并提高系统输入和输出的准确性。对于输入信号，多模态输入可以帮助克服错误（即，多模态可以通过结合语音识别和唇读来更好地处理语音不流畅）。对于输出，语音和字幕的组合可以克服在嘈杂环境中呈现结果的问题。
学习能力：由于人类学习是一项复杂的多维活动，因此通过多模式交互来消费信息是有意义的。这种新颖的交互模式可以增强用户的不同思维和推理能力，适应信息寻求者的需求。
可访问性：人们的能力、需求或偏好各不相同。尽管可以使用特定模式完成特定任务，但为用户提供多种模式和在模式之间切换的机会可以增强平等的信息访问。例如，一个有阅读障碍的人可能非常擅长输入关键词；然而，能够将其传达给系统可能会克服拼写困难。不同的模式有不同的好处，指向一个对象而不是描述它通常更容易。最后，多模式输出可以适应信息量最大的媒体，克服单媒体输出的局限性，从而使其与 MMCIS 系统交互更加“自然”。

自然语言语句或简短查询并不总是适合搜索。因此，MMCIS 适用于以下条件：

正在搜索的人拥有允许一种以上交互模式（多设备和多模式）的可用设备；
当任务的上下文很重要并且可以用设备以合适的方式捕获以增强个性化时；
当设备交互模式可以支持任务复杂性时；
在给定设备、上下文和复杂性的情况下，何时可以以适当的输出方式返回结果。

研究挑战

该部分讨论了设计和构建 MMCIS 系统的挑战。这些挑战分为五类。

5.1 多模式对话交互

多模态对话输入交互导致了一些研究挑战，这些挑战在接下来要解决的单模态对话系统中不存在或被忽视。

设计支持不同交互渠道的设备。每个交互通道都需要独特的传感器、处理单元和用户界面。其中一些在现有设备中很常见，例如智能手机和纯语音智能助手。但是，存在几种当前设备不支持的多模式交互。
识别交互。MMCIS 系统应该识别多模式交互。例如，对于语音交互，通常很难以语音信号的形式找到用户请求的答案，这就是为什么使用 ASR 来转录语音交互。不同的交互模式需要独特的模型来识别交互，开发这些模型对于推进 MMCIS 研究是必要的。
更正已识别的交互和错误缓解。多模态交互的自动识别并非没有错误。纠正这些错误需要不同的技术，例如语言建模或计算观察每个识别交互的概率。
交互渠道的可发现性。与大多数新技术一样，可以教育用户如何以及何时在对话中使用不同的交互渠道。这可以简单地忽略，希望用户自己发现系统的功能。然而，可以开发不同的模型来使这个过程更有效，从而解决探索和指令之间的紧张关系。

5.2 多模态对话理解

信息搜索对话中的对话理解是指在多轮用户-系统对话中准确表达用户信息需求的过程。话题跟踪、共指和省略号解析是对话理解的主要挑战。

多模态查询重写。在现有对话的上下文中重写最后一个用户请求以生成与历史无关的请求（查询）是对话理解中的常见任务之一。多模态查询重写模型应该能够在对话中出现的模态之间建立联系。
学习会话表示跨模态。对话理解模型主要基于用户-系统交互进行训练。从不同的对话中学习，每种都采用不同的方式，是一项具有挑战性的任务。一个简单的解决方案是为每种模态训练不同的模型。然而，这不是最佳解决方案。跨模式传输知识是 MMCIS 系统中必不可少的挑战。
冷启动模式的对话理解。技术的进步导致了新传感器、设备和界面的发展，从而导致了新的交互方式。在现有的 MMCIS 系统中添加新的模态是对话理解的另一个挑战。我们称这个问题为研究冷启动模式，这可能是跨模式转移知识的另一个案例。

5.3 多模式对话排名和生成

多模态进一步导致对话结果排名和生成方面的各种研究挑战。它们包括计算对话表示和检索到的项目之间的相似性。如果集合中项目的模式与对话模式不同，MMCIS 系统应该通过学习共享表示或将一种模式转换为另一种模式来弥合这一差距。由于检索任务的性质，这些解决方案应该是高效和可扩展的。此外，生成多模态结果需要开发新的生成模型以保持一代中不同模态之间的联系。

5.4 多模态回复表示

对话系统会产生与结果呈现相关的具有挑战性的研究问题。

选择输出方式。在多个输出模态的情况下，决定使用哪种模态来呈现结果很重要。输出模式的选择取决于请求和响应的类型、用户偏好、系统属性和情境上下文。
更改检索或生成的回复模式。如果选定的输出模态与检索或生成的响应不同，则应使用模型将其模态转换为选定的模态。一些示例包括自动语音生成（将文本转换为语音）、从图像和图表生成文本，反之亦然。
以多种方式呈现回复。响应可以以多种不同的方式呈现。例如，除了该图像（或图表）的文本或语音描述之外，对用户请求的响应可以是图像（或图表）。使用多种方式呈现结果可能需要在用户界面和响应排名和生成方面进行进一步研究。

5.5 评估挑战

评估 IIR 模型具有挑战性。CIS 任务的可重用测试集合是基于有关系统能力和用户行为的几个简化假设而构建的。例如，TREC Conversational Assistance Track 假设用户总是在每个会话中询问相关的自然语言问题，并且系统只能检索几个段落。

作为另一个例子，Qulac 数据集考虑澄清问题以响应搜索查询，假设用户总是在每个会话中提交单个关键字查询。这种假设在现实生活中通常不成立。这就是为什么对 CIS 系统进行在线评估至关重要的原因。

然而，大规模的在线评估既昂贵又耗时，并且只有一小部分研究人员可以使用。因此，构建可重用的测试集仍然是 CIS 研究中最重要的部分之一。所有提到的事实都与所有类型的 CIS 系统相关，包括 MMCIS。

目前，已有开源的多模态对话式信息检索平台 Macaw-MMCIS，供研究者们使用。

总结

本文从多个角度介绍多模态对话信息搜索（MMCIS）任务。首先给出了 MMCIS 的模态类型和定义，并介绍了 MMCIS 的优点以及支持的场景，最后提到了存在的研究挑战以及现有平台。该方向目前还没有得到较多的探索，期待更多相关的工作涌现。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务

维度一：对话中的处理方式（C）

维度二：用户系统交互中的多模态（I）

5.2 多模态对话理解

5.3 多模式对话排名和生成

5.4 多模态回复表示

5.5 评估挑战

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务

维度一：对话中的处理方式（C）

维度二：用户系统交互中的多模态（I）

5.2 多模态对话理解

5.3 多模式对话排名和生成

5.4 多模态回复表示

5.5 评估挑战

您可能也对以下帖子感兴趣