其他
达摩院新一代人机对话技术体系及应用
The following article is from 阿里技术 Author 黄非
对话式AI产品背后面临的关键技术挑战 达摩院新一代人机对话技术平台 智能客服的典型应用场景和客户 人机对话未来发展方向、发展路径的思考
02 对话式AI面临的关键技术挑战
知识构建的成本高:要让机器听懂并理解人所说的话,那前提是机器要像人一样预先具备大量的知识,这些知识也需要是结构化的。这里的结构化知识主要包括两类:以特定目标为中心的对话流程知识和知识图谱。要构建围绕给定场景的较完备的对话逻辑流程(动态知识)预计需要花费1~2周的人力,构建给定场景的schema和知识图谱(静态知识)预计需要2周左右的人力,因此知识构建的成本是非常高的;
机器人从启动到符合上线标准的优化周期长:机器人从启动到符合上线标准需要进行多批次的优化打磨,每一批次都涉及都需要收集真实情况下的对话数据、标注数据、训练模型、调试模型、测试对话效果、分析问题背后的原因,然后再进行下一轮次的优化,前后预计需要2~3周;类似的,知识图谱问答效果迭代优化也需要2周;
机器人从成熟场景迁移到小样本新场景的对话体验差:对话机器人在成熟场景下由于有较多的真实对话数据可供加工和利用,对话体验是可以不断优化的。但迁移到小样本和新场景后的对话体验效果就有非常明显的下降。
人类语言的语系、语种、方言非常多样,大量小语种数据匮乏;在东南亚/南亚等多语言社会中,混合语言现象非常普遍;有些语言存在不同的书写方式,且不同书写方式之间的转写并不规范;机器人在跨越语言障碍、深入本地文化、支持地道的本地语言方面存在很多挑战。
人类感知世界的方式是多模态的,会涉及图像、文本、语音、视频等多种不同模态的信息,机器人需要能同时理解不同模态的多维度信息,而不同模态的信息如何进行高效精准的语义表征,针对跨模态语义鸿沟问题如何更好地做跨模态信息对齐,以及如何基于对齐的多模态信息做深度模态融合等存在一系列挑战。
从知识层面,重点打造结构化知识的半自动构建能力,降低知识构建的成本;并进一步拓展到图文、视频等多模态知识的充分利用;
从对话模型层面,重点打造融入知识的预训练对话模型,从而缩短机器人从启动到符合上线标准的优化周期;并进一步从单模态拓展到多模态,从单语言拓展到多语言的预训练模型能力;
从对话引擎层面,重点拓展和增强对话引擎的核心能力,包括多能力对话引擎、多语言的问答、多模态问答、小样本学习技术等。
03 达摩院新一代人机对话技术体系
第一步,首先检测物理组件序列中的标题,我们首先提取物理组件序列的文本和格式等信息,用DocBert对其提取特征,然后对每一个标题做二分类,类别是标题还是其他组件。由于这个步骤相对简单,所以用序列标注的模型可以获得较高的准确率;
第二步,对于提取出来的标题序列,我们生成标题层级结构树。具体地,以一个空树为初始状态,依次取序列中的一个标题插入到树中,当前标题可能的插入位置是树的最右分支中节点的子节点;
最后一步,当标题层级树生成结束后,根据其他组件在序列中的位置,就能插入到树对应的节点中。
Region:在真实的图像-文本数据中,一部分图像-文本对很容易在两种模态上对齐语义,而另一部分图像-文本对需要进行更高级语义上的对齐。现有的基于Region特征两种预训练框架:
1)直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入,更适合简单的图文对;
2)使用two-stream Transformer可以将图像-文本表示在高级语义空间对齐。基于此,我们提出SemVLP多模态单双流融合模型,引入了一种新的跨模态融合机制soft cross-modal attention,它集成了hard cross-modal attention和partial cross-modal attention,可以从不同语义粒度对齐文本和图像。在多个视觉语言理解任务上进行了实验,实验表明基于单双流融合的SemVLP模型较传统的单流模型和双流模型均能取得一定程度的提升。
Grid:对于Region存在线上延时长的问题和如何更好的利用Grid特征的思考,我们探索了两种融合方式,
1)E2E-VLP:将End2End多模态预训练统一到Transformer框架,同时支持NLU/NLG任务;Pretraining阶段,增加VisualTasks (ObjectDetection,ImageCaption) 更好的融合图文语义,Finetuning阶段,可以摆脱耗时的检测模块,直接基于ResNet特征图进行端到端的训练,在多个多模态NLU/NLG任务取得两阶段方法相当的效果,同时提速3倍,详见E2E-VLP论文;
2)Grid-VLP:预训练的目标检测器的FasterCNN Encoder作为Visual Encoder,在Pretraining阶段,通过Random Grid Sampling机制提高模型的鲁棒性,在VQA、NLVR2和GQA等数据集上取得超越基于Region的多模态模型效果,详见Grid-VLP论文。其中E2E-VLP已被ACL2021接受。
Patch & Fusion:ViT在视觉任务上取得了巨大的进展,最近也成为多模态的研究热点,我们尝试了基于预训练的目标检测器和图文对预训练的CLIP抽取Patch特征,以及正在探索类似VILT的图文底层融合的结果。此外,为了结合各类图文特征的优势,我们提出了Fusion-VLP,通过Learning to Attend自适应融合(Region,Grid,Patch)三类视觉特征和文本特征,在多模态视觉问答VQA取得同等预训练数据量下Single模型SOTA效果,详见相关论文。
Learning to Attend:现有的多模态预训练框架大多采用单流和双流两种交互模式,在单流框架中图文之间的交互仍采用常规的self-attention机制。而从经验上来看,模型底层应该更偏向于图文各自表征的建模,而顶层更偏向于图文之间表征的建模,因此,我们提出基于Learning to Attend的新的多模态预训练框架,对每一层使用两个可学习的自注意力权重来动态控制模态间和模态内的交互,该框架可以自适应融合上面提到的的多类视觉特征(region,grid,patch)和文本特征。
Structure:在多模态数据中,除了全是视觉元素图片外,还有一部分是图片中包含着富文本信息,而目前的多种视觉特征都无法表征图片中的OCR文本信息。针对这些挑战,我们提出了结构化预训练模型StructuralLM,在语言模型StructBERT的基础上,充分利用图片文档数据的2D位置信息,提出box共享坐标表示,并引入box位置预测的预训练任务,帮助模型感知图片不同位置之间词语的关系,相关方法在经典的表格理解数据集FUNSD和表格问答数据DocVQA较之前的SOTA方法提升近10个点,详见StructuralLM论文。该论文被ACL2021接收。
如何有效建模并利用多轮对话历史来理解用户的问题;
utterance和表格Schema之间的语义链接问题;
SQL层面:针对复杂的SQL语句,如何设计有语法约束的解码器;
表格层面:如何利用数据库内多个表格之间的关联关系;
Schema之间的语义链接关系在多表场景下更加复杂。
3.5 FAQ问答
语言无关的句子表征:加入平行词袋预测、对话适配对比训练、自编码MLM等更多预训练任务来消除语言障碍, 并适应到问答领域,增强语言无关的句向量表征学习能力, 在拓展新语言时减少对目标语言标注数据的依赖,实现业务快速冷启动;同一种语言在不同地区存在语序混合、语码混合、不同用词等差异, 基于Normalization、罗马化转写、数据增广、对抗攻击等方法加强混合语言的句子表示。
04 应用客户和场景
智能直播间商品问答
05 新一代人机对话的未来展望
L1:受限场景、单语言、单模态、预定义的对话
L2:半开放场景、单语言、单模态、预定义的对话
L3:半开放场景、多语言、多模态、预定义的对话
L4:半开放场景、多语言、多模态、终身学习的对话机器人
L5:完全开放场景、多语言、多模态、终身学习的对话机器人