查看原文
其他

干货!预训练语言模型在百度大规模召回阶段的应用

AI Timer AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


召回是网页搜索中的重要阶段,其功能在于从海量网页库中找到一个相对较小的相关候选集。其中,基于语义相关的召回有助于展现更多高质量的搜索结果给用户。但是,搭建和部署一个高效的语义召回模型,在搜索引擎业务中一直面临着诸多挑战。本文介绍了目前百度搜索中所使用的基于预训练语言模型的召回系统。此系统采用了百度自研的中文预训练语言ERNIE,通过应用基于多层Transformer的模型结构,以及多阶段的训练流程,赋予了召回系统强大的语义匹配能力。同时,本文还介绍了基于预训练的召回模型在整个召回系统中的工作流程。通过严谨的离线和线上实验验证,基于预训练语言模型的召回系统已全量部署在百度搜索业务中,提升了百度搜索的整体效果。


本期AI TIME PhD直播间我们邀请到百度高级算法工程师——刘亦丁,为我们带来报告分享《预训练语言模型在百度大规模召回阶段的应用》。




刘亦丁:


百度高级算法工程师。2020年于新加坡南洋理工大学获得博上学位,导师为丛高教授(https://personal.ntu.cdu.sg/gocong/) 。在数据挖掘、数据库领城顶会KDD、SIGIR、 WWW, ICDE、VLDB、WSDM等发表10余篇论文。个人主页: https:/ /liuyiding.net/。


01

 背   景 


常见的搜索引擎的流程大致包括大规模网页检索和重排序两个阶段。传统的网页检索是基于文本匹配的方法,比如关键词匹配法,这种方法有个明显的缺陷就是容易引发歧义,比如下面的例子。

 


如此我们就引出来基于语义的检索方法,主流的是以表示学习为主的方法,这种方法在进行语义检索时主要分为两部,第一步将海量网页汇聚成文档,表示为隐空间的向量。下图是一个二维隐空间的示意图,图上的每个点都可以看作一个网页。在检索时,我们可以将用户发出的检索需求“Query”也表示为隐空间的一个向量,采取最近邻的方式进行检索。



那么语义检索面临的问题有那些呢?下面本文主要总结了三个方面比较大的挑战:


(1) 如何理解语义?

理解语义是最基础也是最核心的一步,模型对语义理解的越好,检测结果才能越准确。现在用户习惯用自然语言而非关键词来进行搜索,而自然语言的检索需求对模型理解语义产生了更大的挑战。


(2) 如何处理许多低频检索情况(长尾分布问题)?

用户检索频率较低的query,很难用关键词匹配等方法进行检索,因为模型很少或从未见到过这些query,因此很难总结相关的经验和规律。


(3) 如何将语义检索部署在大规模检索系统?

假设已有一个表现优异的语义检索模型,那如何将它部署在检索系统中,使得它的效率可能保证支持较大吞吐量并检索海量文档呢?

 

02

 方   法 


本文工作主要基于预训练语言模型实现检索任务。预训练语言模型主要的优点有两个,第一个是预训练语言模型基于多层的transformer结构;第二个是训练语料丰富,结合预训练任务能够实现较好的泛化性能。因此这样的预训练语言模型在自然语言理解上取得了很好的效果。


ERNIE是百度自研的中文预训练语言模型,我们以ERNIE为基础,建立语义检索模型,然后将这个模型部署到百度检索系统中。


针对上面提出的语义检索面临的三个难点,我们提出了三个改进方案。


(1) 如何理解语义?

——采用基于ERNIE的poly-encoders作为检索模型。


(2) 如何处理许多低频检索情况?

——采用多阶段训练范式来提高模型泛化能力。


(3) 如何将语义检索部署在大规模检索系统?

——将文本匹配的系统工作流程与基于ERNIE的检索相结合。


本文提出的检索模型是一个bi-encoders的结构(双塔模型),如下图所示。一个encoder对query进行编码,一个encoder网页文档信息进行编码。我们将这两个encoders实现为transformers,采用transformer的结构来建模query和网页文档的文本内容表示,生成query embedding和doc embedding,然后进行相似度计算,得到doc embedding对于query embedding的相似度分数,我们就可以利用这个分数进行检索。



在我们的检索模型中,采用poly-attention结构对bi-encoders结构进行升级,如下图所示。具体来讲是由于实际场景中用户给出的query可能是多元化或者比较模糊,因此采用一个embedding对query进行建模可能无法保留原始query信息,因次我们采用多个embedding对query信息进行建模,最近将这多个embedding进行融合,将融合后的query embedding与doc embedding进行相关性分数计算。



模型优化方面,我们采用最大似然估计的方法去优化提出的检索模型。


目标函数的定义如下:给定一个用户的query以及query下的相关文档和不相关文档,我们的目标函数就是最大化相关文档出现的概率。

 


那么什么样的网页文档是相关的、什么样的网页文档是不相关的,也就是说,训练任务的标签是应该是什么样的呢?针对这个问题,首先介绍一下我们的训练数据。我们有两种训练数据,一种是搜索日志(search log),另一种是人工标注的数据。


这两种数据的标签定义如下,正样本表示相关网页文档,负样本表示不相关网页文档:


Search log:

正样本:用户点击的网页;负样本:用户未点击的网页。


人工标注数据:

正样本:相关分数高的网页文档;负样本:相关分数低的文档。


与此同时,我们引入了一个In-batch negative策略,用来挖掘一些随机负样本(与query远不相关的网页文档)的例子。这里我们来举一个例子说明一下随机负样本的过程,下图 是的正样本,是的负样本,但对于来讲都是天然的负样本,这是因为大概率在数据库中采样两个query,它们应该是不相似的。


基于这个思想,我们可以在一个batch随机采样其他query的正样本或者负样本当成当前query的负样本。这样我们就可以以非常低的成本扩充负样本的数量,并且,由于在检索阶段我们需要从海量不相干样本中寻找小规模的相关样本,因此我们大量引入不相关样本更能对齐实际的检索任务场景。

 


下面来介绍本文在检索模型中引入的多阶段训练范式,其主要目的是为了提升模型泛化能力,解决长尾分布问题。该训练范式主要分为四个阶段,如下图所示。


第一个阶段是预训练阶段,采用的模型是transformer,属于无监督训练阶段;第二个是后预训练阶段,与第一个阶段不同的是采用的语料是用户搜索记录。第三个阶段采用的模型是检索模型,训练语料与第二个阶段相同,但转为有监督训练阶段。第四个阶段采用更精确的人工标注数据进行有监督训练。详细介绍如下图所示。

 


最后,我们需要在线上进行模型部署。在部署之前,我们要进行一个模型压缩,将embedding的维度进行压缩,并且将32位单精度浮点数量化为8位整数。

 


下图描述了基于预训练的检索模型如何部署在线上检索系统中。这里分为离线和在线两个阶段。离线阶段,我们将基于bi-encoder结构生成embedding提前计算好存储在数据库中,这样就可以节省在线检索的时间。在线阶段的检索分为两个部分,一个是传统的text matching,另一个是基于embedding的ANN召回,这里的embedding是我们多阶段训练时候训练好的检索模型生成的embedding。首先,对输入的query文本进行编码,然后再刚才建好的ANN 索引中查找近邻网页文档,然后与text matching查询的文档进行合并。最后使用Post-Retrieval Filtering对合并的文档进行过滤筛选,Post-Retrieval Filtering一般采用轻量化的机器学习模型保证检索效率。

 


03

 实   验 


(1) 检索模型实验


首先我们采用一个离线实验来评级我们得到的检索模型的效果。


测试集:


人工标注测试集

a) 基于语义相关性使用 {0, 1, 2, 3, 4} 进行标注

b) 测试集包括6,423 queries 和 147,341 网页文档组合


自动标注数据

a) 使用搜索引擎将排名前十的搜索结果标记为正样本,其他查询的结果标记为负样本

b) 构造两个测试集,一个是随机分布测试集,另一个是长尾分布测试集


评价指标:

PNR(positive-negative rate),召回率;

这两个指标都是值越高代表检索准确度越高。


实验结果:

下图展现了我们的检索模型在不同训练阶段的检索效果,可以看出随着训练阶段地增加,模型检索性能来越高。并且对比目前的线上baseline,我们提出的新的检索模型在PNR和召回率上都有较大提升。

 


检索模型的消融实验结果:

我们发现Poly Attention和IBN结构都可以提高检索模型的性能,并且模型压缩和量化对模型效果的影响还是在可接受范围内的。



(2) 在线实验


首先我们将线上流量分成两份,进行了A/B实验。

 

评价指标:

线上实验衡量的标准一个是去观察用户点击的网页是不是我们检索模型给出的相关性排名靠前的,另一个是观测用户点进网页后停留的时长。



实验结果:

新模型在引入了Post-Retrieval Filtering模块后进一步提高了模型性能,而且可以更好的解决低频query和较长的query,说明具有良好的泛化性能。



为了更准确地衡量检索系统地效果,我们采用人工评估的方式进行实验。具体我们引入了两个指标如下:

 


其中DCG用来衡量检索系统的网页排序与人工排序的一致性,GSB直接让人工去评判引入新的检索模型对检索系统的影响好坏。


下面是人工评估的实验结果,从人工评价的角度,可以证明新的检索模型对检索系统的影响都是正向的,说明新模型可以提高检索系统的性能。



论文链接:

https://arxiv.org/pdf/2106.03373.pdf

论文题目:

Pre-trained Language Model for Web-scale Retrieval in Baidu Search


点击“阅读原文”,即可观看本场回放

整理:AI Timer

审核:刘亦丁


往期精彩文章推荐

记得关注我们呀!每天都有新知识!

 关于AI TIME 


2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存