查看原文
其他

破纪录 :50+ !


中了吗?中了!

近日,自然语言处理(NLP)领域顶级会议ACL-IJCNLP 2021公布了论文接收情况。腾讯有超过50篇论文被接收,又一次刷新了论文录取数量纪录,领跑国内业界AI研究第一梯队。

本年度腾讯ACL-IJCNLP2021入选论文中,有27篇来自腾讯AI Lab团队,21篇来自微信AI团队,腾讯云AI、腾讯天衍实验室、腾讯医典AI,腾讯云智能平台产品部等团队也有多篇论文入选。这些论文的研究方向涵盖文本理解、文本生成、智能对话、机器翻译、信息抽取、信息检索等多个NLP的子领域。


本届大会,腾讯AI Lab 与香港中文大学合作的论文《Neural Machine Translation with Monolingual Translation Memory》 (基于单语翻译记忆的神经网络机器翻译技术)被评为「杰出论文」(Outstanding Papers),作者包括Deng Cai、 Yan Wang、 Huayang Li、 Wai Lam 和Lemao Liu。获评「杰出论文」代表了国际学术界对该研究在机器翻译创新、前沿和应用等多个角度的高度认可

ACL-IJCNLP是NLP领域知名的学术会议,也是人工智能的重要研究阵地。本届大会有3350篇论文投稿,来自中国的学者投稿数最多,占近40%,其次是美国,占25%。 


关于这一杰出论文的技术创新和NLP发展趋势,我们找论文作者聊了聊。


首创单语语料搜索


简单来说,这是一项帮助机器翻译模型「减负」,使其不需要「背真题」,也能提升翻译准确率的技术创新。


让计算机学会翻译,当下常用深度学习的方法,即让算法模型通过学习大量数据进行训练,然后通过一定的赏罚机制让它们逐渐学会正确的翻译。在这个过程中,为了提升翻译准确率,最新研究方向是——研究员们会给模型增加一个自动「搜索」的能力,让模型搜索语料库中的相关的数据,来辅助算法模型做更准确的翻译,这一技术又叫 Translation Memory(翻译记忆)。


然而,过去辅助翻译的语料库中的数据都需要是双语搭配好的,比如,在英汉翻译中,库中存下的数据都是中英文匹配好的,类似于人类学习时使用的「真题」,但是「真题」的数量往往是非常有限且成本昂贵的。


现在,通过腾讯AI Lab开创性的研究,可以让机器从海量单语数据,比如中文翻译成英文时,可以搜索任意的英文数据作为推荐,在这个基础上辅助翻译。


这一技术相当于将翻译任务从原本需要背题的「闭卷考试」变成了「开卷」。相比双语语料来说,单语的语料几乎是取之不尽用之不竭的。因而,机器翻译的想象空间一下子就变大了。


在翻译准确率的提升上,这篇「杰出论文」取得了显著的成果——在不做模型建构改动的情况下,翻译准确率提升了2到3个BLEU值。这对于机器翻译是一个大的突破,一般来说,取得0.5个BLEU值的提升就足以算是一个优秀的研究了。并且,这些提升是在不消耗额外的计算资源下实现的。


目前这个方法已被充分证明了在实验室环境下的有效性。接下来,通过AI Lab 面向行业发布的国内首个线上交互翻译系统TranSmart,该技术也会得到更加充分的应用。此前,TranSmart成功支持了包括联合国文件署、Memsource、华泰证券、店小秘、阅文集团等在内的B端客户以及腾讯内部众多的翻译业务。


杰出论文的秘密


这一研究的起始点,可以追溯到2018年。

最开始,团队在研究人机对话,偶然发现一个问题:虽然腾讯已有一个强大的检索式对话系统,但是想要继续提升效果就会比较困难。

当时,对话生成技术很火。大家看到了这一技术的巨大潜力,结合团队前期的研究,开始希望研究一个通过检索来引导对话生成的技术。在2019年前后,团队在这个方向上取得了突破,并发了两篇论文,同时把这套系统做到了对话系统里面去,在线上取得了不错的效果。
 
到了2020年,团队开始尝试将人机对话获得的成功经验应用到机器翻译中,并应用了「向量检索」的工具,使得新的系统能够摆脱对双语语料的依赖。

这就是这篇论文的核心秘密所在。 

从技术路径来看,未来如果充分利用最近业界训练效果很好的预训练语言模型,研究员们就可以用设计得更加好的注意力机制来提升模型本身的效果,这是一个激动人心的趋势。


横向扩展无限可能,NLP未来可期


与人类语言学家学习翻译不一样,通过深度学习模型实现的机器翻译具有强大的横向扩展性,比如,学会了英汉互译的模型经过更换训练数据,就可以在短时间内利用相同的方法处理其他比如英德、日英、德西等多语种的翻译。


另一方面,一个机器翻译的框架可适用于不同的NLP任务。研究员们在对话领域也验证了该框架的可行性,后续可应用于对话生成、文本生成、摘要生成、文本理解等领域。


机器翻译是NLP领域一个经典且通用的任务,很多研究都将机器翻译当作试金石,在机器翻译上验证新的模型和算法的有效性,以促进NLP技术的突破。


近年来,随着深度学习技术的成熟,NLP已经取得了长足的进步。用腾讯NLP研究员王琰的话说,“以前觉得可以做的事,现在基本都已经解决了;以前不敢想象的事,现在已经可以尝试了”。

• 已经基本解决的事:情感分析、文本分类、搜索以及基于自然语言的推荐等,目前已经相对成熟。

 以前不敢想象现在可以尝试的事:对话与文本生成、深度语义理解等。比如,机器人与人的多轮自然对话。


NLP技术已经基本完成从「不可用」到「可用」的转变。与人类相比,如果一个普通人就能轻松做好的事情,NLP技术就能做得还不错,比如情感分析。但如果是一个普通人必须受过很好的训练才能做好的任务,比如翻译和多轮对话,那么NLP模型就比较难学会。 


当前,NLP技术距离「好用」还有一定的距离,在准确率和使用体验方面还有较大的提升空间。不过,一个共识是,这也是现阶段所有NLPer工作的意义和价值所在——挑战一个一个解决,机会自然就会出现。


腾讯的NLP团队对此有着强大的信心:「我们的NLP技术不仅在国内是领先的,在国际上也是绝对第一梯队的。」



—END—


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存