查看原文
其他

惊呆了!鹅厂这个AI,它知道我想写什么


我是一位从业20年的文字工作者,对于创作我一直都很有信心。


最近,腾讯 AI lab 的研究员们透露,年初发布的智能创作助手文涌(Effidit)更新到了2.0版本,让我试用一下,据说能够帮助我写作。


一开始我是不信的,直到我打开了他们的产品链接:(effidit.qq.com)。


按照一名「文字工作者」的创作习惯,我把「此事还得从这说起」输入给Effidit,点击智能生成,没想到,它竟然可以分别从科幻、军事、武侠、职场几种风格给出创作建议,仔细读了一下,感觉还可以:



研究员们告诉我这神奇的创作能力主要来自于强大的底层语言模型。所谓“读书破万卷,下笔如有神”,为了构造能模仿人类遣词造句的高精度语言模型,研究员们从各种渠道收集并精挑细选了共计300G的高质量中文语料(包括新闻、小说、网文、诗歌等等)。


在此大规模预训练语料的基础上,研究员们训练了参数量十亿级别的Transformer语言模型,是该级别大规模语言模型中的佼佼者。


为了适应不同文风下的创作,研究员们还使用具有特定风格的语料对底层语言模型进行微调。基于自研的轻量化微调方案,Effidit的语言模型对于每种特定风格仅需调整其约5%的参数量,既保持了底层模型在预训练阶段习得的强大泛化能力,又可实现模型在不同文风间的快速切换。Effidit还可在生成阶段对风格化的强弱程度进行精细控制,协助创作风格鲜明、妙趣横生的新内容。


此外,在解码阶段Effidit采用了自研的对比搜索算法。与传统的随机采样或者集束搜索算法不同,对比搜索的目标除了最大化生成文本在语言模型中的得分外,还引入了对比惩罚项来矫正生成文本的表征空间,使其具备良好的各向异性。因此,对比搜索的生成结果相比于传统的解码方法来说往往更具一致性和多样性。


我想继续考考它,于是我点开了超级网典(K2X),输入「春天」,它给了我几个形容春天的词,比如「生机勃勃」、「繁花似锦」和「生机盎然」。

嗯,和我创作的水平也差不多嘛。



不知道如果是英文,它能轻松处理吗?我尝试输入「优点和缺点」,Effidit直接建议了相应的英文说法,好像是一个翻译?


研究员告诉我,对于英文,Effidit更强大的地方在于,它可以根据输入的一个或者多个中文关键词推荐英文例句,帮用户了解对应的英文地道表达,并提供中英对照帮助更好的理解英文语义。


比如,输入「真人秀」和「风景」这一对关键词,它会给出对应的参考:



除了单语和跨语言的例句检索之外,Effidit的“基于关键词的句子生成(K2S)”功能也很有特色。


Effidit将基于生成的 K2S 任务视为一个文本填充问题,即在输入的多个关键词之间,可以插入任意数量的文字使其串联成一个完整的句子。Effidit使用自回归的语言模型来解决这一文本填充问题。具体而言,研究员们把原始收集到的文本句子进行随机掩码,然后把剩余的原始句子作为输入序列,掩码(多个)句子部份拼接起来作为输出序列,最后把输入序列与输出序列拼接作为语言模型的训练语料。针对中英两个语种,模型各使用了超过30亿的训练数据。


另外,跟其他写作助手不同,关于英文的创作,Effidit在提示纠错修改的同时,额外显示了纠错的原因。比如下面这个例句:



当然,英文句子改写、英文句子扩写对它来说也不是难事。不信你看:

研究员告诉我,卓越的润色能力来自于质量高、数量多、覆盖面全的训练数据。为实现大规模数据建设,Effidit 利用翻译领域的数据增广策略——回译(back-translation),依托自研翻译系统Transmart与海量单语数据,以无监督方式 1)获取海量改写数据候选集 2) 候选集精筛得到高质量训练数据。


具体地,Effidit利用中-英双向的翻译模型来得到改写候选。如下图所示,以英文为例,利用英→中→英的翻译路径,原句“Markle is constantly stepping out in gorgeous jackets, dresses, and must-have bags”依次被翻译为 “马克尔总是穿着华丽的夹克、连衣裙和必备的包包” → “Markle is always dressed in a beautiful jacket, clothes and necessary bags”,翻译前后的句对就构成了改写数据候选集。



而基于候选集的数据精筛,Effidit围绕改写的一致性与改写度,采用了一系列的筛选手段,在保证语义一致的前提下,尽可能提升数据的结构化与词粒度多样性,让筛选得到的改写数据“套路更多,力度更大”。


理想情况下改写模型应在不同文本上都表现良好。虽然利用回译与数据筛选,积累的高质量改写数据量已突破千万级别,但泛化性仍然不尽人意。


研究员们发现,改写模型在数据筛选阶段过滤掉的数据上表现有显著下滑。为从数据层面提升覆盖面,Effidit采取两种主要方式来拓展数据建设通路:

  1. 在翻译路径中引入更丰富的中间语种;

  2. 自我学习(self-training)。


中间语种方面,除了中英双向翻译模型,继续充分利用Transmart支持的语种(包括日语、西语等)构建翻译路径,不同语种甚至语系之间的回译,为中英翻译路径无法覆盖的数据提供了补充。


另一方面,自我学习利用训练得到的改写模型,直接在新语料上进行推理(即改写生成),虽然整体改写质量不比领域内表现,但仍可筛选出一定比例的高质量推理结果,并且随着模型迭代,自我学习提供的优质数据比例也逐步提升,实现“聚沙成塔”式的能力积累。


既然英文那么好,考考它古文呢?比如关于中秋节望着月亮思乡的创作,它会怎么说呢?


效果也是不错的:「仰视明月,俯思桑梓」。


果然文采飞扬。


Effidit,果然有点东西!


研究员看到我惊喜的反应,也介绍说,这已经是Effidit 2.0的版本了,新版本除了优化第一版[1,2]已有的功能之外,还带来了风格化文本续写、英文句子改写与扩写、现代文和文言文互译、词语推荐、跨语言例句推荐(中英)、可解释的英文纠错等新功能

2.0版与1.0版功能对比


另外,新版本的「文涌」使用便利性有所提升,支持PC端和手机端通过浏览器在线体验 (effidit.qq.com);用户也可以下载Windows客户端,体验在本地编辑器中使用智能创作助手。此外,「文涌」的部分功能接入到了搜狗输入法PC端(“智能汪仔”)和QQ浏览器移动端,可以让用户在不同产品中体验智能创作。


通过手机端浏览器体验Effidit


「文涌 (Effidit)」的实现融合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等技术。其中,部分功能的实现使用“混元”系列AI大模型[4]作为底层预训练模型。详细的技术细节,请参见Effidit的技术报告[2]。


研究员告诉我,智能写作的相关探索一直在进行中。腾讯 AI Lab 持续探索 NLP 领域前沿技术,此前已发布多项系统及数据,其中包括文本理解系统 TexSmart、交互翻译系统 TranSmart、以及中英文词向量数据。未来,腾讯 AI Lab 将继续深入探索 NLP 技术,持续优化文涌的各项功能,为写作者提供更好的智能辅助写作服务。


对这个方向感兴趣的朋友们,也可以通过下面的二维码找到他们。

进入小程序,开启你的写作之旅吧~


参考链接:
[1] 腾讯AI Lab发布智能创作助手「文涌 (Effidit)」,用技术助力「文思泉涌」 https://mp.weixin.qq.com/s/b-kPSR3aFPKHpUnFv7gmeA
[2] Effidit: Your AI Writing Assistant. https://arxiv.org/abs/2208.01815
[3] 腾讯智能创作助手文涌(Effidit). https://effidit.qq.com/
[4] 腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型 https://mp.weixin.qq.com/s/TG2vlT0UrlXSdGgNOlLn5w


—END—

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存