新一代的AI智能引擎:Jarvis+基于MASS打造下一代的智能社群大脑
从 2018 年开始,预训练(pre-train) 毫无疑问成为 NLP 领域最热的研究方向。
借助于 BERT 和 GPT 等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。微软亚洲研究院在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。
MASS:统一的预训练框架
MASS有一个重要的超参数k(屏蔽的连续片段长度),通过调整k的大小,MASS能包含BERT中的屏蔽语言模型训练方法以及GPT中标准的语言模型预训练方法,使MASS成为一个通用的预训练框架。
当k=1时,根据MASS的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时MASS和BERT中的屏蔽语言模型的预训练方法等价。
当k=m(m为序列长度)时,根据MASS的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下MASS等价于GPT中的标准语言模型。
MASS在不同K下的概率形式如下表所示,其中m为序列长度,u和v为屏蔽序列的开始和结束位置,x^u:v表示从位置u到v的序列片段,x^\u:v表示该序列从位置u到v被屏蔽掉。可以看到,当K=1或者m时,MASS的概率形式分别和BERT中的屏蔽语言模型以及GPT中的标准语言模型一致。
FRIDAY模型:提升在短文本以及社群场景的准确率
MASS的语料数据目前大量是新闻等长文本语料,在短文本领域,诸如社群对话等方面,缺乏足够多的训练语料。Jarvis+基于MASS的预训练方法,训练语料引入了多源数据知识。除了百科类文章、新闻资讯类、论坛对话类数据, 还重点引入海量的社群对话数据集进行学习。对话数据的学习是语义表示的重要途径,社群对话与以往数据集不太一样的是社群的对话是多轮多人的,而且大多数是短文本的。基于该假设,FRIDAY采用 DLM(Dialogue Language Model)建模 Query-Response对话结构,将多轮对话数据集作为输入,引入 Dialogue Embedding 标识对话的角色和对话的上下文,利用 Dialogue Response Loss 学习不同对话的隐式关系,通过该方法建模进一步提升模型在多轮多人的语义表示能力。Jarvis+从而预训练了FRIDAY模型,该模型在多人多轮对话、短文本翻译、短文本的会话相应都有更好的表现。
Jarvis+的业务遍布全球,微软智能云 Azure 广泛覆盖全球 54 个区域,让Jarvis+全球的用户都可以快速平稳地访问Jarvis+提供的服务。海量的社群对话数据训练,需要更高的效率和更低的成本的方式,Jarivs+选择了Azure Batch AI作为运行平台。
Azure Batch AI 服务是微软智能云上的一项托管服务,允许数据科学家和人工智能开发者以极简方式利用包括 GPU 在内的 Azure 算力资源对人工智能模型进行训练。数据科学家就可以专注于算法,而对于算力调用只需明确任务需求,输入、存储、输出等设置,其它所有与基础设施管理、规模缩放、批量工作任务等等繁杂的后台工作都能可以交给 Azure Batch AI 自动完成。
面对对 10亿级别的海量数据进行训练,原本开发算法模型上Jarvis+科研团队通常需要耗时 2 个月完成的深度学习训练,现在只要3-5天就能完成,AI 系统的迭代速度获得了极大的提升。
借助Azure Batch AI, 基于MASS的预训练框架,我们快速迭代训练出了FRIDAY模型。
在多个社群运营的数据集上的进一步效果验证显示,相较 BERT,基于MASS的FRIDAY模型均取得了更好的效果:
多人多轮对话以及短文本会话在多人对话场景中,我们重新构建了评测指标,插话流畅度,回复的准确度,语义生成的自然度,生成的多样性。
ScoreMultiRound = 插话流畅度*0.2 + 回复的准确度*0.5 + 自然度*0.2+ 多样性*0.1
开发和测试集都使用了真实的社群数据作为开发集和测试集。
开发集准确度 | 测试集准确度 | |||
均值 | 方差 | 均值 | 方差 | |
BERT | 82.3% | 0.0022 | 81.4% | 0.0058 |
基于MASS的FRIDAY | 85.1% | 0.0018 | 84.6% | 0.0045 |
在短文本翻译中,评测指标我们使用翻译领域流行的BLEU分数来做对比,我们主要做了中英的对比测试。
Bleu分数 | |
Facebook XLM | 1.5 |
基于MASS的FRIDAY | 1.3 |
Jarvis+研究团队表示,此次FRIDAY模型的技术突破将被应用于Jarvis+旗下社群的多种产品和场景,进一步提升用户体验。社群存在的对话数据不仅仅是文本,还存在更多的包括图片、语音、视频等交叉场景,未来Jarvis+将在基于MASS的预训练模型上进一步深入研究,希望能够继续完善和提升MASS的准确性和优势,进一步拓宽MASS的使用场景,例如扩展到包含图片、语音、视频等其它序列到序列的生成任务。
加入微软云开发者社区
获得更多咨询