新一代的AI智能引擎：Jarvis+基于MASS打造下一代的智能社群大脑

微软中国MSDN 2020-10-17

从 2018 年开始，预训练（pre-train）毫无疑问成为 NLP 领域最热的研究方向。

借助于 BERT 和 GPT 等预训练模型，人类在多个自然语言理解任务中取得了重大突破。然而，在序列到序列的自然语言生成任务中，目前主流预训练模型并没有取得显著效果。微软亚洲研究院在 ICML 2019 上提出了一个全新的通用预训练方法 MASS，在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。

MASS:统一的预训练框架

MASS有一个重要的超参数k（屏蔽的连续片段长度），通过调整k的大小，MASS能包含BERT中的屏蔽语言模型训练方法以及GPT中标准的语言模型预训练方法，使MASS成为一个通用的预训练框架。

当k=1时，根据MASS的设定，编码器端屏蔽一个单词，解码器端预测一个单词，如下图所示。解码器端没有任何输入信息，这时MASS和BERT中的屏蔽语言模型的预训练方法等价。

当k=m（m为序列长度）时，根据MASS的设定，编码器屏蔽所有的单词，解码器预测所有单词，如下图所示，由于编码器端所有词都被屏蔽掉，解码器的注意力机制相当于没有获取到信息，在这种情况下MASS等价于GPT中的标准语言模型。

MASS在不同K下的概率形式如下表所示，其中m为序列长度，u和v为屏蔽序列的开始和结束位置，x^u:v表示从位置u到v的序列片段，x^\u:v表示该序列从位置u到v被屏蔽掉。可以看到，当K=1或者m时，MASS的概率形式分别和BERT中的屏蔽语言模型以及GPT中的标准语言模型一致。

FRIDAY模型：提升在短文本以及社群场景的准确率

MASS的语料数据目前大量是新闻等长文本语料，在短文本领域，诸如社群对话等方面，缺乏足够多的训练语料。Jarvis+基于MASS的预训练方法，训练语料引入了多源数据知识。除了百科类文章、新闻资讯类、论坛对话类数据，还重点引入海量的社群对话数据集进行学习。对话数据的学习是语义表示的重要途径，社群对话与以往数据集不太一样的是社群的对话是多轮多人的，而且大多数是短文本的。基于该假设，FRIDAY采用 DLM（Dialogue Language Model）建模 Query-Response对话结构，将多轮对话数据集作为输入，引入 Dialogue Embedding 标识对话的角色和对话的上下文，利用 Dialogue Response Loss 学习不同对话的隐式关系，通过该方法建模进一步提升模型在多轮多人的语义表示能力。Jarvis+从而预训练了FRIDAY模型，该模型在多人多轮对话、短文本翻译、短文本的会话相应都有更好的表现。

Azure Batch AI:极简的数据训练方式

Jarvis+的业务遍布全球，微软智能云 Azure 广泛覆盖全球 54 个区域，让Jarvis+全球的用户都可以快速平稳地访问Jarvis+提供的服务。海量的社群对话数据训练，需要更高的效率和更低的成本的方式，Jarivs+选择了Azure Batch AI作为运行平台。

Azure Batch AI 服务是微软智能云上的一项托管服务，允许数据科学家和人工智能开发者以极简方式利用包括 GPU 在内的 Azure 算力资源对人工智能模型进行训练。数据科学家就可以专注于算法，而对于算力调用只需明确任务需求，输入、存储、输出等设置，其它所有与基础设施管理、规模缩放、批量工作任务等等繁杂的后台工作都能可以交给 Azure Batch AI 自动完成。

面对对 10亿级别的海量数据进行训练，原本开发算法模型上Jarvis+科研团队通常需要耗时 2 个月完成的深度学习训练，现在只要3-5天就能完成，AI 系统的迭代速度获得了极大的提升。

借助Azure Batch AI，基于MASS的预训练框架，我们快速迭代训练出了FRIDAY模型。

Jarvis+社群数据集验证

在多个社群运营的数据集上的进一步效果验证显示，相较 BERT，基于MASS的FRIDAY模型均取得了更好的效果：

多人多轮对话以及短文本会话

在多人对话场景中，我们重新构建了评测指标，插话流畅度，回复的准确度，语义生成的自然度，生成的多样性。

ScoreMultiRound = 插话流畅度*0.2 + 回复的准确度*0.5 + 自然度*0.2+ 多样性*0.1

开发和测试集都使用了真实的社群数据作为开发集和测试集。

	开发集准确度	测试集准确度
均值	方差	均值	方差
BERT	82.3%	0.0022	81.4%	0.0058
基于MASS的FRIDAY	85.1%	0.0018	84.6%	0.0045

短文本翻译

在短文本翻译中，评测指标我们使用翻译领域流行的BLEU分数来做对比，我们主要做了中英的对比测试。

	Bleu分数
Facebook XLM	1.5
基于MASS的FRIDAY	1.3

Jarvis+研究团队表示，此次FRIDAY模型的技术突破将被应用于Jarvis+旗下社群的多种产品和场景，进一步提升用户体验。社群存在的对话数据不仅仅是文本，还存在更多的包括图片、语音、视频等交叉场景，未来Jarvis+将在基于MASS的预训练模型上进一步深入研究，希望能够继续完善和提升MASS的准确性和优势，进一步拓宽MASS的使用场景，例如扩展到包含图片、语音、视频等其它序列到序列的生成任务。

加入微软云开发者社区

获得更多咨询

●使用 Webpack 优化 VS Code 插件加载性能

●AKS初体验（1）：创建集群并登录到node节点

●Azure上做Winserver Storage Pool磁盘

●Azure超强大招：5大服务大降价，数据传输入站流量全部免费！

喜欢此内容的人还喜欢