微软发布世界最多参数的语言产生模型T-NLG——170亿参数超BERT

云就该这么玩 2023-11-01

2月10日，微软发布最新语言产生模型T-NLG（Turing Natural Language Generation）。在2019年我们的风云榜Owner特别奖 BERT——从芝麻街的卡通人物到NLP神器里，我们看到了语言训练利器BERT，该训练模型是Google发布的，目前是最流行的自然语言处理模型，它和另一个流行的模型GPT-2（OpenAI公司发布）一般拥有数十亿参数，但微软的T-NLG一上来就是170亿！

▲2年不到，NLP领域的发展突飞猛进

微软的T-NLG不仅仅可以完成句子（完形填空），还可以回答问题，甚至总结陈词，如下：

Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

▲以上这段话完全是T-NLG机器产生的

微软之所以能实现这点，靠的是硬件和函数库的全面突破。

采用了NVIDIA DGX-2 硬件配置，和InfiniBand传输标准，使得GPU之间的通讯较以往更快。
以张量切分（tensor slicing）将模型部署到4个NVIDIA V100 GPU上，并使用NVIDIA的Megatron-LM框架。
采用DeepSpeed函数库和ZeRO（Zero Redundancy Optimizer，零冗余优化器）最佳化方法，令模型平行化维度从16降到4，将每个节点的批次处理大小提升到原来的4倍。并且缩小训练时间达3倍。DeepSpeed处理大小为512的批处理时，用256个NVIDIA GPU就可以完成过去1,024个同款GPU只采用Megatron-LM框架的训练量。DeepSpeed和PyTorch兼容。

▲DeepSpeed和Zero可有效降低训练时间和成本，并提高处理量，可训练达1,000亿参数的模型

▲在LAMBADA 下个词预测准确度测试（分值越高越好）和WikiText-103困惑度测试（分值越低越好）中，T-NLG都取得了超越两个已公开可比较模型（参数在同一量级）的优异成绩

▲困惑度验证（越低越好）随迭代次数的变化：橙线是参照模型Megatron-8B的结果，虚直线是目前已经已公开的最佳模型所达的极限，蓝绿波折线是T-NLG 17B的训练迭代结果，蓝色是刚开始迭代，绿色是超越公开极限后的迭代结果

▲对应提出的问题“Jason Mraz和谁订婚了？”，T-NLG从一段话中找到关键答案“Tristan Prettyman”，并完成回答句子。

小编注：试想从一份长长的报告书或者数千页的文件内容中，你可能只想了解一个或几个关键信息，但一般的工具提供的是关键词匹配，还需要你去浏览上下文再理解，但T-NLG的技术可以令这个过程简化，减少摸索的过程和时间，对于大量登录的请求，这可以极大程度减少对服务器的冲击。

▲对一些公众常识问题，如“二战何时结束”，"有多少人生活在美国"，T-NLG直接给出答案

▲T-NLG读论文或者文章后，自动生成文章摘要，这可是大杀器，将会大大减少查询文献和理解资料的时间和精力

当然，T-NLG将为《银翼杀手2046》里的Joi这样的拟人助理的实现，打下至关重要的一步。

以后，有的公众号文章可能也不需要小编来写，而直接由T-NLG来自动生成，哇哦！

DeepSpeed是微软发布的开源函数库，网址是：

https://github.com/microsoft/DeepSpeed

有关该技术的更多详细内容，请点击文末左侧“阅读原文”（Read more）。

长按二维码，关注本公众号，或搜寻：云就该这么玩。点击文末右下角"在看"（Wow）分享给关注你关注的人。

继续滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

微软发布世界最多参数的语言产生模型T-NLG——170亿参数超BERT

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

微软发布世界最多参数的语言产生模型T-NLG——170亿参数超BERT

您可能也对以下帖子感兴趣