微软发布世界最多参数的语言产生模型T-NLG——170亿参数超BERT
2月10日,微软发布最新语言产生模型T-NLG(Turing Natural Language Generation)。在2019年我们的风云榜Owner特别奖 BERT——从芝麻街的卡通人物到NLP神器 里,我们看到了语言训练利器BERT,该训练模型是Google发布的,目前是最流行的自然语言处理模型,它和另一个流行的模型GPT-2(OpenAI公司发布)一般拥有数十亿参数,但微软的T-NLG一上来就是170亿!
▲2年不到,NLP领域的发展突飞猛进
微软的T-NLG不仅仅可以完成句子(完形填空),还可以回答问题,甚至总结陈词,如下:
Turing Natural Language Generation (T-NLG) is a 17
billion parameter language model by Microsoft that outperforms the state
of the art on many downstream NLP tasks. We present a demo of the
model, including its freeform generation, question answering, and
summarization capabilities, to academics for feedback and research
purposes. <|endoftext|>
▲以上这段话完全是T-NLG机器产生的
微软之所以能实现这点,靠的是硬件和函数库的全面突破。
采用了NVIDIA DGX-2 硬件配置,和InfiniBand传输标准,使得GPU之间的通讯较以往更快。
以张量切分(tensor slicing)将模型部署到4个NVIDIA V100 GPU上,并使用NVIDIA的Megatron-LM框架。
采用DeepSpeed函数库和ZeRO(Zero Redundancy Optimizer,零冗余优化器)最佳化方法,令模型平行化维度从16降到4,将每个节点的批次处理大小提升到原来的4倍。并且缩小训练时间达3倍。DeepSpeed处理大小为512的批处理时,用256个NVIDIA GPU就可以完成过去1,024个同款GPU只采用Megatron-LM框架的训练量。DeepSpeed和PyTorch兼容。
▲DeepSpeed和Zero可有效降低训练时间和成本,并提高处理量,可训练达1,000亿参数的模型
▲在LAMBADA 下个词预测准确度测试(分值越高越好)和WikiText-103困惑度测试(分值越低越好)中,T-NLG都取得了超越两个已公开可比较模型(参数在同一量级)的优异成绩
▲困惑度验证(越低越好)随迭代次数的变化:橙线是参照模型Megatron-8B的结果,虚直线是目前已经已公开的最佳模型所达的极限,蓝绿波折线是T-NLG 17B的训练迭代结果,蓝色是刚开始迭代,绿色是超越公开极限后的迭代结果
▲对应提出的问题“Jason Mraz和谁订婚了?”,T-NLG从一段话中找到关键答案“Tristan Prettyman”,并完成回答句子。
小编注:试想从一份长长的报告书或者数千页的文件内容中,你可能只想了解一个或几个关键信息,但一般的工具提供的是关键词匹配,还需要你去浏览上下文再理解,但T-NLG的技术可以令这个过程简化,减少摸索的过程和时间,对于大量登录的请求,这可以极大程度减少对服务器的冲击。
▲对一些公众常识问题,如“二战何时结束”,"有多少人生活在美国",T-NLG直接给出答案
▲T-NLG读论文或者文章后,自动生成文章摘要,这可是大杀器,将会大大减少查询文献和理解资料的时间和精力
当然,T-NLG将为《银翼杀手2046》里的Joi这样的拟人助理的实现,打下至关重要的一步。
以后,有的公众号文章可能也不需要小编来写,而直接由T-NLG来自动生成,哇哦!
DeepSpeed是微软发布的开源函数库,网址是:
https://github.com/microsoft/DeepSpeed
有关该技术的更多详细内容,请点击文末左侧“阅读原文”(Read more)。
长按二维码,关注本公众号,或搜寻:云就该这么玩。点击文末右下角"在看"(Wow)分享给关注你关注的人。