此帐号已被封,内容无法查看此帐号的内容被自由微信解封。

文章于 2022年11月6日被检测为删除。

被微信屏蔽

其他

畸形的深度学习，把自己逼进死胡同

Original 技术大院技术大院 2022-04-26

收录于合集

#AI 23 个

#深度学习 4 个

#超大模型 1 个

#MT-NLG 1 个

#GPT-4 1 个

迎来到技术大院，你关心的就是我们关注的。

【导读】自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。那么，这些AI巨头到底在争什么，在探索什么？

AI模型规模越做越大，训练成本高居不下，小公司即使想用也往往有心无力。我们不禁要问：未来的AI创新真的只能靠巨头了吗？

下一个模型有多大？+∞

2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度。可以说，谷歌最先开启了大模型一股热潮。

OpenAI在2019年初推出GPT-2，15亿参数，能够生成连贯的文本段落，做到初步的阅读理解、机器翻译等。

英伟达威震天（Megatron-LM）83亿参数
谷歌T5模型110亿参数
微软图灵Turing-NLG模型170亿参数

这些模型一次次不断地刷新参数规模的数量级，而2020年却成为这一数量级的分界线。
GPT-3，1750亿参数，参数规模达到千亿级别，直逼人类神经元的数量。能作诗、聊天、生成代码等等，无所不能。

前两天（26日），2021人工智能计算大会(AICC)在京举行。在峰会上，浪潮重点介绍了此前他们刚发布的全球最大规模人工智能巨量模型：「源1.0」。除了能够作诗赋词，它还能对话、写对联、生成新闻、故事续写。2457亿参数，这个全球最大规模人工智能巨量模型可是读了2000亿词。

要知道，一个人的一生也没有办法读完这么多词语。

就这，你以为完了吗？

太单纯了！

没过多久，微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

除了千亿规模的稠密单体模型，还有万亿规模的稀疏混合模型。

如果将单体模型比作珠穆朗玛峰，那么混合模型就是喜马拉雅山脉其他的小山峰。
谷歌在今年年初推出了1.6万亿参数的Switch Transformer
智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录

被OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数！

100万亿，这是个什么概念？
一般情况下，大脑约有 800-1000 亿个神经元（GPT-3 的数量级）和大约 100 万亿个突触。

GPT-4 将拥有与大脑的突触一样多的参数！

好一副「百家争鸣」之势，大模型俨然成了是大势所趋，必争的高地！

如今大模型的这种“盛世”，与深度学习时代极其相似。就好比十几年前深度学习的崛起一样，国内外AI巨头看到了这个技术的未来，于是纷纷入局于此，各种各样深度学习的模型不断涌现。

大模型更迭速度只会越来越快，然而深度学习从业者却不得不面对这样的窘境：

畸形的研究发展路线，大公司才能玩得起sota，普通人连买张显卡都要承受几倍的溢价！

AI模型规模越做越大，训练成本高居不下，小公司即使想用也往往有心无力。我们不禁要问：未来的AI创新真的只能靠巨头了吗？

有了算力，才有创新

然而，没有钱，就没有算力

深度学习还是深度钱包？

自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。

那么，这些AI巨头到底在争什么，在探索什么？

大模型究竟是否是一条正确的道路？

传统观点认为，模型的参数越多，它可以完成的任务就越复杂，性能也越好。

笔者不认同上述传统观点，对超大模型路线持批判看法。

当AI模型参数与日俱增，达到千亿量级，训练模型的可行性面临两大挑战：

即使是最强大的GPU，也不再可能将模型参数拟合到单卡的显存中
如果不特别注意优化算法、软件和硬件堆栈，那么超大计算会让训练时长变得不切实际

而现有的三大并行策略在计算效率方面存在妥协，难以做到鱼与熊掌兼得。

大型语言模型参数量每年暴增10倍，关于模型参数的「新摩尔定律」已呼之欲出。不过，这可不一定是好事，甚至会把自己逼向死胡同。

以OpenAI的语言模型GPT-3为例，与上一代的GPT-2相比，性能实现了1000倍的增长。不过，训练数据集大小为45TB，足以填满90个500GB硬盘，在训练过程中需要每秒3.1423^23次浮点运算(FLOPS)。

训练GPT-3的成本接近500万美元。即使训练一个GPT-3大小千分之一的语言模型，对特定任务进行训练，成本可能超过50000美元。

MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型，无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算，微软和英伟达使用数百台DGX-A100的GPU服务器，每台售价高达19.9万美元，再加上网络设备、主机等成本，任何想要重复这个实验的人都必须花费大约1亿美元，一般企业难以承受。

利用最新技术的成本不断上升，可能会将创新留给最大的公司和租赁工具和算力的公司，从而减缓创新的步伐。

当只有少数几个地方才能研究这些大模型的内部结构时，出现创造性新成果的几率一定会大大降低。

专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说：在十年前，他的实验室有足够的计算资源来探索任何项目，一个努力工作的博士生就可能会做出最先进的工作，而现在，这个窗口已经关闭了。

严谨地来看，哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的？或者1000万美元？如果设计出来，那这些模型是为谁而设计的呢？
对于预算较少的小企业来说，要想搞出最强大的人工智能模型是不可能的。

超大模型：吃力不讨好

笔者身处科技圈，有一个明显的感受：今年大模型的会议与讨论越来越多。预训练大模型本身的优势我们在很多新闻中都感受到了。然而打造大模型并不是一件轻松容易的事情，需要耗费大量的数据、算力资源等，大模型的意义是为了让算法模型集中化，但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势，经过这些机构对集中资源的分化，又有种烟囱式的割裂。

一些机构和产业界对大模型的参与到角逐，使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响：

大模型成为一些机构和企业秀肌肉的军备竞赛，开始比拼各自参数集数量级。你百亿级，我就千亿级。数据集本身就有限，标榜自己的数据集越大，水分可能就比较多，而在真实落地使用的情况方面，也并不不一定理想
算力资源和训练时间消耗过大，且也只限于部分行业的部分问题，普适性差
国内预训练模型的玩家们可用的中文数据集有限，就是我们知道的几种主流常用数据来源。在有限的数据集里，大家使用的数据未免重复，而因此研究出来的大模型能力就比较接近
大模型是否优秀，不仅依赖数据的精度与网络结构，也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向，轻视一些与行业的协同二次调试等问题，就会陷入闭门造车的局面，限制了落地的路，走不远
一些预训练大模型经过极致化（数据、模型、算力）的发展后，也有可能面临小众、泛用性差的情形，比如一些高校研发的预训练大模型只能在小众的学术圈子里使用，无法工程化使用，最终沦为一次性的模型，浪费大量资源

更令人担忧的是：通常认为，模型的参数越多，它可以完成的任务就越复杂，性能也越好。但是越来越多的研究对这个概念提出了质疑。也就是说参数越多，性能未必就好。

例如，谷歌的研究人员开发了一个参数量远小于GPT-3的模型——微调语言网络 (fine-tuned language net, FLAN)，并且在许多有难度的基准测试中性能都大幅超过 GPT-3。

https://arxiv.org/pdf/2109.01652.pdf

与 GPT-3 的 1750 亿个参数相比，FLAN 拥有 1370 亿个参数，在研究人员对其进行测试的25项任务中，有19项超过了zero-shot175B GPT-3。FLAN甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表现都大大超过了few-shot GPT-3。

谷歌的一项研究也发现，GPT-3在训练期间使用了1287兆瓦电，产生了552吨的二氧化碳排放。相比之下，FLAN只使用了451兆瓦电，产生了26吨的二氧化碳。

双碳压力迫在眉睫

2020年6月，马萨诸塞大学艾摩斯特分校的研究人员发布了一份报告，估计训练和搜索某一模型所需的电力量约为626000磅二氧化碳的排放量，相当于美国平均汽车寿命排放量的5倍。

据英伟达服务器参数表显示，每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然，数据中心（或者服务器）也至少需要同样多的散热设备。

除非你是史塔克家族的人，需要拯救临冬城，否则散热将成为一大难题。而且，随着公众对气候和社会责任问题的意识增强，还需要考虑他们的碳足迹问题。

所以，我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?

训练这样一个超大模型的碳足迹究竟有多大？恐怕只想想都可怕。用这么多参数和算力换来的基准测试性能改进，值得付出这些成本、复杂度和碳足迹吗?

大力推广这些巨型模型，真的有助于公司和个人理解和拥抱机器学习吗?

麻省理工学院最近一篇论文也说明，如果按照大型语言模型的趋势继续下去，从硬件、环境和资金的角度来看，训练的成本将变得令普通人无法触及。以低经济的方式实现高性能目标需要更高效的硬件、更高效的算法或其他改进，才能够让整体的收益保持为正。

Goodhart定律内容：当一个措施本身成为目标时，它就不再是一个好的措施。

（When a measure becomes a target, it ceases to be a good measure.）

另一个「摩尔定律」要来了吗？

在过去的几年里，大型语言模型的规模每年都以10倍的速度增长。看起来，另一个「摩尔定律」就要诞生了。

原来的摩尔定律，现在的命运如何？关于「摩尔定律行将终结」的话题，早几年就已经甚嚣尘上。

但有一点是确切无疑的，如果深度学习沿着「模型巨大化」的路走下去，路可能会越走越窄。收益递减、成本增加、复杂度增加，这些可以预见的问题，可能会在不远的未来，把自己逼进死胡同。

这就是人工智能未来的样子吗？
希望不是！
与其追逐万亿参数的巨大模型，不如把更多精力放在构建解决现实世界问题的、实用且高效的解决，不更好么？

-----END-----

关注技术大院，看更多精彩内容

推荐阅读：

《英伟达+微软联手，集体点错科技树？》

《人工智能下一个10年：敢问路在何方？》

《人工智能下一个10年：算力的黄金时代》

《AI大算力时代：存算一体迎来爆发时刻？》

《芯荒还要持续多久？全球缺芯是中国的机会吗？》

《可信 AI，未来可期!》

反向激励，在加速这个社会的黑化

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查

观察｜实验室被强行关闭，病毒学家在门口过夜？

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

畸形的深度学习，把自己逼进死胡同

【导读】自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。那么，这些AI巨头到底在争什么，在探索什么？

AI模型规模越做越大，训练成本高居不下，小公司即使想用也往往有心无力。我们不禁要问：未来的AI创新真的只能靠巨头了吗？

下一个模型有多大？+∞

2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度。可以说，谷歌最先开启了大模型一股热潮。

没过多久，微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

深度学习还是深度钱包？

超大模型：吃力不讨好

双碳压力迫在眉睫

另一个「摩尔定律」要来了吗？

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查

观察｜实验室被强行关闭，病毒学家在门口过夜？

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

生成图片，分享到微信朋友圈

畸形的深度学习，把自己逼进死胡同

【导读】自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。那么，这些AI巨头到底在争什么，在探索什么？

AI模型规模越做越大，训练成本高居不下，小公司即使想用也往往有心无力。我们不禁要问：未来的AI创新真的只能靠巨头了吗？

下一个模型有多大？+∞

2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度。可以说，谷歌最先开启了大模型一股热潮。

没过多久，微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

深度学习还是深度钱包？

超大模型：吃力不讨好

双碳压力迫在眉睫

另一个「摩尔定律」要来了吗？

您可能也对以下帖子感兴趣