此帐号已被封,内容无法查看 此帐号的内容被自由微信解封
文章于 2022年11月6日 被检测为删除。
查看原文
被微信屏蔽
其他

畸形的深度学习,把自己逼进死胡同

技术大院 技术大院 2022-04-26
迎来到技术大院,你关心的就是我们关注的。

【导读】自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。那么,这些AI巨头到底在争什么,在探索什么?
AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?



下一个模型有多大?+∞

2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度。可以说,谷歌最先开启了大模型一股热潮。



OpenAI在2019年初推出GPT-215亿参数,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
 
英伟达威震天(Megatron-LM)83亿参数
谷歌
T5模型110亿参数
微软图灵
Turing-NLG模型170亿参数
 
这些模型一次次不断地刷新参数规模的数量级,而2020年却成为这一数量级的分界线。
GPT-3
1750亿参数,参数规模达到千亿级别直逼人类神经元的数量。能作诗、聊天、生成代码等等,无所不能。


前两天(26日),2021人工智能计算大会(AICC)在京举行。在峰会上,浪潮重点介绍了此前他们刚发布的全球最大规模人工智能巨量模型:「源1.0」。除了能够作诗赋词,它还能对话、写对联、生成新闻、故事续写。2457亿参数,这个全球最大规模人工智能巨量模型可是读了2000亿词。

要知道,一个人的一生也没有办法读完这么多词语。


就这,你以为完了吗?

太单纯了!

没过多久,微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。
号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。


除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
如果将单体模型比作珠穆朗玛峰,那么混合模型就是喜马拉雅山脉其他的小山峰。
谷歌在今年年初推出了1.6万亿参数的Switch Transformer
智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录

被OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数


100万亿,这是个什么概念?
一般情况下,大脑约有 800-1000 亿个神经元(GPT-3 的数量级)和大约 100 万亿个突触。

GPT-4 将拥有与大脑的突触一样多的参数!


好一副「百家争鸣」之势,大模型俨然成了是大势所趋,必争的高地!


如今大模型的这种“盛世”,与深度学习时代极其相似。就好比十几年前深度学习的崛起一样,国内外AI巨头看到了这个技术的未来,于是纷纷入局于此,各种各样深度学习的模型不断涌现。

大模型更迭速度只会越来越快,然而深度学习从业者却不得不面对这样的窘境:

畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!


AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?

有了算力,才有创新

然而,没有钱,就没有算力



深度学习还是深度钱包?

自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。

那么,这些AI巨头到底在争什么,在探索什么?


大模型究竟是否是一条正确的道路?


传统观点认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。


笔者不认同上述传统观点,对超大模型路线持批判看法。


当AI模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战:

  • 即使是最强大的GPU,也不再可能将模型参数拟合到单卡的显存中

  • 如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际

而现有的三大并行策略在计算效率方面存在妥协,难以做到鱼与熊掌兼得。


大型语言模型参数量每年暴增10倍,关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事,甚至会把自己逼向死胡同。


以OpenAI的语言模型GPT-3为例,与上一代的GPT-2相比,性能实现了1000倍的增长。不过,训练数据集大小为45TB,足以填满90个500GB硬盘,在训练过程中需要每秒3.1423^23次浮点运算(FLOPS)。

训练GPT-3的成本接近500万美元。即使训练一个GPT-3大小千分之一的语言模型,对特定任务进行训练,成本可能超过50000美元。


MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元,一般企业难以承受。




利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。


当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。


专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说:在十年前,他的实验室有足够的计算资源来探索任何项目,一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。

严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢?
对于预算较少的小企业来说,要想搞出最强大的人工智能模型是不可能的。

超大模型:吃力不讨好

笔者身处科技圈,有一个明显的感受:今年大模型的会议与讨论越来越多。预训练大模型本身的优势我们在很多新闻中都感受到了。然而打造大模型并不是一件轻松容易的事情,需要耗费大量的数据、算力资源等,大模型的意义是为了让算法模型集中化,但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。


一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响:

  • 大模型成为一些机构和企业秀肌肉的军备竞赛,开始比拼各自参数集数量级。你百亿级,我就千亿级。数据集本身就有限,标榜自己的数据集越大,水分可能就比较多,而在真实落地使用的情况方面,也并不不一定理想

  • 算力资源和训练时间消耗过大,且也只限于部分行业的部分问题,普适性差

  • 国内预训练模型的玩家们可用的中文数据集有限,就是我们知道的几种主流常用数据来源。在有限的数据集里,大家使用的数据未免重复,而因此研究出来的大模型能力就比较接近

  • 大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远

  • 一些预训练大模型经过极致化(数据、模型、算力)的发展后,也有可能面临小众、泛用性差的情形,比如一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量资源


更令人担忧的是:通常认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。但是越来越多的研究对这个概念提出了质疑。也就是说参数越多,性能未必就好

 
例如,谷歌的研究人员开发了一个参数量远小于GPT-3的模型——微调语言网络 (fine-tuned language net, FLAN),并且在许多有难度的基准测试中性能都大幅超过 GPT-3。

https://arxiv.org/pdf/2109.01652.pdf

与 GPT-3 的 1750 亿个参数相比,FLAN 拥有 1370 亿个参数,在研究人员对其进行测试的25项任务中,有19项超过了zero-shot175B GPT-3。FLAN甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表现都大大超过了few-shot GPT-3。

谷歌的一项研究也发现,GPT-3在训练期间使用了1287兆瓦电,产生了552吨的二氧化碳排放。相比之下,FLAN只使用了451兆瓦电,产生了26吨的二氧化碳。

双碳压力迫在眉睫

2020年6月,马萨诸塞大学艾摩斯特分校的研究人员发布了一份报告,估计训练和搜索某一模型所需的电力量约为626000磅二氧化碳的排放量,相当于美国平均汽车寿命排放量的5倍。

据英伟达服务器参数表显示,每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然,数据中心(或者服务器)也至少需要同样多的散热设备。


除非你是史塔克家族的人,需要拯救临冬城,否则散热将成为一大难题。而且,随着公众对气候和社会责任问题的意识增强,还需要考虑他们的碳足迹问题。

所以,我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?
训练这样一个超大模型的碳足迹究竟有多大?恐怕只想想都可怕。用这么多参数和算力换来的基准测试性能改进,值得付出这些成本、复杂度和碳足迹吗?

大力推广这些巨型模型,真的有助于公司和个人理解和拥抱机器学习吗?
麻省理工学院最近一篇论文也说明,如果按照大型语言模型的趋势继续下去,从硬件、环境和资金的角度来看,训练的成本将变得令普通人无法触及。以低经济的方式实现高性能目标需要更高效的硬件、更高效的算法或其他改进,才能够让整体的收益保持为正。

Goodhart定律内容:当一个措施本身成为目标时,它就不再是一个好的措施

(When a measure becomes a target, it ceases to be a good measure.)


另一个「摩尔定律」要来了吗?

在过去的几年里,大型语言模型的规模每年都以10倍的速度增长。看起来,另一个「摩尔定律」就要诞生了。


原来的摩尔定律,现在的命运如何?关于「摩尔定律行将终结」的话题,早几年就已经甚嚣尘上。


但有一点是确切无疑的,如果深度学习沿着「模型巨大化」的路走下去,路可能会越走越窄。收益递减、成本增加、复杂度增加,这些可以预见的问题,可能会在不远的未来,把自己逼进死胡同。

 
这就是人工智能未来的样子吗?
希望不是!
与其追逐万亿参数的巨大模型,不如把更多精力放在构建解决现实世界问题的、实用且高效的解决,不更好么?

        

-----END-----

关注技术大院,看更多精彩内容



推荐阅读:

英伟达+微软联手,集体点错科技树?

人工智能下一个10年:敢问路在何方?

人工智能下一个10年:算力的黄金时代

AI大算力时代:存算一体迎来爆发时刻?

芯荒还要持续多久?全球缺芯是中国的机会吗?

可信 AI,未来可期!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存