畸形的深度学习,把自己逼进死胡同
【导读】自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。那么,这些AI巨头到底在争什么,在探索什么?
AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?
下一个模型有多大?+∞
2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度。可以说,谷歌最先开启了大模型一股热潮。
谷歌T5模型110亿参数
微软图灵Turing-NLG模型170亿参数
GPT-3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量。能作诗、聊天、生成代码等等,无所不能。
前两天(26日),2021人工智能计算大会(AICC)在京举行。在峰会上,浪潮重点介绍了此前他们刚发布的全球最大规模人工智能巨量模型:「源1.0」。除了能够作诗赋词,它还能对话、写对联、生成新闻、故事续写。2457亿参数,这个全球最大规模人工智能巨量模型可是读了2000亿词。
要知道,一个人的一生也没有办法读完这么多词语。
就这,你以为完了吗?
太单纯了!
没过多久,微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。
号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
谷歌在今年年初推出了1.6万亿参数的Switch Transformer
智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录
被OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数!
100万亿,这是个什么概念?
一般情况下,大脑约有 800-1000 亿个神经元(GPT-3 的数量级)和大约 100 万亿个突触。
GPT-4 将拥有与大脑的突触一样多的参数!
好一副「百家争鸣」之势,大模型俨然成了是大势所趋,必争的高地!
如今大模型的这种“盛世”,与深度学习时代极其相似。就好比十几年前深度学习的崛起一样,国内外AI巨头看到了这个技术的未来,于是纷纷入局于此,各种各样深度学习的模型不断涌现。
大模型更迭速度只会越来越快,然而深度学习从业者却不得不面对这样的窘境:
畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!
AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?
有了算力,才有创新
然而,没有钱,就没有算力
深度学习还是深度钱包?
自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。
那么,这些AI巨头到底在争什么,在探索什么?
大模型究竟是否是一条正确的道路?
传统观点认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。
笔者不认同上述传统观点,对超大模型路线持批判看法。
当AI模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战:
即使是最强大的GPU,也不再可能将模型参数拟合到单卡的显存中
如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际
而现有的三大并行策略在计算效率方面存在妥协,难以做到鱼与熊掌兼得。
大型语言模型参数量每年暴增10倍,关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事,甚至会把自己逼向死胡同。
以OpenAI的语言模型GPT-3为例,与上一代的GPT-2相比,性能实现了1000倍的增长。不过,训练数据集大小为45TB,足以填满90个500GB硬盘,在训练过程中需要每秒3.1423^23次浮点运算(FLOPS)。
训练GPT-3的成本接近500万美元。即使训练一个GPT-3大小千分之一的语言模型,对特定任务进行训练,成本可能超过50000美元。
MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元,一般企业难以承受。
利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。
当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。
专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说:在十年前,他的实验室有足够的计算资源来探索任何项目,一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。
严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢?
对于预算较少的小企业来说,要想搞出最强大的人工智能模型是不可能的。
超大模型:吃力不讨好
笔者身处科技圈,有一个明显的感受:今年大模型的会议与讨论越来越多。预训练大模型本身的优势我们在很多新闻中都感受到了。然而打造大模型并不是一件轻松容易的事情,需要耗费大量的数据、算力资源等,大模型的意义是为了让算法模型集中化,但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。
一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响:
大模型成为一些机构和企业秀肌肉的军备竞赛,开始比拼各自参数集数量级。你百亿级,我就千亿级。数据集本身就有限,标榜自己的数据集越大,水分可能就比较多,而在真实落地使用的情况方面,也并不不一定理想
算力资源和训练时间消耗过大,且也只限于部分行业的部分问题,普适性差
国内预训练模型的玩家们可用的中文数据集有限,就是我们知道的几种主流常用数据来源。在有限的数据集里,大家使用的数据未免重复,而因此研究出来的大模型能力就比较接近
大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远
一些预训练大模型经过极致化(数据、模型、算力)的发展后,也有可能面临小众、泛用性差的情形,比如一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量资源
更令人担忧的是:通常认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。但是越来越多的研究对这个概念提出了质疑。也就是说参数越多,性能未必就好。
谷歌的一项研究也发现,GPT-3在训练期间使用了1287兆瓦电,产生了552吨的二氧化碳排放。相比之下,FLAN只使用了451兆瓦电,产生了26吨的二氧化碳。
双碳压力迫在眉睫
据英伟达服务器参数表显示,每台英伟达 DGX A100服务器最高能耗为6.5千瓦。当然,数据中心(或者服务器)也至少需要同样多的散热设备。
所以,我们真的应该为MT-NLG模型的5300亿个参数感到兴奋吗?
(When a measure becomes a target, it ceases to be a good measure.)
另一个「摩尔定律」要来了吗?
在过去的几年里,大型语言模型的规模每年都以10倍的速度增长。看起来,另一个「摩尔定律」就要诞生了。
原来的摩尔定律,现在的命运如何?关于「摩尔定律行将终结」的话题,早几年就已经甚嚣尘上。
但有一点是确切无疑的,如果深度学习沿着「模型巨大化」的路走下去,路可能会越走越窄。收益递减、成本增加、复杂度增加,这些可以预见的问题,可能会在不远的未来,把自己逼进死胡同。
希望不是!
与其追逐万亿参数的巨大模型,不如把更多精力放在构建解决现实世界问题的、实用且高效的解决,不更好么?
-----END-----
关注技术大院,看更多精彩内容
推荐阅读: