大模型时代,AI芯片如何抓住机遇?| 星科技•芯片半导体
前沿科技
芯片半导体
大模型正对算力提出史无前例的要求,AI芯片作为大模型的大脑,是支撑ChatGPT们高效生产及应用落地的前提。保证算力的高效、充足供应,是目前AI大算力芯片厂商亟需解决的问题。换言之,ChatGPT的出现,也为初创芯片厂商提供了弯道超车的机会。
01
大模型背景下的AI芯片
“偲睿洞察”认为,从2022.11.30的ChatGPT,到2023.6.13的360智脑大模型2.0,ChatGPT们正如雨后春笋般涌现,而AI应用千千万,把大模型打造好才是硬道理。
对于大模型“世界”来说,算法是“生产关系”,是处理数据信息的规则与方式;算力是“生产力”,能够提高数据处理、算法训练的速度与规模;数据是“生产资料”,高质量的数据是驱动算法持续迭代的养分。在这之中,算力是让大模型转动的前提。
众所周知,大模型正对算力提出史无前例的要求,具体的表现是:英伟达数据显示,在没有以Transformer模型为基础架构的大模型之前,算力需求大致是每两年提升8倍;而自利用Transformer模型后,算力需求大致是每两年提升275倍。基于此,530B参数量的Megatron-Turing NLG模型,将要吞噬超10亿FLOPS的算力。
AI不同模型算法算力迭代情况,图源:格隆汇
作为大模型的大脑——AI芯片,是支撑ChatGPT们高效生产及应用落地的基本前提。保证算力的高效、充足供应,是目前AI大算力芯片厂商亟需解决的问题。
GPT-4等大模型向芯片厂商“狮子大开口”的同时,也为芯片厂商尤其是初创芯片厂商,带来一个利好消息:软件生态重要性正在下降。
早先技术不够成熟之时,研究者们只能从解决某个特定问题起步,参数量低于百万的小模型由此诞生。例如谷歌旗下的AI公司DeepMind,让AlphaGO对上百万种人类专业选手的下棋步骤进行专项“学习”。
而小模型多了之后,硬件例如芯片的适配问题迫在眉睫。因此,当英伟达推出统一生态CUDA之后,GPU+CUDA迅速博得计算机科学界认可,成为人工智能开发的标准配置。
如今,纷纷涌现的大模型具备多模态能力,能够处理文本、图片、编程等问题,也能够覆盖办公、教育、医疗等多个垂直领域。这意味着,适应主流生态并非唯一的选择:在大模型对芯片需求量暴涨之时,芯片厂商或许可以只适配1-2个大模型,便能完成以往多个小模型的订单。
也就是说,ChatGPT的出现,为初创芯片厂商们提供了弯道超车的机会。这就意味着,AI芯片市场格局将发生巨变:不再是个别厂商的独角戏,而是多个创新者的群戏。
02
“存算一体”解决“三堵墙”问题
根据“电子工程专辑”,面对算力和能耗这两大挑战,国产AI芯片公司正酝酿“出奇”之道。
“存算一体”技术可以解决传统冯诺伊曼架构处理器所面临的“三堵墙”:存储墙、能耗墙、编译墙。存算一体架构没有深度多层级存储的概念,所有的计算都放在存储器内实现,这就从根本上消除了因为存算异构带来的存储墙及相应的额外开销。
存储墙的消除可大量减少数据搬运,不但提升了数据传输和处理速度,而且能效比得以数倍提升,这意味着支持与传统架构处理器同等算力所需的功耗可以大大降低。
存储和计算单元之间的调用和数据搬运需要复杂的编程模型,而存算一体的数据状态都是编译器可以感知的,因此编译效率很高,可以绕开传统架构的编译墙(生态墙)。
在存算一体这一赛道上,最早是美国的Mythic公司在2010年左右推出了存算一体芯片,国内在2017年左右出现了存算一体技术路径的创业团队,目前已有数家。
存算一体最大的优势在于高能效比,但微小算力场景与大算力场景最大的应用区别是对计算精度要求的满足及成本,这也决定着这些存算一体初创公司通向了不同的应用场景。而ChatGPT等大模型的出现势必对AI大算力芯片提出新的要求。
03
为AI大算力芯片发展注入新动能
今年上半年,ChatGPT风靡全球,大模型百花齐放,AI应用进入了2.0时代;下半年,AI算力芯片的技术迎来突破,存算一体开启AI算力第二增长曲线,亿铸科技基于新型忆阻器的存算一体AI大算力芯片工程验证芯片将回片点亮,打破存储墙,基于传统工艺制程可实现500-1000T单卡算力。
近日,亿铸科技创始人、董事长兼CEO熊大鹏博士在“2023全球数字经济大会—算力创新发展及应用赋能论坛”上发表了题为“存算一体超异构为AI大算力芯片发展注入新动能”的演讲。
熊大鹏博士表示,AI应用2.0时代的到来将会促进更行各业的发展,许多过去只存在于想象中的应用场景也会迎来落地。他大胆预测,将来芯片存储能力到达一定数量级之后,AI的智慧一定会超过人类。
对于大模型的参数量未来的发展趋势,熊大鹏博士认为未来可能会有两种发展方向:一种趋势是模型将会越来越大,向着TB级以上的趋势发展;而另一种则是模型在具体的垂直领域被优化、“蒸馏”到一定规模,比如3-9个GB的大小。
同时,大模型由于参数量大、计算量大,需要更大体量的数据和更高的算力支撑,因此对芯片用量的更大需求、芯片规格的更高要求,已经成为明显趋势。
从技术环境来讲,未来数据量越来越大、模型算法越来越复杂,而支撑底层算力的摩尔定律却几近终结。巨大的剪刀差落在AI大算力芯片企业产业链的肩上,就带来了巨大的压力——有效算力的增长率、软件的编译、数据的带宽、存储的成本、能效比、生产工艺……
AI芯片经历了几代技术架构更迭,从最早的ASIC包括DSA,再到GPGPU,而即便产业使出浑身解数,不断优化架构、工艺制程卷到5nm甚至更低、再用上先进封装技术……对大模型来说,还是不够用。
传统的冯·诺伊曼架构存在存储墙的挑战。比如GPT3的参数量是1750亿,需要的内存容量为350GB(FP16),哪怕用H100 HBM3e,一秒钟也只能大约算6次。存储墙带来了各种问题,而存算一体则是最佳解决方案。
那么,如何减小F值呢?近存储计算是一种途径。例如,特斯拉的Dojo D1用近存储,如果能将F值降到0.2、0.3,这意味着即使工艺还是7nm,性能也会提升3-4倍。
存算一体则是更进一步——亿铸科技希望通过存算一体把F值降低到0.1以下,如此一来,未来芯片的性能提升将主要取决于工艺的提升和设计的优化。
亿铸科技的存算一体超异构芯片以存算一体(CIM)AI加速计算阵列为核心,将基于传统工艺与新型忆阻器技术,结合Chiplet与3D封装,实现更大算力、更高能效比,同时兼顾软件通用性的AI大算力芯片,开启一条换道发展之路。
参考来源
https://mp.weixin.qq.com/s/EUzg3R8vLrjS6KzIBRjaDw
https://mp.weixin.qq.com/s/YbSoCYge1N9emUgqTOhDPQ
END
相关阅读