新观察系列|大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-A𝕀²ℙarad𝕚gm之“Shovels”服务路径解读-下
“
𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。
今天看到RISV的创始人对于错失AI芯片历史性翻身机会的反省,所以也值得云计算厂商在企业web计算转向神经网络计算的当下把握机会,当然更多是新型智算云厂商的机会,但说到底是Nvidia老黄的机会!▽
题记
首先分析了创投机构DG&Nat天使组合、以及Reid Hoffman的Greylock最近的布局,他们分别投资了提供GPU云服务的startup CoreWeave。CoreWeave正在为新创的AI公司以极具竞争力的价格提供大规模GPU集群服务,与AWS、Azure和GCP相比,CoreWeave更加专注于定制化的GPU集群服务。
文章参考semianalysis的分析,回顾了AWS云计算服务的起源,它的服务化架构奠定了其在第一和第二波云计算浪潮中的主导地位。但AWS现在面临新的机遇和挑战,边缘计算、AI模型算力新范式、安全合规以及开源可能会打破其长期垄断。
国内二线云厂商也面临困境,它们跟随大厂建设通用云平台,但缺乏大模型预训练和推理部署的经验。在GPU短缺的情况下,它们很难提供有竞争力的GPU云服务。
整体来看,这波大模型计算让传统云厂商陷入困境,而以CoreWeave为代表的创新型startup正在抢占这一红利市场。AWS或国内云计算平台需要在关键领域加快创新,才能保持其在云计算市场的领导地位。
▩A𝕀²·ℙarad𝕚gm范式中“卖淘金铲子“(Shovel)服务路径标志
△
“A𝕀²·ℙarad𝕚gm商业范式框架v4.0”
A𝕀²·ℙarad𝕚gm-𝕀ntell𝕚gence as a Serv𝕚ce v1-v4范式迭代
▩炼丹(pre-training) (v1. AIGC) - tokens as a service
▩挖矿(prompting) (v1.AIGC) - prompts as a service
▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service
▩具生(agents) (v3&v4. promptless) - agents as a service
△附:A𝕀²·ℙarad𝕚gm-𝕀ntell𝕚gence as a Serv𝕚ce v1-v4范式迭代路径
科学计算范式走向CPU&GPU混合计算
也许每个人心中都有自己的对互联网模式的认知。从个体来说,更多的感受还是消费互联网对于整个社会生活带来的翻天覆地的变化-数字化大背景下的信息化、以及今天以AIGC为代表的知识化(模型化知识压缩与解压)。
而在消费与产业领域的上游科学领域,也在发生深刻的范式变化。
△
"四种科学范式:经验、理论、计算和数据驱动。每种范式既受益于其他范式,也有助于其他范式"
作为人类努力的一部分,科学因历史环境而不断重塑。信息技术的进步所带来的 "数据洪流 "正在深刻地影响着西方研究科学的方式。实验科学、理论科学和计算科学也负责产生大量的数据,并能从新的视角中受益。1998年图灵奖获得者吉姆-格雷(Jim Gray)在其最后一次演讲中历史性地提出了这一观点:
▩科学探索的第四种新范式 “最初只有实验科学,后来有了理论科学,如开普勒定律、牛顿运动定律、麦克斯韦方程等。然后,对于许多问题来说,理论模型变得过于复杂,无法通过分析来解决,人们不得不开始模拟。现在,这些模拟产生了大量数据,同时来自实验科学的数据也大量增加。现在,人们实际上并不通过望远镜来观察。 科学世界已经发生了变化,这是毋庸置疑的。新的模式是先用仪器采集数据或模拟生成数据,然后再用软件进行处理,并将处理后的信息或知识存储在计算机中。科学家只有在这一过程的后期才能看到他们的数据。 这种数据密集型科学的技术和科技是截然不同的,因此值得将数据密集型科学与计算科学区分开来,作为科学探索的第四种新范式。”
四种科学范式之间经过修订的联系。从经验数据到基础理论,在计算模拟中得以实现,从而产生更多的数据。统计学习反过来又可以获得简单的现象学模型,有助于理论理解。
正是第四科学范式的提出,对于计算形态也提出了新的要求。
▩神经形态计算架构与Spike NN的发展(neuromorphic architecture & Spike Neural Nets)
随着摩尔定律的终结和Dennard扩展的结束,计算领域正越来越多地寻求新技术来实现性能的持续提升。神经形态计算机就是这样一种新型计算技术。神经形态一词是由Carver Mead在20世纪80年代末创造的,当时主要指脑启发计算的模拟-数字混合实现;然而,随着该领域的不断发展,以及DARPA Synapse项目和欧盟人脑项目等针对脑启发计算系统的大规模资助机会的出现,神经形态一词已开始涵盖更广泛的硬件实现。
神经形态计算机定义为非冯-诺依曼计算机,其结构和功能受大脑启发,由神经元和突触组成。冯-诺依曼计算机由独立的CPU和存储单元组成,数据和指令存储在后者中。而在神经形态计算机中,处理和存储均由神经元和突触控制。神经形态计算机中的程序是由神经网络的结构及其参数定义的,而不是像冯-诺依曼计算机那样由明确的指令定义。此外,冯-诺依曼计算机将信息编码为二进制数值,而神经形态计算机接收Spike作为输入,Spike出现的相关时间、幅度和形状可用于编码数值信息。二进制值可以转换为Spike,反之亦然,但进行这种转换的精确方法仍是神经形态计算的一个研究领域。
from "Opportunities for neuromorphic computing algorithms and applications"
“https://www.nature.com/articles/s43588-021-00184-y”
鉴于上述两种架构之间的对比特征(上图),神经形态计算机在操作上存在一些根本性的差异:
高度并行操作:神经形态计算机本质上是并行的,所有神经元和突触都有可能同时运行;然而,与并行化的冯-诺依曼系统相比,神经元和突触执行的计算相对简单。
协同处理和记忆:神经形态硬件中不存在处理和记忆分离的概念。尽管神经元有时被认为是处理单元,而突触有时被认为是存储器,但在许多实现中,神经元和突触既执行处理,又存储数值。处理和存储的搭配有助于缓解冯-诺依曼关于处理器/存储器分离的瓶颈,该瓶颈会导致可实现的最大吞吐量放缓。此外,这种搭配还有助于避免像传统计算系统那样从主存储器访问数据,因为与计算能耗相比,主存储器的能耗相当可观。
固有的可扩展性:神经形态计算机具有固有的可扩展性,因为增加额外的神经形态芯片需要增加可实现的神经元和突触数量。可以将多个物理神经形态芯片作为一个单一的大型神经形态实现来运行越来越大的网络。这已经在各种大规模神经形态硬件系统中成功实现,包括SpiNNaker和Loihi。
事件驱动计算:神经形态计算机利用事件驱动计算(即只有在数据可用时才进行计算)和时间稀疏活动来实现极其高效的计算8,9。神经元和突触只有在有尖峰需要处理时才会执行工作,而通常情况下,尖峰在网络运行过程中相对稀疏。
随机性:神经形态计算机可以包含随机性概念,例如神经元的发射,以允许噪声。
尽管神经形态系统可能是部署Spike神经网络(SNN)的最终平台,但其分布式性质和对特定类型模型的优化使其成为开发SNN的笨重工具。相反,SNN模型倾向于在具有标准冯-诺依曼CPU架构的计算机或计算机集群上开发和模拟。
▩GPU成为标准冯-诺依曼CPU架构的计算机或计算机集群上开发和模拟SNN的首选
在过去的十年中,英伟达™(NVIDIA®)GPU加速器已经成为许多工作站中的常用设备,并已进入高性能计算领域,目前全球前十大超级计算站点中有50%都采用了该加速器。
▩在模拟高连接皮层模型时,GPU在速度和能耗方面优于当前的HPC和神经形态解决方案 “在2018年的一项研究中,作者使用GeNN代码生成器在GPU硬件上重新实现了两个新皮质启发的、电路规模的点神经元网络模型。 根据之前在传统HPC硬件上运行NEST所获得的结果验证了GPU仿真的正确性,并将速度和能耗方面的性能与基于CPU的HPC和神经形态硬件的公开数据进行了比较。 使用单个英伟达™(NVIDIA®)Tesla V100加速器可以以接近0.5倍的实时速度仿真大脑皮层柱的全尺寸模型--比目前使用基于CPU的集群或SpiNNaker神经形态系统更快。 此外,作者还发现,在一系列GPU系统中,微电路仿真的解能量以及每个突触事件的能量比SpiNNaker或基于CPU的仿真低14倍之多。除了仿真速度和能耗方面的性能,模型的高效初始化也是一个重要问题,特别是在需要重复运行和探索参数空间的研究环境中。 因此,该研究介绍了在最新版GeNN中实现的一些新型并行初始化方法,并演示了这些方法如何进一步提高速度和能耗优势。”
在开发SNN时,需要更灵活的加速器来加速大规模SNN的构建、初始化和仿真。现场可编程门阵列(FPGA)是由大量基于查找表的逻辑块组成的器件,使用可编程结构连接。FPGA已被用于构建各种 "硬连线 "SNN加速器(Moore等人,2012年;Wang和van Schaik,2018年),但Naylor等人(2013年)的研究表明,FPGA还可用于开发更灵活、性能相当的可编程加速器。然而,尽管这类系统理论上可用于加速SNN的构建和初始化以及仿真,但FPGA在工作站中尚未普及,而且它们缺乏对浮点运算的硬件支持,因此不适合仿真某些常见类别的神经元和突触模型。
GPU架构专为具有大量细粒度并行性的高吞吐量应用而设计。它们用连接到高带宽外部存储器的大量浮点运算单元取代了现代CPU架构为提高性能而依赖的大型连贯缓存。可编程GPU最初是为了加速三维图形的渲染而开发的,这通常涉及到对每个像素进行相同的、独立的计算,例如计算其光照度。
GPU加速在SNN仿真中的应用也很有前景,目前有许多针对GPU的活跃SNN仿真器项目。CARLsim(Chou等人,2018)是一个基于C++的模拟器,使用英伟达CUDA(计算统一设备架构),但由于CARLsim不是基于代码生成的,没有CUDA专业知识的用户很难添加新的神经元和突触模型。EDLUT(Garrido等人,2011年)最初是一个基于事件驱动CPU的SNN模拟器,但现在已经发展成为一个CPU/GPU混合系统,同时支持时间和事件驱动模型。ANNarchy(Vitay等人,2015)是一个基于代码生成的模拟器,可将Python模型描述转化为多核CPU或GPU代码,重点用于混合速率和Spike模型。过去2-4年中开发较少的其他模拟器包括NCS6(Hoang等人,2013年)、Myriad(Rittner和Cleland,2016年)和NeMo(Fidjeland等人,2009年)(参见Brette和Goodman(2012年)的综述)。GeNN(Yavuz等人,2016年)是一个代码生成库,旨在促进GPU硬件上的加速SNN模拟。其设计目的是在灵活性(允许用户定义自己的神经元和突触模型)和为并行SNN仿真中不明显的并行阶段(如Spike传播)生成优化CUDA代码的效率之间取得平衡。
位于美国田纳西州的Oak Ridge国家实验室(ORNL)的超算平台Titan于2019年8月退役,Titan正是ORNL应科学计算范式的改变首个引入混合计算架构的超算平台:
▩Titan, Cray® XK7™ “Titan是一个混合架构的Cray® XK7™系统,理论峰值性能超过每秒27,000万亿次计算(27 petaflops)。它包含先进的16核AMD Opteron™中央处理器(CPU)和NVIDIA® Kepler图形处理单元(GPU)。这种组合使泰坦的速度和能效分别是其前身美洲虎超级计算机的10倍和5倍,而能耗仅略有增加,物理占地面积相同。 泰坦 "拥有18,688个计算节点、710兆字节的总系统内存以及Cray的高性能Gemini网络。它的299,008个CPU内核可指导模拟,而配套的GPU可同时处理数百项计算。该系统缩短了解决问题的时间,增加了模型的复杂性,提高了模拟的逼真度。随着计算能力接近超大规模(即每秒百万亿次计算),泰坦帮助开启了科学与工程的新纪元。”
亨利(Henri)超级计算机(见上图),是基于Intel CPU和Nvidia GPU混合的联想服务器建造,它目前是Top500榜单中排名第405位的最强大系统,最高性能为2.04 FP64 PFLOPS,算力本身很难说令人印象深刻。难能可贵的是,该机器仅消耗31千瓦的电力,展示了65.091 GFLOPS/瓦的能源效率,创下了世界纪录。为了说明这个数字,Frontier TDS机器达到了62.684 PFLOPS/W,Frontier--世界上最快的超级计算机--得分是52.227 PFLOPS/W,而Lumi系统达到了58.021 PFLOPS/W。
企业计算范式的本质改变及发展
Marc Andreessen,高科技创投巨擘a16z的掌舵人,也是a16z的灵魂人物,安德森可能更出名的角色是作为一位公共知识分子,在这个角色中,他撰写了三篇开创性文章:《软件正在吞噬世界》、《现在是建设时候》以及仅仅几周前发布的《人工智能将拯救世界》。
从当年那句Slogan“Software are eating the world”,到这次“AI will save the world”,背后老安德森及其庞大对投资团队实际上前脚虽想踏入这波AI,但后脚仍带着web3的黑泥,某种程度上是错过了大模型这波创投的提前布局。即将迎来的显然是Models Anywhere & Anyone的世界,“Models are Eating Software!”,企业计算范式已经在发生本质的变化。
▩混合计算范式从科学领域来到了企业计算领域
△
"Multicomputation:理论科学的第四范式"
▩Multicomputation:理论科学的第四范式
本文介绍了一种新的建模和理论科学的范式,基于多计算的概念,将计算的概念推广到允许多个交织的历史线程。 作者声称这种范式可以解决物理学、生物学、社会科学和其他领域的许多长期存在的问题,以及提出新的探索方向和可能性。 作者回顾了理论科学的前三种范式:结构范式,它使用简单的元素和逻辑推理来描述世界中的事物;数学范式,它使用数学方程及其解来描述现象;以及计算范式,它使用简单的程序及其行为来模拟复杂系统。 作者解释了计算范式如何导致他的物理项目,该项目旨在基于一个简单的规则来寻找物理学的基本理论,该规则生成了一个多计算的超图系统。他还讨论了这个系统如何重现已知物理学的许多特征,如量子力学、相对论和引力,以及提出新的现象和预测。 作者然后将多计算的概念推广到其他领域,如生物学,他提出生命可以被看作是探索多计算历史不同分支的过程。他还将多计算应用于社会科学,他认为人类历史可以被建模为一个因果影响和反事实的网络。他还探索了多计算如何用于研究人工智能、意识、数学、逻辑和哲学。 作者总结了多计算范式的一些挑战和机遇,如寻找有效地模拟和分析多计算系统的方法,开发新的可视化和交互方式,以及发现从中产生的新原则和模式。他还邀请读者加入他探索这一理论科学新领域。
斯蒂芬-沃尔夫拉姆(Stephen Wolfram是Mathematica、Wolfram|Alpha和Wolfram语言的创始人;《一种新的科学》一书的作者;Wolfram物理项目的发起人;Wolfram研究公司的创始人兼首席执行官。四十多年来,他一直是开发和应用计算思维的先驱,并对科学、技术和商业领域的许多发现、发明和创新负有责任。
在他2021年的这篇文章中,从科学作为一个领域的计算范式改变来说,Multicomputation带来的底层计算基础设施的变化,则是CPU&GPU协同的混合计算。如同这种科学计算领域的范式改变,在企业计算领域,以OpenAI GPT为代表的LLM大模型带来了计算范式的改变。
前面提到Coreweave在GPU算力云服务的崛起,包括为硅谷AI创投组合DG&Nat搭建仙女座GPU集群-2512片H100的炼丹炉;赶上了这波大模型基础设施浪潮的微软Azure,一直对为OpenAI搭建的GPU算力集群规模秘而不宣,对外宣传也含糊的提到达到了万片规模;此前Elon Musk以X Corp的名义购买了1万片H100。
就算力集群规模来讲,Inflection宣称他们的集群仅次于位于田纳西州的Oak Ridge国家实验室(ORNL)的Frontier算力集群。
▩OpenAI的AGI路线分析看企业计算范式改变
AI²Paradigm范式框架中,一直将OpenAI的通往AGI的捷径作为主线发展路径研究,这也是算力服务范式的演进代表。
随着最近OpenAI释放的code Interpreter的代码沙箱服务,受到了广大用户的欢迎,从企业计算范式维度来看,代码运行环境是完全的传统CPU计算,GPT-4+Interpreter服务,显示了企业计算领域GPU&CPU混合计算范式逐渐浮现,可以想象的是,随着model anywhere&anyone的浪潮逐步席卷而来,企业计算需求将呈现如下特征:
炼丹·预训练阶段-GPU集群算力(GPU千卡以上):根据基座模型参数大小,集群稳定性,集群资源完全独占型
化身·微调阶段-GPU集群+单GPU节点(GPU8卡~百卡):根据下游任务的难度而定,预计会有微调流水线平台服务出现,GPU算力可以分时使用
挖矿·推理阶段-混合算力多GPU节点组合+单GPU节点+CPU计算池(GPU8卡~数十卡,CPU计算池):根据最终用户规模,有GPU节点弹性需求,GPU节点完全独占型,CPU可池化复用。
正如《新观察-上篇》所分析的那样,以上企业计算的新特征,对于传统云厂商来说,在企业通用计算服务领域积累的技术、产品和服务、运营上的优势,完全使不上劲,甚至之前高昂的沉没成本,在今天大模型算力服务上,成为不可逾越的包袱。这也正是上篇中web3时代的挖矿公司以低成本提供微调和推理算力服务的优势所在,对于炼丹公司也以低成本的集群托管模式,直接参与到大模型创投新范式的利益闭环中。
▩传统科学计算领域的HPC服务商的机会
当前的Nvidia的GPU在软硬件层面,对于大模型企业计算范式的各个阶段都有深度的优化和适配。
在关键的预训练阶段,主流的Nvidia 80GB 显存的 GPU 卡中无法完成训练,需要利用张量并行和流水线并行等模型并行手段将模型切分到多台 GPU 服务器的多块 GPU 中,同时为了得到更强大的模型能力,基于 Chinchilla 模型能力缩放法则,参数量越大,所需的训练数据量越大,训练计算量越大,单次训练耗时越长,为了缩短单次训练的时间,加快模型的迭代速度,通常还会采用数据并行策略,将训练数据切分由多组 GPU 服务器进行并行训练。在训练过程中 GPU 服务器之间会频繁进行海量的数据交换(参数梯度同步),需要 GPU 节点间有无阻塞的高性能计算网络。
庞大的训练数据集(通常几 TB 至几十 TB),在训练过程中需要被所有 GPU 服务器频繁的访问读取,同时因为超长的训练时间,为了保障训练异常中断后可恢复需要定期进行 Checkpoint 的写入(Checkpoint 写入过程中无法进行训练,所以 Checkpoint 写入耗时越短越好),这些需求需要高性能的并行文件系统提供支持。
综合看大模型的分布式训练,需要大规模的算力、高性能计算网络、高性能的并行文件系统,以及超长的单一作业运行时间,这是一个典型的高性能计算(HPC)场景。
国内提供科学计算服务的除了国家队中的众多超算中心,更有传统芯片大厂高性能计算背景的专业公司,深耕 HPC 行业十多年,从高性能计算应用运行特征采集、分析,高性能计算集群建设、维护,高性能计算集群的系统调优和高性能计算应用的应用性能调优到超算云、行业云、智算云的运营服务,贯穿高性能计算的完整生命周期的各个方面都积累了丰富经验,沉淀下大量的最佳实践。
这些公司运营的的高性能计算集群(无论 CPU 或 GPU)主要基于 InfiniBand 高性能计算网络和高性能的并行文件系统进行构建,可为大规模并行计算提供极致的节点间通讯性能和强劲的高并发数据读写。为保障大规模并行计算的长时间稳定运行,需要健壮稳定的基础设施。
除此之外,这些公司多年来所参与建设、维护的高性能计算集群在正式投入使用前都会进行严格的性能基准测试和压力测试,保证投入使用的资源稳定且性能符合标准。同时建立了完备的计算资源、InfiniBand 高性能计算网络和高性能的并行文件系统的监控和质量监测体系,持续对高性能计算集群进行健康检查和性能监测,还有行业内首创的应用运行特征采集和持续分析,及时发现“拖慢”整体计算效率的“慢节点”和“慢网络”,保证计算性能持续高效。
与此同时这些公司还建设有一支经验丰富且响应及时的客户支持团队,可为用户提供小到系统和软件安装,大到软件代码调试调优的全面服务。
参考
说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。
-stephenwolfram:Multicomputation- a fourth paradigm for theoretical science
https://writings.stephenwolfram.com/2021/09/multicomputation-a-fourth-paradigm-for-theoretical-science/
-ORNL:Frontier User Guide
https://docs.olcf.ornl.gov/systems/frontier_user_guide.html
-nature computational science: Opportunities for neuromorphic computing algorithms and applications
-frontiers:GPUs Outperform Current HPC and Neuromorphic Solutions in Terms of Speed and Energy When Simulating a Highly-Connected Cortical Model
https://www.frontiersin.org/articles/10.3389/fnins.2018.00941/full
附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究
H𝕀:Humanity Intelligence [Sys1&2@BNN]
A𝕀:Artifical Intelligence [LLM@ANN]
𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-]
ℙarad𝕚g𝕞:认知范式或BNN认知大模型
A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白
往期推荐
互为Prompt | 大型语言模型的预训练·GPT智能到底意味着什么?
AI平方范式智库·数学系列E03S01 | 神经网络背后的数学
Ilya公布神级AI论文30篇,带你Feel the AGI!
AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI
扫码加群,
链接智库!
AI平方范式智库
那些prompt了我的,
是否也prompt了你...