随着全球对AI算力需求的增长,做GPU芯片的英伟达,在近两年内总市值增长很快,实现了历史性的“三连跳”,跻身世界第二。一年前的2023年5月英伟达成为首个市值超过1万亿美元的半导体企业,今年2024年2月突破2万亿美元,之后又在仅仅4个月后的6月5日这一天,总市值首次突破3万亿美元大关,达到3.0118万亿美元,超越苹果,仅次于微软,成为全球继苹果和微软之后历史上第3家总市值超过3万亿美元的公司。但由于美国的对华技术封锁天花板战略,英伟达先进的GPU算力硬件现在并不能被中国使用。美国先是在2022年10月宣布禁止向中国出口A100和H100芯片,这里面像H100是当时美国人工智能公司(比如推出了ChatGPT的OpenAI公司)的主流首选芯片,功能很强大。后来英伟达宣布针对中国市场推出了A800和H800,性能比A100和H100稍差一些,但性能刚好低于美国的禁令要求,这也体现了英伟达想继续在中国做生意的想法,但这两个也在2023年10月被美国要求禁止出口了。现在中国企业能从英伟达买的,只有低性能的老款芯片。当然我国的互联网公司等都在禁令前囤了不少芯片,所以暂时没有太大影响,但长期看对我国形成严峻的算力增长挑战。
1.一方面是我国算力的增长受到无法继续获得先进硬件和软件生态的制约,另一方面又是国内由于人工智能不断发展,已有上百个大模型出现,并开始应用于各行各业,对算力的需求在迅猛增长。在人工智能的发展历史上,大模型被认为是一个分水岭,此前业界更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体,听懂人类的语言等等。而现在则是通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,应用到千行百业。而大模型又对算力需求很高,2022年11月,美国OpenAI公司的ChatGPT发布在全球业界掀起了震动,我当时写过一篇文章:而那之后受ChatGPT热潮带动,国内各个公司大模型新品不断推出,截至2023年7月,中国累计已经有130个大模型问世。今年3月底的时候,我看到问答大模型比较火爆,就推荐给了我老婆,因为她日常工作需要大量的检索,而这种问答式的AI极大方便了她的工作,最近几个月,也有公司找我发AI大模型的广告。而大模型的推理和训练场景都需要大算力,大模型训练通常需要数千张GPU卡,基于TB级别的数据,耗时几个月进行训练,然后其他用户在预训练大模型的基础上再进行强化学习,而这需要数百张GPU卡,耗时一两个月。做大模型的企业越多,大模型的训练规模越大,则多GPU卡的需求越大,不仅是百卡和千卡,有的大模型甚至需要万卡以上进行训练。行业数据显示,全球过去10年AI算力需求翻了30万倍,而在未来10年AI算力将再增长500倍。2.中国开始启动“东数西算”国家工程,大规模建设全国算力基础设施已经三年以上了面对算力增长的挑战,中国并非无动于衷,而是早已认识到了算力的重要性,把其视为基础设施的一部分。早在2018年12月,中央经济工作会议就已经把5G、人工智能、工业互联网、物联网等新型基础设施建设列为2019年经济建设的重点任务之一。而根据央视新闻2019年3月2日的报道,“新基建”指发力于科技端的基础设施建设,主要包括七大领域:5G基建、特高压、城际高速铁路和城际轨道交通、新能源汽车充电桩、大数据中心、人工智能和工业互联网。这里面大数据中心包含了机房楼,网络,供电,温控,存储服务器,通用服务器等设施以及上面跑的各种软件应用等。而人工智能其实也是跑在数据中心上的,只是因为很重要而被单独拿出来,指的是能够支撑各种人工智能应用的,包括AI服务器以及上面的AI芯片在内的专门用于计算的软硬件基础设施。因为“人工智能+”早已经是国家战略,每个行业都要用人工智能提升生产力和效率,而没有算力服务基础设施的支撑,人工智能的大发展就无从实现,这就跟没有十几年前4G网络的普及,也就不会有移动互联网的大爆发一样,我们今天用手机点外卖,购物,视频通话,直播等生活方式,实际上都是基于4G高速移动网络基础设施普及这个基础。中国早在2021年就规划了东数西算工程,包括遍布全国的八个算力枢纽(分别是京津冀枢纽,长三角枢纽,粤港澳枢纽,内蒙古枢纽,宁夏枢纽,甘肃枢纽,成渝枢纽和贵州枢纽)以及分布在这八个枢纽的10个算力中心集群。国家发改委发布的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》指出,要加快构建全国一体化算力网,以算力高质量发展支撑经济高质量发展。国家希望国内能够提供算力服务的企业,统一在这些枢纽建立算力中心集群,为全国千行百业提供算力服务。而这八大枢纽的选择,综合考虑了能源价格(数据中心很耗电,而西部能源基地价格低,也比电力传输到东部再用于计算更低损耗)和时延的因素,西部能源价格低,所以东部的数据放在西部计算能够降低成本,同时考虑到时延因素,因此也在京津冀,长三角和粤港澳三大数据流量高地设立枢纽,那些对时延要求的高的需求就在这里计算,其余的可以在西部枢纽进行计算。下图是我在发改委官网找的,2021年5月26日,国家发改委高技术司司长就在贵阳正式宣布八大国家算力枢纽节点建设正式启动,这个时间到今天已经三年以上了。
以华为为例,其华为云华东(芜湖)数据中心,就于2024年6月14日在安徽芜湖正式开服,也成为芜湖集群首个开服的项目。不只是华为,其他还有中国电信、中国移动、中国联通、中科曙光、火山引擎等15个龙头企业数据中心项目都将在芜湖集群落地。安徽这些年经济不错,经济总量和人均GDP都在全国排名上升很多,而芜湖集群则是八大算力枢纽--长三角枢纽的重要节点,芜湖集群的建设不仅可以支持华东长三角区域的算力需求,芜湖自身也因为数据中心集群的建设而受益,或将成为提供算力基础设施的智算之城。而华为云的芜湖数据中心开服后,就和已经部署的内蒙乌兰察布数据中心,以及贵州的贵安数据中心一起作为华为云的三大数据中心,在全国地理位置上形成“铁三角”,构成AI算力一张网。华为的乌兰察布+贵安+芜湖数据中心铁三角AI算力一张网+昇腾云服务,可以分别对应支持国内京津,长三角,珠三角三大流量高地,可在区域内实现10ms以内的时延,支撑自动驾驶,大语言模型等区域内的需求。3.为什么不管是中国的国家战略布局,还是华为的铁三角布局,都是采取建设大型数据中心集群提供云服务的形式?而不是让每个企业都自建数据中心呢?原因并不复杂,从国家的角度来讲,是希望实现全国算力规模化,集约化的发展。像中国电信的副总经理在接受央视记者采访时说,2021年中国电信集团数据中心耗电量就高达56亿度,竟然占到了集团总耗电量的20%。从国家顶层设计来讲,东数西算的国家工程是像南水北调,西电东送一样,通过统一的规划建设,不仅能集约利用能源,还能降低算力成本,而如果是四处开花,显然不利于实现低成本,高能效,规模化。
而从企业的角度来讲,大模型的推理和训练场景都需要大算力,动辄就是几千张GPU卡,规模更大的需要上万张GPU卡,而一张GPU卡动辄就是几万,十几万乃至二十几万人民币,这还不算数据中心的其他投资,这就导致如果自建数据中心,那么硬件投资金额就不会小。而且硬件技术更新速度快,未来还可能面临需要更新硬件的问题。同时,AI算力对数据中心基础设施的设计是很大挑战,由于AI服务器的功率密度远超通用服务器,单机柜的功耗是过去的6-8倍,并需要专用的液冷系统进行散热,才能降低PUE(能效比)。另外AI大模型训练动辄需要千卡乃至万卡,服务器之间的互联、时延、可靠性、运维极为挑战。而时延和可靠性直接影响到大模型的训练。因此企业自建数据中心,一旦算力需求高,则不仅建设周期长,投资金额大,而且还需要专业的运维团队运维,对专业知识技能要求很高,而且有的企业的算力需求还是潮汐型的,这就让自建数据中心更加不划算。不仅如此,各地政府还根据碳达峰和碳中和战略提出“绿色数据中心”要求,IDC新建/扩容严格受限。相比之下,由类似华为云等国内的各种云计算公司统一建数据中心提供算力服务,由云计算公司专业的提供稳定可靠的算力保障,各个企业去租用云计算公司的服务,具有即开即用、按需使用、灵活部署、集群算力、专业服务、运维&安全等优势。因此AI算力高度依赖云化部署,是行业的主流。算力被认为是和自来水,电力等一样的基础设施,那么由专业的云计算公司来建设数据中心提供算力,是最优解,这就跟中国的自来水,电力,道路,桥梁等基础设施都不是由使用者来建设,而是由专业的公司来建设和运维一样,这样才成本最优且最有效率。4.各国算力基础设施比拼的是全栈能力,英伟达的芯片是算力中的重要一环,但并非是全部。
在2022年和2023年,美国连续禁止英伟达先进算力芯片出口中国的背景下,国内更多把中美算力竞争的焦点注意到芯片和对应的软件生态上。但先进算力的竞争力比拼,芯片只是其中一环,而是要考虑全栈能力。以华为云6月14日开服的这个芜湖数据中心为例,我们可以从华为云昇腾云服务讲的提供哪些算力服务,看一下国内一线的算力云服务公司,是如何考虑算力基础设施服务的竞争力的。算力服务需要考虑两个公认的难题,一是硬件的可获得性,二是要快速获得算力。硬件可获得性的挑战,在过去的几年中国企业已经一再的有了感受,各种先进芯片的获取越来越难。像华为等国内TOP AI芯片和相应的软件生态供应商,在快速的提供用户需要的算力方面就具有很大的优势,用户不需要去高价抢购GPU算力卡,而是可以直接在华为云官网购买昇腾AI云服务,有充足的AI算力可以获取,同时也避免了自建AI数据中心动辄半年一年以上的长周期等待等问题。另外还要考虑模型迁移快的问题,简单的说就是要方便简单,可靠,快捷的把基于国外软硬件生态开发的模型和应用迁移到国产算力中心上。很多用户已经基于英伟达或者其他公司的框架,生态构建了自己的大模型和应用,如果购买了国产的云算力服务,就必须考虑到软件迁移的问题,因此国产云算力服务不仅仅是提供计算硬件,存储等,而且还要提供了大模型开发、通用AI开发及算力调优三大全流程工具链,要使得典型场景迁移至生产环境时间小于2周以内。算力服务的可靠性非常重要,故障恢复越快,越有利于客户的业务。
具有主动诊断故障功能的云算力中心,可以主动运维而非故障后发现处理问题,这样可以有效避免训练中断,确保集群长稳运行。像国内头部云算力服务公司已经可以做到集群故障1分钟发现,5分钟诊断,10分钟恢复。还有时延问题,这个国家在八大枢纽十大集群布局时已经考虑了,对于时延要求高的应用要做到10ms以内的时延水平。衡量一个云算力中心的服务,可以从模型训练效率高低来评估,而MFU(Model FLOPs utilization)是评估模型训练效率的通用指标,其含义是实际吞吐量与假设最大吞吐量之比,直接反映端到端的训练速度。这个算子是什么东西呢?深度学习算法由一个个计算单元组成,我们称这些计算单元为算子(Operator,简称Op)。而显存是显示内存,是和GPU配合用于图像显示的芯片。通过对算子,显存,通讯的软件优化,可以提升MFU指标。
因此模型训练效率MFU更优的云算力服务厂家,也具有更高的云上性能。5.谁在算力基础设施上领先,谁就能在人工智能竞赛中领先中国的家用电器,电动车为什么那么普及,物流效率为什么那么高,成本又那么低,跟基础设施大规模建设有很大关系。
就以电动车为例,中国电动车渗透率在2024年已经在逐渐接近单月50%,这其中原因就是中国不仅有强大的电网消纳大量电动车的充电功率和电量需求,而且是因为中国政府大力鼓励充电站建设,把充电桩列为新型基础设施之一,中国现在充电基础设施就远比国外更加普及,现在在深圳给车充电,很容易就能找到充电站。这直接导致2023年底,中国市场的电动汽车数量比全球其他所有国家加起来还多,或者说,比欧美加起来还多。而人工智能的发展也是一样的,通过2022年11月发布的ChatGPT,以及2024年2月发布的Sora,我们知道了AI大模型技术可以用于人机对话,以及文本生成视频,但AI大模型的发展远不止这些领域,它不仅可以用于面向ToC领域进行应用,也还有千行百业的toB应用。国内大中小型企业要想有效的把人工智能技术应用于自己的行业,都需要开发自己行业的大模型,因此就势必需要能够快速获得,并且稳定可靠的各种算力服务。还是拿华为云举个例子,华为云昇腾云服务不仅考虑了模型迁移问题,而且开发了盘古大模型工程套件,包括数据工程、模型开发和应用开发三大套件,支持各行各业的大中小型企业,基于盘古大模型工程套件,进行适配本行业的大模型开发。完成一个千亿行业模型端到端开发,从过去需要5个月缩短到现在1个月,整体速度大大提升。不仅仅是硬件芯片可以持续获取和更新,而不是到处抢购GPU卡,而且是可以基于算力服务供应商提供的大模型工程套件,更简单的迅速开发适用于本行业的人工智能大模型,快速的实现人工智能+的发展。换言之有了这些基础能力,中国千行百业走向智能化才有了生长的黑土地,而我们也看到国内已经有一批企业在努力的做这件事情。因为就从基础设施建设这一点来说,从电网,高速公路,高速铁路,桥梁,5G网络,自来水到充电基础设施,作为基建狂魔的中国并不弱于美国,甚至很多方面还是领先的。而就企业的研发实力来说,像华为这样的企业,在5G手机芯片,数据库,大模型等软硬件方面,也一直在突破。就跟中国强大的移动网络基础设施催生了无数的移动互联网应用一样,中国的算力基础设施不断完善和进步,也会像黑土地一样,更容易产生各种类似ChatGPT,Sora,以及应用于各行各业的to B行业大模型应用。希望本文的简单介绍,能够让人对我国政府和企业在如何应对英伟达为首的美国公司带来的算力竞争压力有所了解。