其他
面对英伟达的挑战,中国的国产算力地图正在形成
这几年最火爆的公司,英伟达一定是其中之一。随着全球对AI算力需求的增长,做GPU芯片的英伟达,在近两年内总市值增长很快,实现了历史性的“三连跳”,跻身世界第二。一年前的2023年5月英伟达成为首个市值超过1万亿美元的半导体企业,今年2024年2月突破2万亿美元,之后又在仅仅4个月后的6月5日这一天,总市值首次突破3万亿美元大关,达到3.0118万亿美元,超越苹果,仅次于微软,成为全球继苹果和微软之后历史上第3家总市值超过3万亿美元的公司。但由于美国的对华技术封锁天花板战略,英伟达先进的GPU算力硬件现在并不能被中国使用。美国先是在2022年10月宣布禁止向中国出口A100和H100芯片,这里面像H100是当时美国人工智能公司(比如推出了ChatGPT的OpenAI公司)的主流首选芯片,功能很强大。后来英伟达宣布针对中国市场推出了A800和H800,性能比A100和H100稍差一些,但性能刚好低于美国的禁令要求,这也体现了英伟达想继续在中国做生意的想法,但这两个也在2023年10月被美国要求禁止出口了。现在中国企业能从英伟达买的,只有低性能的老款芯片。当然我国的互联网公司等都在禁令前囤了不少芯片,所以暂时没有太大影响,但长期看对我国形成严峻的算力增长挑战。1.一方面是我国算力的增长受到无法继续获得先进硬件和软件生态的制约,另一方面又是国内由于人工智能不断发展,已有上百个大模型出现,并开始应用于各行各业,对算力的需求在迅猛增长。在人工智能的发展历史上,大模型被认为是一个分水岭,此前业界更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体,听懂人类的语言等等。而现在则是通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,应用到千行百业。因此大模型技术现在成为人工智能发展的焦点。而大模型又对算力需求很高,2022年11月,美国OpenAI公司的ChatGPT发布在全球业界掀起了震动,我当时写过一篇文章:ChatGPT、智能世界与国产化机遇——从华为的2022年年报谈起而那之后受ChatGPT热潮带动,国内各个公司大模型新品不断推出,截至2023年7月,中国累计已经有130个大模型问世。今年3月底的时候,我看到问答大模型比较火爆,就推荐给了我老婆,因为她日常工作需要大量的检索,而这种问答式的AI极大方便了她的工作,最近几个月,也有公司找我发AI大模型的广告。而大模型的推理和训练场景都需要大算力,大模型训练通常需要数千张GPU卡,基于TB级别的数据,耗时几个月进行训练,然后其他用户在预训练大模型的基础上再进行强化学习,而这需要数百张GPU卡,耗时一两个月。做大模型的企业越多,大模型的训练规模越大,则多GPU卡的需求越大,不仅是百卡和千卡,有的大模型甚至需要万卡以上进行训练。行业数据显示,全球过去10年AI算力需求翻了30万倍,而在未来10年AI算力将再增长500倍。2.中国开始启动“东数西算”国家工程,大规模建设全国算力基础设施已经三年以上了面对算力增长的挑战,中国并非无动于衷,而是早已认识到了算力的重要性,把其视为基础设施的一部分。早在2018年12月,中央经济工作会议就已经把5G、人工智能、工业互联网、物联网等新型基础设施建设列为2019年经济建设的重点任务之一。而根据央视新闻2019年3月2日的报道,“新基建”指发力于科技端的基础设施建设,主要包括七大领域:5G基建、特高压、城际高速铁路和城际轨道交通、新能源汽车充电桩、大数据中心、人工智能和工业互联网。这里面大数据中心包含了机房楼,网络,供电,温控,存储服务器,通用服务器等设施以及上面跑的各种软件应用等。而人工智能其实也是跑在数据中心上的,只是因为很重要而被单独拿出来,指的是能够支撑各种人工智能应用的,包括AI服务器以及上面的AI芯片在内的专门用于计算的软硬件基础设施。像上面这个定义的七大新基建,到今天已经五年多了。为什么国家如此重视算力基础设施的发展?因为“人工智能+”早已经是国家战略,每个行业都要用人工智能提升生产力和效率,而没有算力服务基础设施的支撑,人工智能的大发展就无从实现,这就跟没有十几年前4G网络的普及,也就不会有移动互联网的大爆发一样,我们今天用手机点外卖,购物,视频通话,直播等生活方式,实际上都是基于4G高速移动网络基础设施普及这个基础。中国早在2021年就规划了东数西算工程,包括遍布全国的八个算力枢纽(分别是京津冀枢纽,长三角枢纽,粤港澳枢纽,内蒙古枢纽,宁夏枢纽,甘肃枢纽,成渝枢纽和贵州枢纽)以及分布在这八个枢纽的10个算力中心集群。国家发改委发布的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》指出,要加快构建全国一体化算力网,以算力高质量发展支撑经济高质量发展。国家希望国内能够提供算力服务的企业,统一在这些枢纽建立算力中心集群,为全国千行百业提供算力服务。而这八大枢纽的选择,综合考虑了能源价格(数据中心很耗电,而西部能源基地价格低,也比电力传输到东部再用于计算更低损耗)和时延的因素,西部能源价格低,所以东部的数据放在西部计算能够降低成本,同时考虑到时延因素,因此也在京津冀,长三角和粤港澳三大数据流量高地设立枢纽,那些对时延要求的高的需求就在这里计算,其余的可以在西部枢纽进行计算。下图是我在发改委官网找的,2021年5月26日,国家发改委高技术司司长就在贵阳正式宣布八大国家算力枢纽节点建设正式启动,这个时间到今天已经三年以上了。国内各大企业都在紧跟国家八大枢纽战略。以华为为例,其华为云华东(芜湖)数据中心,就于2024年6月14日在安徽芜湖正式开服,也成为芜湖集群首个开服的项目。不只是华为,其他还有中国电信、中国移动、中国联通、中科曙光、火山引擎等15个龙头企业数据中心项目都将在芜湖集群落地。安徽这些年经济不错,经济总量和人均GDP都在全国排名上升很多,而芜湖集群则是八大算力枢纽--长三角枢纽的重要节点,芜湖集群的建设不仅可以支持华东长三角区域的算力需求,芜湖自身也因为数据中心集群的建设而受益,或将成为提供算力基础设施的智算之城。而华为云的芜湖数据中心开服后,就和已经部署的内蒙乌兰察布数据中心,以及贵州的贵安数据中心一起作为华为云的三大数据中心,在全国地理位置上形成“铁三角”,构成AI算力一张网。华为云数据中心提供的云算力服务就是昇腾云服务。华为的乌兰察布+贵安+芜湖数据中心铁三角AI算力一张网+昇腾云服务,可以分别对应支持国内京津,长三角,珠三角三大流量高地,可在区域内实现10ms以内的时延,支撑自动驾驶,大语言模型等区域内的需求。3.为什么不管是中国的国家战略布局,还是华为的铁三角布局,都是采取建设大型数据中心集群提供云服务的形式?而不是让每个企业都自建数据中心呢?原因并不复杂,从国家的角度来讲,是希望实现全国算力规模化,集约化的发展。像中国电信的副总经理在接受央视记者采访时说,2021年中国电信集团数据中心耗电量就高达56亿度,竟然占到了集团总耗电量的20%。从国家顶层设计来讲,东数西算的国家工程是像南水北调,西电东送一样,通过统一的规划建设,不仅能集约利用能源,还能降低算力成本,而如果是四处开花,显然不利于实现低成本,高能效,规模化。而从企业的角度来讲,大模型的推理和训练场景都需要大算力,动辄就是几千张GPU卡,规模更大的需要上万张GPU卡,而一张GPU卡动辄就是几万,十几万乃至二十几万人民币,这还不算数据中心的其他投资,这就导致如果自建数据中心,那么硬件投资金额就不会小。而且硬件技术更新速度快,未来还可能面临需要更新硬件的问题。同时,AI算力对数据中心基础设施的设计是很大挑战,由于AI服务器的功率密度远超通用服务器,单机柜的功耗是过去的6-8倍,并需要专用的液冷系统进行散热,才能降低PUE(能效比)。另外AI大模型训练动辄需要千卡乃至万卡,服务器之间的互联、时延、可靠性、运维极为挑战。而时延和可靠性直接影响到大模型的训练。因此企业自建数据中心,一旦算力需求高,则不仅建设周期长,投资金额大,而且还需要专业的运维团队运维,对专业知识技能要求很高,而且有的企业的算力需求还是潮汐型的,这就让自建数据中心更加不划算。不仅如此,各地政府还根据碳达峰和碳中和战略提出“绿色数据中心”要求,IDC新建/扩容严格受限。相比之下,由类似华为云等国内的各种云计算公司统一建数据中心提供算力服务,由云计算公司专业的提供稳定可靠的算力保障,各个企业去租用云计算公司的服务,具有即开即用、按需使用、灵活部署、集群算力、专业服务、运维&安全等优势。因此AI算力高度依赖云化部署,是行业的主流。算力被认为是和自来水,电力等一样的基础设施,那么由专业的云计算公司来建设数据中心提供算力,是最优解,这就跟中国的自来水,电力,道路,桥梁等基础设施都不是由使用者来建设,而是由专业的公司来建设和运维一样,这样才成本最优且最有效率。4.各国算力基础设施比拼的是全栈能力,英伟达的芯片是算力中的重要一环,但并非是全部。在2022年和2023年,美国连续禁止英伟达先进算力芯片出口中国的背景下,国内更多把中美算力竞争的焦点注意到芯片和对应的软件生态上。但先进算力的竞争力比拼,芯片只是其中一环,而是要考虑全栈能力。那么什么是全栈能力呢?以华为云6月14日开服的这个芜湖数据中心为例,我们可以从华为云昇腾云服务讲的提供哪些算力服务,看一下国内一线的算力云服务公司,是如何考虑算力基础设施服务的竞争力的。首先要考虑资源获取快的问题。算力服务需要考虑两个公认的难题,一是硬件的可获得性,二是要快速获得算力。硬件可获得性的挑战,在过去的几年中国企业已经一再的有了感受,各种先进芯片的获取越来越难。像华为等国内TOP