IPF2022 关于智算的系列洞察
3月17日,浪潮信息生态伙伴大会IPF2022召开,浪潮信息与业界政产学研知名专家共同探讨数字经济和实体经济、数字世界和物理世界深度融合下的计算新格局与新挑战。
关于如何认知智慧计算、如何发展智慧计算等问题,浪潮信息进行了深入的洞察和系统的观点分享。
计算力就是生产力。进入智慧时代,生产力三要素发生了革命性变化。
生产工具发展到计算力驱动的智能化设备,包括在其上运行的各种算法和模型,工具的发展日新月异,能力呈指数增长;数据成为了一种新的劳动对象或者说生产要素,劳动对象从实体世界扩展到数字世界,从有形到无形,但数据最大的特点是消耗的过程又是生产的过程,原数据没有损耗,新的不断产生,生生不息,越用越多;劳动者的范围扩展到人加人工智能,劳动者可以指数增长,这是人类社会发展历史上劳动者要素的大突破。
在计算力作用下,生产力得到前所未有的释放。这一点也在经济理论、政府规划、机构报告中也不断得到印证。《2021-2022全球计算力指数评估报告》显示,算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰,当一个国家的算力指数达到40分、60分时,计算力对于GDP增长的推动力将增加1.5倍和3.0倍。算力资本不仅没有出现资本和人力资源的产出规模递减效应,还呈现出产出递增效应,一个国家或地区增加对算力的投资可以带来经济的增长,且这种增长具有长期性。
AI的发展加速了传统计算到智慧计算的升级,传统计算是以得到最终的数值或者其他结果为目的的计算,就是用计算力来替代人类完成各类逻辑处理。智算是从海量数据中获取知识和规律为目的的计算,是人类探索世界和认知世界的新工具,也是人类思维和智力的延展。
从传统计算向智慧计算的升级推动着企业信息化建设从数字化向智慧化的升级。传统计算是提升效率的工具,以往的自动化、信息化和数字化一直在大幅提高企业效率,而智慧化给企业带来的不仅是效率的提高,还有业务创新能力的提高。智算作为新一轮科技革命和产业变革的重要方法和工具,在认识世界、发现未知的能力方面,在推动数字经济和实体经济结合、催生新产业新业态新模式方面,发挥的作用越来越大,成为不断做强做优做大数字经济的的关键驱动力,成为驱动未来发展的重要力量。
制药、蛋白质结构研究等领域引入智慧计算后,所产生的业务变革是革命性的,其他领域也在积极探索如何用智慧计算进行业务创新。例如基于深层神经网络的Alpha Fold 2 已经将98.5%的人类蛋白质结构预测出来,数据集中预测的所有氨基酸残基中,有58%达到可信水平,其中更有35.7%达到高置信度。而在这之前科学家们通过半个多世纪的努力,也只覆盖了人类蛋白质序列中17%的氨基酸残基。可以说,智慧计算加速了人类生命的蛋白密码的破解工作,当智算和现实应用相结合后,可能会有想象不到的创新出现。
数实相融是数字世界和物理世界的融合、交互,物理世界的需求推动数字世界的发展,数字世界来引导物理世界的运行。比如,智慧交通,无论是手机导航,还是智能信号灯,都已经深入到日常出行中,每个人也已习惯于听从来自数字世界的指令,行走在物理世界之中。
未来城市每辆车的具体位置、每个路口有多少辆车、车移动的方向等情况,都能用全量实时的数据来感知并进行全局调整,协同聪明的车、智能的路,构建智慧交通体系,每年可为一座千万级人口的城市节约1500亿元,避免94%人为交通事故,提升通行效率15%-30%。
数实深度相融,行业的智慧转型,都会产生对算力的巨大需求。
根据浪潮信息测算,2025年全球算力规模将达6.8Z FLOPS,比2020年提升了30倍。与此同时,根据OpenAI的估算,深度学习自2011年兴起至今,对算力的需求始终呈指数增长。每隔3.4个月,算力需求翻一番。2021年浪潮信息推出的源1.0中文AI巨量模型,参数量高达2457亿,训练算力消耗达到了4095PD,到23年巨量模型的训练算力需求将达到百万PD。
上面这些数字来自不同的维度,但都呈现出对计算能力巨大的需求前景。
旺盛的应用需求、广阔的价值空间并不意味着智算产业面对的是一片坦途。智算产业面临着算力供给和需求的矛盾、越来越大的全球碳排放的压力、新技术带来的产业链重构等一系列挑战,解决这些问题,需要从核心技术、产品和产业生态等多方面着手。
传统计算机体系结构以计算为核心,CPU同加速器之间内存不共享、数据不一致,加速器之间、加速器同CPU之间的互联效率很低,计算效能差。节点之间的互联效率更低,节点之间的网络通信所产生的RPC、协议处理、内存拷贝、压缩会占用30%左右的CPU资源,成为数据中心级的通信税。
所以,需要开发一类以数据为核心的体系结构,把各种异构计算单元协同起来,满足协同过程中的高带宽、低延迟要求,解决数据一致性与扩展能力之间的矛盾。图灵奖获得者John Hennessy与David Patterson认为当前Dennard缩放定律与摩尔定律逐渐终结,体系结构迎来了新黄金时代。
浪潮信息正在开发的融合架构3.0,在计算节点内部,实现了CPU与加速器之间的数据一致,在跨节点级,通过智能数据处理单元(iDPU)和高速网络形成分布式互连交换,可实现加速芯片的算力协同以及内存池化,节点间的数据访问延迟可低至亚微秒级。
统计表明,2018年中国所有数据中心的总用电量达1600亿千瓦时,占中国社会总用电量的2.5%。2023年这一数字将达2600亿千瓦时,相当于2.6个三峡大坝的年发电量,到2030年数据中心用电量将突破4000亿千瓦时,占全社会用电量的比重将升至3.7%。
《中国数字基建的脱碳之路:数据中心与5G减碳潜力与挑战(2020-2035)》报告指出,在中国2030年全面实现碳达峰之后,以数据中心为代表的数字基础设施的碳排放仍将继续增长,俨然已成为能源消耗与碳排放的新增长点。
在芯片能耗不断提高的今天,采用液冷、新型导热散热材料、高能效电源等绿色方式来降低数据中心能耗,降低PUE,是未来的趋势。例如,创新液冷方案使得整体PUE可以小于1.1,浪潮服务器采用微纳腔-相变-均温设计,相比传统风冷技术,散热性能提升150%。浪潮信息在全面布局液冷,冷板式液冷、热管式液冷、浸没式液冷,各类型的产品都实现了大批量的部署,可以说浪潮信息的策略是全线支持液冷。
国际数据公司IDC认为,液体冷却解决方案将在数据中心市场得到更广泛的采用,到2023年数据中心中至少有约40%高算力系统将配备液冷技术解决方案。
目前的AI生态大多是垂直封闭的系统,形成一个个小循环、小圈子,导致大而不强,基础设施重复建设。这些垂直系统,指令集无法兼容,开发库硬件绑定,资源不能复用和共享,应用难以迁移,方案无法复制,成为一个个孤岛,造成建设资源的大量闲置和浪费。
另一方面,大量创业型的企业进入到算力多元化的战场,给技术创新带来活力,但是芯片架构五花八门,开发工具匮乏,系统软件、应用开发平台配套少,生态复杂离散。这些都严重制约了AI技术的应用和发展。
解决这个问题,需要像浪潮这样领导型的平台技术企业发挥自己的产业平台优势,将中小AI企业“不择小流,汇成波涛”,推动AI不同流派之间、AI同整个IT产业之间的融通融合,真正让AI成为IT产业的有机组成部分。
当前产业AI化阶段,应用是制约产业发展的瓶颈问题。让传统企业跨过应用瓶颈,最好的办法是把客户难以驾驭的算力和算法发展成基础设施,变成算力即服务、算法即服务。
算力基建化以算力服务为核心,把智算中心的计算、存储、网络等能力,通过智算中心操作系统的统一调度并对外服务,把计算力像水和电一样提供给千行百业。
算法基建化则通过在智算中心部署大模型所需要的训练、推理和数据处理系统,构建出自然语言处理大模型、视觉大模型和多模态大模型,同时,以模型API服务、领域模型、开发者社区的形式对外提供算法基础服务,缓解企业面对大模型训练成本高、技术门槛高的问题。
浪潮源1.0大模型落地南京智算中心,上线不到5个月的时间,就已经有超过200家单位试用,支持了100多个行业应用,在古文理解、智能问答等四类领域形成了子模型服务。