AI基础设施突飞猛进:探寻最新进展
主持人:
Jeff Denwoth, Co-Founder, VAST Data
Daniele Cesarini: Vice-Chair of EuroHPC RIAG & ETP4HPC | Project Manager & HPC Technology Specialist, CINECA Christof Stührmann: Director Cloud Engineering, Taiga Cloud Marc Hamilton: Vice President of Solutions Architecture & Engineering, NVIDIA Mark Nossokoff: Senior Analyst HPC, Hyperion Research
-----
Jeff Denworth (VAST)
我们这里汇聚了HPC与AI领域的专业人士。
Christof,能否先简要分享下你的背景,再谈谈Taiga的主要业务,以及在构建超大规模计算设备时遭遇的挑战?
Christof Stührmann (Taiga)
Taiga是一家提供基础设施即服务(IaaS)的供应商。我们专注于为客户提供定制化的GPU部署解决方案,目前主要聚焦于NVIDIA GPU。我们在欧洲部署了约2万个H100 GPU。我们致力于以比竞争对手更环保的方式提供GPU算力,通过降低PUE并仅采用可再生能源来运营数据中心。在欧洲提供服务为我们带来了诸多优势,特别是对于那些对数据敏感或感兴趣的企业。我们构建的集群拥有2000个GPU单元,通过InfiniBand技术互连,并辅以强大的以太网网络,最终以“超级计算机即服务”的形式提供给客户。至于挑战,GPU的供应能力无疑是一个大问题。但总体而言,我认为最大的难题在于如何在这个市场中招募到足够的人才来支持我们运营这些基础设施,因为为客户提供这样的服务是一项艰巨的任务。
Jeff Denworth (VAST)
近年来,大规模GPU云服务市场迅速崛起,这一业务在过去两年间尤为显著。或许你可以站在非业内日常从业者的角度,谈谈Taiga Cloud所吸引的客户类型。
Christof Stührmann (Taiga)
这完全取决于具体情况。目前,我们欢迎各类客户。鉴于团队规模适中,我们正努力服务一些大型客户,他们进行基础模型训练,我们能够满足他们的需求。客户无需自行购买GPU,我们可以根据预留的容量为他们提供服务。目前,我们的服务主要集中在训练领域。未来,我们肯定会向推理领域拓展,但目前仍聚焦于训练。
Jeff Denworth (VAST)
你们的客户主要是初创公司、大型企业还是政府机构?
Christof Stührmann (Taiga)
在AI领域,我们主要与资金充裕的初创公司合作。不过,在这方面我们并不排斥任何类型的客户。
Jeff Denworth (VAST)
Daniele,接下来请谈谈CINECA正在构建的设备。稍后我们将深入探讨数据部分。CINECA的发展历程相当有意思,它起源于科学计算时代,作为多家研究机构和大学的大型联合体,现在正面临AI工作负载带来的计算挑战,以及云计算这一新维度的构建需求。或许你可以简要介绍一下这方面的情况。
Daniele Cesarini (CINECA)
欧洲公共政府与研究机构正经历着迅猛的发展,尤其受到欧洲机构EuroHPC JU(欧盟高性能计算联合企业)的推动,该机构作为欧洲超级计算机基金的支持者,正引领着HPC与AI领域的转型。当前,欧洲各界对AI的聚焦达到了前所未有的高度。当然,我们与JU的工作始终与HPC紧密相连,但如今,AI已成为不容忽视的核心议题。联合企业对此给予了极高的重视,促使所有努力均围绕AI展开。我们正全力以赴,朝着这一方向迈进。
在HPC领域,我们拥有深厚的底蕴和历史,早在20世纪60年代,我们就已拥有全球顶尖的超级计算机之一。如今,我们数据中心的架构正经历着日新月异的变革。我们不仅能够支撑所有传统的HPC工作负载,还兼容云工作负载及AI工作负载。这种架构的全面革新,虽然增加了工作的复杂性,因为我们需将各类工作负载融合,构建极为复杂的工作流程,以生成终端用户所需的数据,但也促使我们追求更加灵活多变的系统来适应这一快速变化的环境。
Jeff Denworth (VAST)
这里似乎存在一些概念上的重叠。云被视为AI或HPC工作负载的交付方式。这种表述恰当吗?你是如何界定“云”与“非云”的?许多人都在讨论HPC中心向AI的演变过程。在你目前运行的工作负载中,有多少是基于机器学习或深度学习的?
Daniele Cesarini (CINECA)
目前,大部分工作负载仍然是HPC类型的。作为HPC中心,我们的首要任务是支持HPC工作负载。然而,现在我们也越来越多地接收到支持AI云的请求。超过30%的AI提案来自欧洲各地的研究机构,他们致力于AI研究并希望在我们的Leonardo等系统上运行。AI工作负载的请求增长非常迅速。我们有几个项目正在扩展AI能力。目前,Leonardo是一个基于NVIDIA GPU设计的系统,主要用于处理HPC工作负载,但我们也有大型项目专门支持AI工作负载的AI系统。这一领域的发展速度非常快。
Jeff Denworth (VAST)
如果观察CINECA内部的HPC和AI采用曲线,可以看出AI的采用速度相比以往更为迅猛,呈现出指数级增长的趋势。
Daniele Cesarini (CINECA)
确实,我们预计在未来两到三年内,HPC和AI的工作量将达到50/50的平衡。
Jeff Denworth (VAST)
这引出了云计算的话题。我之前在会议前与Marc讨论过,他说,AI从业者使用Kubernetes或Slurm时,能明显感受到他们与单纯使用Slurm的从业者的区别。我猜测很多云请求与AI需求紧密相连,因为许多新的AI工作负载都倾向于在Kubernetes上运行。我的理解对吗?
Daniele Cesarini (CINECA)
对,我们的云基础设施历史上基于OpenStack,属于传统云架构。现在,我们有部分用户在使用Kubernetes,因此,实际上,容器和虚拟机的工作负载是混合在OpenStack编排下运行的。这增加了复杂性,因为我们在多层次的编排之上还需要进行额外的协调工作。我们需要一个非常复杂的工作流程来管理这一切,因为所有最终用户都依赖我们提供支持。我们的用户支持团队规模相当庞大。
Jeff Denworth (VAST)
Marc,这是你第几次参加ISC了?可能是第二次、第三次,或者更多?你今天早上提到了海德堡,那么你参与ISC已经很久了吧?我从德累斯顿开始时就加入了ISC的行列。对你来说,观察市场的发展,尤其是NVIDIA在HPC领域的贡献,以及AI领域的快速发展,一定非常震撼。AI在这个市场上的普及速度真是令人瞩目。你负责处理一些世界上最大的设备,请谈谈你如何看待不同客户的发展变化,以及你认为未来计算机与现在组织中需要建设的设备之间的区别。
Marc Hamilton (NVIDIA)
我记得大约在五六年前,在法兰克福的ISC会议上,有一个小组讨论,主题是关于AI与HPC的界限。但如今,这样的讨论已经不复存在。因为从基础设施的角度来看,AI已经被广泛认可为HPC工作负载的一部分。这些大型AI系统的强大能力使它们非常适合运行大规模的HPC工作负载。
我们明显注意到的一个变化是,如果回顾五年前的Top500榜单,那时有500台不同的超级计算机,每台都有其独特性。你可以看到一种趋势,即超大规模计算平台商会投入大型以太网系统,并将其划分为多个部分,然后分别列在榜单上。这种情况虽然仍然存在,但如果你深入分析,会发现HP、IBM和Cray等公司正在构建定制的超级计算机。这是因为超级计算中心可能只有一两个或少数几个关键工作负载需要优化。比如,一个天气或气候研究站可能主要运行一两个大型天气气候模型。再比如像CINECA这样的大型国家中心,他们需要运行各种可能的工作负载。因此,他们与超级计算机提供商合作,尝试根据工作负载类型、每个节点的成本或其他因素进行定制和优化。
在AI领域,虽然有许多不同的工作负载,但迄今为止,最大的AI工作负载是训练生成式AI(GenAI)模型。我们观察到,这种趋势正在迅速转向运行GenAI模型。以ChatGPT为例,它需要数万个GPU进行训练,但每年只需训练几次。然而,每天ChatGPT都会收到数十亿次的查询,运行数十亿个标记。目前,Taiga Cloud和其他提供商的重点是为这些训练任务设置基础设施。至于GPU在AI数据中心与HPC数据中心中的比例,我们并不直接追踪或报告这个数据,但可以说,这主要受到大型AI数据中心的影响,包括超大规模计算平台商和地区性云服务商。我们很早就意识到,唯一的扩展方式是通过构建更多的AI超级计算机来实现。尽管我们每年大约能建设500台AI超级计算机,但显然这个数量还远远不够。
Jeff Denworth (VAST)
那么,这500台AI超级计算机中,平均每台包含多少个GPU呢?
Marc Hamilton (NVIDIA)
平均GPU数量可能是几千个。
我们很早就认识到,我们无法建设和运营500台各自独立的超级计算机。因此,我们推出了这种标准化模型。最初是基于我们自己的DGX超级计算机,所以我们称之为DGX SuperPOD。我知道在座的几位已经是DGX SuperPOD的客户了。实际上,DGX是我们用于垂直整合和建模的产品,但今天,直接销售DGX的比例非常低,几乎可以忽略不计。大部分是通过OEM和ODM形式的产品销售出去的。
对于像Taiga Cloud这样的地区性或新兴AI云服务商,我们意识到需要对这种架构进行微调,以更好地适应云环境。这不仅仅是一个大学或企业单独运行DGX SuperPOD,而是他们将有多个租户,或者说通过一种类似模块化的方式进行部署。为什么Taiga Cloud要选择部署这种架构呢?当街角的云服务商也在做同样的事情时,他们的竞争优势何在?首先,云的定价是透明的,所以从基础硬件层面来看,价格倾向于趋同。他们主要通过提供其他增值服务来区分自己。
实际上,最大的成本问题之一在于部署时间。当你部署一个超级计算机时,可能需要六个月,甚至一年。最近,美国一个大型能源部中心就花了一年半的时间才完成部署。你需要排队等待GPU到货,然后等所有部件到位后,又要花很长时间才能开始使用。所以,我们团队在衡量部署这些系统时,使用了三种不同的关键指标。
首先,是安装系统所需的时间。我们称之为“首次训练时间”,即从你开始安装到最终用户(云服务商或企业)可以开始训练所需的时间。
其次,是可用性。有人可能会问,你们完成时可用性不是应该是100%吗?但实际情况是,一个集群的平均规模可能包含几千个GPU。我们正在部署的是拥有成千上万个GPU的集群,所以你永远无法真正完成部署,也无法保证所有GPU和服务器都始终处于运行状态。你可以询问任何一个超大规模计算平台商他们的平均可用性是多少。因此,我们也对这种可用性进行衡量。
第三,我们衡量的是训练时间。众所周知,NVIDIA一直是MLPerf性能基准的领导者。但实际上,我们衡量训练时间并不是为了单纯追求MLPerf的排名。我们使用我们自己的开源大型语言模型Megatron,在安装结束后运行它大约四到六个小时,以1000个GPU作为我们的起始参考点。我们想知道每次完成安装集群时,对于这个参考模型,我们是否能保持一个相对一致的训练时间。
我们将这些信息提供给我们的客户。如果你不想遵循我们的确切架构,想使用另一个供应商的网络或未经我们认证的存储提供商,当然可以。我们不控制客户的选择。但我们鼓励你运行自己的训练时间测试,看看它与公开发布的标准开源基准的比较情况。
Jeff Denworth (VAST)
你提到了认证存储产品。这具体指的是什么呢?
Marc Hamilton (NVIDIA)
我们在2016年推出了DGX,至今已有超过八年的时间了。DGX SuperPOD这个术语可能是在2019年至2020年左右开始在外部广泛使用的,随着DGX A100的推出而更加普及。VAST作为DGX SuperPOD参考架构上的存储合作伙伴已经有一段时间了。当我们推出NVIDIA云合作伙伴计划(NCP计划)时,Taiga Cloud也加入了进来,这进一步扩大了我们的合作范围。我们部署过的最大的DGX SuperPOD拥有4000个GPU,全部采用DGX品牌产品。对于云服务商来说,我们再次强调的是,单个集群的规模可以达到数万个GPU,并且需要支持多租户。因此,这种类型的DGX SuperPOD是我们进行基线认证的标准。对于NVIDIA云合作伙伴,我们设置了不同级别的认证标准:好、更好、最佳,每个级别对应不同的GPU规模:1000个、2000个、4000个和1.6万个GPU。NCP计划支持在一个集群中部署超过1.6万个GPU,但目前我们的标准最高只到1.6万个GPU。
VAST最近已经完成了所有这些级别的认证。所以,如果你希望在超过1.6万个GPU的环境中使用VAST,欢迎来找Jeff和我,我们将考虑扩展认证范围。
Jeff Denworth (VAST)
我们目前正在参与部署的最大集群拥有10万个GPU。当然,不是我们在亲自部署,而是你们在部署。我想这应该也是NCP计划的一部分。我们看到市场上正在发生一些大规模的投资。
Mark,你一直坐在旁边观察这些讨论,并思考着市场的演变。从存储的角度来看,你觉得情况如何?如果我们能稍微回顾一下你的历史视角。
Mark Nossokoff (Hyperion)
这无疑是在不断发展,需求也在不断变化。从传统的HPC建模和仿真角度来看,存储系统最初主要是为处理大块顺序类型的工作负载而设计的,特别是用于检查点写入。然而,当现代AI工作负载被引入时,情况变得更加复杂,多种不同类型的混合工作负载对系统、文件系统和性能能力提出了挑战。
Jeff Denworth (VAST)
我们与Nvidia在这方面已经有了深入的合作。在AI领域,检查点操作正逐渐转向异步操作,其重要性在降低。另一个重要的发展是多模态能力,例如通过Sora,输入仅20KB的数据就能产生高达10GB的输出,这确实是革命性的。这种进步无疑将深刻影响系统架构。探讨这些新应用在商业环境中的融合如何影响数据战略,将是一个极为有意思的话题。
Mark Nossokoff (Hyperion)
数据战略和架构战略对于这些系统的存储和互连要求来说,其重要性日益凸显。因为人们在构建这些系统以及用户购买决策时,都在进行架构设计决策。从数据的角度看,虽然速度和反馈曾经是主要关注点,但现在人们越来越关注如何利用数据创造更多价值。他们希望能在需要的时间、地点,以期望的安全级别和合规方式获取数据。因此,将数据提升到一个功能更丰富的平台上变得尤为重要。速度和反馈仍然关键,但这几乎已成为基础要求。而更高层次的数据管理需求则变得愈发关键。
Jeff Denworth (VAST)
我们在这里有两个相关的用例。也许Christof,你可以谈谈VAST以及你选择它作为Taiga构建平台的原因,还有你在这过程中学到的一些东西。
Christof Stührmann (Taiga)
我们选择VAST主要是因为我们希望专注于我们最擅长的领域,即提供基础设施即服务(IaaS)。我们并不是一家存储公司。我们可以部署类似自制的Ceph或其他解决方案,但对我们来说,选择托管服务路线更为稳妥,而VAST恰好提供了这样的服务。首先,你们是我们遵循的参考架构的一部分,这让我们更容易做出决定。VAST的性能也很出色。几乎每个客户都会询问我们是否提供VAST或其他存储解决方案。而且,我认为最重要的是,你们即将支持的全局命名空间概念对我们非常重要。具体来说,我们部署了大约2000个GPU的集群,其中一些位于同一地点,最大的地点有大约8000个GPU。然而,拥有一种存储解决方案,能让客户在我们的瑞典数据中心或挪威数据中心之一运行,并且仍然使用相同的、已在这些站点之间复制的共享存储,这对我们来说绝对至关重要。
Jeff Denworth (VAST)
我能够想象到工作调度的复杂性。当查看可用的处理资源,并考虑添加第二个数据中心时,如何在两者之间有效管理工作负载就成了一个难题。你是否真的希望能够在任何地点灵活部署工作负载,如果你有一个跨越这些地点的统一数据平面呢?
Christof Stührmann (Taiga)
这并不一定。对我们来说,更像是作为云服务商,我们的客户在我们之上执行工作负载。因此,这对我们来说并不是特别重要。更像是,如果我们有一个感兴趣的客户,比如他们需要2000个GPU,我们可以在一个数据中心提供1000个,在另一个数据中心提供另1000个,他们仍然可以轻松地使用这些资源,并访问相同的数据集。当然,这些都还是假设性的,因为相关的功能尚未发布和经过我们的测试,但这确实是我们做出决策的一个重要驱动因素。
Jeff Denworth (VAST)
你们还提到了联邦训练的概念。Marc,你在这方面有没有正在进行的项目?你是否看到客户在多个数据中心分拆他们的工作负载进行训练的情况?
Marc Hamilton (NVIDIA)
我认为联邦训练之所以引起关注,主要是因为它关注安全性和数据隐私。实际上,这些新的Nvidia云合作伙伴之所以被接纳,正是基于这样的理念——用户希望数据留在自己的国家。更重要的是,不仅仅是数据中心位置,而是所有与数据中心相关的技术和知识都保留在本国或本地区。这不仅仅是为了让北京或西雅图知道如何构建DGX云,而是要让全球各地都能掌握这项技术。联邦训练在医学影像领域就是一个很好的例子。假设某个国家或州的医院系统拥有自己所有的医学图像,出于隐私考虑,他们不愿将这些数据与其他城市或不同国家的医院分享。但他们又希望利用这些数据来训练针对罕见疾病或有限训练集的模型。这时,联邦训练就提供了解决方案。
我认为训练本身很有意思,但目前大规模的训练作业仍然主要在单个数据中心进行。联邦训练将始终是市场中的一个有意思子集。
再来说说推理。就像你提到的Sora,输入20KB却能产生20GB的输出。人们曾认为推理是小型、轻量级的工作负载,但Sora证明了它并非如此。ChatGPT的早期版本甚至将源代码泄露到了互联网上,这些大语言模型拥有数万亿的参数,它们不可能仅在一个GPU上运行,而是需要众多GPU的协同工作。
我们的新产品GB200就是一个很好的例子,它在一个机架上配备了72个GPU,重达4000磅,功耗高达120千瓦。想象一下,部署成百上千甚至上万个这样的单元来进行训练将是多么壮观。而且,GB200不仅适用于训练,还适用于高性能推理工作负载和具有严格延迟要求的多模式任务。比如,YouTube可以在一夜之间无延迟地生成大量视频,但对于交互式多模式任务来说,低延迟至关重要,这就需要用到这些大型GPU。
因此,尽管GB200早期主要用于大型训练集群,但它在推理方面的潜力同样巨大。通过使用Nvidia推理微服务,我们可以获得20到30倍的推理性能提升,这得益于针对该平台优化的标准开源模型。我认为,推理方面的存储需求将成为推动GB200发展的关键因素之一,当然也包括训练。
Jeff Denworth (VAST)
坦白说,我认为这将彻底改变固态硬盘在市场上的地位。我们即将面临的是什么?你们正在谈论的是即将产生的数百EB数据。
Daniele,你正处于建立组织内数据管理策略的核心位置,需要在HPC和AI领域攻守兼备。你的系统战略似乎与数据战略有所不同,但你正在努力将它们整合在一起。如果方便的话,请谈谈CINECA的数据战略以及你们与我们的合作情况。
Daniele Cesarini (CINECA)
让我举一个我们在过去几个月和去年尝试过的简单例子来说明。
首先,从HPC说起。我们有一个在大型HPC上运行的应用程序,它可能需要几百甚至几千个GPU来支持。这些数据的输出随后需要进行后处理。为了后处理这些数据,我们需要将它们转移到云基础设施中,并利用一些自动化程序进行处理。但与此同时,一些项目成员也希望通过我们为终端用户提供的基于Jupyter Notebook等交互服务来修改数据。然而,问题在于,所有这些系统都分布在不同的数据中心。我们拥有三个数据中心,因此必须确保它们之间的互联互通。
在某个时刻,有人提出:“我想在我们有的数据上也训练一个模型。”于是,我们开始在可能是另一个数据中心的AI系统上训练模型。再加上另一个变量——这些数据可能是基因数据,因此非常敏感且必须符合GDPR规定。这些数据之所以敏感,是因为它们来自人们。因此,所有这些数据都必须存储在零信任存储技术中。所有挂载点都必须加强安全,所有数据的移动都必须加密并在安全环境中进行,否则我们将无法遵守安全政策。那么,你们今天是如何做到这一点的呢?
Jeff Denworth (VAST):
所以,面对多个数据中心和多个租户,你们都需要实现零信任环境,那么你们是如何应对的呢?
Daniele Cesarini (CINECA):
我们面临着HPC、AI和云等多种需求。
Jeff Denworth (VAST):
好的,那么请直接回答问题。你们目前面临的主要挑战是什么?
Daniele Cesarini (CINECA):
我们正在尝试重新构建整个基础设施,以支持这种复杂的工作负载。虽然这可能是一个极端的例子,但这是我们目前正在探索的方向。因此,在现有的系统和架构上解决这些问题非常困难。我们希望通过与VAST的合作来找到解决方案。
Jeff Denworth (VAST):
对于你来说,VAST似乎成为了一种与你实际应用程序和系统战略相对独立的抽象层。或许你可以帮我理解一下。我对具体架构还不太了解,但你们是在将不同的CNode插入到现有的不同网络中,并在多个站点之间进行联合吗?
Daniele Cesarini (CINECA):
正是如此。我们的主要策略是在系统中实现全局遍历存储,以优化数据流动,提供跨数据中心的单一访问层,并确保这种特殊存储的安全性。这样,我们才能支持所有的工作流程。然而,在当前的复杂环境中,使用现有技术几乎是不可能的。因此,我们寄希望于VAST来解决这个问题。
Jeff Denworth (VAST):
多租户考虑对你们来说有多重要?因为Marc之前提到过,Christof也在暗示这一点。
Daniele Cesarini (CINECA):
这极其重要。因为我们有成千上万的终端用户,每个用户都有自己的租户。所以,我们会尝试各种可能的方法来优化存储功能。如果某种方法不起作用,我们会来找你们,说:“我们需要这个特定的功能,因为我们的复杂工作流程需要它。”总之,我们会尝试一切可能的方法,因为我们不是单一用例驱动的,我们需要支持在意大利和欧洲所有科学研究中可能出现的各种组合。因此,我们把VAST存储称为数据湖,因为所有东西都在上面。我们需要运行经典的HPC工作负载、AI工作负载和云工作负载,所有这些都包含在内。这就是为什么我们必须采用全面的数据平台,否则对于特定的工作负载,传统的旋转存储将无法满足需求。此外,我们还需要很大的灵活性,因为有时数据需要通过S3接口暴露出来,以便某些网站能够访问几小时前执行的工作负载的数据,而所有这些都需要同时进行。
Jeff Denworth (VAST):
好的,换个话题,稍微谈谈监管。
我注意到,特别是在欧洲,监管标准正在不断推进。我们现在正在确保在进入AI领域时能够重现模型。重现性也意味着需要重现训练该模型的数据集,这实际上将数据变成了代码。那么,你如何看待这对你的数据管理议程的影响?我不知道Christof,你的客户是否有这方面的询问,或者Marc,你有没有遇到过?我认为这可以被视为AI领域的“数据版Sarbanes-Oxley法案”,因为全球各地的政府机构都在对此进行非常严格的审查。
Christof Stührmann (Taiga):
是的,对于我们的某些客户来说,这确实非常重要。虽然不是每个客户都如此,但特别是如果我们面向欧洲政府市场,这绝对是一个关键要求。甚至我们会做到这一步:在新客户所在的国家设立数据中心,并尽可能保持数据的本地化。因此,这确实非常重要,而且越是与政府相关的领域,面临的要求和法规就越多。
Jeff Denworth (VAST):
不仅仅是政府,任何企业或组织都可能受到政府监管的影响。比如医疗模型、汽车模型,或者任何有监管部门参与的东西,似乎都在不断增加新的限制。此外,还有其他各种制裁措施,但我们不深入讨论那个。这就是为什么我们在数据管理中增加了防篡改工具,以便人们能够对此做出响应。Marc,你在与不同客户合作时是否也观察到了这种情况?
Marc Hamilton (NVIDIA):
我不知道在这个论坛上是否适合讨论这个话题。你们之前是否讨论过我们正在研发的全新CNode架构?有时候,对于HPC中心来说,较晚加入云计算的行列反而成了一种优势,因为你们能够直接采用最新的技术。而多租户的概念在云计算中早已存在多年,可以说HPC中心现在正在迎头赶上这一趋势。但实际上,新的焦点在于保密计算。这种全方位的保密计算不仅仅是制定一个安全的数据策略,而是确保数据在传输、存储等各个环节都保持加密状态。毕竟,任何纯软件控制都存在被攻破的风险。因此,在整个数据路径上实施基于硬件的控制至关重要。VAST通过将CNode转变为DPU,并集成到训练或推理服务器中,而非作为网络上另一个易受攻击的点,正在引入这些功能。在DPU内部,我们设置了安全的信任根和固件更新机制,从而提供了一个端到端的硬件安全基础,你可以在此基础上叠加各种软件数据安全方法。因此,DPU正受到越来越多的关注。
Jeff Denworth (VAST):
我认为被忽视的一点是,实际上,我们看到传统的HPC中心也开始向这种架构转型。以往,我们采用的是客户端-服务器架构,其中服务器的数量可能只是客户端数量的十分之一或百分之一。但一旦将我们的软件安装到DPU中,就意味着在你的环境中,每台机器都能通过并行架构获得专属的服务质量。这不仅提升了应用程序的性能,还增强了整体的安全防护能力。
Marc Hamilton (NVIDIA):
确实如此。许多安全问题和数据泄露事件都可以追溯到内部人员的攻击。因此,那种认为HPC集群只要受到防火墙保护就无需担心安全问题的观念已经过时。多租户只是其中的一个方面。通过DPU架构,每台服务器都被视为不可信的,真正的信任建立在DPU上,而非计算服务器本身。
---------
观众
请问能否分享一下市场未来的发展趋势?
Mark Nossokoff (Hyperion)
当我们谈及市场时,总体收入和支出无疑是从各个方面都在增长的。特别是,采用云计算来承载基于AI的工作负载正在快速增长。根据我们划分市场的方式,如果回顾去年从AI视角出发的总HPC组件,大约20%的工作负载是在云端运行的。我们预计这一比例将增长到30%甚至更高,尽管不会像Daniele预测的那样激进到50%。我认为人们运行AI应用程序的地点正在拓宽,其中很多都转向了云端...
Jeff Denworth (VAST)
你对“云”的定义并不仅限于大型云服务商(CSP),它还包括地区性云服务商以及本地云,对吧?
Mark Nossokoff (Hyperion)
目前,我们的大部分关注确实集中在大型CSP上,我们还没有充分涵盖地区性云服务商的观点。所以,实际上,我刚才的估计可能还低估了云端运行的实际情况,特别是考虑到AI本地部署、AI专用解决方案以及其他一些方面时。从容量、市场规模、安全性概念以及需要保存模型和数据以复现结果的法规要求来看,这些都将推动对云端需求的跨越式增长。
Jeff Denworth (VAST)
好的,那么与12个月前的预测相比,你认为今天的实际情况与你的预测有多接近?
Mark Nossokoff (Hyperion)
我们当时的预测有些低估了实际的发展速度。
观众
我代表一家数据中心发言,我们目前面临的一个重大挑战是,在建立AI工厂时,电力供应问题相当棘手。我想向在座的分析师请教一个问题:你如何看待在欧洲部署这些需要数千个GPU的情况?你认为实际上哪些地点可能适合进行这样的部署?
Mark Nossokoff (Hyperion)
这确实是一个巨大的挑战,涉及到电力的生产、数据中心所需的输电配电系统等等。我并不认为我们会看到最大的云服务商(CSP)在讨论建设千兆瓦级别或更大规模的数据中心。我对于这种情况是否会在欧洲发生持保留态度。不过,我们看到了一种“自带电力”的潜力,即引入发电设备,自行发电以补充公共电网的电力。同时,我认为随着创新和技术的发展,我们将找到减少这些问题的方法,努力降低能耗。液冷技术,无论是直接液冷还是浸没液冷,都展现出了在保持低能耗方面的巨大潜力。此外,用户也越来越意识到,在某些工作负载中,他们并不需要最先进、性能最高的解决方案。他们可以通过调整来获得足够好的性能,从而降低工作负载的电力消耗和成本。因此,能够跟踪和理解不同工作负载和用电量的度量和遥测数据,对于用户管理电力消耗来说是非常有用且有益的。
Marc Hamilton (NVIDIA)
特别是最新一代的GPU,它们在最大功率、最大性能与最大效率之间有着显著的功率差异。这与笔记本GPU的情况类似,多年来笔记本GPU在不使用时会自动降低速度以节省电力。然而,在服务器上,我们当然不希望GPU在不使用时降低速度。但是,客户在有限的固定资本支出预算下,希望尽可能多次地运行GPU以达到全功率。然而,在计算中心,最终用户往往并不直接承担电力成本。但是,如果你需要支付或关心电力成本,那么最有效的方式无疑是在GPU的最大效率点运行。当然,这可能需要更多的GPU来达成同样的计算任务。不过,值得注意的是,我们内部的数据中心成本结构与外部有所不同,我们通常会在最大效率下运行GPU。
从全球层面来看,如果我们考虑AI模型的训练,实际上在全球范围内并不存在普遍的能源限制或短缺。这更多是一个地区性的问题。世界上许多地区,如中东和南美洲,拥有丰富的太阳能资源和大片土地可以用于太阳能发电。有意思的是,这些拥有过剩电力的地区往往GDP较低,而高GDP地区则会消耗更多的能源。
如果你将深度神经网络的训练看作是一种电力的压缩和存储过程,那么训练神经网络实际上就是在“存储电力”。想象一下,你需要用1万个GPU,每个GPU功率为1000瓦,持续运行三个月来训练一个模型,而最终得到的是一个非常小的压缩模型。然后,可以在全球任何一个地方,用一两个或几十个GPU来运行这个模型,而不受数据或其他因素的限制。
我们已经看到这种情况正在发生。新兴的地区云服务商正在那些电力供应充足,特别是绿色能源丰富的地区建立数据中心。他们意识到,运行这些数据中心和训练模型的具体位置并不重要。因此,我们看到许多新的数据中心正在新兴市场涌现,这些市场以前并没有传统的数据中心用户,但现在却吸引了来自世界各地的大型训练客户。
Jeff Denworth (VAST)
那么,Christof,你在全球范围内寻找可再生能源时,是否会考虑与核能相关的选项,或者你是否有其他特定的能源偏好?
Christof Stührmann (Taiga)
我们更倾向于使用主要由水力和风能供电的数据中心。这样一来,Taiga所使用的每一个GPU都是由可再生能源供电的。我们可以选择那些承诺只使用可再生能源供电的数据中心,这通常是通过碳信用来支持的。虽然我们目前并没有直接参与这方面的活动,但我同意现在找到合适的数据中心空间确实非常困难。更重要的是,问题不仅仅在于电力供应本身,而是与电力供应相关的电气基础设施。你需要发电机、变压器以及所有必要的冷却设备,而建造这些基础设施都需要很长的时间。这是目前我们面临的最大挑战。
Marc Hamilton (NVIDIA)
我们所有的云服务商都告诉我们,相对于GPU的供应来说,电力和冷却基础设施的供应才是长期的前置条件。对于展会上与冷却技术相关的所有供应商来说,我想再次强调一点:GB200只采用直接液冷技术。从效率的角度来看,这是唯一合理的选择。因此,我们决定对于GB200这样的产品只使用直接液冷。这意味着你需要开始考虑冷却分发单元(CDU)的采购问题,并尽早下单。根据我们的一些非正式估算和分析师的深入研究,我们预计到2026年,全球对CDU的需求将超过今天所有已建数据中心对CDU的总需求。这是一个非常合理的预测,因为目前只有少数高端超级计算数据中心和类似机构在使用液冷技术。而每个GB200都需要直接液冷支持。所以,你只需要做一些简单的数学计算就能明白这一点。
Jeff Denworth (VAST)
我想以数据作为结尾。你们尚未完全颠覆数据中心的革新,也未能超越传统的微处理器架构。如今,我们在众多学科领域开展工作,分析和分析工具包开始意识到GPU加速在这些领域的应用潜力。例如,我们正与VAST数据库和Spark RAPIDS合作,展示智能数据结构与智能微处理器基础设施相结合所能带来的计算和功耗节省的倍增效应。你认为,像数据准备这样的工作负载在多大程度上能够影响从基础设施建设到能源管理等各个层面,并且通过在其他方面的节约来补偿这些影响?
Marc Hamilton (NVIDIA)
嗯,基于GenAI核心的Transformer模型是在2018年问世的,而Spark 3.0的第一个完全GPU加速版本,我相信是在2019年推出的。因此,从时间线上看,这两者并未完美同步。对于任何首席信息官或任何今天开始新IT项目的公司来说,他们可能更专注于GenAI的应用。然而,很少有公司会考虑回头重新整理所有数据处理流程,尽管这对于有效利用GenAI并转向GPU加速的Spark 3.0是必要的。不过,一些主要的超大规模云服务商已经开始了这一转型过程,这主要是受到数据中心电力约束的驱动。他们意识到,部署GenAI应用程序对于保持竞争力至关重要,甚至在某些情况下,这也成为了法律合规性的要求。因此,他们正在将老旧的CPU基础设施改造为GPU加速的环境。
Jeff Denworth (VAST)
确实如此,我们也有类似的观察。我们正在与一家信用卡公司合作,他们正在移除大约5000个传统机架,而相比之下,我们的数据库中可能只有20到30个机架配备了GPU,却能够处理相当量的工作负载。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)