AI时代浪潮:SC24大会揭示技术突破与行业变革(29个采访总结)
前言:探索AI技术的变革之路
在当今这个迅速演进的时代,AI正以前所未有的速度推动着全球各个行业的转型。从医疗保健到金融服务,从科学研究到企业运营,AI的影响已经渗透到我们生活的方方面面。
AI技术的快速发展离不开强大的硬件支撑。我们看到了众多企业在硬件领域的突破性创新。例如,Cerebras Systems推出的超大规模芯片在AI训练和推理方面展现出卓越优势,其面积比传统芯片大得多,能够显著提高性能、降低能耗并简化开发。而Dell、Nvidia、Supermicro等企业则在AI数据中心架构方面持续探索,通过采用先进的液体冷却技术、优化网络架构和提升存储性能等策略,为AI应用提供了更加高效、可靠的基础设施。
除了硬件的支持,AI技术的成功应用还依赖于高效的软件优化和创新解决方案。IBM Storage Scale为AI和高性能计算提供了高性能、可扩展和低功耗的存储平台。超以太网联盟(UEC)致力于推进以太网技术在超大规模AI集群中的应用,解决跨数据中心互联、故障转移和功耗管理等关键挑战。这些软件优化和解决方案的推出,无疑为AI技术的广泛应用提供了更加坚实的技术支撑。
AI技术的应用场景正在不断拓展和深化。固态硬盘(SSD)凭借其高密度、高带宽和高IOPS,正在逐步取代传统硬盘(HDD)成为AI存储的主流选择。AMD Instinct GPU提供了优化的推理性能和开源软件生态系统,为不同类型的AI应用提供了强有力的技术支持。这些技术创新不仅推动了相关行业的发展,也为AI技术的进一步突破提供了丰富的实践土壤。
然而,AI技术的发展也面临着诸多现实挑战。多家企业提到了AI应用过程中的数据质量、基础设施优化等关键问题。为了解决这些挑战,企业正在不断探索和创新。Dell、Nvidia、Broadcom、WEKA、Run:AI等公司正在深入合作,以简化AI的采用,并为客户提供全面的解决方案。Vultr提供了一个安全、经济高效且全球可扩展的云平台,用于部署AI应用程序。
展望未来,AI技术将继续保持着蓬勃发展的势头。AI将扩展到各个行业和应用场景,并推动基础设施的重大变革。数据安全和隐私将变得越来越重要。
深感荣幸能够见证这个激动人心的时代。让我们一起期待AI技术的未来,共同迎接这个充满无限可能的新纪元!
关键洞察
1. AI应用从模型训练转向生产部署,推理性能和成本效益是关键 推理性能已成为企业竞争的核心,特别是在AI Agents等场景中。 GPU加速和高性能硬件的需求不断上升,成为主流解决方案。 数据基础设施的优化(如高性能SSD)显著提升了效率并降低了成本。
2. AI Agents改变行业运营模式 企业正在大规模部署AI Agents,用于内部和外部业务功能。 AI Agents通过学习人类推理轨迹,自动化了多种流程。 其应用领域不断扩展,已覆盖科学研究、软件开发等多个行业。
3. 数据是AI的核心竞争力 数据基础设施支持数据处理和分析,是AI的核心所在。 企业利用内部数据构建具有竞争力的LLM模型。 数据的质量、分类和治理对于最大化AI的价值至关重要。
4. 数据基础设施是AI成功的基石 以太网正在取代Infiniband,成为AI网络的首选。 液冷技术有效应对了AI和HPC工作负载带来的散热挑战。 SSD在存储环节发挥了重要作用,提升了AI流程的效率。
5. 开放标准和开源推动AI快速创新 开放系统实现了跨公司组件的协作,加速了创新的进程。 AI生态系统需要合作,如Dell与Nvidia正在扩展他们的合作伙伴关系。 WEKA、Run:AI等公司的合作推动了AI应用的简化与普及。 6. 芯片多样性驱动AI发展 芯片的多样化满足了不同工作负载的需求。 AMD硬件表现出色,为AI计算提供了除Nvidia之外的选项。
7. 数据中心可持续发展面临AI挑战 液冷技术提高了能源效率,有效应对了高密度AI工作负载。 数据中心正在从风冷向液冷过渡,未来预计将有多种方案并存。
观点总结
ALAFIA:针对医疗保健行业对AI和精密医学的需求,推出了AAS个人超级计算机,采用创新的Omix计算模型和全栈软件优化,提供强大的计算能力,以处理海量生物数据和运行复杂的AI算法。 AMD:凭借其Instinct GPU在AI推理方面的优势迅速崛起,专门针对推理工作负载进行了优化,其开源的Rockum软件栈降低了开发人员的学习曲线。 Broadcom:认为以太网将成为构建AI网络架构的首选方案,积极参与超以太网联盟(UEC),推动以太网技术在超大规模AI集群中的应用,以取代Infiniband等技术。 Cerebras Systems:专注于开发大型芯片,以提高处理速度、降低功耗并简化编程,为企业构建和部署大型语言模型(LLM)提供新的解决方案。 DDN:提供高性能数据基础设施解决方案,以满足AI应用对数据存储、管理和分析的特定需求,其数据智能平台可提高GPU效率,降低数据中心占地面积和功耗,并使LLM和生成式AI模型运行更高效。 Dell:致力于成为HPC和AI领域的领导者,提供基于开放标准的可扩展系统、全面的产品组合和强大的软件生态系统,积极应对AI时代数据中心散热、数据管理和网络架构的挑战,并提供专业的服务和支持,帮助客户简化AI部署和管理。 d-Matrix:专注于开发低延迟、高吞吐量和高能效的AI推理加速器,可集成到各种服务器中,为需要处理多用户、实时交互AI推理任务的企业提供解决方案。 IBM:认为存储在AI时代变得至关重要,其高性能、可扩展的存储解决方案IBM Storage Scale专为AI和HPC而设计,通过内容感知存储等创新技术简化AI部署并提高效率。 Mellanox(Nvidia):与Dell合作,为AI工作负载构建高带宽、高网络利用率的网络架构,其Smart Fabric Manager等软件工具可以简化网络管理,并提供对网络性能的深入洞察。 Memorial Sloan Kettering癌症中心:与Dell和WEKA合作,构建了名为Iris的超级计算机集群,以加速癌症研究,通过大幅缩短研究时间,帮助研究人员更快地取得进展。 Metrum:推出了“Know Your AI”平台,用于测试AI的性能和质量指标,还通过其AI生成平台提供特定行业的解决方案,并与Dell合作,帮助企业部署AI解决方案。 Omni Services和CoolIT:合作提供从芯片级到数据中心级的液冷解决方案,以应对HPC和AI芯片不断增长的功耗和散热需求,致力于推动行业标准的制定,并不断创新。 Seguente:开发了一种名为Coldw的被动式双相相变冷却技术,使用低沸点电介质冷却液进行散热,无需水泵,可最大程度地降低能耗。 Solidigm:专注于开发高密度、高性能和低功耗的SSD解决方案,以满足AI工作负载对存储的需求,认为SSD可以解决AI流程中的效率问题。 Supermicro:与WEKA和Nvidia合作,推出了基于Grace的存储解决方案,旨在解决数据中心功耗增长和推理成本问题,提供平衡、确定性和高性能的存储平台。 WEKA:专注于构建可扩展的存储解决方案,以满足AI和HPC工作负载的需求,与合作伙伴合作,简化AI部署流程,并提供高性能、可扩展性和低功耗的解决方案。 Run:AI:专注于优化GPU利用率,以降低AI模型服务成本,与WEKA和Nvidia合作,简化AI部署流程,并提高效率。
目录
ALAFIA-打造个人超级计算机,推动医疗保健现代化 AMD与Vultr-AI Agents兴起,GPU加速推理成关键 Broadcom-以太网引领AI网络架构新潮流 Cerebras Systems-大型芯片引领AI训练和推理新纪元 DDN-AI基础设施的关键要素与大规模部署挑战的解决方案 DDN-高性能数据基础设施助力AI应用成功 DDN-高性能数据基础设施助力AI应用发展 Dell、Broadcom与Denvr Dataworks-AI Factory引领未来基础设施发展 Dell-HPC与AI领域战略及创新 Dell-全面应对AI时代数据中心散热挑战 Dell-全面应对AI数据管理挑战 Dell-全面助力构建与管理AI网络 Dell-全面助力数据中心可持续发展 Dell-数据管理:AI成功的关键因素与挑战应对 Dell-推动AI普及化,强调CPU与GPU协同作用 Dell-应对Exascale计算与AI挑战,提供创新解决方案 Dell与Hot Aisle-AMD崛起与AI计算新生态 Dell与Nvidia-AI Factory引领企业AI变革 d-Matrix-专注AI推理加速器,引领市场新机遇 IBM-存储成为AI时代关键,IBM Storage Scale引领创新 Mellanox与Dell-高性能网络架构助力AI应用成功 Memorial Sloan Kettering 癌症中心-合作加速癌症研究,AI与HPC引领未来 Metrum与Dell-AI工作负载优化与芯片多样性探讨 Omni Services与CoolIT-液冷散热技术引领HPC和AI发展 Seguente、Nvidia与Dell-液冷技术与数据中心架构的未来发展趋势 Solidigm-SSD在AI时代的关键角色与存储创新 Supermicro、WEKA与Nvidia-基于Grace的存储解决方案引领AI和HPC数据中心革新 WEKA、Run:AI与Nvidia-AI从模型训练到生产部署的转变及行业影响 WEKA-AI从训练到推理的转变及超大规模计算的挑战与机遇
ALAFIA-打造个人超级计算机,推动医疗保健现代化
受访人: Camilo Buscaron,ALAFIA公司首席执行官。
主题内容:
医疗保健行业投资不足:医疗保健生态系统长期以来对基础设施投资不足,导致效率低下,需要进行现代化升级以满足企业AI和其他企业系统的标准。 个人超级计算机的诞生:传统的冯·诺依曼计算机架构模型已经过时,无法有效处理现代AI算法和海量生物数据。为了解决这个问题,ALAFIA开发了一款名为AAS的一体化个人超级计算机,专门用于精密医学。 Omix计算:Omix计算是一种新的计算模型,旨在处理来自人体的生物数据,例如医学影像、血液样本和基因组数据。AAS采用Omix计算,将生物语言(数字生物学)转换为计算机可以高效处理的数据结构。 AAS的硬件规格:AAS配备256个CPU核心、超过4.7万个GPU核心(基于Nvidia H100 GPU)、NVLink、4TB内存,内存带宽超过1000 Gbps。 AAS的软件优化:ALAFIA优化了AAS的每一层软件堆栈,从内核到操作系统再到机器学习框架,以充分利用其硬件架构。例如,AAS的操作系统采用64KB页内核,比传统的4KB页内核快16倍。 AAS的应用场景:AAS的主要应用场景包括数字病理学、神经学研究和放射治疗。在数字病理学中,AAS可以处理高分辨率的组织样本图像,帮助医生进行诊断。在神经学研究中,AAS可以处理百万级矩阵数据,用于经颅磁刺激治疗。在放射治疗中,AAS可以进行体积分割,用于癌症治疗计划。 AAS的产品开发历程:ALAFIA于2023年夏季末开始研发AAS,并在2024年初开始发货。该产品在短短18个月内就取得了巨大的成功,拥有超过9位数的订单。 AAS的未来发展:ALAFIA将继续以6个月的创新周期更新AAS,并计划在2025年和2026年推出基于新一代硬件架构的产品。
核心观点:
医疗保健行业需要现代化的基础设施来支持AI和精密医学的发展。 传统的计算机架构模型已经无法满足现代AI应用的需求,需要新的计算模型和硬件架构。 ALAFIA的AAS个人超级计算机通过Omix计算和全栈软件优化,为精密医学提供了强大的计算能力。
AMD与Vultr-AI Agents兴起,GPU加速推理成关键
受访人:
Ted Marena,AMD数据中心和嵌入式解决方案事业部副总裁兼总经理。 Kevin Cochrane,Vultr首席执行官。
主题内容:
AMD Instinct GPU在推理方面的优势:AMD Instinct GPU专门针对推理工作负载进行了优化,其Rockum软件栈是开源的,并针对推理进行了初始优化。 企业对AI Agents的需求:企业正在寻求大规模部署AI Agents,以支持各种业务功能,包括内部和外部用例。 推理是AI Agents的关键:企业需要大规模部署GPU以进行推理,以支持AI Agents应用程序。 私有数据的安全性:企业需要一个安全且合规的云服务商,以确保其专有数据的安全性和数据主权。 Vultr的优势:Vultr提供安全、经济高效的环境,并在全球六大洲提供集成的AMD堆栈,支持CPU和GPU,为各种应用程序、AI Agents和AI模型提供动力。 AI Agents和应用程序开发: AI Agents将改变应用程序的构建方式。 现有的应用程序将需要使用GPU进行重建。 开发人员需要学习新的技能来构建AI应用程序。 AMD的Rockum开放生态系统降低了开发人员的学习曲线。 AI Agents对业务流程的影响:AI Agents将自动执行许多业务流程,并能够根据人类的反馈进行学习和改进。 2025年是AI Agents之年:AI Agents将在2025年及以后几年成为主流。 数据协调的挑战:协调结构化数据、非结构化数据、JSON数据、图形数据和SQL数据是一个挑战。 实时数据处理的重要性:AI Agents需要实时数据更新,以确保信息的准确性和及时性。 Vultr在实时数据处理方面的解决方案:Vultr提供托管Kafka服务和服务器基础设施,以安全可靠的方式执行实时数据更新。 Vultr的未来展望:Vultr将提供真正的可组合云基础设施,支持单次点击即可部署预先组合的堆栈,以解决跨各个垂直领域的任何用例。 AMD的未来展望:AMD将发布下一代架构,以释放GPU基础设施、AI和HPC的下一个创新级别。
核心观点:
AI Agents正在迅速兴起,并将在2025年及以后几年成为主流。 企业需要采用GPU加速的推理来支持AI Agents应用程序。 AMD Instinct GPU提供了优化的推理性能和开源软件生态系统。 Vultr提供了一个安全、经济高效且全球可扩展的云平台,用于部署AI Agents应用程序。 开发人员需要学习新的技能来构建AI应用程序,而AMD和Vultr正在努力简化AI的采用。
Broadcom-以太网引领AI网络架构新潮流
受访人: Hasan Siraj, 软件产品生态系统负责人, Broadcom
主题内容:
AI工作负载对网络架构的挑战:AI,尤其是LLM的训练,需要大量的GPU协同工作,对网络带宽、延迟、可靠性等方面提出了全新的挑战。
模型规模庞大,无法容纳于单个或少量服务器,需要构建大规模集群。
模型训练过程需要大量的矩阵乘法运算和梯度权重交换,带宽需求极高。
训练过程中的数据流特点是流量大、并发高,传统的网络架构难以有效应对。
光纤等网络组件的故障率对训练任务的完成时间影响很大,需要具备快速故障恢复机制。
最关键的指标是任务完成时间,需要最小化尾延迟以缩短训练时间。
以太网在AI网络中的主导地位:以太网凭借其高带宽、标准化、生态系统成熟等优势,正在成为构建AI网络的首选方案。
以太网技术的性能和密度领先其他技术一代,可以显著降低功耗、空间占用和成本。
以太网拥有庞大的生态系统,管理、故障排除和监控工随时可用。
以太网的成本低于其他技术,且多家厂商参与竞争,有利于降低成本。
以太网可以嵌入到系统基板中,更有效地构建集群网络。
超以太网联盟(UEC):该联盟致力于推动以太网技术在超大规模AI集群中的应用,解决跨数据中心互联、故障转移、功耗管理等挑战。
超大规模集群的规模将达到数十万甚至百万个节点,对网络架构提出了更高的要求。
RoCE是以太网上的RDMA协议,是AI工作负载的基础。
超以太网联盟拥有超过100家成员,包括Nvidia,致力于制定标准化的RoCE实现,以支持未来更大规模的集群。
AI工作负载对网络架构提出了前所未有的挑战,需要高带宽、低延迟、高可靠性和灵活的可扩展性。
以太网凭借其技术优势和成熟的生态系统,正在成为构建AI网络的首选方案,并将取代Infiniband等技术。
超以太网联盟的成立表明业界正在积极推动以太网技术的发展,以满足未来超大规模AI集群的需求。
Cerebras Systems-大型芯片引领AI训练和推理新纪元
受访人: Andrew Feldman,Cerebras Systems联合创始人兼首席执行官。
主题内容:
Cerebras Systems的芯片:Cerebras Systems生产了计算机行业历史上最大的芯片,面积达4.6万平方毫米,比传统邮票大小的芯片更大。该芯片旨在通过在单个芯片上保留更多信息来提高处理速度,降低功耗并简化编程。 大芯片的优势:与将数万个小型芯片连接在一起相比,使用大型芯片可以减少复杂性,降低功耗,并缩短处理时间。 芯片良率:Cerebras Systems通过采用类似于内存(DRAM)中使用的重复平铺设计和冗余单元来解决大芯片良率问题。如果一个单元出现缺陷,则可以使用冗余单元替换,从而实现接近完美的良率。 Cerebras Systems的产品应用:Cerebras Systems的系统用于AI训练和推理。该公司与G42合作部署了超级计算机,用于训练领先的阿拉伯语-英语语言模型,以及加泰罗尼亚语、哈萨克语和印地语的模型。 Llama模型的推理性能:Cerebras Systems推出了对Llama 405b模型的推理支持,其性能达到每秒969个token,比Azure上运行的Nvidia产品快75倍以上。高速推理可以提高模型的准确性,例如,通过使用代理模型和思维链等技术。 训练LLM的经济性:训练LLM的成本很高,包括设备购置成本和运营成本(主要是电力成本)。Cerebras Systems的系统旨在通过降低购置成本和功耗来解决这个问题。 企业构建自己的语言模型:一些金融机构选择构建自己的语言模型,而不是使用闭源或开源的模型,以保护其数据安全。Cerebras Systems为这些企业提供解决方案。 数据的重要性:LLM的训练需要大量数据。合成数据的创建可以解决数据不足的问题,但对于拥有大量专有数据的公司(如摩根大通)来说,利用自身数据仍然具有巨大优势。 AI Agents模型的应用:AI Agents模型可以作为“工作蜜蜂”,通过学习人类推理轨迹来自动化流程。这需要强大的推理能力,Cerebras Systems的系统可以提供这种能力。 边缘推理:小芯片适合在手机和汽车等消费电子产品中进行边缘推理。但是,模型训练和开发仍然需要在数据中心进行,因此边缘推理和数据中心推理相辅相成。 系统思维:构建AI系统需要采用系统思维,Cerebras Systems从一开始就专注于构建完整的系统,而不是仅仅提供芯片。
核心观点:
大型芯片在AI训练和推理方面具有显著优势,可以提高性能、降低功耗并简化编程。 Cerebras Systems致力于提供完整的系统解决方案,以满足企业构建和部署LLM的需求。 AI应用正在从模型训练转向生产部署,推理性能和成本效益变得越来越重要。 数据是AI的核心,企业需要利用自身数据来构建具有竞争力的AI模型。
DDN-AI基础设施的关键要素与大规模部署挑战的解决方案
受访人: Alex Bouzari,DDN联合创始人兼首席执行官。
主题内容:
AI与数据智能:AI的本质是数据智能(DI),它需要从图像、音频、文本、视频等各种来源摄取数据,对其进行分析、处理以获取洞察力,并将这些洞察力传递给组织。 HPC对AI的影响:HPC中大规模解决问题的经验为AI的发展奠定了基础。DDN最初为全球100台最快的超级计算机中的60台提供支持,这为其进军AI领域做好了准备。 DDN与Nvidia的合作:DDN与Nvidia合作开发超级pod,其技术被用于Nvidia内部,为AI应用提供支持。DDN也是X.AI(拥有10万个GPU)的基础设施提供商。 大规模AI部署的挑战:主要挑战包括GPU可用性不足、数据中心空间不足以及电力供应不足。 DDN的解决方案:DDN通过优化软件和硬件,提高GPU效率、缩小数据中心占地面积和功耗,并使LLM和生成式AI模型运行更高效。 AI基础设施的灵活性:AI基础设施需要灵活地适应不断变化的需求,包括在本地数据中心、云端和多云环境中运行。 洞察力与行动:AI的价值在于提供洞察力并促进行动,这是一个迭代的过程,需要灵活的基础设施来支持。 DDN的投资策略:DDN致力于投资研发,以解决客户的痛点和挑战,并通过与生态系统中的其他参与者合作来提高效率。 开发者与硬件:开发者越来越接近硬件层,以优化性能并应对数据中心空间、电力和GPU的限制。
核心观点:
AI的本质是数据智能,需要强大的基础设施来支持数据处理和分析。 HPC的经验为AI的发展奠定了基础,DDN利用其在HPC领域的专业知识来解决大规模AI部署的挑战。 灵活性、效率和加速是AI基础设施的关键要求,DDN致力于提供满足这些需求的解决方案。 开发者正在深入硬件层以优化性能,DDN积极与生态系统中的合作伙伴合作以推动创新。
DDN-高性能数据基础设施助力AI应用成功
受访人: Jyothi Swaroop,DDN公司首席营销官(CMO)。
主题内容:
HPC向AI的转型:HPC长期以来是DDN的主要市场,现在HPC正在向AI转型,DDN也在帮助客户适应这一转变。 数据中心效率:AI需要大量的算力,这意味着高能耗和庞大的数据中心。DDN的技术可以将GPU效率提高10倍,从而降低能耗。同时,DDN可以将数据中心空间缩小5-10倍。DDN已经帮助xAI(拥有10万块GPU,并计划扩展到20万块)实现了这一目标。 AI训练与推理:除了AI训练,DDN还关注AI推理,特别是LLM和RAG。DDN与Nvidia合作,将数据基础设施集成到Nvidia的微服务中(如Nims和Nemo)。 数据基础设施对AI的重要性:传统数据基础设施注重读取性能,但AI工作负载需要强大的写入性能。这是因为AI模型需要频繁写入数据以进行检查点。如果数据基础设施无法支持高写入性能,就会浪费GPU资源和资金。 AI应用案例:DDN的技术已被应用于药物发现和基因组研究。AI可以将新药研发时间从8-10年缩短到1年甚至更短,并将成本从20亿美元降低到5-6亿美元。在基因组研究领域,AI可以快速完成DNA测序,未来甚至可以通过一滴血了解个人全部基因信息。 DDN数据智能平台:DDN的数据智能平台可以连接数据中心到AI应用,提高AI应用的效率并降低成本。该平台可以帮助客户充分利用GPU资源,提高推理效率和准确性。 与Nvidia的合作关系:DDN与Nvidia合作已有8年,双方共同构建参考架构,并在DDN的数据智能平台上进行了测试。Nvidia甚至在自己的超级计算机和AI Factory中使用DDN的产品。 AI的未来:提示工程(prompt engineering)将是未来的重要技能。AI将提高生产力,最终可能使大多数人不必工作,从而可以追求自己的兴趣和爱好。
核心观点:
高性能数据基础设施对于AI应用的成功至关重要。 DDN的数据智能平台可以帮助客户充分利用AI的潜力,实现业务目标。 DDN与Nvidia的紧密合作关系使其在AI领域处于领先地位。
DDN-高性能数据基础设施助力AI应用发展
受访人: James Coomer,DDN公司副总裁。
主题内容:
AI应用对数据基础设施的需求:AI模型训练和推理需要海量数据,对数据基础设施的性能、效率和可扩展性提出了极高的要求。DDN公司提供数据智能平台,旨在满足AI应用对数据基础设施的特定需求。 DDN数据智能平台的优势:DDN的数据智能平台不仅仅是存储,而是增强、加速和优化整个AI堆栈,包括基础设施和应用程序。该平台专注于AI和HPC,通过与客户(如Nvidia、瑞士电信、大型云服务商等)紧密合作,不断优化和改进产品。 AI 400系列产品的演进:DDN的AI 400系列产品是专门为AI工作负载设计的闪存存储系统。从AI 400到AI 400 X2,再到最新的AI 400 X3,该系列产品不断提升密度和性能,以满足不断增长的AI算力需求。AI 400 X3专门设计用于支持最新的Nvidia Blackwell GPU,这些GPU具有更高的内存带宽和内存容量,需要更高性能的数据基础设施。 EXAScaler并行文件系统:EXAScaler是DDN的并行文件系统软件,专为向GPU高效传输数据而设计。该软件在全球范围内支持大量大型AI模型的开发,包括Nvidia和OpenAI的大型系统。 EXAScaler的新功能:EXAScaler最近发布了新版本,包括可扩展的数据压缩、简化的管理框架和在线升级功能。可扩展的数据压缩技术利用Linux内核压缩方法,在网络传输和存储过程中进行压缩,提高效率并降低成本。新的管理框架通过API简化了系统的配置、管理和监控。在线升级功能允许在不中断应用程序运行的情况下升级软件,即使在最大型的系统中也是如此。 客户案例:Nvidia选择DDN来支持其首个Seline超级计算机,并继续使用DDN的产品来支持其最新的H100 GPU。瑞士电信选择DDN来构建其国家级AI系统,以加速其Nvidia GPU。 AI应用的未来趋势:AI正在向多模态模型发展,这些模型可以处理文本、图像和视频等多种数据类型。DDN认为,数据平台将是实现这一趋势的关键因素,并将继续投资研发,以支持未来AI应用的发展。
核心观点:
高性能、高效率和可扩展的数据基础设施对于AI应用的成功至关重要。 DDN的数据智能平台通过优化整个AI堆栈,为AI应用提供最佳性能和效率。
Dell、Broadcom与Denvr Dataworks-AI Factory引领未来基础设施发展
受访人:
Arun Narayanan,Dell Technologies,产品组合管理高级副总裁 Hasan Siraj,Broadcom,软件产品和生态系统负责人 Vaishali Ghiya,Denvr Dataworks,全球生态系统合作伙伴执行官
主题内容:
AI Factory的兴起:AI工作负载的快速增长推动了对专用基础设施的需求,催生了“AI Factory”的概念。AI Factory是指专门设计用于支持AI工作负载的集成系统,涵盖计算、网络、存储和软件等各个方面。AI Factory的出现是为了解决传统数据中心在功耗、散热、空间和性能方面无法满足AI工作负载需求的问题。 Denvr Dataworks私人区域:Denvr Dataworks推出了一种名为“私人区域”的模块化超级集群,专门用于运行AI工作负载。私人区域可以容纳128个节点,每个节点最多可配备8个GPU,总共可提供超过1000个GPU的计算能力。该系统采用液冷技术,功耗仅为1.5兆瓦,占地面积不到900平方英尺。私人区域的设计目标是提供低功耗、高密度和快速部署的解决方案,以满足企业对AI基础设施的需求。 AI工作负载对硬件的需求:AI工作负载对硬件性能的要求不断提高,推动了芯片、服务器和网络技术的创新。新一代GPU的功耗大幅增加,单机架功耗已超过100千瓦,需要采用液冷等先进散热技术。网络带宽需求也随之增长,Broadcom推出的Tomahawk 5网络交换机芯片可提供51.2 Tbps的带宽,并大幅降低功耗。Dell与Broadcom紧密合作,开发基于Tomahawk 5的高性能服务器和网络设备,以满足AI工作负载的需求。 软件和开放标准的重要性:开放标准和软件在AI Factory的构建中发挥着关键作用,确保了互操作性和可扩展性。Denvr Dataworks在其私人区域解决方案中采用了基于Kubernetes的平台编排和Sonic网络操作系统。Broadcom和Dell致力于推动以太网在AI网络中的应用,并积极参与超以太网联盟的标准制定工作。开放标准和软件的采用可以降低成本、提高效率并促进创新,有利于AI生态系统的健康发展。 AI Factory的未来发展趋势:AI Factory的规模和性能将持续提升,以满足不断增长的需求。单机架功耗预计将达到500千瓦,需要更先进的散热技术。超大规模AI集群的规模将达到数十万甚至百万个节点,需要跨数据中心互联和高性能网络技术。以太网将成为AI网络的主导技术,并持续推动带宽和性能的提升。
核心观点:
AI Factory是满足AI工作负载需求的关键基础设施,其重要性与传统数据中心相当。 AI Factory需要整合计算、网络、存储和软件等各个方面的技术,并采用开放标准和液冷等先进技术。
Dell-HPC与AI领域战略及创新
受访人:
Ihab Tarazi,Dell Technologies AI计算和网络部门高级副总裁兼首席技术官。 Arun Narayanan,Dell Technologies计算部门产品组合管理高级副总裁。
主题内容:
Dell在HPC和AI领域的战略:Dell Technologies致力于成为HPC和AI领域的领导者。为了实现这一目标,公司采取了以下策略: 构建基于开放标准的系统:Dell Technologies的AI系统完全符合OCP规范,允许生态系统中的其他公司参与创新。 提供机架级可扩展系统:Dell设计、制造和支持完整的机架级可扩展解决方案,以满足不同客户的需求。 支持多种冷却方式:Dell提供液冷和风冷解决方案,以适应不同的数据中心环境和客户需求。 加速产品开发周期:Dell已将其产品开发周期从18个月缩短至6个月甚至4个月,以快速响应市场变化和客户需求。 模块化设计:Dell采用模块化设计方法,使用可重复利用的组件来构建系统,从而提高了灵活性和响应速度。 与客户紧密合作:Dell在产品开发过程中与客户紧密合作,以确保满足他们的需求。 开放标准和开源的重要性:开放标准和开源是推动AI领域快速创新的关键因素。开放系统允许来自不同公司的组件和软件协同工作,从而加速创新速度。 应对客户定制需求:Dell在保持开放标准的同时,也满足了客户的定制需求。只有当定制需求可以使大多数客户受益时,Dell才会提供定制服务。 针对不同类型客户的AI产品组合:Dell提供针对不同类型客户的AI产品组合: LLM供应商:Dell为大型LLM供应商提供GB200 NVL 72系统,该系统采用21英寸机架设计,可容纳72个Nvidia H100 GPU。 企业客户:Dell为企业客户提供PCIe架构的平台,例如PowerEdge 7740和7745服务器,这些服务器可以容纳多达8个双宽GPU。 开发者:Dell正在开发一种“AI Factory”解决方案,该解决方案类似于预先配置好的开发者云,使开发者能够轻松地构建和部署AI模型。 AI软件生态系统:Dell正在积极构建AI软件生态系统,与Hugging Face和Meta等公司合作,为客户提供各种软件工具和解决方案。 网络在AI系统中的重要性:网络是AI系统性能的关键因素。Dell正在与Nvidia和Broadcom等公司合作,开发高性能、低延迟的网络解决方案。 冷却技术:Dell正在不断改进其冷却技术,以满足AI工作负载不断增长的散热需求。 存储:Dell正在开发针对AI工作负载优化的存储解决方案,包括高密度介质和高性能连接。
核心观点:
Dell Technologies致力于成为HPC和AI领域的领导者,通过提供基于开放标准的可扩展系统、全面的产品组合和强大的软件生态系统来实现这一目标。 Dell认识到网络、冷却和存储在AI系统中的重要性,并正在积极开发针对AI工作负载优化的解决方案。
Dell-全面应对AI时代数据中心散热挑战
受访人: Tim Shedd,Dell Technologies 热策略负责人。
主题内容:
AI时代的数据中心散热挑战:AI训练和推理需要大量算力,导致数据中心功耗和散热需求急剧上升。过去,机架功耗通常为50-60千瓦,而现在AI机架的功耗可达120千瓦甚至更高,未来将达到500千瓦。高密度计算带来的散热挑战需要创新的解决方案。 Dell的AI解决方案:Dell推出的AI Factory是一个预集成的系统,旨在简化AI部署,并解决高密度计算带来的散热问题。该系统采用OCP标准的液体冷却连接器,可支持高达220千瓦的机架功耗,未来可扩展至500千瓦。 开放标准和多代硬件平台:Dell采用OCP开放标准,以确保与不同供应商的服务器和冷却系统的兼容性。此外,Dell的AI Factory采用多代硬件平台设计,可以随着未来GPU、软件和网络技术的更新换代而进行升级。 液体冷却和空气冷却的创新:Dell致力于开发创新的液体冷却和空气冷却技术,以满足不断增长的散热需求。他们正在开发一种能够将所有热量收集到90-95华氏度的温水中的技术,从而使大多数客户能够完全移除数据中心中的冷却器。这项技术可以将冷却能耗降低80%。 Dell的服务和支持:Dell不仅提供硬件和软件,还提供全球范围内的服务和支持,帮助客户快速部署和维护AI系统。Dell的服务团队可以提供现场支持,确保客户的系统始终保持最佳运行状态。 与合作伙伴的合作:Dell与Nvidia、AMD、Intel等芯片供应商以及冷却系统和电源供应商密切合作,共同开发创新的散热解决方案。这种合作关系确保了Dell的AI Factory能够与最新的硬件技术兼容,并为客户提供最佳性能。 AI的未来发展:Dell预计未来几年将推出更多基于OCP标准的AI平台,并继续改进其散热技术。他们还将继续投资软件开发,以简化AI系统的部署和管理。
核心观点:
AI时代的高密度计算对数据中心散热提出了严峻挑战。 Dell通过AI Factory系统、开放标准、多代硬件平台、创新的散热技术以及全球服务和支持,为客户提供全面的AI解决方案。
Dell-全面应对AI数据管理挑战
受访人: Scott Bils,Dell Technologies专业服务副总裁。
主题内容:
有效管理AI数据:为了从AI中获取价值,组织需要了解、分类和标记相关数据源。并非所有数据集都适用于每个AI用例或模型,因此需要一种结构化的方法来管理数据,以扩展AI并增加企业用例吞吐量。 确保高质量、合规且受治理的数据:高质量的数据对于AI模型训练和部署至关重要,以避免“垃圾进,垃圾出”的情况。这需要从识别数据源到分类、整理、清理以及自动化摄取和扩展的端到端生命周期视图。 自动化解决方案应对传统数据集成中的低效:AI系统对速度和容量有很高的要求,需要自动化解决方案来解决传统数据集成过程中的低效问题。这包括利用工具、技术和平台来协调数据管道,以满足不同用例和性能需求。 特定于AI的数据目录:特定于AI的数据目录对于增强数据集管理、可发现性和合规性至关重要。它们有助于跟踪数据沿袭、元数据,并解决围绕数据和AI的治理和合规性问题。 AI优化数据管道的作用:AI优化数据管道在自动化扩展和支持实时动态AI应用程序方面发挥着至关重要的作用。根据用例需求和平台要求,设计和实施正确的管道对于实现所需的性能和吞吐量至关重要。 Dell Technologies的数据管理服务:Dell Technologies提供服务来帮助组织实施数据目录和管道,以简化集成。这些服务包括帮助客户进行分类、标记、识别数据源、整理和清理数据,以及构建自动化和编排管道。 Dell数据湖库:Dell数据湖库是AI Factory的基础元素,Dell Technologies提供专业服务来建立该平台,并利用第三方工具来实施各种功能。 Dell AI和数据管理解决方案的差异化优势:Dell Technologies在存储和数据基础设施方面拥有丰富的经验,全球40%的数据都存储在Dell存储和基础设施上。其差异化优势在于其在存储和数据基础设施方面的悠久历史,以及为客户开发和部署平台以优化数据结果的能力。Dell Technologies还拥有独特的服务组合,这些服务是在大数据、数据分析、AI和生成式AI等领域不断发展的过程中构建起来的。
核心观点:
数据是AI的命脉,有效管理数据对于AI的成功至关重要。 组织需要采用全面的方法来管理AI数据,包括数据质量、治理、自动化和编排。
Dell-全面助力构建与管理AI网络
受访人: Scott Bils,Dell Technologies专业服务副总裁。
主题内容:
AI网络架构的挑战:AI集群和架构与传统数据中心网络有根本的不同。AI网络需要以机架级别甚至数据中心级别将GPU集群连接起来,使其像一台计算机、一个大脑一样运作。这需要不同的架构来减少延迟、提高吞吐量,并确保GPU能够以尽可能快的速度获取数据以充分利用其能力。 低延迟、高带宽网络技术:为了满足AI工作负载的需求,组织需要采用低延迟、高带宽的网络技术,例如InfiniBand和RDMA。这些技术有助于减少网络瓶颈并确保GPU能够以最佳性能运行。 构建可扩展且面向未来的AI网络:Dell Technologies帮助组织构建可扩展且面向未来的AI网络,方法是利用其专业知识和与Nvidia等行业领导者的合作伙伴关系。他们提供全面的服务,包括设计、实施和优化AI网络,以及集成RDMA和InfiniBand等技术。 解决技能差距:许多组织缺乏管理复杂AI网络所需的内部专业知识。Dell Technologies通过提供培训和教育服务来帮助解决这一技能差距,使客户能够获得运行和维护这些网络所需的必要技能、专业知识和认证。 评估环境和准备情况:Dell Technologies与客户合作的起点是评估其环境和AI基础设施的总体准备情况。这包括评估网络、电源、冷却和数据中心基础设施,以确定需要解决的关键问题和优先事项。 技能评估和提升:作为评估过程的一部分,Dell Technologies还评估客户的技能,并了解他们对长期技能开发的目标。根据客户的战略,这可能导致Dell Technologies提供培训和技能提升服务,或者让客户选择让Dell Technologies管理其AI网络。 运营和管理(Day 2)注意事项:AI网络只是AI架构的一个组成部分。组织还需要考虑计算和存储的集成,以及在Day 2运营中管理不同软件堆栈的影响。Dell Technologies采用整体方法来帮助客户解决这些注意事项。 Dell AI Factory:Dell AI Factory提供了一个简化的解决方案,用于在本地部署AI。它集成了网络组件、硬件配置以及Dell Technologies的评估和设计服务。AI Factory有多种“T恤尺寸”和捆绑包,以满足不同的客户需求。
核心观点:
构建和管理AI网络对于成功部署AI至关重要。 组织需要解决独特的架构挑战、采用低延迟和高带宽技术,并解决技能差距。 Dell Technologies提供全面的服务和解决方案,例如评估、设计、实施、优化和培训,以帮助组织构建和管理其AI网络。 Dell AI Factory提供了一个简化的、交钥匙的解决方案,用于在本地部署AI,从而简化了采用过程。
Dell-全面助力数据中心可持续发展
受访人: Scott Bils,Dell Technologies专业服务副总裁。
主题内容:
数据中心可持续性挑战:数据中心运营成本的40%到60%来自能源成本。AI工作负载不断增长的能源需求、能源成本上升以及监管压力增加,都对数据中心的能源效率和可持续性提出了挑战。 提高数据中心可持续性的策略: 了解当前数据中心的性能和电源使用效率(PUE)。 制定可持续发展目标,并实施数据中心设计和运营策略来降低PUE和提高能源效率,例如优化冷却系统、采用先进的冷却技术、优化布局和使用可再生能源。 Dell可持续数据中心服务:Dell Technologies推出了新的专业服务,帮助客户应对数据中心可持续性和AI挑战。这些服务包括: 帮助客户制定可持续发展战略和路线图。 提供实施服务,帮助客户实现建议和选项。 提供持续的咨询服务,确保客户持续实现可持续发展目标。 帮助客户识别KPI并创建集中式报告机制,以跟踪和管理可持续发展目标的进展。 与行业领导者的合作关系:Dell Technologies与施耐德电气等行业领导者合作,提供数据中心设计和电源管理方面的专业知识。 Dell可持续发展服务的优势:Dell Technologies在液体冷却技术方面拥有丰富的经验和专利。其专业服务团队与Dell内部的硬件和基础设施专家密切合作,为客户提供最佳的解决方案。 客户收益:通过与Dell Technologies合作,客户可以: 提高能源效率,并从其数据中心设计中获得更多收益。 优化能源成本。 向利益相关者传达可持续发展举措带来的更广泛的益处。
核心观点:
数据中心的可持续性和能源效率对于应对不断增长的AI工作负载和监管压力至关重要。 Dell Technologies提供全面的专业服务,帮助客户制定和实施可持续发展战略,优化数据中心设计和运营,并跟踪进展情况。
Dell-数据管理:AI成功的关键因素与挑战应对
受访人: Geeta Vaghela,Dell Technologies存储部门。
主题内容:
AI带来的数据管理挑战:AI应用需要大量的计算能力,同时也对数据管理提出了新的挑战。企业需要考虑如何获取、存储、管理和分析海量数据,以支持AI应用的开发和部署。 数据管理的复杂性:数据管理涉及多个环节,包括数据采集、存储、清洗、分析、元数据管理和数据治理等。这些环节之间相互关联,需要紧密协作才能保证数据质量和一致性。 Dell Technologies的AI解决方案:Dell Technologies提供了一系列解决方案来帮助企业应对AI带来的数据管理挑战,包括: Dell AI Factory:这是一个全面的AI解决方案框架,可以帮助企业快速构建和部署AI应用。 Dell数据湖:这是一个用于存储和管理海量数据的平台,可以支持各种数据类型和分析工具。 专业服务:Dell Technologies提供专业服务,帮助企业评估其数据管理需求,并制定合适的解决方案。 Dell Technologies的开放式方法:Dell Technologies采用开放式方法,支持与各种第三方工具和平台集成。这使得企业可以灵活地选择最适合其需求的解决方案,并最大限度地利用现有投资。 客户的AI成熟度:Geeta Vaghela观察到不同客户在AI成熟度方面存在差异: 高级用户:这些用户对AI有深入的了解,并有明确的目标和路线图。 云服务商和大型企业:这些用户专注于HPC和AI模型训练。 早期用户:这些用户刚刚开始探索AI,并正在尝试了解AI的潜力和应用场景。 数据管理的重要性:Geeta Vaghela强调数据管理是AI成功的关键因素。企业需要对数据进行有效的管理,才能确保数据的质量、一致性和安全性,并为AI应用提供可靠的输入。 数据价值:并非所有数据都具有相同的价值。企业需要识别高价值数据,并对其进行优先处理,以最大限度地发挥AI的价值。 AI对数据管理的影响:AI正在改变数据管理的方式。AI可以帮助企业自动化数据管理任务,提高数据质量,并从数据中获得更深入的洞察。 Dell Technologies的角色:Dell Technologies致力于帮助企业简化AI的采用,并通过提供创新的解决方案和服务,帮助企业实现AI的价值。
核心观点:
数据管理是AI成功的关键因素。 企业需要采用全面的方法来应对AI带来的数据管理挑战。 Dell Technologies提供了一系列解决方案和服务,帮助企业简化AI的采用,并实现AI的价值。
Dell-推动AI普及化,强调CPU与GPU协同作用
受访人: David Schmidt,Dell Technologies PowerEdge 产品线副总裁。
主题内容:
为不同规模的AI应用提供解决方案:Dell Technologies致力于为各种规模的AI应用提供解决方案,从8核到2.7万核的系统,以满足客户在不同场景下的需求。 风冷设计的优势:Dell专注于提供高效的风冷设计,即使在高TDP处理器(如500W的192核处理器)的情况下也能保持良好的散热效果,无需液冷。这使得客户能够在现有的数据中心环境中轻松部署AI解决方案,而无需进行昂贵的改造。 CPU在AI中的作用:CPU在AI应用中仍然扮演着重要角色,尤其是在视频分析、推理和小型语言模型等领域。Dell提供基于AMD EPYC处理器的PowerEdge服务器,可支持高达192个核心和5GHz的高频率,以满足这些应用的需求。 GPU和CPU的协同:Dell认识到GPU在AI中的重要性,但强调CPU和GPU的协同作用,为客户提供灵活的选择。客户可以在同一平台上根据需求选择使用CPU、GPU或两者结合的方式来运行AI工作负载。 丰富的配置选择:Dell PowerEdge服务器提供丰富的配置选择,包括不同核心数、内存容量、存储选项和I/O扩展能力。这使得客户能够根据其特定的AI应用需求定制系统,并确保最佳的性能和效率。 标准化平台的重要性:Dell强调标准化平台的重要性,使客户能够在同一平台上运行传统IT工作负载和AI工作负载。这简化了IT基础架构的管理,并降低了总体拥有成本。 简化AI部署:Dell致力于简化AI部署,提供参考架构、验证设计和最佳实践,帮助客户快速启动AI项目。 AI Factory:Dell正在开发“AI Factory”解决方案,为客户提供预先配置好的AI开发环境,以简化AI模型的构建和部署。 未来展望:Dell预计未来一年将在AI解决方案方面取得突破性进展,为客户提供更强大的性能、更快的价值实现时间和更广泛的应用场景。
核心观点:
Dell致力于通过提供灵活、高效和易于部署的解决方案,使AI普及化,让各种规模的企业都能从AI中受益。 Dell强调CPU和GPU的协同作用,并提供丰富的配置选择,以满足客户不同的AI应用需求。 Dell专注于标准化平台,简化AI部署,并提供持续的创新,帮助客户加速AI价值的实现。
Dell-应对Exascale计算与AI挑战,提供创新解决方案
受访人: Armando Acosta,Dell TechnologiesHPC部门副总裁。
主题内容:
Exascale计算带来的挑战:Exascale计算的兴起带来了新的挑战,例如对直液冷技术的需求增加、对更高性能CPU和GPU的需求,以及对硅多样性的需求。
应对硅多样性:客户希望能够灵活选择不同的技术,包括Intel、AMD、Nvidia和Arm处理器。Dell Technologies致力于提供支持这种多样性的解决方案,使客户能够根据其特定工作负载需求选择最佳技术。
标准化的重要性:标准化对于降低成本和提高客户的灵活性至关重要。Dell Technologies积极参与制定标准,例如与OCP合作开发21英寸机架设计,以支持更高性能的计算组件。
模块化设计和可维护性:Dell Technologies专注于模块化设计,使系统更易于维护和升级。例如,他们开发了一种新的机架设计,其中包含外部电源架,以提高性能和可维护性。
混合冷却解决方案:Dell Technologies认为混合冷却解决方案是未来的趋势,将直接液冷用于CPU和GPU,并使用高效风扇冷却其他组件。这种方法在性能和可维护性之间取得了平衡。
直接液冷技术的标准化:直接液冷技术领域目前缺乏标准化,Dell Technologies正在推动制定标准,以确保不同供应商的组件之间的互操作性和可靠性。
网络技术:Dell Technologies支持各种网络技术,包括InfiniBand、Ethernet和NVLink,以满足不同客户的需求。他们认识到网络在AI和HPC系统中的重要性,并致力于提供高性能、低延迟的解决方案。
客户用例:Dell Technologies与客户紧密合作,了解他们的需求并开发满足其特定用例的解决方案。他们看到了AI在癌症研究、虚拟助理和推荐引擎等领域的巨大潜力。
Dell Technologies的未来愿景:Dell Technologies的目标是简化AI和HPC的采用,为客户提供端到端解决方案,使他们能够专注于其核心业务。他们致力于提供易于部署、管理和扩展的解决方案。
核心观点:
Dell Technologies认识到Exascale计算和AI带来的机遇和挑战,并致力于提供满足客户需求的创新解决方案。 强调标准化、模块化设计、混合冷却和高性能网络的重要性,以构建灵活、可靠和可扩展的系统。
Dell与Hot Aisle-AMD崛起与AI计算新生态
受访人:
Saurabh Kapoor,Dell Technologies。 Jon Stevens,Hot Aisle公司创始人兼首席执行官。
主题内容:
AMD在AI领域的崛起:AMD的硬件在AI领域表现出色,为AI计算提供了Nvidia之外的另一种选择。 Hot Aisle的商业模式:Hot Aisle为希望部署AI计算能力但缺乏专业知识的客户提供资本支出和运营支出服务。他们购买、部署和维护服务器,并为客户提供远程访问,就像客户拥有这些机器一样。 Hot Aisle与Dell的合作:Hot Aisle与Dell合作,在其位于美国最佳数据中心Switch.com的设施中部署了16台服务器,共计128个AMD MI300X GPU。 Hot Aisle的独特价值主张:Hot Aisle提供对硬件的底层访问权限,这是超大规模云服务商无法提供的。他们还专注于提供基于AMD计算的AI解决方案,并致力于成为AI领域替代计算方案的倡导者。 多供应商策略的必要性:为了AI的安全和发展,需要有多种解决方案可供选择。过度依赖单一供应商会增加风险,而多供应商策略可以促进创新和效率。 软件兼容性问题:目前AI软件生态系统主要围绕Nvidia的CUDA平台构建,这限制了AMD硬件的采用。Hot Aisle正在与合作伙伴合作开发一种解决方案,使CUDA代码能够在AMD硬件上原生运行。 Hot Aisle的定位:Hot Aisle将自己定位为一个利基市场参与者,专注于为特定客户群提供“白手套”服务。他们不打算与超大规模云服务商或其他大型数据中心提供商竞争。 AI领域的未来趋势: AI硬件和软件将继续快速发展,新的架构和技术将不断涌现。 液冷技术将成为主流,以满足日益增长的计算需求。 AI将扩展到各个行业和应用场景,并推动基础设施的重大变革。 数据安全和隐私将变得越来越重要,企业将寻求将AI带到数据所在的位置,而不是将数据移动到AI所在的位置。 Hot Aisle和Dell合作的未来方向: 双方将继续合作,为客户提供基于AMD硬件的最新AI解决方案。 他们将专注于简化AI部署的复杂性,并为开发人员提供更便捷的访问方式。 他们将与AMD、Broadcom等合作伙伴紧密合作,不断推动技术创新。
核心观点:
AMD硬件为AI计算提供了一种有竞争力的替代方案,可以促进AI生态系统的多样性和创新。 Hot Aisle提供了一种独特的商业模式,使企业能够更轻松地访问和部署AI计算能力。 多供应商策略对于AI的安全和发展至关重要。 AI正在快速发展,并将继续改变各个行业和应用场景。 Hot Aisle和Dell的合作将有助于推动基于AMD的AI解决方案的采用,并为客户提供更大的灵活性和选择。
Dell与Nvidia-AI Factory引领企业AI变革
受访人:
Jason Schroedl,Nvidia企业平台产品营销总监。 Adam Glick,Dell Technologies AI产品组合营销高级总监。
主题内容:
AI Factory的变革力量:AI Factory正在改变数据中心的游戏规则,将数据中心连接到云端和边缘。软件驱动着AI Factory,人们正在构建自己的系统。 Dell AI Factory与Nvidia的合作:Dell与Nvidia合作构建了Dell AI Factory。其目标是为企业带来AI Factory,并将大规模AI部署的最佳实践和经验带给企业。 企业构建自己的AI的趋势:企业正在构建自己的AI,以利用其庞大的数据集并训练自己的AI。一些企业正在构建自己的基础模型,而另一些企业则使用这些基础模型并对其进行增强。 AI基础设施和软件的快速发展:AI基础设施正在加速发展,软件也在不断发展。新的架构和软件正在不断涌现,例如AI Agents。 客户如何跟上快速发展的AI:Nvidia正在创建软件,并以惊人的速度进行软件创新。Dell与Nvidia合作,共同设计并优化软件和硬件,以简化客户的AI部署。 参考架构和蓝图:Nvidia和Dell提供了参考架构和蓝图,以帮助客户快速启动AI项目。这些蓝图包括计算、网络、存储和软件组件,为客户提供了一种经过验证的AI部署方法。 产品创新:Dell和Nvidia正在进行产品创新,包括液冷、高密度机架和集成系统。他们还致力于优化软件,以实现最佳性能和效率。 AI Factory运行的工作负载:AI Factory正在运行各种工作负载,包括聊天机器人、视觉系统和数字助理。这些工作负载利用了生成式AI和LLM等技术。 AI对行业的影响:AI正在颠覆所有行业,并将导致基础设施的巨大变革和AI的民主化。企业将从上到下推动AI,个人也将利用AI。 AI生态系统:Dell和Nvidia正在扩展他们的合作伙伴关系,以创建一个连接的生态系统,该生态系统不仅包括API,还包括数据。 合作伙伴关系的下一步:Dell和Nvidia将继续合作,发展AI Factory,包括新的外形尺寸、规模和软件解决方案。他们还将继续在GPU基础设施、网络和软件方面进行创新。
核心观点:
AI Factory正在迅速兴起,企业正在构建自己的AI系统,以利用其数据并获得竞争优势。 Dell和Nvidia正在合作,通过提供AI Factory解决方案,简化企业AI的采用。 AI正在颠覆所有行业,并将在未来几年推动重大的经济增长和生产力提升。 Dell和Nvidia致力于建立一个开放的生态系统,以支持AI Factory的增长和创新。
d-Matrix-专注AI推理加速器,引领市场新机遇
受访人: Sid Sheth,d-Matrix公司创始人兼首席执行官。
主题内容:
D-Matrix公司及产品:D-Matrix是一家专注于AI推理加速器的公司。他们在SC24大会上发布了全球最高效的AI推理加速卡,该卡采用PCI-e接口,拥有自主研发的芯片和软件栈,可以集成到各种服务器中。D-Matrix采用与生态系统合作伙伴合作的方式,为客户提供灵活的选择。 AI推理的市场机遇:AI推理是将训练好的模型应用于实际场景的过程,相较于模型训练,推理的应用场景更广阔,市场机会更大。 D-Matrix产品的特点:D-Matrix的AI推理加速卡专注于低延迟批处理吞吐量,可以同时处理多个用户的请求,并保持低延迟,特别适合视频生成等需要实时交互的应用场景。 D-Matrix产品的优势:D-Matrix的产品在用户体验、成本和能效方面具有优势。它可以提升用户体验,降低每用户的服务成本,并在相同的功耗下完成更多的推理任务。 D-Matrix产品的目标客户:D-Matrix的目标客户是那些需要处理多用户、低延迟、高吞吐量AI推理任务的企业。例如,需要进行实时视频生成的应用场景。 AI推理的解释:AI推理类似于人类学习和应用知识的过程。人类花费前20年学习知识(训练),然后用40年时间应用知识(推理)。AI推理就是将训练好的AI模型应用到实际场景中,根据输入数据进行预测和决策。 AI推理的技术细节:AI推理涉及大量的数学运算和内存访问。它需要高效的计算能力、高带宽的内存访问以及大容量的内存来存储模型和数据。 D-Matrix的未来发展:D-Matrix将继续专注于紧密集成计算和内存的AI推理加速平台,并不断扩展其产品路线图,以满足未来AI应用的需求。
核心观点:
AI推理是AI领域中一个巨大的市场机遇。 低延迟、高吞吐量和高能效是AI推理加速平台的关键需求。 D-Matrix的AI推理加速卡通过独特的架构设计和与生态系统的合作,为客户提供了高效、灵活和经济的AI推理解决方案。
IBM-存储成为AI时代关键,IBM Storage Scale引领创新
受访人: Sam Werner,IBM产品管理副总裁。
主题内容:
存储在AI时代的重要性:随着AI的发展,存储在AI系统中的作用越来越重要。高效、快速且大规模的存储系统对于AI模型的训练和推理至关重要。 高效存储的需求:AI和超级计算需要高效的存储解决方案来降低功耗和冷却成本,为功耗大的GPU腾出空间。 数据规模和持久性:AI模型需要处理海量数据,并需要长期存储这些数据以进行追溯和分析。磁带存储提供了一种低成本的长期归档解决方案。 企业AI的挑战:许多企业希望将AI应用于其业务,但面临着数据中心基础设施、成本和数据管理等挑战。 IBM Storage Scale的优势:IBM Storage Scale是一种高性能、可扩展的存储解决方案,专为AI和HPC而设计。它具有以下特点: 高性能:通过使用NVMe驱动器和高效的文件系统,Storage Scale提供了业界领先的性能。例如,在Nvidia GPU Direct基准测试中,读取速度达到310 GB/秒,写入速度达到155 GB/秒。 可扩展性:Storage Scale可以从小规模开始,并扩展到EB级,以满足不断增长的数据需求。 成本效益:Storage Scale允许混合使用NVMe驱动器和低成本的旋转磁盘,以优化性能和成本。 低功耗:Storage Scale的能耗低于竞争对手,有助于降低运营成本和碳排放。 内容感知存储(CAS):IBM正在开发CAS技术,将AI推理功能集成到存储系统中。CAS可以在数据存储时对其进行矢量化,从而消除数据复制和移动的需求,并提高查询效率。 主动文件管理(AFM):AFM允许Storage Scale访问和管理存储在不同位置的非结构化数据,例如HDFS、对象存储和NAS系统。 IBM的AI策略:IBM致力于简化AI的部署和管理,并将其AI功能集成到其产品中,例如Storage Scale。 性能和可持续性:IBM继续专注于提高存储性能和降低能耗,以支持可持续的AI发展。
核心观点:
存储是AI系统的关键组成部分,需要高性能、可扩展性和成本效益的解决方案。 IBM Storage Scale是一种专为AI和HPC而设计的存储解决方案,提供高性能、可扩展性和低功耗。 IBM正在通过内容感知存储等创新技术,将AI功能集成到存储系统中,以简化AI部署并提高效率。
Mellanox与Dell-高性能网络架构助力AI应用成功
受访人:
Hemal Shah,Mellanox Technologies (Nvidia) 高级工程总监。 James Wynia,Dell Technologies 高级技术营销总监。
主题内容:
AI时代对网络规模的需求:AI/ML的快速发展对高性能、可扩展网络架构的需求巨大。网络性能对于AI应用至关重要,因为网络故障会导致GPU闲置和效率低下。 Dell和Mellanox的合作:两家公司合作超过15年,致力于为AI工作负载构建高带宽、高网络利用率的网络架构。他们共同创建了一个经过验证的设计,该设计包括Dell PowerSwitch、Broadcom的Tomahawk 6 SW ASIC、Sonic操作系统和Mellanox的Smart Fabric Manager。 高性能网络硬件:支持51.2 Tbps带宽的Tomahawk 5交换芯片,以及用于构建高性能网络架构的Jericho 3 AI交换芯片和400/800 Gbps网卡。这些硬件组件共同提供低延迟和高带宽的网络连接,以满足AI工作负载的需求。 以太网在AI架构中的作用:以太网在AI架构中扮演着关键角色,特别是在低延迟和可扩展性方面。Dell PowerSwitch和Broadcom芯片为AI集群提供高性能网络连接,确保GPU始终处于工作状态。 Ultra Ethernet Consortium(UEC):Broadcom领导着UEC,该联盟拥有数百家公司,致力于制定下一代以太网标准。该联盟的目标是提高以太网的性能和功能,以更好地支持AI和其他HPC应用。预计该联盟将在2024年第一季度发布标准草案。 以太网的成熟度:以太网是网络领域的既定标准,其性能足以满足AI工作负载的需求。与Infiniband等其他技术相比,以太网拥有更成熟的生态系统和更广泛的应用。开放的生态系统促进了以太网技术的快速发展和创新。 网络规模和弹性:AI集群的规模不断扩大,分布式计算架构变得越来越普遍。以太网通过支持RDMA、增强的传输功能和基于遥测的拥塞控制等技术,为大规模AI集群提供所需的弹性和可靠性。 自适应网络架构:未来的AI集群将需要自适应的网络架构,以支持各种工作负载和不断变化的需求。自适应网络架构可以通过软件实现智能、弹性和可靠的网络连接,而无需用户干预。 网络架构管理:随着网络架构变得越来越复杂,管理和监控也变得越来越重要。Mellanox的Smart Fabric Manager等软件工具可以简化网络管理,并提供对网络性能的深入洞察。
核心观点:
高性能、可扩展和弹性的网络架构对于AI应用的成功至关重要。 以太网凭借其成熟度、开放性、性能和可扩展性,成为AI网络架构的最佳选择。 自适应网络架构和先进的管理工具对于简化AI集群的部署和运维至关重要。 AI行业正在快速发展,对网络技术的需求也在不断变化。未来的网络架构需要不断创新,以满足AI应用不断增长的需求。
Memorial Sloan Kettering 癌症中心-合作加速癌症研究,AI与HPC引领未来
受访人:
Jess Audette,Memorial Sloan Kettering 癌症中心,基础设施和运营副总裁 Geeta Vaghela,Dell Technologies,产品营销副总裁 Jonathan Martin,WEKA,首席营销官
主题内容:
Memorial Sloan Kettering 癌症中心(MSK)与Dell和WEKA的合作:MSK与Dell和WEKA合作,构建了一个名为Iris的超级计算机集群,用于加速癌症研究。该项目已经持续了三年。合作的目标是通过提供最先进的技术来支持研究人员,使他们能够更快地取得突破。这种伙伴关系促进了合作和知识共享,使各方能够共同努力,取得更大的成功。双方经常沟通,以确保项目的顺利进行。
Iris超级计算机对癌症研究的影响:Iris超级计算机通过大幅缩短研究时间,使研究人员能够更快地取得进展。Iris将壁钟时间(完成一项任务所需的时间)缩短了30倍。这意味着以前需要数年时间才能完成的研究现在可以在几个月内完成,从而加快了发现新疗法和治疗方法的速度。一个显著的例子是一位博士生能够提前一年完成博士学位,这要归功于Iris提供的性能。Iris还帮助MSK的一个基础科学实验室识别转移性癌症的起源,并将这些信息分享给临床医生,以便他们能够制定更好的治疗方案。另一个例子是一位PI(首席研究员)在一个新的结肠癌临床试验中取得了100%的成功率,而这在以前几乎是不可能的。
AI在癌症研究中的作用:AI在癌症研究中发挥着越来越重要的作用,它可以帮助研究人员分析大量数据并识别模式。AI不会取代医护人员,而是增强他们的能力,使他们能够提供更个性化、更高效的护理。通过利用AI,研究人员可以加速药物发现、开发新的治疗方法和改善患者的治疗效果。
AI和HPC的未来:AI和HPC正在经历快速发展,未来将会对医疗保健和其他行业产生重大影响。企业正在大力投资建设新的数据中心基础设施,以支持AI和HPC工作负载。这将导致数据中心设计的重大转变,重点是高带宽、低延迟网络和专门的硬件。预计未来几年将会出现更多利用AI和HPC改善人类生活的应用案例。
核心观点:
合作对于推动癌症研究至关重要,MSK、Dell和WEKA之间的合作就是一个成功的例子。 Iris超级计算机是癌症研究领域的一项重大突破,它正在帮助研究人员以更快的速度取得进展。 AI在癌症研究中发挥着越来越重要的作用,它有潜力彻底改变我们诊断和治疗癌症的方式。
Metrum与Dell-AI工作负载优化与芯片多样性探讨
受访人:
Steen Graham,Metrum公司首席执行官。 Manya Rastogi,Dell公司工程师。
主题内容:
AI工作负载的测量和优化:企业在部署AI之前需要了解其性能,包括吞吐量、延迟以及AI质量等指标。Metrum推出了一款名为“Know Your AI”的平台,用于测试开发和生产中AI的性能和质量指标。 Dell PowerEdge XC 9680服务器与Intel Gaudi 3加速器:Dell推出了PowerEdge XC 9680服务器,该服务器搭载了Intel Gaudi 3加速器。这款服务器将于12月开始发货,并计划在夏季全面上市。 芯片多样性的重要性:AI领域需要芯片多样性,以便为不同的工作负载和性能需求提供选择。Gaudi 3的优势在于其开放计算加速器模块(OAM)设计,它提供了可扩展性和成本效益。 Gaudi 3的优势:Gaudi 3提供了与其他GPU相当的性能,同时价格更具竞争力。它适用于推理、微调和分布式微调等AI工作负载。 Agentic RAG:Metrum展示了一个名为“Agentic RAG”的用例,它结合了多模态功能、语音功能和AI代理(AI Agents),为互联网服务提供商提供客户服务支持。 AI代理(AI Agents)的兴起:AI Agents正在迅速普及,预计未来将超过人类数量。这些AI Agents可以执行各种任务,例如客户服务、数据分析和流程自动化。 行业趋势和垂直应用:不同行业对AI的需求各不相同,例如,金融机构可能需要构建自己的语言模型以保护数据安全。AI在制造、零售、电信、医疗保健和互联网服务等领域都有广泛的应用。 开发人员面临的挑战:开发人员需要评估和选择各种AI组件,例如向量数据库、图数据库和AI Agents框架。这种选择的多样性可能导致决策瘫痪。 Dell和Metrum的解决方案:Dell提供经过验证的设计和参考实现,帮助企业部署AI解决方案。Metrum通过其AI生成平台提供特定行业的解决方案,并开发了一个性能测试套件来评估AI系统的质量。 对未来的展望:Dell计划在明年推出更多基于Intel Gaudi 3和Greener Rapids的产品。Metrum希望AI能够在机器人和物理世界应用中发挥更大的作用。
核心观点:
AI领域需要芯片多样性,以便为不同的工作负载和性能需求提供选择。 Gaudi 3作为一种具有成本效益的解决方案,为企业提供了另一种选择,尤其是在GPU供应短缺的情况下。 AI代理(AI Agents)正在迅速普及,将改变各行各业的运营方式。 企业需要采用系统思维来构建和部署AI解决方案,并利用合作伙伴关系来加速创新。 AI性能和质量的持续监控对于确保AI系统的可靠性和准确性至关重要。
Omni Services与CoolIT-液冷散热技术引领HPC和AI发展
受访人:
Lauren Witter,Omni Services销售副总裁。 Mitchell Knight,CoolIT产品管理总监。
主题内容:
液冷散热系统的重要性:随着HPC和AI的发展,芯片的功耗越来越高。传统的空气冷却系统已经无法满足散热需求。液冷散热系统能够更有效地带走热量,保证系统的稳定运行。 CoolIT的液冷解决方案:CoolIT提供从芯片级到数据中心级的液冷解决方案,包括冷板、冷却模块和冷却分配单元(CDU)。 Omni Services的流体输送解决方案:Omni Services提供高品质的软管、接头和其他流体输送组件,确保冷却液安全可靠地输送到芯片。 连接完整性:液冷系统中最薄弱的环节是连接处。泄漏会导致系统故障甚至损坏硬件。Omni Services与CoolIT合作,开发了可靠的连接解决方案,并通过严格的测试确保连接的完整性。 供应链的重要性:液冷行业正在快速增长,对高质量组件的需求也在不断增加。Omni Services致力于构建强大的供应链,以满足不断增长的市场需求。 标准化的必要性:液冷行业目前缺乏统一的标准。不同厂商的产品之间可能存在兼容性问题。Omni Services和CoolIT正在努力推动行业标准的制定,以促进液冷技术的普及和发展。 技术路线图:CoolIT和Omni Services正在不断创新,以应对未来更高的散热需求。例如,CoolIT正在开发更高效的冷板和冷却模块;Omni Services正在开发更大直径的软管,以满足高密度机架的冷却需求。 对Blackwell GPU的支持:CoolIT和Omni Services对Nvidia的Blackwell GPU充满信心,并表示他们能够提供满足其散热需求的液冷解决方案。CoolIT已经成功地为功耗超过300 kW的机架提供液冷方案,并且认为500 kW的机架也不是问题。 常见错误和误区:一些企业在部署液冷系统时会犯一些错误,例如将不同厂商的产品混合使用,导致冷却液污染或系统故障。Omni Services建议企业采用统一的解决方案,并选择可靠的供应商。
核心观点:
液冷散热技术对于HPC和AI的发展至关重要。 CoolIT和Omni Services致力于提供高质量、可靠的液冷解决方案,以满足不断增长的市场需求。 供应链、连接完整性和标准化是液冷行业面临的关键挑战。 液冷行业需要持续创新,以应对未来更高的散热需求。
Seguente、Nvidia与Dell-液冷技术与数据中心架构的未来发展趋势
受访人:
Luca Amalfi,CEO和创始人,Seguente Dion Harris,加速数据中心上市总监,Nvidia Tim Shed,工程技术专家,Dell Technologies
主题内容:
数据中心从风冷到液冷的过渡:随着AI和HPC工作负载的增长,芯片功耗不断提升,传统的基于空气的冷却系统已无法满足需求,数据中心正逐渐从风冷过渡到液冷。 早期数据中心采用基于房间、机架和服务器内部不同规模的风冷方案。为了降低能耗,出现了后门热交换器方案,服务器内部仍采用强制风冷,但热量在进入数据中心通道前就被后门热交换器捕获。为了应对芯片功耗的持续增长,直接液冷技术应运而生,将冷却液直接流过CPU和GPU上的冷板进行散热。 直接液冷技术的优势和挑战:直接液冷技术可以更有效地带走芯片产生的热量,支持更高的计算密度和更低的能耗,但也面临着泄漏风险和部署成本等挑战。直接液冷技术可以实现更高的计算密度,每个机架可以容纳更多计算单元,从而提高数据中心的整体计算能力。直接液冷技术可以降低数据中心的能耗,因为液体的导热效率比空气更高,可以更有效地带走芯片产生的热量,减少对空调系统的依赖。然而,直接液冷技术存在泄漏风险,如果冷却液泄漏到电子元件上,可能会造成损坏。为了解决泄漏问题,需要提高冷却系统的质量控制,并采用泄漏检测技术以及机架和服务器隔离措施,以最大程度地减少潜在的损失。 不同液冷方案的比较:目前市场上存在多种液冷方案,包括单相水冷、温水冷、双相浸没式冷却、相变冷却等,每种方案都有其优缺点。单相水冷技术成熟,易于扩展,但随着芯片功耗的提升,需要使用更高温度的水来维持冷却效率。温水冷技术可以利用数据中心现有的水冷基础设施,并通过提高水温来进一步降低能耗。双相浸没式冷却技术将服务器浸泡在冷却液中,可以实现更高的散热效率,但存在部署和维护方面的挑战。相变冷却技术利用冷却液的相变过程来吸收热量,可以实现更高的散热效率和更低的能耗,但需要特殊的冷却液和系统设计。 Seguente的双相相变冷却技术:Seguente公司开发了一种名为Coldw的被动式双相相变冷却技术,该技术使用低沸点电介质冷却液,通过液相和气相之间的转换来吸收热量,并利用浮力驱动冷却液循环,无需水泵,可以最大程度地降低能耗。Coldw技术可以解决水冷系统泄漏的风险,因为电介质冷却液即使泄漏也不会对电子元件造成损害。Coldw技术可以与现有的水冷基础设施兼容,可以逐步部署到数据中心中。Coldw技术可以实现更高的散热效率和更低的能耗,可以支持更高功耗的芯片。 AI和HPC对数据中心架构的影响:AI和HPC的快速发展对数据中心架构提出了新的挑战,需要重新思考数据中心的供电、散热和网络设计。未来数据中心的单机架功耗预计将达到500千瓦甚至更高,需要更先进的散热技术。超大规模AI集群的规模将达到数十万甚至百万个节点,需要跨数据中心互联和高性能网络技术。可持续性将成为数据中心设计的重要考量因素,需要利用废热回收等技术来提高能源利用效率。
核心观点:
液冷技术是应对AI和HPC工作负载增长带来的散热挑战的关键技术。 数据中心正在经历从风冷到液冷的过渡,未来将出现多种液冷方案并存的局面。 双相相变冷却技术具有更高的散热效率和更低的能耗,有望成为未来液冷技术发展的重要方向。 AI和HPC的快速发展将推动数据中心架构的持续创新。
Solidigm-SSD在AI时代的关键角色与存储创新
受访人:
Obby Shetty,Solidigm
主题内容及内容总结:
Solidigm公司背景:Solidigm是SK hynix旗下独立的全资子公司,前身是Intel的存储部门。Solidigm拥有来自英特尔的创新DNA和架构,以及SK海力士的制造能力和晶圆厂技术,使其在存储生态系统中具有独特的优势。 Solidigm最新产品:Solidigm发布了全球最高密度的单一规格SSD,容量高达22.88TB。该产品采用PCIe Gen 4接口和192层3D NAND技术,包含48个NAND Sites,每个Site包含16个Die Stacks。 Solidigm的QLC技术:Solidigm是业界首家推出QLC解决方案的公司,其QLC SSD的性能可与TLC SSD相媲美。Solidigm通过优化固件和介质特性,不断提升QLC SSD的性能。 SSD在AI中的作用:SSD能够解决AI流程中的效率问题。与传统的HDD相比,SSD具有更高的密度、带宽和IOPS,可以满足AI工作负载对性能的需求。数据中心80%至85%仍在使用HDD,但HDD的密度瓶颈约为20到25TB,而Solidigm的SSD密度提升了4倍;SSD的带宽比HDD提升了10倍,延迟降低了5000倍以上;HDD的随机IOPS约为几千,而SSD可以达到百万级IOPS。 SSD对AI流程各阶段的优势: 数据摄取:高顺序带宽。 训练:处理大型数据集需要高容量的随机访问。 推理、检查点和归档:高密度SSD具有更好的TCO优势。 SSD的能耗优势:使用SSD替代HDD可以使数据中心的功耗降低30%,节省的能源可以用于GPU。 Solidigm的客户群体和合作伙伴生态系统:Solidigm的客户遍布全球,包括超大规模企业、一级到三级云服务商(CSP)、渠道合作伙伴和AI创新者。Solidigm与所有OEM厂商合作,并与Nvidia建立了强有力的合作关系。 边缘数据中心存储趋势:Solidigm认为边缘数据中心存在巨大的市场机遇,并致力于为客户提供密度最高的边缘存储解决方案。
核心观点:
SSD在AI时代扮演着至关重要的角色,可以帮助企业提升AI流程的效率和性能。
Supermicro、WEKA与Nvidia-基于Grace的存储解决方案引领AI和HPC数据中心革新
受访人:
Patrick Chiu,Supermicro Nilesh Patel,WEKA,首席产品官 Ian Finder,Nvidia,产品管理总监
主题内容:
基于Nvidia Grace的存储解决方案:WEKA、Nvidia和Supermicro合作推出了业界首个基于Grace的存储解决方案,旨在解决数据中心功耗增长和推理成本问题。 该解决方案利用了Grace CPU的高性能和高内存带宽,以及Supermicro的硬件设计和WEKA的软件堆栈,以提供平衡、确定性和高性能的存储平台。Grace CPU每个插槽拥有512 GB/秒的内存带宽,整个存储设备的总内存带宽达到1 TB/秒,超过了大多数基于DDR的计算服务器。Grace采用单片芯片设计,72个内核位于单个芯片上,每个内核之间的距离可预测,因此可以更好地处理不规则和不可预测的工作负载。WEKA的软件针对Grace进行了优化,可以提供一致的性能和低延迟,即使是在处理混合工作负载时也是如此。Supermicro的硬件设计在1U机箱中集成了16个EDSFFE3.S驱动器,可提供近1 PB的存储容量。该解决方案比其他解决方案的功耗密度高4到10倍。 可持续性和成本效益:该存储解决方案通过降低功耗来提高可持续性,并通过提高性能和效率来降低成本。WEKA数据平台上的数据存储可将碳足迹减少260吨。该解决方案提供了更高的“性能-功耗-成本比”(Token/瓦特/美元)指标,这是企业AI领域新兴的关键绩效指标。 快速创新和合作:该解决方案从概念到原型只用了四个月时间,这证明了三家公司之间的密切合作和快速创新能力。WEKA的软件能够快速移植到Arm架构上,这证明了其软件定义存储的灵活性。Supermicro能够快速设计和构建硬件平台,以满足新的存储解决方案的需求。Nvidia的Grace CPU提供了高性能和低功耗,是该解决方案的核心组件。 未来发展:该解决方案的发布只是一个开始,三家公司计划继续合作,进一步提高性能、效率和可持续性。WEKA计划通过软件优化和新功能来增强其软件堆栈。Supermicro计划开发更多基于Grace的存储和计算产品。Nvidia将继续推动Grace CPU的性能和功能发展。
核心观点:
基于Grace的存储解决方案是AI和HPC数据中心的革新,它提供了无与伦比的性能、效率和可持续性。 合作和快速创新对于满足不断增长的AI工作负载需求至关重要。
WEKA、Run:AI与Nvidia-AI从模型训练到生产部署的转变及行业影响
受访人:
Ronen Dar,Run:AI 首席执行官。 Shimon Ben-David,WEKA 首席技术官。 Dion Harris,Nvidia AI 软件产品营销总监。
主题内容:
WEKA WARRP发布:WEKA发布名为WARRP的AI参考架构,旨在简化RAG推理的实施。该架构使用了Run:AI和Nvidia的技术栈,包括GPU、软件框架Nemo和NeMo Retriever。 RAG的解释与应用:RAG允许用户通过整合专有数据或特定数据来自定义基础模型。Nvidia通过提供指南、蓝图、模板和API来支持RAG的采用。 AI推理市场的现状与挑战:AI推理市场类似于几年前的AI训练市场,缺乏最佳实践。参考架构和蓝图有助于推动行业发展。AI越来越受到企业和组织的关注,应用范围从科学领域扩展到更广泛的领域。 AI应用的普及化:AI的应用门槛降低,用户无需深入了解模型训练和配置即可使用AI。Nvidia推出基于API的模型和Nvidia Inference Microservices(NIMs),以简化AI模型的部署和应用。 AI从模型训练到生产部署的转变:AI的重点从模型训练转向生产部署,以实现实时影响。企业需要考虑利用率、生产力和Kubernetes的可扩展性等因素。 GPU利用率和成本效益:GPU利用率对于降低AI模型服务成本至关重要。提高GPU利用率可以降低LLM的服务成本。 WARRP架构的效率提升:WEKA WARRP架构通过优化各个层级,包括使用Run:AI自动扩展链服务器,提高了GPU效率,并优化了token经济效益。 AI对软件行业的影响:AI正在改变软件行业,开发者使用AI工具(如Copilot和Coer)进行编程。 AI在气候变化和生命科学中的应用:AI被用于气候和天气预报、电网管理优化、可再生能源研究、基因组测序、数字病理学、癌症研究和药物研究等领域。 未来展望:Nvidia希望Blackwell架构能够在推理用例中发挥重要作用。WEKA希望看到更多AI应用改变世界。Run:AI希望AI能够在企业中得到更广泛的应用,并帮助企业克服AI应用的障碍。
核心观点:
AI正在经历从模型训练到生产部署的转变,需要简化AI部署流程并提高效率。 GPU利用率和成本效益是企业采用AI的关键考虑因素。 AI的应用范围不断扩大,将对各行各业产生深远影响,包括科学研究、软件开发和企业运营。 合作对于推动AI发展至关重要,WEKA、Run:AI和Nvidia等公司正在合作简化AI应用,并使其更易于访问。
WEKA-AI从训练到推理的转变及超大规模计算的挑战与机遇
受访人:
Jonathan Martin,WEKA公司。 Shimon Ben-David,WEKA公司。
主题内容:
从AI训练到AI推理的转变:2024年是AI爆炸性增长的一年,重点是大规模模型训练和GPU云的构建。随着2025年的临近,企业正在从探索转向实施,并将重点从训练转向推理,以利用专有企业数据集的潜力来推动投资回报率。 第二波AI的关键要素:第二波AI的特点是进入门槛较低,企业可以利用预先训练好的模型进行微调和增强,并将AI应用于实际场景。企业正在探索如何构建自己的推理环境或使用云推理服务。 RAG的挑战:RAG虽然被认为是一种很有前途的技术,但其部署成本和复杂性仍然很高。企业需要找到简化RAG部署的方法,并利用新的框架和工具来构建生产就绪的RAG管道。 超大规模计算的必要性:随着数据量的指数级增长,超大规模计算对于处理和分析这些数据变得至关重要。WEKA已经看到客户对超大规模存储的需求激增,一些客户的存储容量已达到10EB。 功率密度和性能密度:随着数据中心规模的扩大,功率密度和性能密度成为关键指标。企业需要优化其基础设施,以最大限度地提高性能,同时最大限度地降低功耗。 应对超大规模环境的技术挑战:超大规模计算带来了硬件和逻辑方面的挑战。硬件方面,需要管理大量的机架、服务器、网络设备和冷却系统;逻辑方面,需要扩展数据环境以适应超大规模容量和对象数量。 未来规模的规划:WEKA致力于构建可扩展的存储解决方案,以满足未来几年不断增长的数据需求。他们通过采用基于计算的数据结构和算法、支持多数据中心扩展以及提供云原生功能来实现这一点。 投资回报率和可持续性:企业需要关注AI的投资回报率,并考虑AI系统的功耗和环境影响。WEKA通过使用商用硬件、优化软件设计和支持云部署来降低功耗。 AI原生企业:未来将出现两种类型的公司:AI原生公司和非AI原生公司。AI原生公司将拥有强大的数据管道,并利用AI来推动业务发展。 可持续的AI:AI的发展需要考虑可持续性问题。WEKA通过优化其存储解决方案的功耗,并与Al Gore的Generation基金合作,致力于推动可持续的AI发展。
核心观点:
AI正在从训练转向推理,企业需要优化其基础设施以支持这一转变。 超大规模计算对于处理不断增长的数据量至关重要,但也带来了硬件和逻辑方面的挑战。 企业需要关注AI的投资回报率和可持续性,并寻求能够提供高性能、可扩展性和低功耗的解决方案。
参考资料:SiliconANGLE theCUBE. (2024, November 21). SC24 | Atlanta, GA. YouTube. Retrieved from https://www.youtube.com/playlist?list=PLenh213llmcaXIodD2IlNFz6spbu4As4w
---【本文完】---
突破“延迟墙”:大规模模型训练中的数据移动瓶颈 CXL技术深度剖析:机遇、挑战与市场展望 GPU互连新标准:UALink联盟能否打破NVIDIA垄断? Google Cloud:面向AI/ML工作负载的存储设计
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)