关于GPU在生成式AI领域的五大误解
Source: Top 5 Misconceptions About GPUs for AI, 2022/4/10
【ANDY】厂商文章有倾向性。
生成式AI已经以前所未见的方式俘获了我们的想象力。从预测性维护、患者诊断、增强型客户支持等各种场景,生成式AI技术似乎无所不能。生成式AI的许多创新都依赖于GPU提供的加速计算能力。GPU可以并行执行矩阵运算,使生成式AI背后的大型语言模型能够同时处理海量数据,从而显著加快了训练速度。这种增强的计算能力使研究人员能够高效地训练拥有数百万或数十亿参数的复杂语言模型。
然而,尽管GPU对生成式AI和整个数据科学领域产生了深远的影响,但人们往往倾向于简化问题,并假定GPU是使AI项目成功的唯一关键,而且没有任何潜在问题。这种盲目的信仰已经导致一些意想不到的问题,推迟了数据科学项目的实施,甚至导致了项目的失败。下面是在构建AI项目时需要避免的五个关于GPU的误解。
一、我的GPU正在提供最快的结果
在GPU之前,每个时间步骤中大约有70%的时间被用于数据复制,以完成数据流程的各个阶段,这耗费了大量时间。
GPU可以实现大规模的并行计算,每个核心专注于高效计算,从而显著降低了基础设施成本,并为端到端的数据科学工作流程提供卓越性能。12个当前的NVIDIA GPU可以提供相当于2000个现代CPU的深度学习性能。而将8个额外的GPU添加到同一服务器上,可以提供多达55000个额外的核心。尽管GPU加速了计算过程,研究表明它们可能会花费一半的时间等待数据,这意味着最终需要等待结果。其提供的计算能力增加需要更强大的网络和存储支持。
用于持久性存储的NAS,用于快速存储的本地文件系统或并行文件系统,以及用于归档数据的对象存储。这使得保持GPU充分利用以实现更短的时代时间和更快的洞察变得具有挑战性。
我们的数据平台为当今的企业级技术计算工作负载以及在本地、云端或不同平台之间迁移的其它高性能应用所带来的存储挑战提供了解决方案。零拷贝架构在相同的存储后端上运行整个数据流程,并消除了复制操作的成本和延迟。可以加速GPU驱动的数据流程的每个步骤——从数据摄取、清洗、建模、训练验证到推理——以加速业务成果的实现。
二、带宽为王,向带宽致敬
虽然很容易将带宽视为需要关注以优化GPU使用的“唯一”度量标准,但带宽并不准确反映AI工作负载的完整特性。要优化的数据流程,需要考虑更多内容,而不仅仅是将大量数据传送到GPU - IOPs和元数据同样重要。
数据流程的每个步骤通常具有完全不同的数据外观特征。当需要处理不同的IO需求以满足整个数据流程中的数据时,这可能会导致传统存储出现问题,因为传统存储通常调整为解决某一种数据类型或带宽性能特性,从而创建存储隔离和管理问题。根据工作负载的不同,需要性能特性,除了带宽外,还提供IOPS、延迟和/或元数据操作。某些步骤需要低延迟和随机小IO。其它步骤需要大规模的流媒体带宽。还有一些需要同时进行两者的并发混合,因为过程中存在子步骤。在大多数环境中,多个数据流程将同时运行,但在不同的阶段,这加大了同时处理不同IO配置文件的需求,我们提供了一个数据平台,轻松处理高带宽和高IOP条件。
这在各个方面都提供了卓越的性能,因此可以将多个存储平台合并为一个,从而消除了在不同平台之间复制数据的时间浪费。在每个阶段,我们的平台都能比任何其他平台运行得更快。我们通过所有可用的协议向每个应用程序公开相同的数据集,并最终消除了许多用于调整的“技术细节”,提供了简化的高性能存储体验。
三、GPU驱动的AI工作负载在处理小文件时始终面临挑战
训练支持大多数生成式AI应用程序的大型语言模型,涉及大量小文件,从数百万小图片到用于分析的每个IoT设备的日志等各种数据。一旦进入数据流程,ETL类型的工作会规范化数据,然后使用随机梯度下降来训练模型。这带来了一个大规模的元数据和随机读取问题,特别是在AI深度学习流程的第一部分,其中有许多小IO请求,而许多存储平台无法有效处理。
然而,我们的架构提供了解决这一问题的方法。通过将所有数据请求与NVMe设备的本机边界对齐,不仅能够高效处理小IO,还可以通过整合所有小IO来提供大带宽。此外,它会自动扩展集群内的虚拟元数据服务器,以确保随着集群规模的扩大,能够处理越来越多的元数据操作。结果显而易见:一位进行深度学习的客户平均每秒处理420万个IOPs和250GB/s的数据,其中大部分数据的起始文件大小为10KB。
四、存储?GPU的重点在于计算能力
AI工作负载对性能、可用性和灵活性有着特殊的需求,这些需求传统存储平台难以满足。选择用于AI工作负载的存储解决方案将对满足业务需求产生显著影响。成功的AI项目在计算和存储需求方面往往迅速增长,因此需要仔细考虑存储选择的影响。
然而,大多数AI基础设施的关注和投入都集中在GPU和网络上,它们可以占用项目预算的高达90%。
这导致了只有很小一部分剩余预算用于购置存储设备。对于AI存储来说,性能在大规模上同样重要,不仅仅是满足传统的要求,如可用性、灵活性和易用性。通常,用户只有在安装后才会意识到他们的存储容量明显不足,无法满足不断增长的训练数据集的需求,从而陷入了一个远远不如预期的环境。
我们的数据平台提供了从TB到数十EB的线性扩展,重新定义了云时代的可伸缩性。通过统一的命名空间规模,客户可以在AI工作负载需求不断增长时,在各个方面实现扩展,而无需担心性能的影响。通过智能分层,它能够自动扩展文件和对象,以提高性能,并扩展NVMe层,以提高容量。
五、本地存储才是GPU最快的存储方式
随着AI数据集的不断增大,数据加载时间开始影响工作负载的性能。以前,确保GPU能够迅速获取所需数据的最佳方法是从本地NVMe存储中检索数据。这可以避免由于从存储阵列和通过网络传输数据而导致的瓶颈和延迟。网络和运行在其上的协议栈会增加额外的开销,无法满足当今现代系统对数据传输性能的要求。然而,GPU的速度已经提高到了一个程度,以至于服务器主机无法以足够快的速度提供数据。GPU正日益受到慢速IO的制约。
我们能够提供比本地存储更快的IO,从而实现最快的推理速度和最高的图像处理速度。本地存储受到本地服务器资源的限制,例如可用于提供IO的PCIe通道和队列数量。存储系统汇集了多台服务器的资源,以满足每个GPU的需求。通过启用对所有服务器的智能并行访问,以避免可能会减缓访问速度的临时IO停滞,实现了负载均衡的请求分配。新的并行数据平面和控制平面协议解决了传统网络数据访问的问题,确保将数据最快地提供给GPU的方法是使用该数据平台。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解