Source: Chris Evans, Buyer's Handbook: Evaluate your machine learning and AI data storage requirements, 09 Sep 2019四、面向 AI 工具的领先存储可满足工作负载容量和性能问题引言
组织正在使用机器学习和 AI 来获取可用于改进业务方式的洞察。但这些工作负载与常规工作负载不同,因为它们需要大量数据来构建和训练统计模型。所有这些数据也必须进行处理和存储:活动数据必须移动到高性能平台进行处理,而其它数据通常会迁移到归档存储中。为了满足这些要求,一些存储供应商提供融合基础架构产品或组织可以构建到其机器学习和 AI 项目中的产品。这些工具将存储、网络和计算或横向扩展文件存储与 GPU 打包在一起。其它供应商与合作伙伴合作,将其产品作为预打包设备交付。为了帮助确定最能满足组织的 AI 工作负载需求的存储产品,了解哪些特性和功能最重要非常重要。根据组织执行机器学习和 AI 任务的方式评估功能。关键考虑因素包括可扩展性、高性能功能和总体成本。本买家指南介绍了九家业界领先的存储供应商和较新的初创公司的产品。全面的产品综述比较了众多特性和功能,包括容量、性能和支持的文件大小。一、机器学习和 AI 工作负载的存储策略
企业越来越多地使用数据资产来提升竞争力并增加收入。该策略的一部分是使用机器学习和 AI 工具和技术。但 AI 工作负载的数据存储和计算需求与通用工作负载有很大不同。AI 和机器学习工作负载需要大量数据来构建和训练模型并保持其运行。当涉及到这些工作负载的存储时,高性能和长期数据存储是最重要的问题。组织可以使用现有数据源来构建和训练 AI 模型,这些模型可以创建洞察以改进业务流程、更准确地定位客户或开发更好的产品。机器学习/AI 处理通常遵循两个步骤。首先,组织使用数据来构建和定义机器学习/AI 模型,这些模型本质上是某些业务流程将使用的算法。训练步骤要求机器学习算法在开发机器学习/AI 模型时重复处理大量数据。组织创建模型后,将针对数据源部署该模型,以生成一组为业务创造价值的新结果。但是,这并不是该过程的结束。机器学习/AI 模型设计使用迭代过程,其中随着新数据的添加而开发、评估和重建模型,并优化模型。这个闭环不断重复。在检查 AI 工作负载的存储要求时,请务必注意,AI 已经在存储平台本身中广泛使用。应用程序 I/O 配置文件并非完全随机,即使考虑到虚拟化 I/O 混合场景的影响也是如此。这种缺乏可预测性使供应商能够训练其存储系统以提高平台的整体性能。大多数现代自我调整功能都是为了满足组织在单个设备中管理多层存储的需要而开发的。Dell EMC 的全自动存储分层 (FAST,Fully Automated Storage Tiering) 等产品将非活动数据移动到成本较低的存储,同时动态地将活动数据提升到更快的介质。如今,这一要求与全闪存系统不太相关,但随着分层闪存在企业中的广泛使用,这一要求将变得更加重要。使用来自现场的数据来提高平台可靠性可能是 AI 改善存储的最有趣的用途。像HPE和Pure Storage这样的供应商收集的系统信息可以检测和解决性能异常并发现潜在的错误。这种群体方法的智慧意味着双控平台(如Nimble Storage)的正常运行时间可以增加到六个九(99.9999%)或更多。制定 AI 存储战略
随着组织制定存储策略以利用机器学习和 AI,他们面临着两个主要挑战:1.长期存储和保留数据。在机器学习/ AI 开发之初,可能不清楚哪些数据是有用的,哪些数据可以丢弃。对象存储或公有云等长期存档可以将数据保留在索引良好的平台中,这些平台充当数据湖。2.高性能方案。在某些时候,组织必须将活动数据移动到高性能平台进行处理。供应商已经发布了将其最快的存储系统与机器学习硬件相结合的产品,例如Nvidia的DGX-1和DGX-2 GPU。构建正确的平台可能会产生大量成本,并且需要特定的技能来确保 GPU 等机器学习硬件不断提供数据。这可以使AI产品的打包存储更具吸引力,因为它们提供了可衡量的性能水平。因此,供应商针对 AI 工作负载所需的功能(而不是通用工作负载)调整和优化其存储产品。满足 AI 工作负载要求的存储
机器学习和 AI 工作负载具有非常具体的存储要求。其中包括:- 可扩展性。机器学习要求组织处理大量数据。但是,处理成倍增加的数据量只会导致AI模型的线性改进。这意味着为了提高机器学习/ AI 模型的准确性,企业每天必须收集和存储越来越多的数据。
- 可访问性。数据必须持续可访问。机器学习/AI 训练要求存储系统读取和重读整个数据集,通常以随机方式。这意味着无法使用仅提供顺序存取方法的归档系统(如磁带)。
- 延迟。I/O 的延迟对于构建和使用机器学习/AI 模型非常重要,因为数据会被多次读取和重读。减少 I/O 延迟可以将机器学习/AI 的训练时间减少数天或数月。更快的模型开发直接转化为更大的业务优势。
- 带宽。当然,存储系统的带宽对于高效的机器学习/ AI 训练也至关重要。训练过程使用大量数据,通常以每小时 TB 为单位。对于许多存储系统来说,提供这种级别的随机访问数据可能具有挑战性。
- 并行访问。为了实现高带宽,机器学习/AI 训练模型会将活动拆分为多个并行任务。这通常意味着机器学习算法同时从多个进程(可能在多个物理服务器上)访问相同的文件。存储系统必须能够在不影响性能的情况下应对并发需求。
当然,这些要求是非常具体的,并且侧重于高性能。通常,机器学习/AI 使用非结构化数据(对象或文件),这些数据决定了组织可以使用的存储系统类型。不同存储技术的优缺点
如果可以选择,处理任何数据集的最快方法是将其内容存储在内存中,因为动态RAM(DRAM)以纳秒级的速度运行。但是,服务器平台的内存容量有限。例如,即使是最大 6TB DRAM 的单个服务器也太小,无法处理机器学习/AI 工作负载。这意味着机器学习算法需要以某种形式访问持久存储。这就是事情变得具有挑战性的地方。不可避免地,不同的存储产品有优点和缺点。- 基于块的存储历来为 I/O 提供最低的延迟,但它无法为多 PB 部署提供可扩展性。成本也是高性能砌块产品的一个因素。一些供应商正在实现结合块和可扩展文件系统的混合选项,我们将在后面讨论。
- 基于文件的存储为非结构化数据提供了可扩展性和正确的访问方法。但从历史上看,基于文件的产品并没有提供最高级别的性能。
- 对象存储通过 HTTP(S) 提供最高级别的可扩展性和更简化的访问协议。对象存储擅长管理多个并发 I/O 请求,但它们通常无法提供最佳带宽或最低延迟。这是因为大多数对象存储系统都基于旋转介质来降低成本。
考虑到各种权衡,一些机器学习/ AI 实现将使用混合的平台类型,例如,将大部分数据存储在对象存储上,然后将活动数据集移动到高性能文件系统作为训练过程的一部分。但如果可能的话,应该避免这种情况,因为它会在数据移动时引入额外的处理延迟。组织如何部署机器学习/AI
组织目前处理哪些类型的机器学习/AI 工作负载?显然,拥有大量输入数据的组织处于优势地位。可能最常被引用的应用是自动驾驶汽车。自动驾驶汽车每天可以收集数TB的数据。这代表了即使是一小群测试车辆的大量数据。航空业正在广泛使用 AI ,从收集飞行中飞机的统计数据到高效的行李处理和面部识别。以消费者为中心的产品也在开发中,允许客户通过Alexa等智能设备提出常见问题。智慧城市正在收集从交通模式到能源使用的所有内容,努力为每个人创造更好、更安全的城市环境。机器学习/ AI 市场概述
许多供应商都在销售用于机器学习和 AI 工作负载的独立和预打包存储产品。Pure Storage、Dell EMC、IBM 和 NetApp Inc. 均提供融合基础架构类型的产品,将存储、网络和计算与 Nvidia Corp. DGX GPU 打包到单个机架中。DataDirect Network的产品将文件存储与Nvidia DGX-1 GPU打包在一起。WekaIO和Excelero提供基于软件的产品,将服务器集群转变为AI的高性能存储。WekaIO的产品是基于文件的,而Excelero的系统提供块存储,组织可以将其与横向扩展文件系统结合使用。然后,用户可以将这些产品构建到自己设计的AI系统中。VAST Data 开发了一种高性能且高度可扩展的存储产品,可用于保存数 PB 的机器学习/AI 数据,作为机器学习训练模型的来源。二、选择合适的 AI 数据存储的 6 个标准
AI 和机器学习将成为帮助企业利用其核心数字资产创造竞争优势的两个最重要的工具。但在购买AI数据存储之前,组织必须根据机器学习平台如何获取,处理和保留数据来考虑一系列要求。让我们首先检查机器学习软件使用的数据的生命周期,因为这有助于企业了解在为 AI 选择存储时要考虑的事项。最初,组织必须获取数据来训练机器学习或 AI 算法。这些是处理数据以学习任务的软件工具,例如识别对象、处理视频和跟踪运动。数据可以从各种来源生成,并且本质上通常是非结构化的,例如对象和文件。训练过程采用数据资产,并使用机器学习或 AI 软件创建用于处理未来数据源的算法。在训练或开发算法时,AI 软件将处理源数据以开发一个模型,该模型可以创建洞察力或使企业需要利用的好处。开发机器学习算法很少作为单个过程完成。随着企业积累新数据,算法也随之完善和改进。这意味着很少的数据被丢弃,相反,它会随着时间的推移而增长并重新处理。购买AI数据存储的标准
在组织为 AI 平台选择存储之前,必须首先考虑以下几点:AI 数据存储的价格是企业的关键因素。显然,最高管理层和参与购买决策的人员希望存储尽可能经济高效,在许多情况下,这将影响组织的产品选择和战略。我已经强调了收集、存储和处理大量数据以创建机器学习或 AI 模型的必要性。机器学习算法需要源数据的指数级增长,才能实现准确性的线性改进。创建可靠且准确的机器学习模型可能需要数百 TB 甚至 PB 的数据,而且这些数据只会随着时间的推移而增加。构建 PB 级存储系统通常意味着使用对象存储或横向扩展文件系统。现代对象存储当然可以满足 AI 工作负载的容量要求,但它们可能无法跟上其它标准,例如高性能。横向扩展文件系统可以提供高性能和良好的可扩展性,但将整个数据集存储在单个平台上可能很昂贵。块存储通常不是机器学习或 AI 的正确选择,因为可扩展性要求和高容量产品的成本。这里唯一的例外是在公有云中,稍后将对此进行讨论。存储成本的变化引入了分层或使用多种类型的存储来存储数据的想法。例如,对象存储是存储大量非活动 AI 数据的良好目标。当需要处理数据时,可以将其移动到高性能文件存储集群或对象存储中专为高性能而设计的节点,并且可以在处理完成后将数据移回。
AI 数据的存储性能有三个方面。首先,也可能是最重要的,是延迟。这定义了软件发出的每个 I/O 请求的处理速度。低延迟很重要,因为改善延迟会直接影响创建机器学习或 AI 模型所需的时间。复杂的模型开发可能需要数周或数月才能运行。通过缩短此开发周期,组织可以更快地创建和优化模型。在检查延迟功能时,由于对象访问的流式处理性质,对象将参考时间存储到第一个字节,而不是单个 I/O 请求的延迟。性能的另一个方面是带宽以及将数据写入或从存储平台读取的速度。系统带宽很重要,因为 AI 训练处理庞大的数据集,经常重复读取和重读相同的数据以准确开发模型。机器学习和 AI 数据的来源,例如自动驾驶汽车上的传感器,每天可以生成数TB的新数据。所有这些信息都必须添加到现有数据存储中,并且对任何现有处理的影响最小。性能的最后一个方面是并行访问。机器学习和 AI 算法并行处理数据,运行多个任务,这些任务可以跨多个并行任务多次读取相同的数据。对象存储擅长并行读取 I/O 处理,因为没有要管理的对象锁定或属性。文件服务器跟踪内存中打开的 I/O 请求或文件句柄。因此,活动 I/O 请求的数量取决于平台上可用的内存。机器学习数据可以包含大量小文件。这是文件服务器可以提供比对象存储更好的性能的领域。要问AI存储供应商的一个关键问题是,他们的产品的性能特征将如何随着大型和小型文件类型的变化而变化。
机器学习和 AI 学习模型可以连续运行很长时间。通过训练开发算法可能需要几天或几周的时间。在此期间,存储系统必须处于正常运行状态并持续可用。这意味着系统的任何升级、技术更换或扩展都需要在不停机的情况下进行。在大型系统中,组件故障是正常的,必须这样处理。这意味着任何用于AI工作的平台都应该能够从设备(例如HDD或SSD)以及节点或服务器故障中恢复。对象存储使用纠删码在多个节点上广泛分布数据,并将组件故障的影响降至最低。有一些纠删码技术可以横向扩展文件系统,以提供同等级别的弹性。纠删码方案的效率很重要,因为它直接关系到读写 I/O 的性能,尤其是对于小文件。由于大多数大型对象存储太大而无法定期备份,因此可靠的纠删码成为 AI 存储平台的基本功能。开发机器学习和 AI 算法需要高性能存储和高性能计算。许多 AI 系统都基于GPU,例如Nvidia DGX,可以卸载开发精确算法所涉及的许多复杂数学计算。公有云服务提供商已开始提供可用于机器学习的 GPU 加速虚拟实例。在公有云中运行机器学习工具可降低为机器学习开发构建基础架构的资本成本,同时提供扩展开发机器学习模型所需的基础架构的能力。使用公有云计算的挑战是如何以经济高效且实用的方式将数据导入公有云。基于云的对象存储速度太慢,无法跟上机器学习的 I/O 需求;因此,必须使用本地块存储。移动数据的每一分钟延迟都意味着运行基础结构的成本,以及执行机器学习的延迟。公有云的另一个问题是数据出口的成本。尽管云服务提供商不收取将数据移入其平台的费用,但他们确实对从其平台之外的公共网络访问的任何数据收费。因此,尽管公有云在计算方面提供了灵活性,但及时且经济高效地将数据传入和传出云并不总是那么简单。供应商正在开发在公有云中运行其产品的存储产品,跨越本地和云。这些产品可以有效地复制数据或将数据移动到云中,并且仅在完成后将结果移回。这些复制技术具有带宽效率,因此可以在本地存储数据并导入到云中进行分析工作。
在本文中,我们研究了机器学习和 AI 与计算隔离的存储方面。构建 AI 数据存储可能很困难,因为存储网络和调整存储以与机器学习应用程序配合使用时必须考虑其它因素。正如我所写的融合基础架构,产品的预包装使供应商能够在将产品交付给客户之前对其进行测试和优化。如今,有些存储产品结合了流行的 AI 软件、通用 CPU 和 GPU 等计算、网络和存储,以提供 AI 就绪平台。大部分详细的调优工作是在部署这些系统之前完成的。虽然成本可能是一个问题,但对于许多客户来说,预打包系统可以减少采用AI存储的障碍。显然,选择合适的AI数据存储平台是性能,可扩展性和成本等指标的平衡。正确使用存储平台至关重要,因为所涉及的数据量非常大。选择错误的产品可能是一个代价高昂的错误。与任何存储产品决策一样,与供应商交谈以准确了解他们的产品如何满足 AI 和机器学习的需求非常重要。此参与过程应包括演示和评估,作为任何可能的购买决策的前奏。三、AI存储平台满足机器学习、数据分析需求
组织在购买 AI 存储平台时可以遵循许多途径。但一个重要的目标应该是找到一种产品,使公司能够更有效地收集数据并执行机器学习和 AI 任务。评估和选择AI数据存储产品所涉及的一些关键问题包括:- 存储平台必须提供高性能和可扩展性,并有效地管理成本。
- 打造优秀的人工智能模型意味着需要整合TB/PB级的数据,这可能代价高昂。组织必须意识到管理机器学习和人工智能平台的总体成本。
在深度学习中,机器学习算法可以在无监督的情况下运行,I/O 配置文件会导致高度随机访问,因为连续的深度学习算法层处理多个级别的数据分析。机器学习和 AI 训练通常以批处理模式运行,数据科学家在其中创建机器学习 AI 模型,针对数据对其进行测试,并随着时间的推移优化模型。这种方法需要低延迟以确保快速执行,因为更短的模型测试时间意味着更多的迭代和更好的模型。因此,组织选择的特定存储产品应基于其所做的工作类型以及所需的机器学习和 AI 训练。无论哪种情况,存储的成本性能比都会带来一些折衷。多层方法
在购买任何存储产品时,成本与性能都是一个关键的考虑因素。如果有选择,大多数公司将购买最快的存储。然而,性能是有代价的,通常,高性能系统不会扩展到数 PB 的范围。假设随时分析的工作数据集将是整个数据资产的子集,很容易看出存储分层是设计机器学习和 AI 数据存储的必要部分。分层在机器学习和 AI 的背景下究竟意味着什么?传统的分层产品从固定存储池演变为复杂的系统,根据使用频率和可用池容量优化单个存储块的放置。但是这种方法不适用于机器学习和 AI 要求,因为数据处理的方式。自动化分层产品假定数据经过一个对业务至关重要的生命周期。新数据非常重要,将经常访问。随着时间的推移,数据的价值会降低,可以将其移动到成本较低、性能较低的存储中。用于机器学习和 AI 分析的数据是不同的。整个数据集变为活动状态并用于分析,任何时候都需要全部数据。这意味着使用中的数据必须位于具有一致性能的存储层上,因为访问中的任何可变性都会影响模型训练等问题。机器学习和 AI 模型开发中数据处理的随机性意味着尝试随着时间的推移动态重新平衡数据的反应式存储平台算法将不起作用。这些算法假设一个小的、相对静态的工作集,随着时间的推移逐渐变化。在机器学习和 AI 中,数据访问配置文件将更加随机,因此很难预测要缓存哪些数据以及如何调整缓存或更快层的大小。双层存储模型
为机器学习和 AI 工作负载实现存储的一种明显方法是简单地使用两层模型。性能层提供尽可能多的性能和尽可能低的延迟,同时根据系统预期处理的最大数据集调整大小。高性能闪存价格昂贵,随着市场转向TLC/QLC等容量闪存产品,高性能端正在出现一个新的市场,三星Z-NAND和东芝XL-Flash等低延迟闪存产品。例如,VAST Data 同时使用QLC和英特尔傲腾技术,为非结构化数据提供高性能、可扩展的存储,同时支持 NFS 和 S3 API。这些第 0 层产品使用 NVMe 设备进行内部连接或跨存储网络进行连接。与传统的 SAS 和 SATA 相比,NVMe 优化了 I/O 堆栈或 I/O 协议。结果是更低的延迟和更高的带宽,但也提高了平台利用率,因为服务器处理器不会等待 I/O 完成那么长时间。Pure Storage AIRI、IBM Spectrum Storage for AI 和 NetApp All Flash FAS A800 等产品都在内部使用 NVMe 来获得尽可能高的媒体性能。Dell EMC 和 DataDirect Networks 使用其产品线中的横向扩展文件系统产品来支持机器学习和 AI 参考体系结构。容量层需要将所有 AI 模型数据安全地存储较长时间(通常是数月或数年)。因此,提供高度持久性的可扩展平台对于管理机器学习和 AI 所需的大量数据至关重要。对象存储市场已经发展到生产一系列高度可扩展和耐用的AI存储产品。究竟什么是耐用性?
在典型的存储系统中,使用架构保护数据,该架构将冗余构建到存储在磁盘上的数据中。如果单个组件发生故障,则额外的数据副本用于从丢失中恢复,并在更换故障组件后重建数据。尽管 RAID 5 及更高版本为驱动器故障提供保护,但还需要额外的系统来防止大规模灾难,例如数据中心中断。随着传统系统的扩展,持久性或数据丢失的缓解实施成本很高。纠删码将冗余构建到数据中,因此驱动器、服务器甚至整个数据中心的丢失不会导致数据丢失。纠删码数据的分散性意味着可以构建存储系统,以通过本地和地理数据保护扩展数 PB,而无需管理多个系统的费用和开销。对象存储为必须长期(通常为多年)保留的数据提供可扩展性和持久性。但是,为了获得成本效益,对象存储产品基于具有一定缓存功能的硬盘驱动器构建了廉价存储。这使得它们不太适合机器学习和 AI 数据的日常处理,但非常适合长期保留。地理分散的对象存储还允许从多个位置和源摄取和访问来自多个位置和源的数据。例如,如果数据处理混合使用本地和公有云基础架构,这可能很有价值。地理分散是Scality Ring平台的一项功能,该平台与HPE和WekaIO Inc.产品集成,以创建双层存储架构。混合存储架构
企业面临的挑战是如何实施包含高度可扩展和高性能存储的混合架构。对象存储系统使组织能够存储大多数数据,而某些产品使用性能节点将活动数据存储在具有高性能闪存的服务器上。此方法的优点是可以将容量或性能节点添加到产品中,以沿任一方向进行扩展。例如,Cloudian提供提供可扩展性或性能功能的硬件设备。基于高性能存储构建的系统必须设计为针对正在处理的整个数据集进行扩展。在这些场景中,数据将移入和移出高性能平台,因为随着时间的推移会处理多个 AI 数据集。存储架构必须能够提供将数据移入和移出 AI 产品存储所需的网络带宽,并满足 AI 平台的要求。Nvidia DGX-1和DGX-2平台等产品每秒可以消耗数十GB的数据。因此,为了跟上时代的步伐,AI 数据存储产品中的计算和存储之间的连接必须是低延迟 InfiniBand 或 100Gb 以太网。适用于 AI 产品的软件定义存储
为机器学习和 AI 构建存储并不一定意味着部署设备。新的高性能 AI 存储产品基本上是软件定义的存储 (SDS)。这些产品利用了新介质的性能,包括 NVMe,在某些情况下,还包括持久内存或存储类内存。SDS 产品的一个好处是它们适用于公有云,因为它们可以在公有云基础架构中动态实例化和扩展。当基础设施数量未知或仅在短时间内需要时,这种操作模式可能很有吸引力。WekaIO 提供其基于 Matrix 软件的横向扩展存储平台,该平台可以部署在具有 NVMe 驱动器的服务器上,也可以部署在具有支持 NVMe 的弹性计算云实例的 AWS 公有云中。Excelero NVMesh 是另一种 SDS 产品,它可以跨多个服务器和存储线性扩展性能,通常与 IBM Spectrum Scale 结合使用以创建横向扩展文件系统。数据可移动性
将容量和性能层合并到单个产品中需要手动或自动流程在性能和容量层之间移动数据,以及元数据,以便在数据移动时成功跟踪数据。一些 AI 存储产品可以直接与对象存储集成,从而简化此过程。公有云可以成为机器学习和 AI 开发的强大选择,因为在内部云服务之间移动的数据不会产生存储出口费用。例如,WekaIO Matrix可以在本地和外部复制数据,并将其存档到对象存储中。总结
想要为机器学习和 AI 工作负载实施本地存储的企业必须考虑容量和性能。对于性能层,他们可以从头开始构建,也可以部署打包的产品,有效地融合机器学习的基础结构。使用构建选项,企业可以部署本地设备或使用 SDS。SDS 使组织能够将存储作为单独的层实施,或构建超融合基础架构。如果数据将保留在本地,则组织可以使用设备或按照软件定义的路由使用对象存储部署容量层。转向公有云,IT组织可以使用本机服务,例如对象存储和块存储。文件存储产品在达到机器学习和 AI 应用程序所需的低延迟方面还有很长的路要走。相反,组织可能会使用块存储,特别是与SDS或AI存储产品结合使用,这些产品将文件服务层添加到本机块资源。四、面向 AI 工具的领先存储可满足工作负载容量和性能问题
面向 AI 供应商的存储提供融合基础架构产品或组织可以构建到其 AI 项目中的产品。包括DataDirect Networks,Dell EMC,HPE,IBM,NetApp和Pure Storage在内的多家供应商与服务器和网络合作伙伴一起提供打包产品或参考体系结构。这些产品可提高存储性能和容量,与 CPU 和 GPU 计算保持一致。其它供应商,包括Excelero,VAST Data和WekaIO,提供可扩展存储性能和容量的软件产品。客户执行与这些 AI 平台的集成工作。这三家供应商还与合作伙伴合作,将其产品作为预打包设备交付。在这里,我们将深入了解这九家供应商为AI产品提供的存储类型。DataDirect Networks
DataDirect Networks(DDN)有两个产品系列,即AI200和AI400存储型号,均由Nvidia和HPE服务器提供支持。Nvidia 参考架构由一个、四个或九个 DGX-1 设备或一个或三个 DGX-2 设备组成。系统使用 100Gb 以太网 (GbE) 或 InfiniBand 网络,两个设备提供存储。这两种型号是实现并行文件系统的全闪存 NVMe 设备。两种型号均支持多达 24 个双端口 2.5 英寸 NVMe 驱动器。DDN 引用了 AI200 型号的性能数据,用于读取和写入高达 25 GB 以及 750000 IOPS。对于 AI400 型号,供应商宣称为 33GB 读写和 150万 IOPS,最大容量为 360TB。HPE 系统使用 Apollo 6500 Gen10 服务器平台,该平台支持每台服务器多达 8 个 GPU 和 NVLink 2.0。支持的存储配置包括 AI200 和 AI400,以及可扩展到 5.4 PB 的 AI7990 混合存储产品,具有高达 750000 IOPS 和 23GB 读取和 16GB 写入性能。DDN 推荐两种基于 Apollo 的参考架构,使用一个 AI400 和一个或四个具有多个 GPU 配置的 6500 服务器。Dell EMC
Dell EMC提供基于Nvidia GPU、戴尔服务器或带有Hadoop的戴尔服务器的三种人工智能存储产品系列。Dell EMC-Nvidia产品采用PowerEdge R740xd主节点和四个PowerEdge C4140工作节点,每个节点配备四个Nvidia Tesla V100 GPU。Mellanox InfiniBand交换机提供网络连接,Isilon F800全闪存NAS提供存储。F800能够从单个机箱扩展,提供25万IOPS和 15GB 的吞吐量,最多可配置为252个节点集群,拥有1,575万IOPS和 945GB 的容量,58 PB的存储能力。不带GPU的戴尔服务器部署一个PowerEdge R740xd头节点和16个PowerEdge C6420节点,每个节点都有两个至强金牌6230处理器、192 GB动态RAM和250 GB本地M.2存储。Isilon H600 混合存储提供共享存储。H600 系统为每个机箱提供高达 120000 IOPS 和 12GB 的带宽。Dell EMC的Hadoop AI 产品部署了一个PowerEdge R640头节点和两个通过戴尔25 GbE网络连接的PowerEdge R640工作节点。工作器节点使用本地 SSD 存储。Hadoop基础架构由多达10台PowerEdge R740xd服务器构建而成,这些服务器提供共享存储。Excelero
Excelero 是一家初创公司供应商,它开发了横向扩展块存储以满足高性能和低延迟要求,例如机器学习和 AI。Excelero NVMesh软件使用称为远程直接驱动器访问或RDDA的专利协议。此协议类似于远程直接内存访问 (RDMA),使 NVMesh 群集中的节点或服务器能够与另一个节点中的 NVMe 驱动器通信,而无需涉及目标服务器的 CPU。这使得 NVMesh 能够作为专用存储产品或超融合配置提供高线性可扩展性。NVMesh 可以与 IBM Spectrum Scale 结合使用,为机器学习和 AI 提供横向扩展文件系统。Excelero不提供性能数据,但供应商与合作伙伴和经销商合作开发集成的硬件和软件产品。例如,英国波士顿有限公司的 Talyn 平台可以在 2U 全闪存设备中以不到 200 微秒 (μs) 的延迟提供高达 490 万 IOPS 和 23 GB 的带宽。HPE
HPE与 WekaIO 和 Scality 合作,提供满足容量和性能要求的分层产品。HPE 提供两种参考架构,分别基于 HPE Apollo 2000 服务器(适用于 WekaIO Matrix)和 Apollo 4200(适用于 Scality Ring)。它还提供了一个组合产品,在同一硬件上使用Apollo 4200用于矩阵和环。单个 Apollo 4200 Gen10 服务器支持高达 46 TB 的 NVMe 存储或 288 TB 的 HDD 容量。典型配置包括混合群集中至少六台 Apollo 4200 服务器,或分解群集中的六台 Apollo 4200 和六台 Apollo 2000 服务器。HPE 提供 AI 参考架构,该架构使用部署在具有 NVMe SSD 的 ProLiant DL360 Gen10 服务器上的 WekaIO 软件。网络通过 Mellanox 100Gb InfiniBand 交换机提供,而 Apollo 6500 Gen10 服务器提供多达八个 Nvidia Tesla V100 GPU。IBM
IBM 的 AI 参考架构是 Spectrum Storage for AI。该产品使用 IBM Power System 服务器或 Nvidia DGX-1 和 DGX-2 服务器。Power System AC922变体在单个服务器中使用IBM Power9处理器和多达六个Nvidia Tesla V100 GPU。DGX 变体支持每个机架多达 9 台 DGX-1 或 3 台 DGX-2 服务器。在这两种情况下,产品都使用Mellanox InfiniBand交换机或100GbE和IBM弹性存储服务器(ESS)全闪存设备。典型的 DGX 配置将三台 DGX-1 服务器与一台全闪存设备配对,或将一台 DGX-2 与一台全闪存设备配对。IBM ESS 结合了 NVMe 块存储和 IBM Spectrum Scale(以前称为通用并行文件系统或 GPFS)。每个 ESS 设备能够以 100 μs 的延迟提供 40 GB 的带宽,并使三个 DGX-1 系统上的 GPU 饱和。NetApp
Ontap AI 将 NetApp 全闪存结构附加存储 (AFF) 全闪存存储与 Nvidia DGX-1 服务器和思科网络相结合。该产品作为经过验证的参考架构提供,使用 NetApp AFF A800 存储和 DGX-1 服务器的测试组合。典型配置使用单个 AFF A800 和 1、4 或 7 个 DGX-1 系统。一个 AFF A800 支持高达 25 GB 的顺序读取带宽和 100 万 IOPS,并在 24 节点群集中扩展到 300 GB 和 1140 万 IOPS。NetApp 使用一个 AFF A800 系统和四个 Nvidia DGX-1 服务器的参考架构,声称以超过 95% 的利用率运行 GPU,并在行业标准的 ResNet-50、ResNet-152、Inception-v3 和 VGG16 图像处理训练模型上实现了接近理论最大处理能力。NetApp 设计的一个优势是,它使企业能够使用现有的 Ontap 功能,并与 NetApp Data Fabric 集成,以提供进出专用 AI 产品的数据移动。Pure Storage
Pure Storage AIRI 是 Pure Storage FlashBlade、Nvidia DGX-1 服务器和 Arista 100GbE 交换机的融合基础架构式封装。AIRI 使管理员能够通过向 FlashBlade 配置添加更多刀片来扩展存储容量和性能,并使用额外的 DGX-1 服务器扩展计算性能。具有 15 个刀片的闪存配置可提供大约 17 GBps 的带宽和 150 万 NFS IOPS。Pure扩展了AIRI以提供更小和更大的配置。AIRI Mini集成了支持以太网或InfiniBand的双以太网交换机,包括七个17 TB闪存刀片和两个使用Tesla V100 GPU的Nvidia DGX-1系统。标准的 AIRI 配置提供双交换机、4 台 Nvidia DGX-1 服务器和 15 台 17 TB 闪存刀片。超大规模 AIRI 提供三种配置,每种配置都有双以太网或 InfiniBand 结构。用户可以在两个机箱中选择九个 Nvidia DGX-1 系统,配备 30 个 17 TB 闪存刀片。第二种配置使用三台 Nvidia DGX-2 服务器,在两个机箱上配备 30 个 17 TB 闪存刀片。第三种配置使用两个Nvidia DGX-2系统和15个17 TB闪存刀片。Pure Storage最近发布了FlashStack for AI,这是一款基于思科统一计算系统C480 ML服务器,Cisco Nexus交换机和FlashBlade的产品,使组织能够构建端到端数据管道来管理AI应用程序。VAST Data
VAST Data是一家相对较新的存储初创公司。该公司开发了一种基于廉价的四级单元NAND闪存和英特尔傲腾的横向扩展架构,旨在取代企业中的混合和基于HDD的系统。Vast 通用存储系统提供机器学习和 AI 工作负载,具有低成本的每 GB 容量和亚毫秒级延迟。在当前版本中,协议支持提供 NFSv3 或 NFS over RDMA,使数据传输超出传统 NFS over IP 网络的限制。Vast 打算将其系统作为拥有大型非结构化数据湖的企业的主要存储库,机器学习和 AI 基础设施直接处理这些数据湖。WekaIO
WekaIO Matrix软件实现了横向扩展的分布式文件系统。Matrix 可以部署在公有云中,也可以与使用 NVMe 存储和 NVMe-oF 的本地基础架构一起部署,将数千个节点链接到一个巨大的并行文件系统中。尽管 Matrix 可以提供 NFS 支持,但文件系统的主要协议访问路由是通过向应用程序公开本地文件系统的客户端代理。WekaIO不直接销售AI产品的整个存储,而是与合作伙伴和经销商合作。例如,HPE提供基于支持Nvidia GPU的HPE Apollo 6500 Gen10服务器的产品。Matrix 在存储节点上实现,例如 Apollo 4200 和 ProLiant DL360 服务器。Matrix 对所有机器学习和 AI 工作负载具有广泛的适用性,其设计特征支持小文件和大文件计数。Matrix 通过支持 S3 协议,使组织能够将数据分层到较便宜的存储形式。这包括公有云和Scality等合作伙伴。面向 AI 供应商的存储中的三类产品
1.按参考体系结构打包提供存储产品。这包括直接打包 AI 计算和存储或提供用于验证可伸缩性和性能功能的参考体系结构的产品。
几乎所有这些类型的产品都是基于配备Tesla V100 GPU的Nvidia DGX平台构建的。在内部,DGX 服务器系统使用称为 NVLink 的互连,该互连在平台中的多个 GPU 和 CPU 之间提供高带宽网络。NVLink 可以在具有 16 个 GPU 的 DGX-2 服务器中扩展到高达 300 GBps 的内部带宽,并提供 2 petaflops 的 AI 计算能力。DGX 系统确实有一些本地存储,但为了提供容量和性能可扩展性,它们还需要快速共享的外部存储。来自 AI 存储供应商的打包和参考架构产品为组织提供了经过验证的配置,确保充分利用 Tesla GPU 的带宽功能。通常,这是通过快速共享存储、100Gb 网络(以太网或 InfiniBand 企业数据复制)以及一个或多个 DGX-1 或 DGX-2 系统来实现的。这些架构提供的大多数存储系统都使用全闪存介质以低延迟提供高带宽。2.高性能文件存储。这包括作为软件定义的存储提供的存储,无论是作为软件还是与合作伙伴提供的捆绑硬件一起提供。在这种情况下,性能验证是通过白皮书和内部测试提供的,而不是专门通过参考体系结构提供的。 3.对象存储。最后,对象存储供应商正在为机器学习和 AI 提供存储大量非结构化数据的能力,并与其它供应商合作提供在快速层和容量层之间移动数据的集成产品。