查看原文
其他

AI存储指南:解析AI管道中的存储类型

常华Andy Andy730
2025-01-01

数据管理是设计端到端AI解决方案的关键要素之一,与AI基础设施堆栈和AI算法并列重要。AI数据形态多样,涵盖从小文件(如文档)到超大对象(如视频),存储系统需具备处理所有类型数据的能力。在AI管道中,不同阶段存在多种存储工作负载,对容量、延迟和吞吐量等方面提出差异化需求。

AI管道各阶段的存储类型

在企业级AI项目中,一个完整的AI工作管道涵盖了多个关键阶段,如数据收集、处理与清洗、AI模型训练与推理、输出元数据在数据仓库与数据库中的存储,以及最终通过仪表板、报告和反馈机制呈现结果。

图1:AI工作流程

在此流程中,AI数据量会随阶段变化而波动,可能经历增减。因此,在选择存储方案时,除了容量需求外,还需综合考虑性能与成本因素。

接下来,我们聚焦于典型AI管道中各阶段的数据类型及其存储特性。请注意,由于使用场景的差异,数据量会有显著变化,以下数字仅为示例。

我们将存储类型划分为两个维度进行分析:
  • 性能与容量优化
  • 文件与对象协议

当前,大多数基于容量的存储系统倾向于采用对象存储方式,而AI领域的高性能存储系统则更多采用文件存储。此外,高性能存储系统通常采用性能优化的闪存介质,而容量优化存储(因其成本效益)则选用容量优化的闪存或磁盘存储。至于归档存储,则常用磁带作为介质。

图2:AI管道中的数据类型与存储方案

原始输入数据

规模:数十PB(依据具体应用场景而定)

存储方式:基于容量的文件存储或对象存储

注意要点:AI开发所需的原始数据量极为庞大,这些数据广泛分布于多个云端、私有数据中心、数据代理及边缘设备上。多数公司依赖超过20个数据源来支撑AI的数据需求。对于多模态数据而言,在边缘端直接处理原始数据相较于回传至核心数据中心更为高效。在数据准备阶段,主要依赖CPU进行原始数据的清洗工作(如剔除错误数据、匿名化处理、数据汇总等),以准备用于AI模型训练的数据集。此阶段通常能实现约10:1的数据压缩率,即从原始未清洗数据到清洗后数据的显著减少。

精炼后的AI训练数据

规模:PB级(依据具体应用场景而定)

存储方式:高性能文件存储

注意要点:为了高效存储和访问用于模型训练的已清洗数据,通常采用高性能文件存储系统。这些系统可通过千兆以太网(GbE)或InfiniBand网络进行连接。虽然GbE在带宽速度上可能优于InfiniBand,但InfiniBand以其更低的延迟特性,在大型训练任务中更受青睐,以确保性能服务等级协议(SLA)。而在AI推理阶段,由于成本效益和以太网的普及性,GbE网络则更为常见。

训练检查点

规模:TB级

存储方式:最新检查点采用高性能文件存储;较旧检查点则采用基于容量的文件存储或对象存储

注意要点:AI训练检查点是模型训练过程中某一时刻的状态快照,用于在训练中断或遇到问题时保存并恢复模型。最新检查点应存放于高性能存储中,以确保快速恢复能力。相比之下,较旧的检查点因访问频率较低,无需高性能存储支持。检查点数据通常比模型本身大两到三倍,原因在于其包含了额外的元数据。

已训练的AI模型

规模:MB至TB级

存储方式:高性能文件存储

注意要点:企业应用的已训练AI模型大小可从MB级跨越至TB级,尤其是生成式AI模型,其规模往往远超传统AI工作负载。模型的大小主要取决于模型权重的表示方式(如浮点数或整数)以及模型参数的数量。从训练数据到最终训练完成的AI模型,数据规模通常会缩减至千分之一左右。

量化模型

大小:MB至GB级

存储类型:高性能文件或对象存储

注意事项:量化后的AI模型通过压缩或格式转换(如从浮点数转为整数),显著减小了模型体积并降低了计算负担。这种量化处理能够加速推理过程并减少内存占用。企业通常会将量化模型直接部署到生产环境中,并实时处理实际数据。从原始训练模型到量化模型,大多数企业会观察到接近1000:1的数据压缩比。为了提高推理效率,企业通常会将模型完全加载到内存中。

警报元数据

大小:TB级(随时间累积)

存储类型:高性能文件或对象存储

注意事项:AI推理过程中产生的输出往往伴随着警报及其相关的元数据。捕捉并深入分析这些元数据对于理解AI模型行为、及时发现潜在问题并采取相应措施至关重要。

RAG推理的向量数据库

大小:PB级(依据文档库规模和索引维度数量而定)

存储类型:高性能文件存储与容量优化的对象存储结合

注意事项:检索增强生成(RAG)技术通过为大型语言模型(LLM)提供额外上下文信息来提升输出准确性。向量数据库作为RAG推理的核心组件,负责存储文档的编码信息。从原始文档到向量数据库的转变过程中,由于索引维度增加,数据体积通常会膨胀至原始数据的3倍或更多。

合规性推理与查询日志

大小:PB级(取决于用户数量及多模态查询特性)

存储类型:基于容量的对象存储

注意事项:受《欧盟AI法案》等监管政策影响,企业需记录生成式AI查询的输入与输出,以确保合规性。这些日志通常需从边缘设备传输至中央归档系统,并按规定期限保存。为此,推荐使用成本效益高的容量优化型对象存储解决方案。

规划AI存储策略

数据是组织运营的基石,而AI正通过数据解锁新的竞争优势。然而,为AI生命周期的各阶段选择合适的存储解决方案,是构建AI系统时易被忽视却至关重要的环节。在部署AI基础设施时,需从全局视角审视端到端的AI管道,充分考虑各阶段对存储的不同需求。一个完善的数据管理策略对于AI项目的成功至关重要。

在明确AI各阶段存储需求的基础上,我们将深入探讨执行AI管道各环节的最佳部署位置,包括云端、云边缘以及本地环境。此外,我们还将介绍存储供应商在提升GPU存储访问效率、整合存储资源以降低成本、以及在分布式AI环境中优化数据传输等方面的关键创新。

-----

Source:Kaladhar Voruganti, Gabriel Chapman; Guide to Storage for AI: Types of Storage in an AI Pipeline; June 20, 2024


--【本文完】---

近期受欢迎的文章:

  1. Ampere推出256核心CPU,迎接AI推理浪潮

  2. MLPerf推理4.0结果揭晓,GenAI亮相;NVIDIA继续稳居榜首,保持主导地位

  3. 选择适合LLM推理和训练的GPU

  4. 关于AI训练和推理中存储系统的一些提示

  5. AI基础设施突飞猛进:探寻最新进展


更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存