查看原文
其他

AI在如何从HPC汲取数据存储方面的经验

常华Andy Andy730
2025-01-01
内容概要
问题分析:
  • 基础设施需求:企业在AI项目中面临基础设施挑战,需要提供满足高度计算和存储性能需求的合适基础设施。
  • 数据管理挑战:企业在应对不断增长的数据量时,需要考虑如何维护和管理庞大的数据集。
  • 数据获取和利用:企业的关注重点从“我有哪些数据”转变为更复杂的“我需要哪些数据”以进行深入分析、数据再利用以及AI模型的训练。
建议方案:
  • 多层次存储方案:采用多层次的存储方案,包括高性能闪存、在线存储归档,以及磁带存储。
  • 数据生命周期管理:建立全面解决方案,覆盖数据的整个生命周期,使得企业能够轻松地对数据进行索引、标记和编目,以便快速查找、充实并再次运用这些数据。
  • 借鉴HPC经验:借鉴HPC环境的经验,以适应AI技术的迅速普及。


---【以下为正文】---

AI的潜力不可估量,正推动编码民主化、提高生产力,极大地简化了我们的生活。然而,对于支持AI项目的IT企业而言,也带来了一系列挑战:

一是如何提供合适的基础设施,满足AI工作负载的高度计算和存储性能需求;

二是如何建设备用存储基础设施,以维护庞大数量的数据,包括当前和未来的AI模型训练数据。

越来越多的数据需要以低成本的方式进行存储和保护,同时必须保持易访问,以便挖掘潜在的洞察力。

对于企业而言,他们正面临一个具体的挑战,即如何应对不断增长的数据量,同时希望将其保留以供未来的分析机会。在AI广泛应用之前,庞大的数据集主要存储在HPC环境中。然而,随着AI的普及,这一基础设施挑战也变得日益突出。这些企业可以从HPC中汲取许多宝贵的经验,以应对这一挑战。

为了满足正在运用AI的企业的存储需求,需求已经变得多样化。尽管高性能闪存存储在支持AI工作负载、实时分析和处理“热”数据方面至关重要,但同时还需要大规模地存储、保护和维护数据集,以便进行定期但不规律的分析。这听起来是不是和HPC社区面临的问题很相似?

数据的演进

企业所关注的问题不再仅限于“我拥有哪些数据”,而是更加关注“我需要哪些数据”以进行深入分析、数据再利用以及AI模型的训练。关键在于构建解决方案,简化大规模数据存储的检索过程,使企业能够轻松地对数据进行索引、标记和编目,以便快速查找、充实并再次运用这些数据,满足AI的需求。

这一理念适用于各类企业。以一家体育企业为例,他们拥有数十年积累的大量体育赛事录像。通过智能地为视频资产添加标签、编目和索引,该企业能够轻松搜索并找到整个存档中所需的片段,用于制作精彩的集锦或其他目的。

企业应选择具备多样化需求满足能力的数据存储和管理方案。重要的是,企业应采用一套全面的解决方案,涵盖数据的整个生命周期,既能满足AI工作负载和即时分析所需的性能,又能轻松地将数据迁移至更低成本、更安全的解决方案,从而实现数据的有效保留。

例如,数据目录可以存储在闪存存储中,以便快速搜索和跟踪相关数据。而数据本身则可以存储在在线存储归档中,例如对象存储。这种归档方式依赖于低成本介质,如磁带。通过简单的工具和协议,可以轻松地从归档中检索数据,并将其分层至基于GPU和NVMe存储的高性能分析集群。这种归档与分析集群的结合,提供了一种经济实惠的方式来扩展AI和深度学习的应用。

对于归档存储而言,磁带仍然是首选介质,因为它具备成熟性、低成本、低功耗和耐久性等优点。然而,新技术正在改变磁带的部署和使用方式,提供更简单和大规模的解决方案。基于RESTful API和简单浏览器的软件定义存储解决方案,可以提供对大量数据的透明访问,而交互式、自助式工具则可以实现对基于磁带的数据的透明访问。RAIL(Redundant Array of Independent Libraries)架构采用了多维抹除编码技术,实现了在多个站点之间的高可用性和快速访问这些资源。

探索新型存储方案

AI技术的迅速普及凸显了准备并快速适应“下一阶段”的紧迫性。借鉴经典的HPC环境,这种方法不仅能满足当前需求,还具备扩展性和灵活性,以应对未来不可预测的需求挑战。通过运用现代数据生命周期管理工具和技术,AI基础设施将开始模仿HPC环境,但将采用全新一代的底层技术。

-----

Source:Timothy Sherbak; What AI Can Learn from HPC about Data Storage; January 30, 2024


---【本文完】---

近期受欢迎的文章:

  1. 2024年HPC-AI领域预测:存储和数据管理、光学计算、容器、GenAI、Quantum

  2. 【论文】DAOS在HPC中的应用:存储性能分析与优化

  3. 基于CXL的HPC和AI工作负载的内存解耦(PPT)

  4. 面向对象的计算型存储,加速HPC数据分析(PPT)

  5. 深度评估:DAOS在仿真和深度学习HPC工作负载中的分析



更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存