AI在如何从HPC汲取数据存储方面的经验
基础设施需求:企业在AI项目中面临基础设施挑战,需要提供满足高度计算和存储性能需求的合适基础设施。 数据管理挑战:企业在应对不断增长的数据量时,需要考虑如何维护和管理庞大的数据集。 数据获取和利用:企业的关注重点从“我有哪些数据”转变为更复杂的“我需要哪些数据”以进行深入分析、数据再利用以及AI模型的训练。
多层次存储方案:采用多层次的存储方案,包括高性能闪存、在线存储归档,以及磁带存储。 数据生命周期管理:建立全面解决方案,覆盖数据的整个生命周期,使得企业能够轻松地对数据进行索引、标记和编目,以便快速查找、充实并再次运用这些数据。 借鉴HPC经验:借鉴HPC环境的经验,以适应AI技术的迅速普及。
---【以下为正文】---
AI的潜力不可估量,正推动编码民主化、提高生产力,极大地简化了我们的生活。然而,对于支持AI项目的IT企业而言,也带来了一系列挑战:
一是如何提供合适的基础设施,满足AI工作负载的高度计算和存储性能需求;
二是如何建设备用存储基础设施,以维护庞大数量的数据,包括当前和未来的AI模型训练数据。
越来越多的数据需要以低成本的方式进行存储和保护,同时必须保持易访问,以便挖掘潜在的洞察力。
对于企业而言,他们正面临一个具体的挑战,即如何应对不断增长的数据量,同时希望将其保留以供未来的分析机会。在AI广泛应用之前,庞大的数据集主要存储在HPC环境中。然而,随着AI的普及,这一基础设施挑战也变得日益突出。这些企业可以从HPC中汲取许多宝贵的经验,以应对这一挑战。
为了满足正在运用AI的企业的存储需求,需求已经变得多样化。尽管高性能闪存存储在支持AI工作负载、实时分析和处理“热”数据方面至关重要,但同时还需要大规模地存储、保护和维护数据集,以便进行定期但不规律的分析。这听起来是不是和HPC社区面临的问题很相似?
数据的演进
企业所关注的问题不再仅限于“我拥有哪些数据”,而是更加关注“我需要哪些数据”以进行深入分析、数据再利用以及AI模型的训练。关键在于构建解决方案,简化大规模数据存储的检索过程,使企业能够轻松地对数据进行索引、标记和编目,以便快速查找、充实并再次运用这些数据,满足AI的需求。
这一理念适用于各类企业。以一家体育企业为例,他们拥有数十年积累的大量体育赛事录像。通过智能地为视频资产添加标签、编目和索引,该企业能够轻松搜索并找到整个存档中所需的片段,用于制作精彩的集锦或其他目的。
企业应选择具备多样化需求满足能力的数据存储和管理方案。重要的是,企业应采用一套全面的解决方案,涵盖数据的整个生命周期,既能满足AI工作负载和即时分析所需的性能,又能轻松地将数据迁移至更低成本、更安全的解决方案,从而实现数据的有效保留。
例如,数据目录可以存储在闪存存储中,以便快速搜索和跟踪相关数据。而数据本身则可以存储在在线存储归档中,例如对象存储。这种归档方式依赖于低成本介质,如磁带。通过简单的工具和协议,可以轻松地从归档中检索数据,并将其分层至基于GPU和NVMe存储的高性能分析集群。这种归档与分析集群的结合,提供了一种经济实惠的方式来扩展AI和深度学习的应用。
对于归档存储而言,磁带仍然是首选介质,因为它具备成熟性、低成本、低功耗和耐久性等优点。然而,新技术正在改变磁带的部署和使用方式,提供更简单和大规模的解决方案。基于RESTful API和简单浏览器的软件定义存储解决方案,可以提供对大量数据的透明访问,而交互式、自助式工具则可以实现对基于磁带的数据的透明访问。RAIL(Redundant Array of Independent Libraries)架构采用了多维抹除编码技术,实现了在多个站点之间的高可用性和快速访问这些资源。
探索新型存储方案
AI技术的迅速普及凸显了准备并快速适应“下一阶段”的紧迫性。借鉴经典的HPC环境,这种方法不仅能满足当前需求,还具备扩展性和灵活性,以应对未来不可预测的需求挑战。通过运用现代数据生命周期管理工具和技术,AI基础设施将开始模仿HPC环境,但将采用全新一代的底层技术。
Source:Timothy Sherbak; What AI Can Learn from HPC about Data Storage; January 30, 2024
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)