查看原文
其他

应对AI Pipeline挑战:高性能文件系统的新范式

常华Andy Andy730
2025-01-01

概要:在数据混乱中寻求秩序

想象一下,您是一支世界级交响乐团的指挥,试图与坐在不同礼堂的音乐家共同创作一部美妙的交响乐。每位音乐家掌握着杰作的一部分,但分隔他们的墙壁几乎使指挥无法产生他们演奏成功所需的合奏。

对于各大小公共和私人企业的现代IT企业而言,数字资产扮演着这些孤岛的音乐家的角色。特别是对于非结构化数据,如图像、音频、文本或其它无法完整存入传统结构化数据库的文件。

问题在于多年来,非结构化数据的增长速度远远超过了结构化数据,并在各个垂直领域中占据了超过80%的数字资产。更糟糕的是,非结构化数据通常分散在边缘,存储在来自不同供应商的多个本地化和基于云的存储仓库中,而且通常分布在多个地理位置。问题在于非结构化数据的增长速度远远超过了可以有意义地分析或利用的速度。因此,非结构化数据通常不是为企业增值,而是成为一个负担,一个他们必须在几乎没有投资回报的情况下管理和存储的不断增长的成本中心。

数据分析、BI应用和数据仓库等针对结构化数据的工具和技术已经发展得相当成熟,从结构化数据中提炼出价值的策略也广为人知。然而,近年来兴起的生成式AI以及相关的深度学习(DL)技术,它们赋予了我们挖掘非结构化数据潜在价值的新手段。这类AI推理工作负载不仅可以帮助数据所有者明确自己手中的数据,哪些应该保留,哪些可以舍弃,而且通过AI/DL的场景,还有望从大量非结构化的文件数据中揭示出隐藏的洞察,为企业带来新的成果。如此一来,各企业将得以充分利用结构化和非结构化的数字资产,创造新的商业价值并提高效率。

数据孤岛、数据治理以及AI工作负载的其它问题

问题在于,目前分隔非结构化数据仓库的障碍严重限制了企业在成本和复杂性不断上升的情况下快速实施AI流水线的可能性。他们需要灵活性,以便使用任何或所有数据来为AI/DL工作流提供支持,这通常意味着将来自不同资源的文件合并到一个集中的存储库中。然而,这个过程可能会很复杂,需要采取措施来解决。

此外,AI应用模型正在迅速发展,并且随着时间的推移可能需要不同的数据子集。这不仅会产生一个需要从仓库复制数据的操作问题,而且还会产生严重的数据治理问题,增加了合规性、适当的访问控制、可审计性以及随着副本增多而确保数据完整性的风险。

为了在合理的成本和时间范围内成功实施AI战略,企业需要以安全的方式,并具备适当的控制措施,来打破数据仓库的限制,实现直接全局访问数据的位置。

只要浏览一下科技行业的专业媒体,你就会发现存储供应商们都在争相宣传自己的一揽子解决方案,以解决这个问题。然而,企业根本无法承受丢弃现有基础设施并迁移其非结构化数据到新平台以实施AI战略的费用。此外,很少有数据环境被整合到单一的存储仓库中,以满足数据生命周期所有阶段的要求。现有的孤岛存储架构并未设计用于AI数据流水线的跨平台要求。

从非结构化数据中创建可操作的结构

在本文中,我们将介绍HS如何通过一种软件定义的解决方案来解决这些问题,该解决方案可以自动化地跨任何供应商的现有分散存储仓库,甚至跨多个地点和云环境的高性能非结构化数据进行编排。凭借其高性能的并行全局文件系统,HS可以有效地在现有存储仓库之间进行数据桥接,非常适合满足AI/DL工作流在不同阶段的各种性能要求。

HS通过先进的功能自动索引任何存储仓库的文件元数据,从而将混乱且难以分类的数据转化为结构化数据。该元数据目录可以通过用户生成或自动化的自定义元数据进行增强,从而简化跨平台数据编排和数据治理。全局元数据是了解您拥有哪些数据、应该位于何处以及与哪些项目或程序相关联的关键。这种元数据在HS中可以被执行,是在AI/DL流水线中实现充分数据治理和数据质量的基本要求。

通过这种方式,HS为非结构化数据的不同仓库提供了可操作的结构,而无需进行全面的数据迁移或替换现有的存储基础设施。

HS通过为所有存储类型的任何数据提供统一访问和自动控制,显著加速了分布式非结构化数据集的AI工作负载,不仅帮助数据所有者充分利用现有存储资源,还显著降低了设置AI流水线的成本。通过消除将数据复制到新存储库或整合到单一位置的需求,HS可以将大数据环境中推断的时间从几周缩短到几小时,并在此过程中显著降低与设置AI流水线相关的成本。

此外,我们将展示HS架构的灵活性如何使客户摆脱被单一基础设施解决方案所限制的困境,这限制了他们适应不断变化需求的能力。这是非常关键的,因为在AI的发展过程中,不同的步骤所要求的性能各不相同。

凭借HS的并行全局文件系统的横向/纵向扩展能力,我们可以实现对于现有存储仓库的数据的统一访问,这意味着HS为客户提供了自由度,可以在任何时候根据新的AI场景或技术进行调整。无需管理数据复制到新平台,也无需中断现有用户或应用程序的数据访问。所有这些更改对于用户来说都是完全透明的,作为后台操作。

例如,新兴技术如LoRA(低秩调整,Low-Rank Adaptation)允许对现有模型进行微调,它对性能的要求远低于现有技术。因此,无需进行昂贵的超额配置,转向现有基础设施的灵活性将随着时间的推移显著提高投资回报率,因为AI技术正在逐步改进。

AI之旅的导航

AI工作流程包含多个阶段,当然,不同的AI/DL应用场景可能根据行业或期望的结果而有很大不同。特别是对于非结构化数据,用于医学图像分析的疾病检测将与视频数据中的活动识别或文本数据中的情感分析以确定定向广告放置有所不同。用于分析卫星图像以获取农作物产量或用于决策灌溉或水管理的推理工作负载将与用于改进自动驾驶行为的视频和其它传感器数据上的预测模型,或者用于简化制造业自动化的模型不同。

但是,尽管AI应用场景各异,它们的共同点是需要从许多不同来源和通常是不同位置收集数据。在典型的工作流中,这可能意味着使用手动文件迁移工具(如rsync或其它特定解决方案)进行大规模的数据移动,特别是为了满足需要大量计算资源的类似HPC推理工作负载的高性能要求。

文件系统碎片化是关键问题

根本问题在于,用户和AI/DL应用程序对数据的访问始终在某个时候通过文件系统进行。也就是说,文件系统将存储介质上的原始位组织成用户可以理解的文件和文件夹结构,这是应用程序需要访问的。这是通过文件系统中的元数据完成的,元数据是原始数据和用户/应用程序看到的文件结构之间的接口。

问题在于自20世纪90年代和NAS的引入以来,文件系统一直嵌入在存储基础设施中。尽管不同的供应商会通过行业标准的NFS或SMB文件访问协议呈现文件/文件夹结构,但包含这些元数据的底层文件系统被隔离成不同供应商特定的变体,彼此不兼容。

这种以存储为中心的方法导致,当数据超出现有的存储平台或根据不同的性能要求或成本配置需要使用其他存储类型时,用户和应用程序必须在多个访问路径之间进行导航以访问其数据。

随着时间的推移,非结构化数据量的急剧增加,跨多个仓库、位置和云的问题已经无法控制。为了解决这些差距,已经催生了专门致力于数据迁移、文件复制管理、使用层级解决方案或云网关等技术的点解决方案产业,以克服在存储供应商的仓库内跨多个文件系统的数据访问和控制碎片化问题。

由于多个文件系统导致的存储仓库碎片化,使得用户和应用程序在访问数据时面临困难,需要多个点解决方案将数据从一个仓库复制到另一个仓库。这为需要全局访问集中数据集的AI工作流中增加了成本和复杂性。

对于AI/DL工作负载而言,孤岛问题更为严重

对于AI/DL工作负载来说,这个问题尤为严重,因为第一步是整合来自多个来源的数据,以便对它们实现全局视图。AI工作负载必须能够访问完整的数据集,以便对文件进行分类和/或标记,这是确定哪些文件应该细化到流程中下一步的第一步。

随着AI/DL流程的每个阶段,数据将进一步细化。这可能包括清理、分类和标记,最终是大型语言模型(LLM)的训练和调优。这些步骤对计算和存储有不同的性能要求,从较慢、价格较低的大容量存储系统和归档,一直到带有NVMe存储的高性能GPU集群。

对于数据所有者来说,问题在于如何通过一个系统容纳多个性能要求。也就是说,如何管理既不需要高性能的数据分类和/或标记步骤,又要为训练/调整和推理提供GPU,这通常是需要NVMe存储的高性能工作负载。

AI流水线从多个数据源中提取数据,然后通过多个步骤进行,每个步骤都有不同的计算和存储要求。

企业面临一个两难选择,要么过度配置基础设施,以确保所有阶段的AI旅程中的数据都可以在一个地方,要么支付“数据复制税”,在存储仓库之间移动文件副本,从而增加结果的时间。当数据分布在多个站点或云中时,这种复制惩罚变得更糟,可能导致昂贵的GPU或其它HPC系统处于空闲状态,等待数据复制到高性能存储以开始处理运行。

让这一切更加令人痛苦的是,企业已经在现有基础设施中投入了大量资金,因此仅仅用新的供应商锁定的专用存储平台替换现有系统是成本不可承受的,因为这种平台可以处理所有性能要求。此外,由于AI技术发展如此迅速,锁定在与今天的AI流水线配合使用的存储解决方案可能阻止企业充分利用可能更适合其应用的新兴技术。

无论选择投资于新基础设施,还是增加“数据复制税”的复杂性和延迟,都会带来显著的额外成本,这使得在AI旅程中是否存在真正投资回报的计算非常困难。

解决孤岛问题以解锁AI难题

将文件系统从基础设施层解耦

HS从根本重新构思了一个基于标准的文件系统,它独立于专有存储基础设施,但仍与来自任何供应商的现有存储系统兼容,从而解决了这个问题。

与将文件系统嵌入基础设施层的传统存储平台不同,HS是一种与任何供应商的本地或基于云的存储平台兼容的软件定义解决方案。实际上,HS创建了一个高性能的文件系统,位于存储系统基础设施层之上。通过这种方式,它创建了一个高性能、跨任何供应商的存储仓库以及一个或多个位置(包括云)的并行全局文件系统。

HS在保留数据的同时整合文件系统元数据。通过这种高性能文件系统,所有用户和应用程序都可以使用标准文件协议全局访问所有数据,无需代理或专有客户端。

它通过从现有存储系统的原位数据中整合文件系统元数据,然后通过基于标准的文件协议向用户和应用程序呈现全球文件系统来实现这一点。

存储端不需要代理。用户系统上不需要安装客户端软件来访问数据。对于用户和应用程序,HS并行全局文件系统提供了与任何企业NAS完全相同的行业标准的SMB或NFS挂载点。但与任何其它解决方案不同,在HS中,用户和应用程序现在可以全局访问其所有数据,并可以在单一的全局命名空间中跨多个数据仓库、位置和云存储平台。

自动化数据编排是数据治理的关键

此外,由于文件系统与底层基础设施解耦,HS能够在任何性能水平上自动进行数据编排,作为存储类型之间的后台操作或为供应AI流水线的数据。这也意味着可以在不中断用户或应用程序访问的情况下自动执行基于工作流的数据放置、数据保护或其它数据服务。数据编排甚至可以在由应用程序或用户主动使用的热数据上自动执行,而不会中断访问或工作流。

在传统的存储架构中,文件系统嵌入在存储平台中,如果需要将文件移动到另一种存储类型或位置,会创建并发送文件元数据和文件实体的副本。该操作创建了文件的第二个分支副本,必须稍后进行协调,并消耗额外的存储容量。

此外,数据副本的增加会为数据治理问题增加风险,涉及数据是如何被访问以及由谁访问的问题。在传统的孤岛系统中,要在所有副本之间保持持久的审计跟踪能力是困难的,如果不是不可能的。

由于HS并行全局文件系统独立于存储层,因此不再需要处理这些分叉文件副本的需求。使用HS,所有地点的所有用户和应用程序都可以在任何地方读/写访问所有数据。不是通过文件副本,而是通过这个统一的全球文件系统访问相同的文件,就像他们在本地NAS上的单个网络共享上访问所有数据一样。

AI流水线中的数据治理和可审计性

在跨仓库和位置之间建立桥梁时,另一个关键组成部分是确保数据不仅对AI工作流程可访问,而且数据放置策略以供AI引擎使用不违反数据治理或合规规则。与HS在仓库之间后台自动执行数据放置和其它服务的方式相同,HS文件系统的全球范围还提供了对所有文件系统操作的全球审计。

AI流水线中的数据治理和可审计性

在跨仓库和位置之间建立桥梁时,另一个关键组成部分是确保数据不仅对AI工作流程可访问,而且数据放置策略以供AI引擎使用不违反数据治理或合规规则。与HS在仓库之间后台自动执行数据放置和其它服务的方式相同,HS文件系统的全球范围还提供了对所有文件系统操作的全球审计。

例如,HS支持SMB和NFS共享上的系统ACL,创建文件系统操作的全球审计日志,如文件/文件夹删除、重命名和其它操作。这是一个对于去中心化环境而言至关重要的安全创新,可以在多孤岛环境中应用持久的系统ACL,而不管文件实例位于哪种存储类型或位置。

由于HS并行全局文件系统管理跨所有孤岛、站点和云的数据放置,这种能力还确保安全执行不会因将数据移动或复制到其它站点或平台而中断。然后,HS服务级别目标可以进行调整,以保持与数据治理和合规规则的一致性。

自定义元数据以简化数据分类

对于AI/DL工作流程至关重要的是,在HS内可以显著增强和自动化数据分类。该系统包含强大的元数据管理功能,使文件和目录可以手动或自动地使用用户定义的自定义元数据进行标记,从而创建丰富的信息集,可用于简化AI/DL工作流程的分类阶段,并简化后续迭代。

自定义元数据可以包括几乎任何数据所有者在AI旅程的每个阶段都需要对文件进行分类并帮助识别数据子集的信息。

通过元数据标记减少人为错误问题

在其它解决方案中,对于自定义元数据的一个常见问题是它们必须依赖于人们记得打标签。即使是地球上最好的索引系统,如果用户忘记应用自定义元数据标签,也无济于事。

HS通过自动化的元数据继承来解决这个问题,管理员或授权用户可以轻松定制,为文件系统中的文件夹层次分配任何组合的元数据标签或标签。

一旦在文件夹层次结构的任何级别(从根级别到下面)应用了这些自定义元数据标签或标签,该层次结构中着陆的任何文件或文件夹都会自动继承自定义元数据。

这意味着由仪器生成的数据或由用户创建的数据可以在创建时自动继承关键的标识信息,这基于元数据变量的受控词汇,这些变量与他们的工作流程和业务需求特定。

自定义元数据可以在整个文件系统层次结构中自动继承,以减少人为错误。这简化了数据分类,并增强了以文件为粒度的自动数据编排。

即使子文件夹也会继承自定义元数据标签,并且可以向其添加其它标签。当这些文件或文件夹从初始存储位置移动到不同的存储类型或云,基于工作流程要求,自定义元数据标签将保持持久,并将与移动的文件关联。

然后,HS数据编排系统可以根据任何组合的元数据执行数据操作,包括标准文件系统变量和任何自定义标签。

跨仓库和位置自动化AI之旅

通过对数据和元数据的全球视图和控制,跨不同兼容的数据存储、位置和云,HS现在可以提供所需的自动化,从始至终为AI流水线提供支持,涵盖过程的所有阶段和所有必要的资源。

HS数据编排系统的一个关键功能是能够定义明确的、简明的策略,称为服务级别目标,以控制数据访问、放置和保护的所有方面,以及来自任何供应商的存储资源的利用,此外还包括其它关键的数据服务。

在AI工作负载中,可以自动在后台进行数据放置,将数据发送到卓越中心进行清理,或者发送到远程数据中心进行训练工作负载,或者发送到云中的高性能计算资源或另一个站点进行推理工作负载,而不会中断用户或应用程序访问,甚至可以在活动数据上执行。

这是特别重要的,因为AI工作负载通常需要通过多个独立数据集进行多次迭代。对于推理工作负载,这通常需要高性能计算(HPC)基础架构和GPU集群,这些可能是在本地或作为为该作业设置的临时云资源集群的一部分。并且在过程的每个步骤中,可以自动应用额外的自定义元数据标签,以标识所使用的算法或其它需要跟踪或重新创建工作流的变量。

HS是一个软件定义的解决方案,可以从小规模开始,但可以扩展到适应极端性能要求,实现自动化数据编排以支持本地、跨多个站点和一个或多个云的AI流水线。

赋能数据科学家,实现自助工作流自动化

此外,由于许多行业,如制药、金融服务或生物技术,要求训练数据以及生成的模型被归档,因此自动将这些数据放置到低成本资源中的能力至关重要。通过跟踪数据来源、迭代详细信息和工作流中的其它步骤的自定义元数据标签,调用旧模型数据以进行重用或应用新算法是一个简单的后台自动化操作。

通过这种方式,使用HS,数据科学家可以直接、自助地控制AI流水线中的所有阶段,跨多个位置、存储孤岛和云,而无需向IT管理员请求数据检索或涉足IT基础设施管理。并且由于数据可以从现有存储资源中无缝访问,这些工作流可以利用现有基础设施而无需用新基础设施替换旧的存储系统。

可扩展性和性能

如上所述,AI之旅的并非所有阶段都需要高性能计算或存储。但当需要时,极端性能至关重要。HS被设计为一个软件定义的解决方案,可以在不妥协的情况下进行横向扩展,以充分发挥甚至是最要求严格的网络和存储基础设施的性能。

作为一个软件定义的平台,HS是硬件无关的,并且可以部署在裸机服务器、虚拟机和云机器实例中。它是通过一个单一的安装程序加载的,该安装程序处理Anvil元数据服务节点和DSX数据服务节点类型。

对于Anvil或DSX节点的服务器要求没有一种“一刀切”的规格,这意味着系统可以根据客户应用的特定负载要求进行调整。这使得系统可以被调整以最小化不必要的基础设施开销,并且在需要时动态扩展,以充分发挥高性能基础设施的性能,而不中断用户或应用程序访问。这包括能够横向扩展以支持需要在本地或基于云的大型集群中进行GPU直接访问的极端性能环境。

在需要时扩展性能的能力,以及通过自动化工作流来消除通常需要管理数据副本所需的延迟,意味着HS可以提高GPU和其它资源的利用率。这直接影响是减少执行给定工作负载所需的GPU数量和/或提高现有集群的吞吐量,这两者直接影响整体系统的投资回报率。

一些HS的客户一开始采用了基于云的实现,以快速配置初始工作负载,例如,然后将其转换为本地系统。用户访问是无缝的,且不会受到基础设施变更的影响。

此外,将文件系统层与存储层解耦使得可以在数据层独立扩展I/O和IOPS。极高性能的NVMe存储现在可以与较低成本和性能较低的层次(包括云端)在全球数据环境中共存。在各层次和/或位置之间的数据编排是透明控制的,作为基于工作流或基于目标的策略的后台操作。

总结

HS从一开始就被设计用来解决数据在数据中心内部以及越来越多跨越多个数据中心和云的分布式系统中的碎片化问题。迅速适应AI/DL工作负载的转变加剧了IT企业多年来一直面临的问题。

问题层出不穷:

高性能和大规模:AI流水线需要具备向极端性能需求扩展的能力。在不过度配置基础设施的前提下实现这一点,以及能够迅速切换到云端是至关重要的。

多数据源:为了在新的AI工作负载中保持竞争力,数据访问需要在本地仓库、位置和云端之间实现无缝切换。

数据治理:在一个动态环境中灵活应对,其中由于成本或物流原因很难扩展固定基础设施。这意味着公司需要能够在不同的分散资源之间自动进行数据编排,同时保持符合合规、安全和其它数据治理要求的可审计性和控制。

标准化要求:企业需要通过基于行业标准协议的新分布式资源与其现有基础设施建立连接,而无需安装专有供应商的客户端或代理。与自动化数据编排结合使用时,可以确保实施AI/DL工作负载的成本不会削弱预期的回报。

无缝“云爆发”(Burst-to-Cloud):无论是由于采购GPU的困难,还是因为某些AI流水线只需要短期计算/存储资源,迅速扩展到临时云端资源的能力是一个关键需求。通过扩展HS文件系统并最小化数据移动,可以实现灵活性和适应性的关键。

HS软件非常适合为客户提供解决这些问题和要求的解决方案,而无需重新配置其数据中心的新存储和计算基础设施。同时,使用HS,客户也不再需要在供应商的仓库之间手动移动文件副本并支付由此产生的“数据复制税”。

由于HS高性能文件系统是全局的,并且可以在所有仓库和位置之间无缝自动进行数据编排,因此可以优化AI工作负载并迅速适应新的AI应用,以满足即使是极端性能需求。

为了跟上AI流水线的许多性能变量,需要一种新的范式,能够有效地弥合一个或多个本地仓库和云端之间的差距。

这样的解决方案需要新的技术和一种革命性的方法,将高性能文件系统从基础设施层解脱出来,使得AI流水线可以利用来自任何供应商的现有基础设施而不影响结果。这是一个与上世纪90年代NAS供应商将文件系统从操作系统中抽离出来一样重要的革命。

HS软件提供的能力堆栈的逻辑视图,以其高性能的并行全局文件系统为基础。



---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存