查看原文
其他

数据平台的崛起与彻底重塑

常华Andy Andy730
2025-01-01

人工智能引领下的企业数据架构革新

人工智能、机器学习、量子计算——这些曾经只存在于科幻小说中的技术,如今正以惊人的速度成为现实,塑造着一个全新的智能创新时代。

数据是推动这些数字化转型引擎的核心资源。为了确保这些技术以最优化和高效的方式运行,所需的GPU必须能够快速处理大量数据。然而,随着GPU和AI算法的普及,数据的质量和对AI及ML模型的有效训练能力,正迅速转变为企业竞争的关键因素。

如果这听起来令人望而却步,那是因为事实确实如此。许多组织正面临着一个共同的难题:如何为他们的GPU提供足够且高质量的数据,以确保其高效运转并充分释放其性能。当缺乏待处理的数据时,GPU可能会处于空闲状态,这不仅会消耗大量的能源、产生不必要的碳排放,还会导致人工智能相关的商业计划和研究项目无法顺利进行。

这一问题的关键原因在于,现有的数据架构和管理方法大多是在云计算和AI技术兴起之前设计的,随着计算能力的不断提升和新型工作负载的出现,这些传统方法已经难以满足当前的需求。

最近,标准普尔全球市场情报机构开展了一项针对1500余名人工智能领域的从业者和决策者的全球性调查。结果显示,数据管理被频繁地提及为人工智能项目实施过程中的主要技术障碍,其影响甚至超过了数据安全和计算性能的挑战。这一发现揭示了一个现实问题,即众多组织机构仍在沿用过时的数据架构,这些架构已不再适应当前的人工智能革命。因此,迫切需要我们采取一种全新的方法来应对这一挑战。

数据平台正是在这种背景下应运而生,它作为一种有效的工具,帮助组织适应AI驱动的数字世界,确保数据能够自由流动至所需资源,例如GPU。

数据平台的关键差异

数据平台与传统的数据管理和存储方式在两个重要方面有所区别:首先,它支持创建动态数据管道,实现在分布式数据环境中的无缝数据移动;其次,它促进了数据的流动性。

数据流动性将云计算基础设施的高效性和可扩展性直接整合到数据管理中,与传统的存储技术相比,它避免了数据孤岛、延迟和性能瓶颈等问题。

数据流动性并不是将数据和元数据集中存储于一个大型的静态数据中心,而是将数据分解成无数细小的片段,这些片段可以被高效地分配到计算核心和存储资源之间,确保数据能够无限制地流向需要它的精确位置。这样的处理方式使得数据管理变得更加简单高效,让数据管理员从繁琐的数据移动和存储任务中解放出来,从而能够专注于更具战略意义的价值创造活动。

为了深入理解这些要素对现代数据架构的重要性,我们需要回顾过去,看看我们是如何一步步走到今天这个以数据平台为核心的新阶段的。

数据基础设施的发展变革

自21世纪初以来,计算虚拟化技术通过将单一服务器划分为多个相互隔离的操作系统环境(即虚拟机),彻底改变了信息技术(IT)领域的面貌。这一变革显著提升了计算资源的利用率,实现了众多IT效率的提升,并在降低能耗与成本方面取得了显著成效。

近年来,一系列具有颠覆性的新兴技术——包括容器技术、NVMe存储解决方案、开放网络技术(现能以每秒数百GB的速度传输数据),以及云计算技术的持续快速发展——已经开始促使各组织重新审视其传统的数据基础设施架构。

转眼间,我们来到了2023年,此时,生成式人工智能技术的兴起,对传统的数据架构和存储方法提出了前所未有的挑战。面对人工智能工作负载的规模、速度和数据流的需求,现有的数据架构已难以满足,迫切需要一种全新的数据框架——数据平台方法的重要性因此凸显。

构建成功数据平台的综合策略

虽然数据平台为解决可扩展性、性能和数据可访问性的挑战提供了坚实的基础,但它也可能带来一系列新的问题。在庞大的数据海洋中寻找到真正有价值的数据可能是一项极具挑战性的任务,因此,我们需要通过改进数据的上下文、结构和标签,提升数据检索的效率,这是数据系统演进的一个重要方向。

同时,由于数据平台将大量数据集中于单一环境,数据的安全性和隐私保护变得尤为重要。这要求我们采用先进的安全措施和威胁检测技术,以确保数据的安全。此外,数据处理过程中可能消耗的大量能源也不容忽视,因此,提升数据平台的能效和可持续性不应仅作为后续的补充措施,而应从设计之初就被纳入考量。

面对数据爆炸的时代,克服这些挑战对于充分发挥数据平台在数据驱动决策中的潜力至关重要。我们需要一种综合性的策略,不仅在数据环境中提升效率、保障安全性,还要注重可持续性。这一策略应融合技术创新、强化安全实践,并承担起对环境保护的责任。

在本文中,我们仅对企业数据架构的演变和数据平台的崛起进行了初步探讨。决定采用数据平台架构只是应对人工智能项目中数据管理挑战的第一步。接下来,我们还需考虑是自主构建还是采购现成的数据平台,以及如何从传统的数据架构平稳过渡到数据平台。

构建面向人工智能的企业数据架构的现实问题与考量

评估基础解决方案

在评估支持现代应用程序和工作负载的数据环境的基础解决方案时,了解在变更数据架构过程中应关注的关键点至关重要,这有助于确保顺畅的集成过程,并避免可能发生的昂贵运营中断。以下是您在选择解决方案时需要考虑的几个关键因素,以帮助您为组织的需求做出最佳决策:

是否依赖专用硬件运行?

这是一个需要根据具体情况来决定的问题。但请注意,采用专用硬件可能会导致您与特定供应商的锁定,并且可能需要每隔五到十年进行一次硬件的更新换代。此外,一些包含双控制器、双端口驱动器或特定介质等特性的专用硬件平台可能存在采购困难,也可能不支持面向数据管道的混合云架构。

是否提供灵活的部署选择?

尽管有关企业从云环境回归本地部署的讨论不断,但实际上,大规模回归本地的趋势被过分夸大了。未来的趋势是混合云。几乎每家企业都在其数据战略中考虑了云服务,至少对部分工作负载进行了云化(或正在考虑未来的选择权)。对于那些希望进入人工智能领域的企业来说,这一点尤其重要,因为大型云服务和GPU云服务提供商能够提供快速且经济的入门途径。

是否具备与未来发展相适应的能力?

在评估数据平台或其他类型的数据基础设施解决方案时,我强烈建议确保所选方案能够适应未来的发展趋势。解决方案应当能够在您的本地环境中运行,并且能够无缝扩展到您选择的任何云环境,为您需要连接的所有环境提供一致的体验,包括功能集、性能特点和扩展性等。

是否对容器提供原生支持?

容器技术在现代数据管理中扮演着越来越重要的角色,因此在评估时需要检查容器化应用程序的性能是否能够与直接在硬件上运行的性能相媲美。

是否存在扩展性限制?

随着我们快速进入EB级数据时代,如果您正在实施现代数据架构,确保在可预见的将来不会遇到规模限制是至关重要的。寻找一个能够为您提供几乎无限扩展能力的解决方案,避免将来需要对架构进行根本性的改变。

S 交响曲

多年来,在业界流传着一个笑话,那就是在设计新产品时,要考虑三个关键的客户价值点——更快、更好和更便宜——但只能三选二。然而,在数据平台战略评估方面,我们可以通过打造一个动态的数据管道,将整个数据环境紧密连接起来,实现数据的自由流动,从而改变这一局面。这样的方法有助于消除过去孤立和瓶颈式的处理方法所带来的数据摩擦和性能障碍。

如果操作得当,这种策略应当能够提供速度、规模、简便性、可持续性、节省成本、安全性、安全性和软件等多方面的价值,我将其称之为“八个S”(Speed、Scale、Simplicity、Sustainability、Savings、Security、Safety、Software)。这些价值主张如同交响乐一般和谐地融合在一起,为您的数据环境创造出完美的协调。

以下是您在评估时应关注的要点:

  1. 速度:您的数据平台解决方案应包含精细的I/O和元数据操作负载平衡、优秀的随机4K流性能和更低的延迟,以满足GenAI数据处理的需求。
  2. 规模:随着非结构化数据管理在未来几年的主导地位,您的数据平台必须准备好处理不断增长的数据类型和体量。
  3. 简便性:在这个“少即是多”的时代,数据平台必须有效应对组织当前面临的数据挑战,并确保能够预见并规避未来的挑战。这包括在多个数据中心(无论是本地还是云端)之间无缝访问数据,以及使用不同的协议。同时,它还应该使您能够在同一个基础设施上运行所有应用程序,利用统一的“数据海洋”,而非分散的数据孤岛。
  4. 可持续性:可持续性是当前的热门议题。随着我们共同应对全球气候变化,数据中心的能源需求和碳足迹也随之增加。负载平衡、多协议支持、本地和云端之间的弹性以及存储效率对于确保可持续性至关重要。
  5. 节省成本:成本效率始终是关注焦点。寻找能够在可变长度块大小上通过压缩和去重复制减少数据的解决方案,以正确评估您的数据投资,并实现最佳的总体成本节省。如果云服务是您数据管理战略的一部分,那么寻找具有自动扩展功能的解决方案,确保您只需支付所需容量的费用。
  6. 信息安全(Security):信息安全是任何企业数据环境的核心关注点。寻找具有休息时和传输时加密功能的现代多租户解决方案(可以将系统分解为可以独立管理的多个组织单元)。
  7. 数据安全(Safety):企业的安全性是核心原则,包括韧性、可用性、耐久性,并强调数据的完整性、一致性和可靠性,这些都是基本要求。
  8. 软件:2011年,马克·安德森(Marc Andreessen)宣称:“软件正在吞噬世界。”到了2024年,软件已经无处不在。您的数据平台应采用以软件为基础的方法,确保能够灵活、敏捷地支持当前和未来的数据管理环境。

构建还是购买?这可能是一个价值百万美元的问题。与所有技术投资决策一样,您必须决定是自主研发解决方案,还是从值得信赖的合作伙伴那里购买。根据公司的开发资源和预算,定制数据平台可能是一个合理的选择,但能够解决上述问题的解决方案也是可以获取的。对一些人来说,可能是两者的结合。

无论您选择何种路径,有一点是明确的:数据正以惊人的速度推动创新,确保您已做好准备,可以帮助您充分发挥数据的价值。

-----

Source:Liran Zvibel; Rise Of The Data Platform; Mar 22, 2024


---【本文完】---

近期受欢迎的文章:

  1. 2024年数据平台的十大关注热点

  2. 2023年最佳企业级数据存储、管理平台、灾备产品

  3. 智能数据平台:2023年回顾和2024年预测

  4. 数据平台的崛起:AI全面重构企业数据框架

  5. VAST Data深度访谈:超越计算与存储边界,迈向第六数据平台



更多交流,可添加本人微信

(请附姓名/关注领域)


继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存