查看原文
其他

AI数据湖:大数据浪潮与企业技术重塑

常华Andy Andy730
2025-01-01

于AI/ML技术浪潮的重要性已有许多文章。然而,鲜有人注意到的是,AI/ML正在如何重塑企业内部的技术权力结构。随着公司围绕以数据为中心的导向进行重新组织,它们也在重新界定谁来制定和执行技术架构。虽然微妙,但从IT部门向数据团队的过渡代表了一场深刻的变革,使它们成为数据基础设施的主要管理者,而这种变革可能是永久性的。

大数据系统的兴起

这一变革的根源可以追溯到大数据运动,特别是采用Hadoop生态系统。尽管如今我们可能对Hadoop不以为然,但在其时代,它是一场革命,引领了大数据时代的来临。与由IT管理的传统数据库不同,Hadoop使数据专业人员能够处理庞大的数据集,释放了分析和洞察力的新潜力。这标志着从IT向具有数据处理和分析专业技能的人的专业知识转变。对于购买什么以及从哪些供应商购买的控制权也转移到了这些新的团队。具有讽刺意味的是,尽管规模达到PB,但即使在今天,这些数据往往被传统IT领导视为“账外”(off book)。

AI/ML的爆发

当OpenAI的ChatGPT于2022年11月首次亮相时,世界发生了翻天覆地的变化。可能性的真正力量似乎流入了每个人的意识,而ChatGPT的易用性使得AI成为了企业高级管理层的不可或缺的要素。数据不再仅仅关乎回顾性分析;它关乎前瞻性的洞察、预测,甚至是自动化的洞察。随着这一变革,数据科学家和ML工程师的角色变得至关重要,为他们提供所需的基础设施和工具成为一项首要任务。

IT角色的演变

随着数据团队在企业战略决策中扮演日益关键的角色,IT的职能也发生了演变。传统上,IT的核心关注点是维护基础设施、确保系统平稳运行,以及管理存储和数据访问。然而,随着云平台和即服务(as-a-service)的崛起,许多这些任务被外包或自动化。IT的角色逐渐转向更注重集成、安全性和治理的方向。这些任务固然至关重要,但企业已经超越了对IT的传统命令和控制的范式,更趋向于一个协调者的角色。谈及协调者,云运营模式为开发团队提供了容器化和编排。这改变了代码的开发、发布、维护和更新方式。不再是每年一次的升级——现在是每周一次,甚至有时每天一次的升级。然而,IT并非为这个场景而建,因此他们专注于创建一个安全、可治理的环境,以支持开发团队。

数据团队设计和管理基础设施的原因

AI/ML在企业中的关键性已从各类研究报告中凸显出来。这并非意味着每个企业都对其涵义了如指掌,但当CEO发布指令时,团队通常会迅速响应。在这一过程中,AI/ML团队发挥着主导作用,其中许多成员在Hadoop基础设施上积累了丰富的经验。他们的任务不仅仅是选择适用的框架,甚至不仅仅是编写或调整基础模型——实际上,他们需要设计以AI为核心的数据湖基础设施。要在AI领域取得成功,企业需要对数据进行全面整合,可以是分布式的,但必须是可访问的。

数据团队的专业能力不仅限于数据分析,还包括在优化数据存储、检索和处理方面的专业知识,以满足分析和机器学习应用的需求。由于他们更专注于特定的领域,数据团队通常能够更敏捷地对新技术进步做出响应,确保组织保持在技术前沿。数据团队更擅长理解数据对业务的影响,并直接管理基础设施,以确保更好地与企业目标保持一致。

以AI为中心的数据湖的框架

AI中心数据湖将凸显现代数据湖的独特元素。

  • 它将更为庞大,追求规模化性能,并且具备多引擎的能力。此外,它将实现数据层和计算层的解耦。首次解耦的阶段,值得一提的是计算层和驱动层,这使得整体结构更为深化。

  • AI数据湖将呈现出规模外扩的趋势。一旦处理PB和EB级别的数据,规模内扩的模式将迅速失效。而这正是我们正在积极追求的目标。

  • AI数据湖将是软件定义和云原生的(包括容器化、编排、API、自动化等)。这意味着它将基于对象存储。我们今天已经看到客户在采用这种模式。

  • AI数据湖将进行规模上的性价比优化(因此采用NVMe)。全面采用全闪存储的情况已经到来,考虑到GPU周期的价值。为了提高算力利用率,更为重要的是为其提供数据。吞吐量和IOPS同样至关重要。

  • AI数据湖将采用通用硬件。不再采用专用设备。这源自超大规模计算服务提供商总结出的一个简单的经验教训:硬件要简单,软件要聪明,而且要大规模应用。

  • AI数据湖将推动网络层速度的提升,以至于100GbE将成为标配。


一种协作范式

必须要理解的是,这并不是一个零和博弈。这种演变并没有让IT部门过时。相反,它呼唤更为协作的方式,其中IT和数据团队密切协作。虽然数据团队可能在数据利用方面处于前沿,但IT在确保基础设施安全、合规并与其他企业系统集成方面扮演着关键的角色。

结论

我们对于这个新篇章感到非常兴奋。AI/ML革命不仅涉及新技术,更涉及在迅速变化的技术环境中重新思考组织结构和角色。随着数据越来越成为企业成功的核心要素,最能理解其影响的人自然应该在管理其基础设施方面发挥领导作用。

-----
Source: Jonathan Symonds, An Unintended Consequence of the AI/ML Revolution——Power Shifts in the Enterprise, 29 October 2023



---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存