卓越的AI始于出色的数据管理
数据处理成本在上升。
在某种程度上存在一个误解,即数据处理非常便宜。这个误解源于大家熟知的公有云存储能力的价格,每月仅需几分钱。然而,存储中的数据必须经过处理,必须建立并保护以提升其价值。数据必须由应用程序处理、移动、共享和使用,从而产生工作负载。没有人会永远存储数据而不去使用它。没有人会仅仅为了容量而购买存储。
在我们这个行业里,有一句非常有启发性的话:无论数据流向何方,最终都会落到存储中。因此,数据并非存在于虚空之中。然而,当涉及到数据基础设施和数据管理技术时,这些正是构建优质数据所必不可少的基石,但往往受到相对较少的关注、审慎和关心。
AI推升数据处理成本
最近,一些文章引起了我的注意,涉及到数据处理的成本。
其中一篇标题是“专家警告:全球数据供应无法满足AI需求。”
The World Is Running Out of Data to Feed AI, Experts Warn https://www.sciencealert.com/the-world-is-running-out-of-data-to-feed-ai-experts-warn 机器学习数据扩展局限性分析:数据是否即将枯竭?
我的第一反应是:“我们怎么可能用完数据呢?” 当今世界上有如此多的数据,IDC在2025年的预测为175ZB,可能不太准确。根据Exploding Topics的估算,我们每天创造328.77TB的数据,每年120ZB。虽然我不能对这些数字的准确性进行担保,但这些数字确实非常庞大。
另一篇文章是由著名的云计算专家David Linthicum发的,题为“云中的生成式AI会变得实惠吗?”
Will generative AI in the cloud become affordable? https://www.infoworld.com/article/3710372/will-generative-ai-in-the-cloud-become-affordable.html
从这两篇文章中我们可以得出结论,进行AI以及现在流行的一切——比如大型语言模型(LLM)和生成式AI——都将是成本高昂的。这是毫无疑问的。但问题是,如何从数据以及为实现组织AI目标而获取的任何数据中获得最佳价值呢?
容量并非衡量价值的标准
多年来,我注意到许多组织一直在追求增加存储容量的投资。他们几乎总是关注更多的容量。然而,当涉及到存储性能(速度)、数据相关性(真实性)和数据类型(多样性)时,很少有人重视这些方面。我甚至看到一些管理员在公司的存储设备上悄悄运行BT种子服务,导致网络带宽和存储容量被耗尽。
在此,我提到了大数据的4V(容量、速度、真实性、多样性)(Volume, Velocity, Veracity, Variety),但遗憾的是,我们可以确定容量并不等同于价值。如果组织不重视数据管理规范和数据质量,那么大多数数据都只是毫无用处的垃圾。
高质量的数据
以最简单的方式来说,我们需要转变对数据管理的思维方式。我从在Interica(现在属于Petrosys)工作时学到的一项重要经验是,在石油和天然气地下数据管理领域,有一句话:“数据是我们在地下唯一能看到的东西”。我们必须以这种思维方式来仔细选择和规划数据,更确切地说,是高质量的数据。
由于在糟糕的数据管理中犯错会导致产生大量无用数据。我想起石油和天然气行业一个曾发生过的事故,一个在东南亚的勘探公司由于弄错了数据而开始进行钻探。4个钻探项目最后都毫无所获,每个项目的成本大约为2500万美元。由于数据质量不过关,导致大约1亿美元的浪费。
同样的问题在AI项目中也很常见。
目标与关键成果(OKR)
人们对数据基础设施和数据管理的理解还存在不足。在组织内部,明确数据的整体情况是非常关键的。我们需要了解并梳理数据资产,弄清楚它们在存储基础设施中的位置,无论是在本地还是在云端。我们需要明白数据的流动和使用情况,以及数据被处理的位置和方式。我们还要理解数据的生命周期,并知道如何根据业务活动的相关性对其进行分类。
通过建立OKR(Objectives and Key Results)体系,将业务目标和运营目标进行对齐,并设定实现从A点到B点的关键结果的运营目标。数据的真正价值在于它所创造的业务成果。
元数据的强制实施
元数据正在逐渐受到重视。我们创建的大量数据具有在常见的基于文件的属性之外注入基于内容的元数据的固有能力,例如文件大小、所有者、访问时间等。元数据的使用无疑可以提升数据文件和对象的价值。
在Interica工作时,我学到了一种有用的最佳实践。Interica的PARS(现在并入Petrosys Oneview)能够强制要求地震解释的工程师在每个决策节点输入他们的思考过程。这不仅迫使工程师创建内容元数据,同时还能捕捉到G&G专家的知识和智慧。同样的思维方式也应当在AI项目中得到应用。
然而,我发现目前在AI中使用元数据仍然明显不足。一套完善的数据管理规范可以创造出大量在AI项目中非常有价值的元数据。
可信赖数据的重要性
我们并非缺乏可供AI使用的数据。然而,由于存在大量的虚假信息和不可靠的数据,我们正面临着高质量数据的短缺。没有真实性,我们就无法信任数据,也无法信任AI。
在数据管理领域有一句古老的格言:垃圾进,垃圾出(GIGO)。还有一句谚语,被称为DIKW(数据、信息、知识及智慧体系),它表明在数据管理过程中,我们可以将数据转化为信息;信息转化为知识;知识转化为智慧。
有了这些理念,组织不应该在它们的数据基础设施和数据管理平台上投入不足。优秀的数据基础设施创造了卓越的数据价值。我们正站在AI发展的风口浪尖。卓越的AI始于出色的数据管理。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解