查看原文
其他

非结构化数据管理的新指标

常华Andy Andy730 2024-03-16

Source: Randy Hopkins, The new metrics for unstructured data management, December 4, 2022


过去几年,全球数据增长率高于前二十年。根据IDC的数据,预计未来几年数据将再次翻一番以上——到2025年将达到175ZB。


这些数据大多不是结构化的,包括文档、视频、图像、仪器和传感器数据、文本和聊天等。非结构化数据更难查找、移动和管理,因为它不在数据库中的行和列中,而是分散在企业内外的无数应用程序和存储系统中。


如今,数据的爆炸式增长和数据类型的多样性为企业IT部门和数据存储专业人员带来了许多新的挑战。其中包括不断上升的存储和备份成本、管理复杂性、安全风险,以及可见性受阻带来的机会成本。


为了解决这些问题,我们需要新的智能分析和指标,并且必须超越传统的存储指标,专注于理解数据,并让应用程序所有者以及部门和业务利益相关者参与数据管理决策。这些指标还应包括跟踪和改善能源消耗的措施,以实现更广泛的可持续发展目标,这在这个周期性能源短缺和气候变化的时代变得至关重要。


首先,让我们回顾一下IT部门传统上跟踪的存储指标:


传统存储IT指标


在过去的20多年里,负责数据存储的IT专业人员跟踪了一些主要与硬件性能相关的关键指标。其中包括:

  • 时延、IOPS和网络吞吐量

  • 每年的正常运行时间和停机时间

  • RTO:恢复点目标(对组织可容忍的最大数据丢失量进行基于时间的度量)

  • RPO:恢复时间目标(停机后恢复服务的时间)

  • 备份时段:执行备份的平均时间


新指标:以数据为中心与以存储为中心


上述传统IT基础设施指标是当今任何企业IT组织的筹码。在当今世界,数据是决策的中心,有许多新的以数据为中心的度量值需要理解和报告。部门和业务单元领导越来越多地负责监控自己的数据使用情况,并且经常为此付费。当IT部门试图节省开支和释放容量时,与IT部门的讨论可能会引起争议,而业务领导者却对归档或删除自己的数据感到不安。这些指标有助于弥合差距:

  • 排名靠前的数据所有者/用户:这可以显示使用趋势,并指示任何违反政策的行为,例如单个用户存储过多的视频文件或PII(Personally Identifiable Information)文件存储在错误的目录中。

  • 常见文件类型:从某些应用程序或仪器收集数据的研究团队可能不知道它们有多少或全部存储在哪里。通过文件扩展名查看数据的能力可以为未来的研究计划提供信息。这可以像从给定应用程序或仪器中查找所有日志文件、跟踪文件或数据提取并对其执行操作一样简单。

  • 按存储容量使用计费或退款的存储成本:即使部门不参与按存储容量使用计费模型,利益干系人也应了解成本并能够深入了解指标。这将使他们能够确定可以应用低成本存储或存档存储的数据分层以减少支出的领域。

  • 数据增长率:总体趋势信息使IT和业务负责人保持同步,以便他们可以就管理爆炸式数据量的新方法进行协作。利益相关者可以深入了解哪些组和项目的数据增长最快,并确保数据创建/存储根据其总体业务优先级是合适的。

  • 数据的年龄和访问模式。大多数组织都有大量的“冷数据”,这些数据已经一年或更长时间没有被访问过。显示冷数据、温数据和热数据比例的度量指标对于确保数据根据其业务价值在正确的时间和地点存在至关重要。


了解以数据为中心与以存储为中心的指标有助于IT和部门共同做出更好的决策。然而,由于企业中普遍存在数据孤岛,数据分布在许多应用程序和存储环境中,从本地到边缘和云,这些指标历来难以收集。


获取此数据需要一种使用单一管理平台跨供应商边界(包括云服务商)查找和索引数据的方法。整理所有存储提供商之间的数据以获取这些指标是可能的,但手动密集型且容易出错。独立的数据管理解决方案可以帮助实现这些更深入、更广泛的分析目标。


新指标:可持续数据管理


全球能源危机因乌克兰战争和新冠疫情后经济复苏的需求激增而恶化,正在推动企业可持续发展计划以及全球对新绿色技术的投资。负责任地管理数据是这一整体计划的重要组成部分。大多数组织都有数百TB的数据,这些数据可以删除,但被隐藏和/或理解得不够好,无法进行适当的管理。将很少使用的僵尸数据存储在性能最佳的第1层存储(无论是本地还是云中)不仅成本高昂,而且消耗的能源最多。


如果我们要缓解气候变化,数据中心必须减少其气候足迹。以下与可持续发展相关的数据管理指标可以帮助衡量和减少与数据存储相关的能源消耗:

  • 上次访问时间和创建时间:数据访问和期限指标可以为将数据移动到低碳存储位置(如云对象存储)的决策提供信息。

  • 减少重复数据:删除不需要的数据自然会降低存储占用空间和能耗。通常,特别是在研究组织中,数据集会针对不同的实验和测试进行复制,但永远不会被删除。

  • 供应商存储的数据:传统存储技术(RAID、SAN、磁带)通常更浪费,这就是SSD和全闪存存储快速增长的原因。较新的存储技术比旋转磁盘更快、更高效,从而降低了功耗。了解存储在传统解决方案上的数据百分比是定义如何以及何时升级到更现代的技术(包括云存储)的起点。

  • 可伸缩性:这是对执行功能所需工作量的度量。任何更容易、更高效管理的技术都更环保。它需要更少的人力和更少的数据中心资源,并且具有更多的自动化功能。例如,一个存储架构师现在可以管理50PB及以上的数据,而使用旧技术时可以管理8PB或更少。


新型数据管理


没错:投资于扩展度量衡计划的新举措确实需要时间、资源和资金。那么,为什么要这么做呢?


首先,拥有更好、更广泛的数据指标可以为经济高效且可持续的数据管理决策提供信息——轻松将支出和能源使用量减少50%或更多。


但还有更多:您的用户(数据使用者)也将受益于对其数据的详细见解。了解数据并能够快速搜索数据类型或元数据标记(如项目关键字)等数据特征可以大大减少搜索数据所花费的时间。据估计,执行人工智能和数据挖掘项目所花费的时间中有80%用于查找正确的数据并将其移动到正确的位置。


在医疗保健、农业、政府、公用事业和制造业等关键部门,总是需要更快的洞察力来解决难题,例如为慢性病创造新的治疗方法;改进电动汽车电池或风力涡轮机推进;或调整土壤养分以生产更高的作物产量。


在当今数据驱动的经济中,基本的存储指标已不足以保持竞争力并满足重要的市场和运营目标。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存