Source: The Active Archive Alliance, 2023 State of the Industry Report: “Effective Data Management Through Active Archives.”, April 24, 2023
前言
根据最近的市场报告和数据管理团队的反馈,我们可以有把握地说,简单地购买更多存储的战术措施是不可持续的。到本世纪末,我们很可能面临大约 15.0ZB 的新企业存储容量出货量,活跃安装基数超过 45ZB。
作为一个行业,我们如何提供如此大量的存储?作为企业存储的消费者,我们如何支付成本?作为一个社会,我们如何提供必要的电力并控制相关的碳足迹?在这个永无止境的网络犯罪时代,我们如何保护这一切?
我们需要的是一种现代战略来管理数据的增长和数量,我们相信这就是主动归档(active archive)提供的解决方案。对于当今数据驱动的战略性组织来说,数据删除几乎从来都不是可取的,而数据民主化势在必行。
我们希望读者能够更好地理解智能数据管理的价值、主动归档的诸多好处,以及为什么这一战略正在迅速普及。
摘要
业务和 IT 领导者非常了解两位数的大规模数据增长所面临的挑战。更多的设备和应用程序会生成更多从边缘到公有云的数据。复制和移动数据以进行保护,需要将数据保留更长时间,甚至担心删除公司数据,都会增加存储需求。每年 40% 的数据量增长率推动了许多行业的场景。
应对数据增长挑战的关键是有效的数据管理,尤其是在 IT 预算持平或增长缓慢的情况下。数据管理的工作定义涉及高效、安全和经济高效地收集和存储数据的过程。如果没有有效的数据管理,数据增长会使组织不堪重负。
有效的数据管理还带来了其他关键优势。如今,IT 组织面临着众多挑战,包括勒索病毒威胁、预算压力、技能短缺和数字化转型。智能、有效的数据管理通过网络弹性、降低成本、简化数据管理和数据可访问性功能来解决这些问题。
除了需要解决的问题之外,数据驱动型组织还将数据视为战略性的企业资产。在未来的世界中,AI 和 ML 工作负载渗透并推动各级业务流程和决策,有效的数据管理变得势在必行。如果没有智能数据管理流程来提供商业智能工作负载的组织,就有可能被竞争对手甩在后面。
而这正是主动归档模型为当今现代和未来企业服务的地方。
主动归档通过以下方式解决了数据增长难题:
• 智能数据管理层,用于将数据放置在其所属的位置,以提高成本或性能
• 对任何存储体系结构、介质或协议的适应性
• 适用于整个数据生命周期,从数据创建到归档和最终清除
• 安全和保护功能,保护数据免受威胁和风险
主动归档使组织能够经济高效地管理其不断增长的数据并应对行业压力,同时为从未来的销售机会中获利奠定基础。
主动归档的核心 — 智能数据管理软件
主动归档的核心是智能数据管理系统。该软件系统在自动将数据放置在成本、性能和工作负载优先级的位置方面发挥着核心作用。使用元数据和全局命名空间等技术,数据管理层使数据能够在其可能驻留的任何存储平台或介质上访问、搜索和检索。
在其众多功能中,智能数据管理层通过以下方式增加价值:
• 自动执行将数据分层到长期存储的决策
• 自动化数据管理流程,例如:
o 应用数据保护和安全策略
o 清理数据
o 异常情况警报
• 调查和分析企业数据环境
• 发现 IT 管理员不知道的数据
• 通过图表、图形和仪表板呈现组织数据的可视化表示,以实现更好的决策
• 简化监控和管理大规模、不断增长的数据所需的技能集
而且,数据管理软件在后台完成这项工作,不会影响性能。
主动归档
集成智能软件和可扩展存储,以实现最佳归档解决方案
归档最初是书面交流的必然结果。考古学已经浮出水面,古代合同,贸易,法律和历史的档案记录。这些存档记录处于活动状态。历史记录了行政人员、官员、商人和学者访问这些档案,以决定现在和未来。快速将存档介质从平板电脑、卷轴、书籍和纸张过渡到当今的数字时代,包括闪存、固态、硬盘、光盘和磁带驱动器介质。归档数字信息已发展成为一个价值数十亿美元的产品和服务市场。数字时代归档的早期使用主要侧重于将冷数据移动到长期存储,而今天的现代主动归档模型认识到归档数据的价值;与古代一样,存档数据必须处于活动状态,并可供最终用户、应用程序和工作流进行发现、研究和分析。与以前的归档相比,今天与以前时代的归档有很大不同,是以数字形式产生的大量信息。正因如此,企业需要一个主动归档来成功管理、存储和访问其不断增长的数据量。一个基本的主动归档原则性断言,当今的企业需要在线访问历史数据。某些场景可能需要快速访问;在其他情况下,更长的检索时间是可以接受的。组织确定其用户和组的访问需求和权限。• 商业智能:公司可以分析保留的数据,以深入了解趋势和模式。将数据货币化成为将存储成本转化为盈利机会的最终目标。• 法律要求:持续访问可确保法律团队可以从冷存储中搜索和检索数据以响应诉讼。• 卸载 IT 资源:配置对非活动数据的在线访问,以便用户可以在没有 IT 干预的情况下检索这些文件。自助访问可节省时间和金钱。大多数数据增长来自视频、音频、图像、演示文稿、电子邮件和文档表示的非结构化数据。用户在创建此数据 30 天后访问此数据的可能性大大降低;100天后,它跌破1%。为了保持这种增长,主存储上的非活动数据变得效率低下且成本高昂。通过智能数据管理软件,主动归档将非活动数据移动到低成本存储。对于某些组织,数据管理软件可以将旧数据分层到硬盘驱动器等热存储。然后,当根据策略,数据已经足够老化时,文件可以移动到更经济高效的存储,如经济型磁盘、磁带、光盘甚至云。其他组织可以通过将数据立即移动到存档类型的存储而受益。例如,医疗保健会立即存档医学图像,但缓存的副本会在本地存储中保留 30 天。通过将非活动数据移出主存储,IT 体系结构可以通过支持最活跃数据集的精益主存储受益。主存储上释放的空间可以阻止购买额外硬件的需求。数据整合通过降低人工成本、许可费和能源成本,开辟了节约成本的可能性。主存储的备份成本也从中受益,因为备份软件的工作量减少了,需要的时间和精力更少。主动归档通过数据洞察节省资金。通过数据管理软件提供的分析可帮助 IT 决策者了解其组织使用数据的方式和原因。反过来,这种理解决定了管理员如何优化其数据以节省成本。通过趋势分析,数据智能可帮助 IT 领导者针对存储增长进行规划和预算。法律团队发现主动归档通过避免成本来节省资金。大多数公司必须遵守法规要求,以特定方式在特定时间内保留和存储数据。主动归档可帮助公司遵守这些数据安全要求,并避免因不合规而造成的法律成本。成功的网络攻击的威胁令世界各地的组织感到担忧。在过去两年中,勒索病毒仍然是首席信息安全官的头号安全问题。成功的勒索病毒攻击可能导致数据丢失、业务中断、收入损失、罚款和法律费用。加起来,从勒索病毒攻击中恢复业务的平均总费用:185万美元。主动归档可以提供广泛的安全功能和网络弹性功能,以保护数据免受当今企业和机构面临的网络威胁。由于存档数据通常保持不变,因此管理员可以使用 WORM 或仅查看模式功能来防止数据被删除或覆盖,从而保护数据的完整性、可用性和机密性。随着数据管理软件将非活动数据移动到主动归档介质上,主存储的恶意软件感染暴露目标会降低。此外,几种介质技术(如磁带或光盘)具有易于部署的气隙防御功能,IT 人员可以在其中与任何在线路径建立字面隔离,以防止未经授权的电子访问。存储管理员可以对其主动归档数据采用 3-2-1-1-0 最佳做法,这也是备份存储的最佳做法:• 至少维护 3 个数据副本 - 其中主存档文件算作其中一个副本• 将 2 个副本存储在不同的介质(例如磁带和硬盘)上虽然组织应该依靠网络安全软件作为抵御恶意软件的第一道防线,但他们应该假设成功的攻击随时可能发生。在处理只会扩大网络攻击攻击面的大规模数据增长时,这些功能和实践可确保组织的数据资产保持安全、受保护和可恢复。除了访问、成本和安全优势之外,主动归档还为技术领导者提供了适应新行业趋势和增长领域(如可持续性、人工智能和边缘计算)的灵活性。这种灵活性有助于企业在市场领导地位、增加收入和竞争优势方面蓬勃发展。从IT的角度来看,可持续性关注的是企业如何使用IT系统来最大限度地减少对环境和社会的负面影响,同时最大限度地提高其积极影响。IT 的可持续发展重点领域包括能源消耗、电子废物和供应链效率。在可持续发展的法律要求之上,企业领导者认识到公众更有可能支持致力于保护环境的产品和服务的公司。此外,节能和减少浪费的可持续性实践可以节省资金。数据中心消耗了全球大量能源,估计高达全球能源供应的 3%。服务器和存储在能源消耗方面尤其值得注意。每一年新的数据增长都会增加运行服务器、存储系统和网络设备以处理、存储和传输数据所需的能源需求。主动归档对组织优先事项的适应性使其非常适合支持可持续性目标。例如,如前所述,智能数据管理软件层会自动放置成本、性能和工作负载优先级的数据。通过将非活动数据从闪存或高性能 HDD 等能源密集型设备中分层,非活动数据可以转移到能耗较低的技术(如某些HDD、磁带系统和光存储)上,这些技术以其最低的能源需求和低每 TB 成本而闻名。通过虚拟化底层存储基础架构,数据管理软件可优化存储资源以节省能源。其软件的报告和分析可指导可保留或清除的数据决策,以节省能源和成本。分析可以帮助企业整合存储资源,降低能耗。企业领导者可以使用他们的报告将存储技术与能源消耗联系起来。这些分析功能有助于满足组织对可持续发展活动的报告要求。因此,通过主动归档,智能数据管理变成了智能能源管理。难怪到2026年,全球公有云服务市场预计将增长到1万亿美元。企业的价值主张非常简单:使用信用卡,可扩展的基础设施可以立即使用。这种即时基础架构并非没有挑战:• 云成本超支。到 2024 年,近 60% 的公司将经历公有云成本超支,这会对其预算产生负面影响。• 数据主权。云存储可能会影响公司依法负责的数据主权法规。• 云数据泄露。在过去 12 个月中,近一半的组织经历过基于云的数据泄露或审计失败。• 云延迟。某些工作负载或数据传输可能具有时间敏感型要求。当然,云存储和服务也有好处。问题在于云服务无法经济高效地扩展。这就是为什么许多公司将部分甚至全部长期数据返还到本地、私有云或混合云解决方案的原因。人工智能 (AI) 和机器学习 (ML) 工作负载将作为各级运营管理和决策的企业工具渗透到工作场所。市场研究表明,35%的组织已经投资了人工智能,44%的组织计划在明年投资人工智能。随着有效的数据管理可以改善 AI,有效的 AI 可以改善数据管理。AI 将智能数据管理软件层扩展到分析和报告之外。人工智能将通过以下方式为数据管理带来价值,从而为主动归档带来价值:• 针对主存储、 备份存储和归档存储针对可用性、成本、性能和工作负载优先级进行了定制优化• 在发生网络攻击或其他中断时自动恢复关键工作负载的数据通过人工智能驱动的智能数据管理软件层,人工智能将通过以下方式自动化和自动化主动归档:• 自动清理、规范化、分类,并使其可访问 AI 工作负载的长期数据和元数据• 高效分配计算、存储和网络资源,以支持可持续工作最终,人工智能依赖于组织良好的数据才能取得成功。这再次强调了为什么通过主动归档进行有效的数据管理对于人工智能的未来至关重要。边缘计算将数据处理移出数据中心,并在其来源或附近移动。数据处理可以在设备或小型服务器中进行。在物联网、5G 和小型服务器技术进步的推动下,到 2030 年,边缘计算市场预计将上升到 1165 亿美元。边缘计算通过快速响应、减少网络传输和降低成本来带来 IT 优势。边缘计算的分布式特性使数据存储复杂化,其中边缘设备的数量可能从数百到数十万不等。这些设备的范围可以从小型传感器到小型服务器。企业面临着有关收集、处理、存储和管理从边缘设备和应用程序生成的数据的问题。主动归档以与数据中心和云中生成的数据相同的方式为边缘计算增加价值。智能数据管理层通过以下方式帮助 IT 组织管理边缘数据:• 自动将边缘数据放置在其所属位置,以实现成本、性能和工作负载优先级• 通过图表、图形和仪表板分析和呈现边缘数据的可视化表示,以便更好地做出决策此外,某些边缘数据可能有资格立即移动到主动归档环境。要保留的边缘数据可以以 WORM 或其他不可变格式存储,以保护其免受恶意软件的侵害。IT 组织可以使用其主动归档,在需要时随时提供边缘数据,用于分析工作负载,以获得业务见解。边缘计算的众多场景之一涉及公共安全的视频监控。视频监控安装是收集、保留和访问录制的视频数据量的理想选择。据估计,全球有超过十亿台设备,一个大型国际机场每天可能产生数百TB的视频监控数据。即使是拥有一百台摄像机的组织,每天也可以生成数十TB。主动归档可作为实用的视频监控存储解决方案,适用于需要长期视频保留或拥有大量监控摄像机的组织。- 管理:主动归档的智能数据管理策略可以将视频文件分层到 HDD 上,然后再分层到主动归档存储层。
- 成本:磁带技术为主动归档视频监控录像带来了经济高效、可扩展的解决方案。
- 安全性:主动归档可以通过其数据管理软件自动应用安全策略,以确保法规遵从性和保护。
- 访问:通过将分层集成到视频管理软件 (VMS) 系统中,视频操作员可以轻松搜索和播放来自任一视频存储层的所有录制视频。
主动归档、多层、视频存储解决方案为视频监控场景带来了经济高效的实施。这些解决方案显著降低了所需硬件的初始成本,而且总体拥有成本也因电力成本节约而受益。信息时代使现代企业充斥着数据。这种对企业存储容量的指数级需求趋势在未来几年只会增加。这种巨大的增长是为什么从边缘到云的有效数据管理的紧迫性和优先级势在必行的原因。至少,即将到来的人工智能新世界的基础设施将建立在组织良好的数据存储和工作流程的基础上。即使在今天,许多人工智能项目也被搁置,因为数据从未被收集过。此外,缺乏熟练的数据管理将影响 IT 成本、数据安全性、网络弹性、法律合规性、客户体验、决策和品牌声誉等。熟练的数据管理推动了数据驱动的文化。在这种文化中,组织将数据视为重大决策和日常行动的战略资产。与人工智能一样,数据管理与数据驱动的价值观有着根本的联系。对于大多数公司来说,这仍然是一个愿望,因为只有四分之一的组织报告说他们已经建立了一个数据驱动的组织。归根结底,有效的数据管理是组织为实现 IT 现代化和数字化转型而必须实现的核心竞争力的必要组成部分。而这正是主动归档模型为当今现代和未来企业服务的地方。主动归档解决方案满足了对有效数据管理的需求,同时提供了一个经济高效、可扩展的解决方案来应对数据增长挑战。除了数据增长和管理解决方案之外,主动归档还通过推进更广泛的数字化转型计划为组织及其利益相关者提供服务。