查看原文
其他

GigaOm 雷达报告《非结构化数据管理基础设施解决方案》v3.0

常华Andy Andy730 2024-03-16
Source: Max Mortillaro, Arjan Timmerman, GigaOm Radar for Unstructured Data Management: Infrastructure-Focused Solutionsv3.0, Mar 13, 2023

概览

由于文件和对象的横向扩展存储系统,更高效地管理存储容量变得更加方便、更便宜。同时,云提供了在性能、容量和冷数据归档方面扩展多种可用选项的机会。然而,由此产生的数据孤岛的扩散造成的问题,新的多云IT战略和边缘计算正在惊人地加速这一趋势。
公有云提供的灵活性和可扩展性也是有代价的。在这个金融动荡和不确定性的时期,一些组织正在积极寻求降低成本的机会:正在重新评估云优先计划,数据遣返项目在多个垂直领域变得司空见惯。这些项目需要仔细规划和执行,如果不事先分析现有和预期的数据足迹,可能会变得非常昂贵。
复杂性也会影响内部策略和法规遵从性;类似于 GDPR、CCPA、HIPAA 和支付卡行业数据安全标准 (PCI DSS) 的严格法规正在全球导入,如果没有非结构化数据管理解决方案的帮助,分析和分类将变得更加困难。此外,数据主权法规对物理数据位置和数据流施加了限制,要求组织按位置充分细分对资源的访问,并识别和地理围栏受影响的数据集。支持这些监管框架并能够处理数据隐私请求(如数据主体访问请求 (DSAR)、识别和分类个人身份信息 (PII),甚至对遗忘权 (RtbF) 和删除权 (RoE) 请求采取进一步行动的解决方案,可以从根本上简化合规性操作。
这两个业务要务(遣返项目和法规遵从性)增加了对解决方案的需求,这些解决方案可以自动无缝地处理大规模数据移动,只需最少的监督,理想情况下基于策略引擎。
我们即将达到这样一个地步,即长时间安全地存储数据实际上并没有给组织带来任何好处,而且很快就会成为一种负担。但是,通过正确的流程和工具,现在可以控制数据并利用其隐藏价值,将其从负债转变为资产。
借助正确的非结构化数据管理解决方案,可以:
  • 了解存储系统中存储了哪些数据,无论这些数据多么复杂和分散。
  • 制定策略以干预成本,同时提高数据存储的投资回报率 (ROI)。
根据用户选择的方法,为非结构化数据构建和开发数据管理策略有几个潜在的好处,包括更好的安全性和合规性、改进的最终用户服务、降低成本和数据可重用性。正确的数据管理策略使组织能够降低风险并充分利用机会。
这份 GigaOm 雷达报告重点介绍了关键的非结构化数据管理供应商,并为 IT 决策者提供了选择最适合其业务和场景要求所需的信息。

市场类别和部署类型

为了更好地了解市场和供应商定位(表1),我们评估了非结构化数据管理解决方案在服务于特定细分市场和部署模型方面的定位。
此 Radar 报告涵盖以基础设施为中心的解决方案,并提供有关评估的解决方案是否也能满足以业务为中心的解决方案要求的洞察。以业务为中心的解决方案将在单独的雷达报告中介绍;但是,某些解决方案重叠并可能出现在两个雷达中,尽管放置和评估不同。以下是我们如何定义和区分这两个类别:
  • 基础设施导向:旨在针对基础设施级别的数据管理和元数据的解决方案,包括自动分层和基本信息生命周期管理、数据拷贝管理、分析、索引和搜索。
  • 业务导向:旨在解决业务相关问题的解决方案,包括合规性、安全性、数据治理、大数据分析和电子发现。
此外,我们在此报告中认识到解决方案的两种部署模型:
  • 用户管理:这些产品通常在本地安装和运行,通常可以在混合云环境中很好地运行。
  • 软件即服务 (SaaS):基于云后端,通常作为服务提供,以这种方式部署的解决方案的工作方式与本地类别中的产品截然不同。传统上,这种类型的解决方案针对混合、多云和移动/边缘场景进行了更多优化。

表 1.供应商定位


关键标准比较

基于GigaOm报告“评估非结构化数据管理解决方案的关键标准”的结果,表2总结了本研究中包含的每个供应商在我们认为在该领域具有差异化和关键性的领域的表现。本摘要之后的表 3 深入分析了每个产品的评估指标,即定义对组织影响的主要特征。
目的是让读者了解可用解决方案的技术能力,定义市场格局的边界,并衡量对业务的潜在影响。

表 2.关键标准比较


表 3.评估指标比较

通过结合上表中提供的信息,读者可以清楚地了解市场上可用的技术解决方案。

GigaOm 雷达报告

本报告综合了对关键标准的分析及其对评估指标的影响,为图1中的GigaOm雷达图形提供了信息。生成的图表是根据本报告中所有供应商的产品技术和功能集对其的前瞻性观点。
GigaOm雷达在一系列同心环上绘制了供应商解决方案,那些设置在靠近中心的环上被认为具有更高的整体价值。该图表从两个轴上描述每个供应商 - 平衡成熟度与创新以及功能重头戏与平台重头戏 - 同时提供一个箭头来预测未来 12 到 18 个月内每个解决方案的演变。 
图1.用于以基础设施为中心的非结构化数据管理解决方案的 GigaOm 雷达报告

正如您在图 1 中的雷达图表中看到的那样,供应商分布在主要位于雷达下半部分的弧线上,表示一个特别受创新驱动的市场。
五家供应商位于创新/平台游戏区域:Arcitecta、Cohesity、Druva、Komprise 和 NetApp。
  • Arcitecta是这个雷达的新进入者。该解决方案非常有趣,并提出了一种独特的整体方法,该方法将可大规模扩展的全局文件系统与非结构化数据管理功能(如完整内容索引、勒索病毒韧性、对合规性场景的支持和全面的审计功能)相结合。
  • Cohesity已经提供了全面的端到端数据管理功能,DataHawk是一个全面的套件,将其威胁情报解决方案与高级数据分类相结合,进一步增加了已经非常完整的解决方案。
  • Druva 提供了一种有趣的方法,其特点是在其基于 SaaS 的数据保护平台之上提供数据合规性、搜索和分析功能。它包括一系列广泛的功能,例如基于 AI/ML 的异常和勒索病毒检测,并继续高度关注安全改进。
  • Komprise 提供了一个引人注目的 SaaS 平台,重点关注元数据分析、自动化和编排功能。该解决方案将易用性与数据分类功能、数据放置建议与可操作的洞察以及动态开发速度相结合。
  • NetApp 已将 Cloud Data Sense 集成到其 BlueXP SaaS 统一数据管理平面中。除了提高可用性外,该解决方案还具有BlueXP分类品牌,包括Cloud Data Sense令人羡慕的面向业务的功能,例如数据分类和合规性,并通过高级勒索病毒保护和数据移动功能对其进行扩展。
CTERA、Datadobi和Hitachi Vantara三家供应商位于创新/平台游戏象限之外,但很快就会进入这一领域。
  • CTERA基于云的SaaS分布式文件存储解决方案实施了一个直观的交互式数据洞察可视化平台,该平台与地理分区和流量路由功能相结合,使其客户能够定义精细的,符合法规的访问策略。该解决方案现在包括本机勒索病毒保护功能。
  • Datadobi新的StorageMAP解决方案(取代DobiMigrate 和DobiProtect)包括出色的数据编排功能。元数据分析以及全局索引和搜索功能非常好;该解决方案还包括孤立数据和暗数据检测功能。
  • Hitachi 提供广泛的解决方案生态系统,其中 Hitachi Content Intelligence 最关注本报告配套产品中描述的关键标准。该解决方案成熟且经过验证,非常强调面向业务的功能,例如策略和数据工作流,使其最适合大型企业。不过,它也适用于基础设施场景。
有两家公司在创新/功能游戏象限中:Atempo和Panzura。Atempo 是 Radar with Miria(一个涵盖广泛服务)的整体平台,包括分析、迁移、归档和备份,是新进入者。在数据管理中,它最关注的是编排领域。该解决方案提供了一个很有前途的路线图。Panzura 数据服务是一种易于使用且有效的解决方案,为数据分析提供分类标准、数据洞察和增长模式,以及各种审计功能(例如检查违反法规遵从性的功能)和异常检测机制,包括勒索病毒保护。
最后,成熟度/平台竞争象限中列出了两家供应商:Data Dynamics和Dell Technologies。Data Dynamics 通过全面统一的解决方案在多个领域表现出色,该解决方案将广泛的供应商支持、企业级数据管理、基于策略的数据复制和迁移方案与强大的数据分析、安全性和合规性功能相结合。Dell Technologies的 DataIQ 解决方案提供跨Dell、第三方和云存储的统一系统视图;它通过基于策略的数据管理和迁移选项提供可靠的报告功能,并提供开放的插件开发框架。

供应商洞察

Arcitecta

Arcitecta基于其Mediaflux平台实施全面的数据管理方法。Mediaflux可以看作是数据和元数据的操作系统;该解决方案由集群控制器、I/O 和计算节点组成,并提供具有多协议支持的单个全局命名空间(网络文件系统/NFS、服务器消息块/SMB、AWS S3、API overHTTPS、sFTP 和 DICOM)。文件系统也进行了版本控制,支持Arcitecta的时间点备份功能,该功能允许组织从任何特定时间点无缝查看和恢复数据,从而消除了对单独备份产品的需求。该解决方案具有高度可扩展性,支持多达数万亿个文件。为了有效地处理索引和搜索,Arcitecta基于类似NoSQL的方法开发了自己的专有数据库解决方案XODB。XODB为Mediaflux操作系统提供支持,并允许组织几乎立即搜索任何数据。
Arcitecta支持丰富的元数据,并包括出处信息;元数据是通过分析处理管道从数据中自动提取技术元数据、手动添加或从特定活动的上下文中自动添加的。该解决方案还执行数字资产的完整内容索引,从而根据关键字、文件类型、日期范围和其他搜索条件实现高效搜索。索引编制完成后,该解决方案可以实时显示搜索结果,并能够对数据进行筛选和排序。
文件系统是合成的,可以动态重新配置。这使得 Mediaflux 无需移动或复制任何基础数据即可创建数据的综合视图,从而能够为大数据分析创建虚拟视图。这些视图可以通过 API 和文件系统以及系统支持的任何协议进行投影。
该解决方案包括对数据安全性、治理和数据保护要求的支持。Mediaflux 创建并实施元数据架构,确保数据的描述和组织一致,以符合要求使用特定元数据标准的法规要求,例如 GDPR 或 HIPAA。该解决方案带有一个广泛的审计框架,允许对访问模式和载体进行取证重建,从而提供增强的合规性和跟踪。它还维护有关数据所有者的信息,这是处理 DSAR 的先决条件。
从安全角度来看,该解决方案未实现任何异常检测引擎或基于勒索病毒的保护系统。相反,它依赖于基于一次写入多次读取 (WORM) 的文件系统、版本控制功能和时间点数据保护解决方案,以允许用户在恶意参与者或勒索病毒导致数据丢失的情况下立即恢复到正常状态。尽管如此,它还具有强大的基于角色的访问控制 (RBAC)、基于属性的访问控制 (ABAC),并支持动态和静态加密。该解决方案还为每个协议和访问向量提供多因素身份验证 (MFA) 和授权,以防止首先发生异常。
业务流程功能由工作流引擎处理,该引擎可自动执行复杂的数据处理和管理任务。工作流可以包括各种数据处理和分析步骤,例如文件转换、元数据提取、数据分层、迁移和质量控制检查。Mediaflux 提供了一个简单的 API,用于以编程方式访问存储在系统中的数据资产并与之交互。此 API 可用于自动执行重复的数据管理任务,例如数据引入、元数据提取和文件格式转换。它还可以通过批处理调度系统(如便携式批处理系统 (PBS) 和用于资源管理的简单 Linux 实用程序 (SLURM))的集成来协调 HPC 工作流的执行。
该解决方案目前未在其产品中使用 AI/ML。相反,该公司将Mediaflux视为一个可以向AI/ML环境提供数据的系统。
  • 优势:借助Mediaflux,Arcitecta提供了全面的带内数据管理功能,巧妙地实现了多种功能,例如元数据管理和完整内容索引和搜索,以及广泛的审计和无缝勒索病毒恢复功能。该解决方案专为扩展而构建,能够处理数千亿个文件。
  • 挑战:尽管 Mediaflux 具有固有的韧性功能,但更主动地检测和预防勒索病毒攻击或恶意活动是一个有待改进的领域。

Atempo

Atempo 通过其 Miria 解决方案提供非结构化数据管理功能。Miria由五种互补但独立的数据服务组成:分析(无论使用何种数据服务都可用)、移动性、归档、迁移和备份(这四项服务通过基于卷的订阅单独许可)。除了数据保护之外,Atempo Miria的场景还包括数据/存储重新定位、存储生命周期、整合计划、本地到云迁移、云到云迁移和数据遣返。该解决方案目前可部署为虚拟设备(与广泛的虚拟化平台兼容)或安装在物理或虚拟服务器上的软件,并支持Microsoft Windows,macOS和Linux。将来,它也应该在公有云市场上原生可用。
Miria包含一个分析组件,用于探索、识别和分类数据,并能够根据系统元数据或扩展对文件进行排序或排序。它还包括报告功能。分析层是高度可配置的,并提供高级过滤功能,这些功能可以保存在自定义视图中,以便以后重复使用。这些视图还可以为数据移动操作提供可重用的文件列表。到2023年,该解决方案将包括对云存储的支持以及增长趋势预测。
目前通过第三方集成支持合规性。完整的索引尚不可用,但 Atempo 计划在未来的版本中添加此功能。该公司的研究部门还在评估ML技术,以检测个人信息并协助自动数据分类。
从安全角度来看,Miria包括可以通过API调用提供给安全信息和事件管理(SIEM)平台的审计跟踪。此外,Miria 可以在源和目标对象存储桶之间复制对象锁定配置,以确保数据得到充分保护。最后,管理系统提供了一个精细的权限集,以允许访问组织内的各种角色。未来的安全改进可能包括其分析服务中的异常检测功能,这是Miria正在积极研究的领域。
在工作流管理方面,Miria允许基于策略的数据移动和创建可以按需执行或计划执行的活动。活动可以从命令行界面或通过 Miria的完全公开的 REST API 启动。这种灵活性使解决方案能够轻松集成到工作流程中,这是媒体和娱乐客户的常见场景。
Miria以数据迁移场景而闻名,因为它支持文件到文件、文件到对象和对象到对象操作的数据迁移和复制活动。它支持任何提供基于 S3 或基于 Swift 的访问的对象存储或云提供商解决方案,并支持 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud Platform (GCP)。FastScan 功能可帮助用户快速识别已更改的文件,从而在初始完整迁移周期完成后缩短迁移时间。Atempo 计划在下一个产品版本中引入对对象存储的 FastScan 支持。值得注意的是,Miria支持冷对象层,并且能够基于不同的技术本机写入离线的长期存储介质系统,例如磁带库。
  • 优势Atempo Miria提供了一个整体平台,涵盖了广泛的场景和服务,包括数据保护、数据归档、用户驱动的数据分析和自动数据管理。从数据管理的角度来看,它最关注的是编排领域。由于第三方集成,该解决方案可以扩展,并提供了一个有希望的路线图。
  • 挑战:该解决方案提出了多个需要改进的领域。如果公司实现了路线图,完整的内容索引和 ML 的使用可以显著改善其对合规性和安全场景的处理。

Cohesity

Cohesity提供Cohesity数据云平台,这是一个端到端的解决方案,旨在应对现代企业中的数据和应用程序挑战。它既可以作为部署在物理或虚拟服务器上的软件定义的横向扩展解决方案,也可以作为主要云提供商(AWS、Azure 和 GCP)提供的服务提供。
用户可以将不同的工作负载(包括备份、归档、文件共享、对象存储、测试/开发和分析)整合到单个软件定义的平台上。此方法简化了大量数据的存储、保护和管理。除了高效的 Web 级分布式文件系统和集成的数据保护之外,Cohesity 还提供了越来越多的功能,可满足以基础设施和业务为中心的应用程序的需求。
Helios管理界面提供了跨位置存储的对象和文件的统一视图,并提供一组可操作的洞察,例如备份和还原,测试和开发场景的克隆以及报告。Helios还支持Insight和数据分类等应用程序的部署。这些远远超出了标准的元数据搜索,并支持真实内容和基于上下文的搜索和发现,所有这些都在统一的Helios管理界面中完成。当与另一个品牌为 Spotlight 的本机应用程序结合使用时,组织可以使用 Insight 来分析用户活动和搜索非结构化数据。
数据管理仍然是 Cohesity 的关键差异化因素之一。事实上,它已在这一领域实施了一系列广泛的功能,旨在简化数据移动性、保护、安全性和治理。SmartFiles 包括远程数据复制功能、不同存储系统和云之间的自动分层、透明的归档功能、数据迁移和复杂的勒索病毒防护,这些功能受益于 Cohesity 平台级高级安全功能。
该解决方案提供了一组丰富的安全相关功能:勒索病毒保护通过根据正常模式(使用多个指标)监视数据更改并根据通常的活动基线测量异常活动,利用基于 ML 的早期攻击检测。基于不可变快照构建的勒索病毒保护通过 Fort Knox 进行扩展,Fort Knox 是一种高度安全、隔离的云气隙不可变存储解决方案,作为服务提供。另一个区别是强大的零信任 MFA 模块,该模块具有基于仲裁的批准,用于环境中的敏感操作,例如更改保护策略。最后,用户行为分析 (UBA) 功能通过识别数据泄露、篡改、删除等指标来检测有风险的用户行为。它还通过交互式日志搜索审核用户文件活动。
Cohesity DataHawk进一步增强了这种方法,Cohesity DataHawk是Smart Files的附加组件,通过基于深度学习的引擎简化威胁检测,从而提供自动化威胁情报。DataHawk 由 Cohesity 高度策划和管理,包括入侵指标 (IoC) 威胁源,并可扩展到与 SIEM 或安全编排、自动化和响应 (SOAR) 平台的第三方集成。DataHawk 还通过提供一键式访问来查找、识别和分类受监管数据(如 PII、HIPAA 和 PCI),并包括 200 多个分类器和 50 多个预定义策略,具有基于 ML 的模式匹配和识别。此外,它还能够识别受影响的备份快照、服务器、虚拟机 (VM) 和文件。
  • 优势:Cohesity 为数据保护、整合和管理提供了完整的端到端解决方案,具有集中式用户界面 (UI)、出色的整体效率和总体拥有成本 (TCO)。Cohesity DataHawk 中最新的安全性和合规性改进进一步提高了标准并增加了解决方案的整体价值。
  • 挑战:该解决方案专为大型和分布式企业部署而设计,具有良好的投资回报率,但对于小型组织来说,初始投资可能很高。

CTERA

CTERA提出了一种云和本地分布式文件存储解决方案,其中包含非结构化数据管理和分析功能。这些是通过 CTERA Insight(一种以 SaaS 形式交付的附加数据可视化服务)提供的,该服务按类型、大小和使用趋势分析文件资产,并通过组织良好、可自定义的 UI 呈现信息。用户可以向下钻取以了解哪些租户和位置正在经历数据增长模式,并查明相关的组、个人和数据类型。
除了数据洞察之外,此接口还提供实时使用情况、运行状况和监控功能,包括中央组件和边缘设备。CTERA 还实施了一个全面的 RBAC 系统,该系统支持基于文件夹和用户的标记,以授予动态数据访问权限,包括基于地理或部门的访问权限。
该解决方案允许企业通过CTERA区域设计符合数据主权法规的全局文件系统。使用区域,可以将全局文件系统分段为多个数据单元,以防止区域之间的数据泄漏。阻止用户访问全局命名空间中不属于其定义的区域的任何共享。可以在多个区域之间共享共享。管理员可以根据每个部门所需的内容定义区域,并将部门边缘文件管理器关联到每个区域,确保用户只能访问相关数据,同时限制对整个组织中敏感数据的访问。另一个产品功能是跨多个云提供商部署解决方案,并根据数据局部性或财务原因在云之间执行透明的基于策略的数据移动,而不会影响对数据的前端访问。云存储路由 (CSR) 增强了合规性合规性,该功能允许组织通过将流量路由到正确的区域和网络来进一步执行数据主权法律。
该解决方案包括一组广泛的安全功能,包括审计跟踪、身份验证机制(包括双因素身份验证)、防病毒扫描、粒度版本控制和不变性。2023年,该公司将发布CTERA Ransom Protect,这是一个基于AI的勒索病毒检测和预防系统,该系统可以根据行为分析在30秒内检测勒索病毒,阻止违规用户,并发送带有审计跟踪信息的相关警告。CTERA 继续提供与 Varonis 的集成,以提供多个领域的功能,包括数据分类(受监管、敏感和关键数据)、安全分析、深度数据上下文和审计跟踪以及安全建议。
除了能够执行上述透明的基于策略的数据移动之外,管理员还可以使用 CTERA Migrate(内置迁移引擎)来发现、评估和自动从网络连接存储 (NAS) 系统导入文件共享。通过 Windows、Linux、macOS 和移动设备上的本机文件同步和共享功能支持现有文件系统。当客户使用 AWS S3 作为 CTERA 的后端对象存储时,该解决方案可以使用 AWS S3 智能分层,这允许在 S3 频繁访问层和 S3 不频繁访问层之间移动数据,从而帮助组织进一步节省成本。CTERA 还可以完全部署在本地的完全私有架构中,以满足多个国土安全部门客户的严格安全要求。
  • 优势:CTERA 结合了专有数据洞察、高级地理合规性功能以及对安全性和网络韧性的高度关注,包括基于 AI/ML 的异常检测功能。它具有强大的安全功能路线图。
  • 挑战:缺少某些合规性功能,例如完整内容索引和数据分类。

Datadobi

2022 年,Datadobi 发布了 StorageMAP,这是一个非结构化数据管理平台,集成了其以前的独立解决方案 DobiMigrate 和 DobiReplication 的数据分析和数据迁移功能。
StorageMAP 是一种无代理解决方案,可提供广泛的基础设施级数据分析和数据管理功能,例如数据发现、报告、标记、数据迁移、数据保护、存档功能、移动和删除。该解决方案扫描数据源、收集元数据,并在仪表板中聚合收集的信息,可以由可以采取行动的个人进一步分析这些信息。
元数据分析是Datadobi StorageMAP解决方案的重要组成部分。该解决方案可以分析系统元数据标记以提供数据洞察、帮助分类,并随后触发对所选数据集的操作。此外,StorageMAP 现在支持手动标记直至文件夹级别。这些标记可用于分类和操作。Datadobi的策略引擎可以获取操作标签,并根据先前定义的策略以编程方式执行操作。策略引擎允许定义多个参数,包括副本频率、计划和排除项。
Datadobi 还通过 Datadobi 查询语言 (DQL) 提供高级过滤功能,这是一种类似 SQL 的可扩展查询语言,能够根据客户可能规定的任何标准执行非常精细的特定查询。DQL 是任务自动化的构建基块,允许用户查询数据集和计划后续活动。StorageMAP(在短期路线图中)的未来新增功能将根据搜索结果添加可操作的洞察。
尽管 StorageMAP 不是治理产品,但该解决方案包括识别暗数据和孤立数据的机制,允许管理员隔离这些数据集并寻找潜在所有者或做出有关进一步操作的决策,从而可能减少组织因缺乏数据所有权而导致的风险足迹。该解决方案可以通过第三方解决方案(通过 API 集成)进行扩展,以实现完整的内容索引和数据分类。
Datadobi最大的优势之一在于其编排能力。该解决方案包括对基于策略的数据移动以及复制和迁移功能的支持。StorageMAP 完全支持文件到文件、文件到对象和对象到对象的迁移,并为本地和云平台的广泛生态系统提供支持。除了跨供应商 NAS 迁移外,该解决方案还支持并发多协议访问以及必须维护 WORM 数据属性的特定场景。还支持数据复制,并允许组织创建受气隙网络连接保护的数据的故障转移副本或黄金副本。该解决方案通过文件级验证、高级完整性保护和监管链报告强制实施数据完整性,提供目标数据与源数据相同的证据。
管理 UI 通过提供对迁移活动的洞察(包括每秒操作数和带宽利用率)来提供直观的体验,同时还报告性能问题和错误。该 UI 包括多个 FinOps 功能,这些功能可以在数据集级别跟踪成本并测量其各自的碳足迹(CO2 排放)。目前,这些数字必须手动提供,但Datadobi为其客户提供有关如何计算这些成本的指南。财务和预测成本模拟已在路线图上。
安全能力目前有限;没有支持异常检测或勒索病毒防护的特定功能(尽管该解决方案可用于将数据复制或迁移到不可变存储层)。同样,Datadobi目前没有使用AI/ML来协助事件趋势、实时推荐或内容分析/元数据增强。尽管该公司没有分享其路线图,但Datadobi很可能正在私下探索其解决方案的AI/ML增强功能。
  • 优势:StorageMAP是Datadobi的重大发展,包括出色的数据编排功能。元数据分析以及全局索引和搜索功能非常好,包括 DQL,这是一种可用于自动化活动的独特查询语言。它具有用于孤立数据和暗数据检测的值得注意的功能,可减少组织的风险面。
  • 挑战:可以进一步开发文件分析功能,以便在合规性、治理和遵守法规要求的上下文中提供更好的支持。虽然不是Datadobi的重点领域,但没有特定的安全功能。

Data Dynamics

Data Dynamics提供围绕三种产品构建的完整非结构化数据管理解决方案:StorageX(数据位置优化和企业数据迁移),Insight AnalytiX(数据隐私风险分类)和ControlX(数据暴露风险,合规性和修复)。StorageX 允许组织跨存储系统和位置(包括基于云的存储)以 PB 级规模管理非结构化数据,具有数据发现、分类、标记和增强等功能;它支持一组广泛的数据移动选项和基于策略的管理功能。
该解决方案收集所有元数据并将其存储在高度可扩展的数据库中。然后,使用自定义标记,客户可以根据需要合并或拆分数据分析。
StorageX 跨存储系统分析数据,并根据各种条件执行自动元数据标记和元数据扩充:可以根据文件类型、文件内容或文件名和文件夹表达式等条件自动添加标记,但管理员可以定义和应用自定义策略。
StorageX由Insight AnalytiX补充,Insight AnalytiX是一种数据隐私风险分类解决方案,可识别包含200多种已知文件类型的PII的文件。隐私风险分类器目前可识别 80 多种不同类型的 PII;该解决方案结合了模式识别技术、关键字识别和 AI。它与 StorageX 协调工作,通过构建高级多级逻辑表达式和逻辑运算符组合从 StorageX 获取数据集信息,然后继续流式传输和分析数据以识别 PII 和潜在风险内容。
分析完成后,该解决方案将提供模板来查看分析的数据,并允许用户下载各种格式的报告。该报告由深度分析(描述性和诊断性)提供支持,可帮助企业清楚地了解存在的风险以及量化风险的简单方法。StorageX和Insight AnalytiX都支持RBAC,拥有直观的UI,并支持全文搜索功能。
ControlX与Insight AnalytiX集成,使企业能够主动降低风险并遵守合规性法规。它提供可扩展的安全修复,使用户能够智能地隔离有风险的数据集和重新许可文件,并创建由区块链技术支持的不可变审计跟踪。ControlX 的文件控制操作可以通过 RESTful API 集成到企业现有的环境服务管理、数据管理和治理工作流自动化中。
该解决方案基于策略,支持多种数据复制和数据移动方案。数据集可用于为大数据分析应用程序创建数据湖;期限和上次访问条件也可以用作数据分层策略的基础,这些策略可以自动将数据放置到更便宜的存储层中。
  • 优势:Data Dynamics 提供了一个强大的、基于策略的非结构化数据管理平台,该平台嵌入了出色的元数据增强功能、广泛的存储解决方案覆盖范围、出色的数据移动/分层选项以及可靠的数据分析隐私风险分类和合规性解决方案。ControlX 提供了一个隔离选项,用于将文件移动到特定位置并隔离它们。隔离区提供的气隙有助于防止勒索病毒对关键文件的攻击,同时提供即时保护。
  • 挑战:Data Dynamics平台为数据管理提供了有趣的功能。Data Dynamics有机会进一步扩展其功能集,并包括对数据的可操作洞察以及管理结构化数据的能力。

Dell Technologies

Dell Technologies通过其Dell DataIQ存储监控和数据集管理软件提供非结构化数据管理功能。该解决方案提供了 PowerScale、ECS、第三方存储平台和云存储的统一文件系统视图,并深入了解数据使用情况和存储基础设施运行状况。DataIQ是基于软件的,可以部署在Linux服务器上,也可以作为VM部署。对于涉及频繁、大规模数据传输的大型部署,组织可以使用其他组件(如 DataIQ、数据移动器或外部工作人员)卸载数据流量并优化传输流。
Dell DataIQ 跨平台和位置分析和分类大型数据集的功能针对高速扫描和索引进行了优化,无论数据驻留在何处,都能在几秒钟内获得搜索结果。DataIQ 支持文件和数据集的元数据标记。标记可以是自动的,也可以是手动的,在常规扫描活动期间根据管理员先前配置的策略应用自动标记。标记可以包含标记数据的大小限制和/或到期日期(能够在满足其中一个条件时提醒数据所有者)。
DataIQ 还提供了可靠的报告功能(包括识别冗余、未使用和暗数据的能力),并可以按项目、团队或个人提供存储使用情况报告,以及用于按存储容量使用计费/回收目的的基于成本的报告。该解决方案通过“数据箱”直观地呈现一些数据,每个数据箱都包含按其最新修改和访问的属性分类的数据集视图,呈现热、温、冷或冻结数据池。每个箱的时间范围是可自定义的,并提供数据类别和数据放置优化机会的清晰视图。此外,DataIQ 还可用于为Dell PowerScale 横向扩展文件系统存储提供高级监控功能。
DataIQ 平台可通过插件进行扩展,包括数据移动器插件的数据移动功能。它允许跨位置和存储系统传输特定文件和数据集,并通过不同的源和目标协议将相关数据馈送到适当的应用程序。其他插件支持识别重复数据(仅适用于基于文件的存储库)、审核已删除的文件以及预览文件。
从安全角度来看,该解决方案支持 RBAC 和基于 Active Directory 的身份验证,同时实现行业标准的流量加密协议。但是,它还没有任何异常检测机制来帮助识别早期异常用户行为或潜在的勒索病毒攻击。DellCloudIQ通常处理勒索病毒检测,但它是一个单独的产品,可能并不总是像DataIQ那样涵盖相同的数据和系统范围。
DataIQ提供了一个API(品牌为ClarityNow!),可以直接通过Python访问。此外,DataIQ 的模块化架构允许创建第三方插件,这些插件可以利用 API,并为前端和后端插件开发提供全面的开发人员指南,以及Dell Technologies GitHub 存储库上的示例代码。
  • 优势:Dell DataIQ与Dell技术存储产品组合无缝集成,补充CloudIQ,并允许跨Dell和第三方产品以及基于云的存储监控数据。该解决方案提供了可靠的报告功能和出色的开放式架构,允许第三方插件。
  • 挑战:该解决方案目前缺乏异常和勒索病毒检测功能。它还不包括任何法规或合规性功能,这些功能可以促进与数据隐私法、电子发现或数据主权相关的数据分类和/或可操作洞察。

Druva

Druva 数据韧性云提供跨最终用户数据源的集中保护和管理,并以 SaaS 形式提供。通过统一端点、数据中心工作负载、AWS 工作负载和 SaaS 应用程序的分布式数据,组织可以在一个位置管理备份和恢复、灾难恢复、存档、网络韧性、法律保留和合规性监控。这种统一性最大限度地降低了数据风险,并确保了员工生产力的连续性。
Druva 通过分析每小时数亿个事件和每小时超过 400000 个查询的数据管道,提供基于非结构化数据的高级元数据分析。数据从备份事件中收集,然后通过大数据分析管道运行以使其可查询。目前,Druva 提供仪表板,为用户提供摘要级别信息和联合搜索功能(包括电子数据展示和法律保留查询),还提供存储洞察和建议。
该解决方案提供了一个易于使用且功能丰富的管理控制台,可提供有用的指标和统计信息。Druva 实现了联合搜索,这是一个功能强大的搜索引擎,使管理、安全、法律和取证团队能够增强跨工作负载(包括 Microsoft 365、Salesforce、Google 工作区和端点设备)执行全局元数据搜索的功能。可以使用各种属性进行搜索,包括与电子邮件相关的信息。
Druva 目前不提供大数据分析功能(在允许数据复制操作创建数据湖的意义上);但是,该公司在内部使用大数据分析以及提取、转换、加载 (ETL) 管道,为其 AI/ML 解决方案构建数据集并监控自己的云服务。
Druva 的 SaaS 平台提供了广泛的合规性和安全功能。如前所述,该解决方案支持与电子发现和法律保留相关的合规性查询。此外,Druva 还监控异常数据活动以检测潜在的勒索病毒攻击。它实现了加速勒索病毒恢复功能,可根据精选快照执行隔离和协调恢复。这是一种自动选择处于上次已知良好状态的文件的独特方法,以确保它们在恢复时未被加密或感染。与安全相关的功能包括 RBAC、强用户身份验证、MFA 和多个安全认证。它可以提供有关数据使用情况的访问洞察,通知潜在的异常情况,并与丰富的安全、监控和日志记录解决方案生态系统集成。其他安全功能包括对已删除的备份提供一周的保留期,以及对备份实现 100% 不变性的功能,这意味着即使删除或更改了保留策略,也无法删除它们。
虽然Druva没有自己的市场,但该解决方案提供了一个完整的REST API,可以在多个领域与行业知名的第三方解决方案集成,例如身份验证和ITSM(Okta,Splunk,ServiceNow,ADFS,GitHub),电子发现(Disco,Access Data,OpenText,Exterro)和安全(Palo Alto Networks,FireEye,Splunk)。
Druva 认为 AI 和 ML 是改进其解决方案并将其与竞争对手区分开来的基本功能。AI/ML 目前用于通过异常行为检测和 IoC 扫描增强客户体验,提供基于内容的建议,例如文件级存储洞察和高级隐私服务,并增强底层元数据。AI/ML 增强的产品功能包括勒索病毒异常检测、存储消耗预测以及数据隐私和合规性功能。
  • 优势:数据治理和管理工具集成在基于 SaaS 的现代数据保护解决方案中。它易于大规模部署和管理,具有简单的许可模式、良好的总体拥有成本和快速的投资回报率。该公司拥有强大的以安全为中心的路线图,并将继续提供这些功能。
  • 挑战:对于寻求独立的非结构化数据管理解决方案而不考虑采用新的数据保护平台的组织来说,该解决方案的吸引力可能较低。

Hitachi Vantara

Hitachi Vantara 拥有针对物联网 (IoT)、大数据和非结构化数据的全面数据管理策略。在非结构化数据管理方面,Hitachi Vantara 提供了广泛的解决方案组合,包括针对数据保护和副本管理的 Hitachi Ops Center Protector、Hitachi Content Platform (HCP) 对象存储和 Hitachi Content Intelligence。
Hitachi Content Intelligence 提供了优化和扩充数据和元数据的必要功能,使其更易于通过 Pentaho(数据分析套件)和 Lumada Data Catalog 等工具进行进一步处理。内容智能的主要功能之一是能够基于标准和自定义对象元数据定义策略和操作:策略可以与各种操作相关,例如数据放置(保护、复制、基于成本的分层和传递到处理位置)、数据转换(匿名化、格式转换、数据处理)、安全性和数据分类。
内容智能支持创建在本地或云中工作的简单或复杂的端到端工作流。可以使用应用程序提供的元数据自动扩充新对象或文件,扫描各种标准(例如,识别 PII),然后使用分类和合规性相关元数据进行扩充。它还提供与合规性和治理相关的多种功能。除了检测 PII 之外,内容智能还可用于保留管理和法定保留目的;它支持地理围栏、GDPR、HIPAA 和其他监管框架。这些都由数据处置工作流支持,包括用于处理 RtbF 请求的内置系统、在保留期过后自动删除数据的功能,以及处置活动的自定义审核日志记录。
  • 优势:此解决方案框架可以针对多个场景进行优化,包括索引和搜索、数据治理和合规性、审计、电子发现、勒索病毒和其他安全威胁的检测。Hitachi Ops Center Protector 可用于各种来源,包括非 Hitachi 的虚拟化存储系统,而 HCP 和 Pentaho 专为高可扩展性而设计,可以部署在混合云环境中。
  • 挑战:Hitachi 的生态系统专为大型组织设计,对于小型组织来说可能既昂贵又复杂。

Komprise

Komprise是一个引人注目的数据管理平台,具有易于部署和管理的功能,可实现快速的投资回报。该解决方案提供数据分析、搜索和标记、构建虚拟数据湖的能力,以及跨任何文件和对象存储的全面编排功能。Komprise 是一种基于 SaaS 的解决方案,与本地或公有云中的任何 NFS 和 SMB 网络共享以及与 S3 兼容的对象存储兼容。Komprise 在不更改用户访问权限的情况下移动数据,并在多个供应商之间保留文件对象二元性。
最近的创新包括Komprise Hypertransfer,这是一种安全的专有协议加速通道,通过最大限度地减少广域网(WAN)往返和缓解SMB协议干扰,显着提高了吞吐量并缩短了迁移时间。此外,该解决方案基于一个或多个代理实现“区域”:数据从一个代理传输到另一个代理,并且所有活动都在给定的区域代理上本地执行,以避免与源数据进行不必要的通信,并通过在迁移期间不通过网络访问云文件存储来提高安全性。
Komprise Deep Analytics是一项由ElasticSearch提供支持的功能,能够跨异构存储系统(无论是在本地还是在云中)对元数据和标签进行索引,并自动创建全局文件索引。深度分析允许创建查询来识别特定数据集,并创建报告和仪表板,让用户向下钻取数据。它还提供可操作的洞察,例如从查询启动数据移动的提示,提供数据保留功能,并可以识别暗数据或孤立数据。
Komprise 利用其全局索引来查找并安全地共享与合规性、法律保留、法律查询和保留目的相关的数据。该解决方案具有丰富的编排功能,这要归功于其策略引擎,该引擎利用了深度分析和Komprise的透明移动技术(TMT)。TMT 根据客户定义的策略和深度分析查询中的数据集无缝移动数据,允许数据分层或迁移,而不会中断用户。此功能与大数据场景非常相关,并允许组织通过 TMT 将与这些分析查询相关的资产复制或移动到数据湖中。
另一个功能是Komprise智能数据工作流,它允许IT团队自动标记和发现混合存储孤岛中的相关文件和对象数据,并将正确的数据提供给云服务。数据迁移和遣返功能利用分析驱动的迁移方法,该方法在迁移活动开始之前执行全面的预检查,突出显示可能影响迁移任务的潜在问题。虽然智能数据工作流不包括本机数据分类功能,但该解决方案与第三方内容索引器(如 AWS Macie)无缝集成,以标记敏感数据并相应地移动它。
Komprise Deep Analytics 能够识别异常活动,并通过将冷数据分层到云中不可变的对象存储桶中,帮助为非结构化数据提供额外的勒索病毒攻击保护。它还能够通过跨平台保留访问控制和安全态势来维护安全访问。
最后,Komprise 利用自适应自动化(结合 ML 技术)来提供警报、检测异常,并提供有关数据使用情况、数据增长、数据成本和其他关键指标的报告。
  • 优势:Komprise提供了一个引人注目的基于SaaS的数据管理平台,该平台将易用性与强大的数据洞察力以及自动化和编排功能相结合。它有一个很好的路线图,专注于潜在的自动化、报告和性能改进。
  • 挑战:基于内容的索引是合规性和数据分类场景的关键功能,目前依赖于与第三方解决方案的集成。

NetApp

NetApp 提供 BlueXP 分类,这是一种全面的、主要面向业务的非结构化数据管理解决方案,可满足基于基础设施的需求。它对存储系统(NetApp 和非 NetApp)及其内容(包括文件、对象和数据库)执行多种类型的分析,为组织中的多个角色提供富有洞察力的仪表板、报告和指导。该解决方案仍由 NetApp Cloud Data sense 提供支持,在 2022 年第 4 季度推出时与 BlueXP 完全集成,因此新的解决方案名称。
它基于 ElasticSearch,集中管理所有存储库,并且可以扩展到数百 PB。该解决方案在三大云超大规模提供商(AWS、Azure、GCP)上实施,并且由于 NetApp 的安装基础需求巨大,也可供本地客户使用。数据可以驻留在云(客户操作的服务器)或本地的单个服务器或服务器群集上,使组织能够完全控制其数据。
元数据分析以及合规性和分类功能包括完整的数据映射、数据洞察以及对冗余和陈旧数据的控制、通过全面的搜索选项执行高级数据调查的能力,以及跨存储系统映射 PII 的可能性。同样,该解决方案可用于通过特定模式(例如,社会保险号)搜索敏感数据。组织可以在几分钟内生成法律就绪的合规性报告,并自动分类数据,并可以生成隐私风险评估报告以及满足 HIPAA 和 PCI DSS 要求的报告。
该解决方案支持 DSAR(通常与 GDPR 和 CCPA 法规相关,但不限于 GDPR 和 CCPA 法规)来查找人类数据配置文件和相关 PII。这些功能可通过与BlueXP无缝集成的全面而直观的UI进行访问。此外,还可以创建警报,以便在创建敏感数据(例如,当文件包含信用卡信息时)自动通知管理员,或识别暗数据源(例如大型电子邮件地址列表),从而帮助在组织内实现更好的合规性。该解决方案还本机支持 Azure 信息保护标签,允许组织直接在 BlueXP 分类中查看和修改这些标签。
解决方案的数据源整合功能支持大数据分析。用户可以创建查询以跨存储系统查找特定数据集,然后将这些文件复制到指定的目标位置,从而有效地创建新的数据子集。用户可以执行其他操作,例如删除或标记文件、将其分配给其他人以进行进一步调查和操作,和/或创建警报和策略以自动执行操作。
称为 BlueXP 勒索病毒防护的相邻功能利用 BlueXP 分类的结果(包括按敏感度和开放权限划分的顶级数据存储库)来提供显示潜在漏洞区域的仪表板。仪表板包括勒索病毒防护分数以及实时建议的操作。BlueXP 还通过 Cloud Volumes ONTAP(用于设备产品的开放网络技术)提供数据加密来解决合规性和安全性问题。
BlueXP 中原生存在编排功能,包括跨云和位置的无缝数据移动以及基于策略的数据移动。BlueXP 分类利用 AI 和 ML 进行自动化数据分类、数据分类和上下文深度数据分析。
  • 优势:NetApp BlueXP 分类提供了一组引人注目的面向业务的功能和全面的数据源支持。BlueXP 中云数据感知的集成扩展了解决方案的场景,使其能够更好地服务于基础设施驱动的非结构化数据管理计划。
  • 挑战:对于寻求独立的非结构化数据管理解决方案的组织来说,该解决方案的吸引力将降低。

Panzura

Panzura Data Services 是一个基于 SaaS 的分析套件,与 Panzura CloudFS 和任何 NFS 或 SMB 兼容的文件存储库(包括 NetApp 和 Dell PowerScale/Isilon)兼容,适用于本地和云端。它提供了存储基础设施的完整视图,包括资源利用率、文件审核和全局搜索,同时使企业能够分析趋势并获得有关文件系统和存储在其中的数据的完整报告。
该解决方案每 60 秒执行一次所有数据的快照,并将其合并到元数据目录中,该目录提供有关文件、所有者、访问频率和数据增长的全面信息。Panzura 数据服务提供了一个简单易用的管理界面,其中包括自由文本搜索和一组广泛的过滤器;可以保存搜索以备将来使用。搜索包括文件恢复功能、软用户配额和数据分析。
数据分析提供有关热、暖和冷数据的信息;按年龄、大小、存储分布、文件类型和文件大小进行过滤;并提供有关数据分布方式的洞察。此外,它还显示了数据每天如何增长,帮助组织了解增长模式并确定潜在的峰值。该解决方案包括监视功能,可以报告延迟问题或 CPU 使用率峰值。目前,元数据标记和扩充不可用,但该功能应在 2023 年实现。
Panzura 数据服务为 CloudFS 上存储的数据提供了全面的可审计信息,包括多个用户活动,例如数据复制、文件和文件夹创建、文件系统操作(锁定、写入、移动、读取、删除、重命名)以及属性和权限的更改。此信息可通过前面突出显示的相同搜索机制访问,使用筛选器按审核操作和日期范围或用户优化搜索,并且解决方案可以在一秒钟内返回数百万个结果。审计功能可用于识别违反法规遵从性要求的行为,例如,如果最终用户将文件复制到受地理限制的存储系统或从受地理限制的存储系统中移出文件。搜索功能还可用于快速识别和检索受法定保留通知影响的数据。
除了全面的审计功能外,该解决方案还实施了用于勒索病毒检测和保护的各种异常检测机制。当检测到遵循勒索病毒模式的可疑活动时,Panzura 数据服务可以识别、提醒和关闭对数据存储库的访问,以防止进一步损害。
总之,这些功能有助于改善总体存储基础设施的总体拥有成本。
  • 优点:该解决方案简单有效;它可以在几分钟内完成部署,并将耗时的 IT 任务(如法律保留)从数小时中解放出来。更重要的是,对ElasticSearch和Kibana的支持增加了平台提供的场景和可能性的数量。
  • 挑战:Panzura 的一个改进领域是开发额外的功能,以更好地为大数据分析场景提供服务。

分析师观点

数据无处不在使得手动管理分散在组织内部和公有云中的大量非结构化数据几乎是不可能的。越来越多的企业正在寻找管理解决方案,以最大限度地降低成本并加强对关键安全性和合规性功能的控制。
与 2022 年相比,对安全和网络韧性功能的需求急剧上升,导致非结构化数据管理供应商实施更好的检测和保护机制,以抵御恶意行为者、内部威胁和勒索病毒攻击。这些供应商越来越多地采用 AI/ML 来增强其异常检测算法,并为用户提供更好的安全选项。
合规解决方案在 2023 年也显示出更高的需求。曾经由 GDPR、CCPA 和 HIPAA 主导的法规遵从性现在是一个复杂而模糊的景观,如果没有工具来自动遵守法规,组织可能会迅速迷失方向。虽然完整内容索引至关重要(AI 和 ML 可以显著改善结果的另一个领域),但通过实施自动分类和标记、基于策略的数据移动以及处理 DSAR 的流程来超越自我的解决方案将为组织带来难以置信的价值。
另一个值得一提的领域是数据编排。除了基于策略的数据移动和更经典的数据迁移场景之外,随着组织重新评估其 IT 预算支出并对其云战略进行成本效益分析,数据遣返正在获得动力。即使数据遣返可能属于数据迁移活动的范围,也需要解决额外的复杂性,包括遣返成本(出口传输费用、数据检索费用等)。
由于安全、数据保护和存储等学科之间的自然重叠,非结构化数据管理解决方案在性质上是多种多样的。尽管如此,由于非结构化数据管理解决方案明显采用以数据为中心的方法,我们将继续见证这些生态系统之间的更多互动和交叉授粉,这一演变最终将使组织和用户受益。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存