查看原文
其他

为非结构化数据选择合适的存储

常华Andy Andy730 2024-03-16

【ANDY】大容量闪存盘如E1.S的在数据中心场景流程,加上企业级的数据缩减技术,使得PB级、数十PB级的文件/对象存储实现性能/成本/功耗等多方面的超强的综合能力。

Source: Antony Adshead, Unstructured data and the storage it needs, 27 Feb 2023

IDC估计,到2025年,超过80%的业务信息可能由非结构化数据组成。虽然“非结构化”可能用词不当,因为所有文件都有某种元数据,可以通过这些元数据进行搜索和排序,例如,企业有大量此类数据。在本文中,我们将介绍处理非结构化数据及其所需的存储(通常是文件或对象)的特殊之处。

过去,图像、录音、视频、聊天记录和各种文档在很大程度上只是一种存储债务,对于需要管理、组织和确保其安全的任何人来说,这都被视为一个令人头疼的问题。

但现在,非结构化数据被视为有价值的业务信息来源。通过分析处理,可以从中获得价值——例如,可以针对广告图像集运行AI/ML,并将网站访问者看到的内容映射到点击行为。分析非结构化图像数据可以创建结构化字段,从而推动编辑决策。

在其他地方,备份——长期依赖于尘土飞扬且难以访问的磁带归档——现在被视为分析处理的潜在数据源。随着勒索病毒的威胁被提上日程,备份恢复的必要性比以往任何时候都更加重要。

结构化、非结构化、半结构化

从广义上讲,非结构化数据是不符合预定义数据模型的数据和信息,换句话说,是创建并位于关系数据库之外的信息。

系统生成的业务信息最有可能是结构化的,典型的示例是销售系统创建并存储在其基础数据库中的客户和产品详细信息、订单号、库存水平和装运信息。

这些很可能是SQL数据库,配置了基于表的架构和数据保存在行和列中,允许非常快速地写入和查询数据,具有非常好的事务完整性。SQL数据库是正在使用的高性能和任务关键型应用程序的核心。

非结构化/半结构化

非结构化数据通常由人创建,包括电子邮件、社交媒体帖子、录音、图像、视频、笔记和文档(如PDF)。

如前所述,大多数非结构化数据实际上可以成为您所说的半结构化数据,尽管不保存在数据库中——尽管这是可能的——但其元数据中存在一些结构。例如,从表面上看,交付物品的图像是非结构化的——尽管来自相机文件的元数据使其成为半结构化的。

然后是备份文件,其中组织的所有数据都被复制,压缩,加密并打包成备份厂商的(通常是专有的)格式。

备份将所有类型的数据捆绑在一起的事实使其成为非结构化数据挑战,并且随着勒索病毒威胁的兴起,它可能比以往任何时候都更加相关。

非结构化和半结构化存储需求

正如我们所看到的,非结构化数据或多或少是由它不是通过使用数据库创建的事实来定义的。可能是在非结构化数据的后期将更多的结构应用于非结构化数据,但随后它变成了其他东西。

我们在这里要介绍的是非结构化数据的存储基础设施的关键要求。这些是:

  • 数量:通常有大量非结构化数据,因此容量是一项关键要求。

  • 文件和/或对象存储:块存储用于数据库,正如我们所看到的,这不是非结构化数据场景的要求。基于文件的(NAS)和对象存储可满足以下需求。

  • 性能:从历史上看,这不会列入议程,但随着需要更接近实时的分析以及从网络攻击中快速恢复,现在它更多地是一个考虑因素。

云和非结构化数据

考虑到这些要求,云存储似乎非常适合存储非结构化数据的站点。但是,可能有一些事情对它不利。

云存储提供对象(就卷而言,绝大多数)和文件访问存储,因此在这方面可能非常适合。

云存储还可以提供容量,并且很可能以极具成本效益的方式将数据批量存储在云中。但通常情况下,只有在不访问数据时,成本才能保持非常低,所以这是云存储的第一个潜在缺点。

因此,云非常适合冷数据,但任何类型的I/O都会开始推高成本。但是,这可能是可以接受的,具体取决于工作负载的大小和访问要求。小型数据集或需要不经常访问的数据集将是理想的选择。

本地对象和文件存储

集群NAS和对象存储都非常适合处理非常大量的非结构化数据。如果有的话,对象存储由于其卓越的扩展能力而更适合大量数据。

基于文件的存储基于文件系统和树状层次结构。这可能会导致遍历文件系统时的性能开销。相比之下,对象存储基于扁平结构,对象/文件具有便于访问的唯一ID。

本地存储可以减轻对数据安全性及其可用性的担忧,并且可能比将数据放在云中更便宜。

任何一组协议(文件和对象)都非常适合非结构化数据存储。

使用闪存以实现快速访问

使用机械硬盘在本地构建性能良好的文件和对象存储是很有可能的。在所需的容量下,HDD通常是最经济的选择。

但是闪存生产的进步导致了大容量固态存储的出现,存储阵列制造商已经开始在支持文件和对象存储的硬件中使用它。

这是QLC闪存。这包含四个级别的二进制开关到闪存单元,以提供更高的存储密度,因此每GB成本低于目前商业上可用的任何其他闪存。

然而,QLC的缺点是闪存寿命可能会受到影响,因此它更适合大容量,访问频率较低的数据。

但是,闪存的速度特别适合非结构化场景,例如需要快速处理并因此需要I/O的分析,以及客户可能希望在勒索病毒攻击的情况下从备份中恢复大型数据集的情况。

销售适用于文件和在某些情况下对象存储的基于QLC的阵列的存储硬件提供商包括:

Dell EMC,PowerScale,其中包括EMC的Isilon横向扩展NAS(部分)更名和S3对象存储访问。其配备全闪存(也具有混合闪存)NVMeQLC闪存选项具有可扩展至数十PB的一系列容量。

NetApp最近推出了新的QLC闪存阵列系列–C系列,旨在满足同样需要SSD速度的高容量场景。C系列从三个选项开始——C250、C400和C800——分别扩展到35PB、71PB和106PB。对象存储访问是可能的,但通过NetApp的Ontap操作系统使用该协议受到限制。

PureStorage及其FlashArray//C提供两种型号的全QLC NVMe连接闪存,即//C40和//C60,容量为PB范围。同时,Pure的FlashBlade//S系列被明确称为“快速文件和对象”,NVMe QLC在其专有模块中有两种型号。S200强调容量,减少数据,而S500则注重性能。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存