查看原文
其他

非结构化大数据的存储应该成为公司战略的一部分

21CTO 2022-05-25


对于许多IT组织来说,数据存储是事后考虑的问题,而不是战略问题。然而,当谈到大数据管理时,存储应该占据中心位置。

非结构化数据用于以图形方式记录关键事件,以非结构化数据捕获纸质文档,并通过传感器和其他物联网设备报告公司运营情况。然而,NewVantage在2020年对C级高管进行的一项调查显示,只有37.8%的受调查公司认为他们创造了一种数据驱动的文化,超过一半(54.9%)的公司认为他们无法在数据和分析领域与其他公司竞争。

“系统获取的所有数据中,约有43%未得到利用,这代表了非结构化数据方面巨大的未开发价值。理解、集成和利用非结构化数据的重要性对于业务效率和增长至关重要。非结构化数据除非得到很好的利用,否则用处不大,”提供S3存储即服务的希捷公司营销高级副总裁杰夫·福赫曼说。福赫曼谈到了管理非结构化大数据的挑战,他说,根据IDC进行的研究,2020年非结构化大数据占全球所有数据的90%。

一个主要问题是数据管理。为了进行数据管理,公司需要数据架构、工具、处理等专业知识,并且需要思考他们的大数据存储战略。

为此,必须对非结构化数据进行编目和分析;但公司的成本负担往往使他们无法执行这些处理密集型操作,这些操作需要大型数据中心和云架构,以部署由硬盘驱动的超高容量数据存储系统。其次,一旦这些数据被处理,它必须能够被复制和重新利用,以便可以将它发送到整个企业中需要不同类型数据的许多不同部门和站点。

福赫曼说:“需要访问其来源附近的非结构化数据,并根据需要将其移动到各种私有云和公共云数据中心,以用于不同的目的,这推动了从封闭、专有和孤立的IT架构向开放、混合模式的转变。”。

在混合模型中,必须对数据存储进行编排,以便将不同类型的数据存储在不同位置。例如,实时跟踪运营效率的物联网数据可能存储在企业边缘制造工厂的服务器上,而出于合规性和知识产权原因存储的数据可能存储在企业数据中心的内部。

由于非结构化数据就是非结构化数据,因此需要根据含义和目的标记数据,然后才能将其子集传播到具有不同需要了解的企业不同点。 

数据存储、编目、安全和传播操作的规模令人生畏。它让越来越多的企业转向可以按需采购的基于云的存储,而无需用高功率存储驱动器升级企业数据中心的成本过高。

“处理从100TB到数PB的海量数据集的每个行业都面临着数据传输和分析的挑战,”福赫曼说。“例如,考虑医疗保健行业。该行业收集的100TB+ 数据对于保护和治疗社区的身心健康至关重要。隐藏在这些海量数据集的原始格式中的可能是我们可能无法理解的疾病之间的相关性”,对癌症数据或其他可以挽救生命的学习进行更准确的分析。但是,对于如此大量的非结构化数据,从这些数据中获取价值的第一步是什么?通常,它正在使这些数据动起来。”

当您想从大数据中获得最大价值时,这是每个公司都想做的事情。它还将话题带回了存储,而存储在不应该被列入 IT 战略规划议程时经常被排除在外。

相反,战略重点应该放在可以根据需要扩展(或减少)的成本敏捷和数据敏捷存储上。基于云的存储最适合此任务,在本地数据中心中存储的角色更为有限,其重点是保留高度敏感的数据以用于企业合规性和 IP。

还应注意管理下的数据是如何分布的。

福赫曼表示“我们生活在一个数据驱动的世界,成功的企业意识到,如果他们的海量数据集不能以敏捷、经济高效的方式移动,并且如果无法轻松访问数据,业务价值就会受到影响。” 

扩展阅读:https://www.techrepublic.com/article/storage-for-unstructured-big-data-should-be-part-of-a-companys-strategy/


编译:卢敏

相关阅读:

2021年数据中心调查:停机不常见,但成本增高
实时离线一体大数据在资产租赁saas服务中使用
历史上九大破坏性最大的数据泄露事件!

关于21CTO.com


21CTO.com是中国IT技术与数字化转型的综合服务平台。


我们提供高质量的资讯、知识以及课程等产品;为企业提供人才招聘,数字化转型咨询,软件研发等服务。


网址:www.21cto.com

邮箱:info@21cto.com

微信:13426109659


 扫描二维码关注21CTO微信号


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存