时代“大杀器”——数据编织
引 言
数据编织(data fabric)实现了统一的数据管理架构,使企业能够从可扩展和融合的数据能力中获益。数据编织被定义为一种新兴的方法,能够基于网络架构而不是点对点的连接来处理数据。这实现了从数据源层面到分析、分析结果生成、协调和应用的一体化数据层(结构)。本文详细阐述了数据编织、其关键组件和最佳实践三方面内容。
什么是数据编织
数据编织是一种新兴的方法,能够基于网络架构而不是点对点的连接来处理数据。这实现了从数据源层面到分析、分析结果生成、协调和应用的一体化数据层(结构)。该方法在底层数据组件上设置抽象层,使业务用户可以获得信息和分析结果,而无需进行重复或强制性的数据科学工作。
随着企业数据需求的发展,公司正在努力解决企业数据复杂性、异质性以及其分散在企业环境中的多个应用程序和运行环境中的事实。根据Statista的数据,到2024年,全球数据生成和消费量将超过149兆字节,其中非结构化数据将占80%左右。
数据编织被看作是解决企业数据需求发展难题的答案。其改进了数据仓库(data warehouse)和数据湖(data lake)的旧概念,引入一种架构,使整个企业能够统一利用数据。因此,Gartner将数据编织列为2019年十大最具影响力的数据和分析技术之一,并表示,到2022年,企业将被迫重新设计其基础设施,以支持定制的数据编织设计。
下面我们来探讨数据编织的主要功能和企业应用,以了解数据编织是如何工作的。
数据编织的主要功能:
(1)数据编织支持非结构化数据,包括物联网。
企业正在迅速扩大其设备的联网范围,已经不限于内部服务器和固定工作站。从自带设备(BYOD)和WFH到现场传统的手持设备和物联网(IoT),联网设备的范围正在扩大。数据编织与所有这些终端连接,处理通过传感器收集的非结构化数据,并以最小的后端复杂度提供数据分析的结果。
(2)数据编织能大规模地处理信息。
企业数据量在不断增长,能够有效调动其数据的组织将获得竞争优势。数据驱动的数据分析结果和决策可以推动新的商业机会,改善客户体验,并实现更有效的工作方式。数据编织使自动提取和利用原本闲置的数据成为可能。
(3)数据编织能与混合托管环境兼容。
数据编织的关键特征之一是它与环境、平台和工具无关。它可以实现与技术栈中几乎每个组件的双向集成,以创建一个交织的或类似结构的架构。这非常适用于多云或混合云企业,在这些企业中,数据计划需要在所有云中统一、一致地运行。该解决方案从分布在不同环境中的多个来源获取数据,以创建一个综合的 "结构 "来生成数据分析结果。
(4)数据编织加速生成数据分析结果。
这些解决方案可以轻松地处理最复杂的数据集,缩短数据分析的时间。由于其架构,有预建的分析模型和认知算法,以规模化和高速度处理数据。例如,美国国家航空航天局与名为Stardog的数据编织供应商合作,将获得数据分析结果的时间减少90%。
(5)与传统仓储模式相比,数据编织需要的IT干预更少。
数据编织的一个重要特征是,它依赖于一套预先建立和预先配置的组件,将原始数据转换为经过处理和可操作的信息。这些系统通常托管在云端,由经验丰富的服务提供商管理。这意味着,在实施和维护数据生产计划时,不需要IT部门的参与。
(6)技术用户和非技术用户都使用数据编织。
数据编织的架构使其可适应各种用户界面。可以构建清晰明了的项目列表,使业务主管可以快速理解和利用这些信息。数据编织还带有复杂的工具,可以让数据科学家进行深入的数据探索。
实施数据编织的主要目的是为了加强数据治理和数据安全。我们还可以将解决方案与新的数据源、分析模型、用户界面和自动化脚本集成,以改善数据的使用。数据编织技术的最新进展意味着我们甚至可以使用图形模型处理元数据,使其不仅应用于被动资产,还能与业务用户相关。它的架构允许企业通过扩展增加新的功能、添加安全覆盖层和执行其他关键功能,而不必缩减核心数据库。
数据编织的关键架构组件
数据编织是一个打包的解决方案,利用七个关键组件从数据中提取分析数据,并为整个企业通过统一的服务。这些关键的架构组件包括:
数据编织的关键架构组件
(1)提取数据源:数据源是系统产生的信息,将被数据编织处理、存储和利用。这些来源可能存在于企业内部,如企业资源规划(ERP)软件、客户关系管理(CRM)软件或人力资源信息系统(HRIS)。我们可以连接到非结构化的数据源,如支持PDF和屏幕截图的文件提交系统,以及物联网传感器。数据编织还可以从提供公开数据的外部系统中获取数据,如社交媒体。最后,企业可以购买第三方数据存储库来完善内部已有的信息
(2)分析和知识图谱的处理:数据编织获取的许多数据是半结构化或非结构化的,包括来源不同的元数据。分析和知识图系统将所有的数据类型转换成一致的格式,这样在处理时就可以没有任何瓶颈。具体来说,用户需要能够查看和理解企业中各种数据源之间的关系。这就是为什么处理分析是数据编织的关键架构组件,然后我们才能继续得到数据分析结果。
(3)获得数据分析结果的先进算法:对于这个组件,我们可以利用AI/ML算法进行连续数据监控和实时分析结果生成。AI/ML的使用大大缩短了处理时间,并帮助我们更快地得到数据分析结果。数据必须与操作用例(如劳动力优化或特定位置的业务决策)保持一致,以呈现最相关的分析结果。此外,出于安全性和合规性的考虑,所有活动都必须进行记录。
(4)使用与交付接口连接的API和SDKs:这可能是数据编织中最重要的组成部分,使其有别于传统的数据湖或仓库。数据编织在其架构主干中内置了集成接口,可以与任何前端用户的用户界面连接,在最需要的地方提供数据分析。为此,它使用应用程序编程接口(API)和软件开发工具包(SDK),以及预构建的连接器。理想情况下,它应该有两个集成模块——一个是IT专业人员可以用来设置复杂集成的DIY功能,另一个是业务用户通过自助式商业智能(BI)工具直接从数据编织中获得的数据分析能力。
(5)数据消费层:数据消费层是指在前端实现数据消费的面向用户的界面。有几种方法可以调整这一层,以获得数据编织投资的最大回报。例如,商业应用内部的嵌入式分析可以帮助用户在其工作流程的背景下获取信息。虚拟助手和聊天机器人可以帮助进行自然的数据探索。而且,实时事件列表可以让运营经理实时了解企业的关键事件。数据编织的优势在于,它可以轻松地支持所有这些需求。
(6)数据传输层:传输层的功能是帮助数据在结构中移动。一个强大的数据传输层不仅能够在系统之间不受干扰地移动数据,而且还能够通过端到端加密实现严格的安全性。这一层还可以用来保存重复删除的数据,这样在移动过程中就不会产生新的副本。它还应该保障由数据编织的不同组件强制执行的压缩效率,这样数据更新就不会在运动中发生,从而导致意外的效率低下或安全风险。
(7)托管环境:虽然这个组件在技术上是数据编织架构的外部,但它影响了其核心组件。我们可以选择在内部或在云上托管数据编织。在后者的情况下,它可能会从基于云的数据管理工具(如Snowflake和容器)中获益。无论是企业内部的Oracle,企业内部的SAP,还是其他什么,企业内部的数据编织应该与非云IT工具整合。只要与适当的供应商合作,数据编织也很适合多云和混合云环境。
虽然我们生活在一个数据驱动的时代,但花在维持常规任务上的时间过多,而花在增加价值上的时间却不够。Gartner在2020年进行了一项名为《数据管理挣扎于平衡创新和控制》(Data Management struggle to Balance Innovation and Control)的调查,发现数据团队只有22%的时间用于创新。其余的精力都花在维护生产计划、培训用户和其他非增值任务上。数据编织利用上述七个组成部分来调整这种平衡,并通过消除数据管理中的后端瓶颈,释放顶尖人才。
企业实施和管理数据编织的8大最佳实践
全球数据编织市场从2020年的11亿美元,到2026年将增长超过3倍,达到37亿美元(根据全球行业分析师),表明这一领域的强劲需求。如果想要实现一个数据编织架构来优化企业数据的利用方式,下面提供一些最佳实践:
数据编织管理最佳实践
(1)采用DataOps流程模型。
(2)主动避免构建另一个数据湖。
(3)了解规则和监管要求。
(4)部署基于图形的分析方法来发现相关性。
(5)为大众开发者构建一个数据市场。
(6)利用开源技术。
(7)支持本地代码生成。
(8)使数据编织适应边缘计算。
结 语
随着数据利用率的提高,“数据孤岛”必须逐渐被打破,为互联企业让路。数据编织的实现是这一过程中的一个重大飞跃——事实上,这是自20世纪70年代关系数据库发明以来最具革命性的突破之一。这是因为数据编织不仅仅是一项技术或产品。它指的是架构设计、结构化流程和思维模式转变,其中数据和业务操作紧密交织在一起。以下是企业必须记住的三个要点:
(1)数据编织可以显著减少花费在常规的、非增值的数据管理任务上的时间——但它可能需要相当大的初始投资。
(2)一个数据编织有七个关键的架构组件,API和SDK层最需要注意的是避免被限制在数据湖的范围内。
(3)根据定义,数据编织是无限可扩展的,这意味着随着企业的增长,需要更新和升级体系结构。
数据编织是使每个流程、应用程序和业务决策都以数据驱动的重要因素。选择合适的供应商,以确保企业未来的成功之路。
参考文献
[1]https://www.toolbox.com/tech/big-data/articles/what-is-data-fabric/
[2]https://www.toolbox.com/tech/big-data/articles/what-is-data-governance-definition-importance-and-best-practices/
[3]https://www.toolbox.com/tech/big-data/articles/what-is-enterprise-data-management-edm-definition-importance-and-best-practices/
[4]https://www.toolbox.com/tech/big-data/articles/best-data-governance-tools/
中国保密协会
科学技术分会
长按扫码关注我们
作者:刘 艺 中国科学院信息工程研究所
责编:郝璐萌
2021年精彩文章
TOP5回顾
美国对华科技竞争政策性建议汇总
6G之卫星通信
浅谈计算机键盘电磁泄漏防护
近期精彩
文章回顾
移动目标防御的策略选择
LaserShark无接触式攻击植入技术简介隐秘的源头追踪:隐藏追踪