“石老师,Data Fabric(数据编织)你听过吗?据说在数据领域很火啊?”这是一个“谈数据”读者,去年10月份的时候在微信公众号给我的留言。说来比较惭愧,Data Fabric这个词对我来说当时虽然听过,但也仅限于“听过”!因为当时我也只知道 "Data Fabric "是 Gartner 2021年十大数据和分析技术趋势之一,但其具体工作原理、应用场景却知之甚少了……“Data Fabric”在国内谈论的比较少,但据说在国外已经很火了,就如同2019年国内的“数据中台”一样火!“Data Fabric”究竟是什么?这又是一场概念的炒作,还是真正的技术革新?这些问题一直困扰着我。于是,带着这些问题,通过翻阅大量材料,终于发现了“Data Fabric”的“真相”!
当下,数据是企业数字化转型重要驱动因素,而企业的数据环境日趋复杂:内部数据/外部数据,实时数据/批处理数据,结构化数据/半结构化数据/非结构化数据,本地数据/云端数据,单机数据/分布式数据……,在更高程度数字化要求下,企业必须使用一种新型的数据结构来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。在这样的背景下,一种新兴的数据管理和处理方法——数据编织(Data Fabric)诞生了。Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。
图片来源:gartner
作为一种新兴的数据管理和处理方法,数据编织改进了数据仓库和数据湖的概念,引入了一个新的架构(网络状),使整个企业能够统一利用数据。数据编织使用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。据Gartner预测:数据编制利用分析功能来持续监控数据管道,通过对数据资产的持续分析,支持各种数据的设计、部署和使用,缩短集成时间30%,缩短部署时间30%,缩短维护时间70%。
Gartner 将数据编织定义为一种设计概念,它充当数据和连接过程的集成层(结构)。数据编织利用对现有、可发现的元数据资产的持续分析,以支持跨所有环境(包括混合云和多云平台)设计、部署和利用集成和可重用数据。数据编织利用人和机器的能力来访问数据或在适当的情况下支持其整合。它不断地识别和连接来自不同应用程序的数据,以发现可用数据之间独特的、与业务相关的关系,并通过分析获得数据洞察力;通过快速访问和基于图谱的元数据理解提供比传统数据管理更多的价值。下图是Gartner给出的数据编织的典型结构,至下而上分为5个层次:
数据源层:数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入。数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。数据目录层:与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习 (ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。 知识图谱层:数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。 基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。数据集成层:数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。数据消费层:数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。数据编织,乍一看是不是很眼熟,是不是有种“似曾相识”的赶脚,是不是与我们的“数据中台”的概念有点像?在主流的数据中台概念中,也强调支持各种数据源(结构化的、半结构化的、非结构化的),提供数据目录、数据标签、数据分析等服务,提供数据资产的动态化管理,支持为不同数据用户提供数据服务,解决企业的数据孤岛,让数据用起来。这些特点都与数据编织很相似,只不过数据编织更强调人工智能和知识图谱的应用。因此,也有专家提出“数据编织是数据中台的一下站!”。
笔者认为数据中台与数据编织还并不是一个概念,更不像是数据中台的高级版本,以下是笔者理解的数据中台与数据编织之间的关系和差异,如有偏颇,还请斧正。第一,数据中台并不是全新的技术和产品,更多是由一些技术组件组合而形成的一个综合性的数据应用解决方案,例如:基于数据湖的数据存储服务、基于各种数据管理组件的数据治理服务,基于大数据平台的数据计算和处理服务,以及提供面向应用的数据标签、数据目录、数据分析、模型算法服务等。而数据编织是侧重于统一多样化和分布式数据资产的功能,为应对复杂的混合数据环境所面临的挑战而设计,是一种架构设计方式,强调自动化的数据集成、整合和治理。第二,数据中台是一个“让数据用起来”的方法论,不仅包含数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和流程、运营机制和考核办法等。而数据编织一开始就强调新技术的应用,例如:机器学习、人工智能、知识图谱的等,且构建和管理知识图谱是其核心支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构),数据编织的技术色彩更浓一些。第三,数据中台需要有专业的管理和运营团队才能发挥作用,这个团队往往是由IT部门承担。而数据编织则强调更少的IT干预,数据编织的重要特征依赖于一组预建和预配置的组件,从原始数据到经过处理和可操作的信息,这些信息或系统通常托管在云端,由经验丰富的服务提供商管理。这意味着,数据编织的实施和维护数据中,不需要太多的IT部门参与。基于以上几点,可见数据中台与数据编织是两个概念,如果硬要和数据中台比较的话,我倒是认为数据编织可以作为数据中台的一部分,毕竟数据中台争议颇多,至今也没有一个标准的定义,多增加一些内容倒也无妨,哈哈~大家都知道,数据治理是对数据管理的管理,它是基于内部数据标准、策略和规则,管理企业数据的可用性、完整性和安全性,从而将数据转化为企业资产。数据治理涵盖了数据管理的各种主题,例如:数据战略、数据架构、数据建模、数据存储和操作、数据安全、数据质量、元数据、数据集成和互操作性、文档和内容、参考数据和主数据、数据仓库和商业智能等。
在传统的数据治理体系中是没有包含数据编织的,但Data Fabric是一种数据管理的全新架构,笔者认为数据编织将是自动化、智能化数据治理的一个理想解决方案,从数据架构层面增强了企业数据管理的能力。数据编织提供了基于知识图谱的统一语义描述层,使业务用户能够轻松发现和访问相关的数据;数据编织使用先进的人工智能、机器学习算法连接不同数据源的数据以及数据之间的业务关系,建立知识图谱,提供持续分析能力,以衡量和识别与数据相关的各种业务价值和风险。数据编织支持各种数据源的连接,本地化管理企业内部、外部、云端的数据资产的元数据;通过AI/ML技术,自动化应用策略、使得审计合规性和识别系统中的潜在数据漏洞变得更加容易;自动化和人工智能的应用增强了数据跟踪和路线查询能力;通过整合所有数据环境,落地整体数据治理和安全流程集中且一致的治理体系。数据编制的设计和部署天然具备跨分布式的多种基础设施环境的数据进行集成能力,提供为孤立的数据源自动创建数据集成管道,支持ETL、流式传输、复制、消息集成、web服务、API接口等多种集成管道。通过预定义的数据集成策略自助、动态获取最新的数据资产,让企业的数据资产可见、可查、可管、可用!数据编织是一个先进的数据管理架构,采用人工智能、机器学习、数据湖以及其他平台和技术对不同数据源进行自助编排,确保企业全面了解所有数据环境中的数据管道。数据编织支持数据的统一生命周期管理,用于配置和管理数据的各个方面,包括数据驱动应用的开发、运营、测试和生产发布。
不得不承认,在科技创新方面,我们与美国还是有很大差距的。就拿数据编织这个全新的数据架构来讲,在国内还未见到应用案例,但在国外已经形成了最佳实践。以下内容是根据国内的一些公开材料,整理出来的5个数据编织应用实践。我们先来回顾一下什么是DataOps。DataOps是一种工程方法论和一套实践方法,旨在快速、可靠、可重复、持续地交付生产就绪数据以及运营就绪分析和数据科学模型。DataOps 通过支持数据版本控制、数据转换、数据血缘和分析模型的工程学科来增强和推进数据治理。虽然Data Fabric和DataOps不是相同的概念,但DataOps是将Data Fabric真正落地一个重要的推动者。DataOps 流程模型,数据流程、工具和数据洞察与用户之间存在密切的联系。用户可以持续依赖数据,有意义地利用可用工具,并通过数据洞察力来优化业务运营。该模型与数据编织的架构具有共生关系。如果没有 DataOps 流程模型和思维模式,用户将难以充分利用数据编织。构建数据编织时的一个常见问题是它可能最终变成另一个数据湖。如果企业拥有所有架构组件——数据源、分析、BI 算法、数据传输和数据消费——但没有 API 和 SDK,那么结果就不是真正的数据编织。 数据编织是一种架构设计方式,而不是单一技术。组件之间的互操作性和集成准备是该设计的定义特征。这就是为什么企业需要特别关注集成层、无缝数据传输以及自动洞察的获得,通过API和SDK实现。云供应商倾向于将客户绑定在他们的服务中,这使得数据迁移、集成、整合对企业来说是一项成本高昂且具有挑战性的工作。数据编织必须面向企业复杂的数据环境提供集成整合能力,克服在维护多样化的数据存储和基础设施部署组合方面的技术挑战。企业可以根据不断变化的技术和业务需求,自由地从一系列混合 IT 基础架构资源中运行关键任务数据驱动的 IT 服务、应用程序、存储和访问。边缘计算专为支持物联网实施而构建,它是将与数据相关的关键任务从集中式应用程序转移到一个单独的边缘层,该边缘层是分布式的,但与数据编织紧密相连。通过使数据编织适配边缘计算,企业可以从其物联网设备中获得更多数据价值。 例如,智能工厂可以使用数据编织与边缘数据深度融合,可自动计算货物集装箱的重量,并自动启动拣货流程。通过边缘数据编织加速业务决策并实现自动化操作,这是传统集中式数据仓库无法做到的。图数据库是关系数据库的一种更智能的替代方案,它有助于使用知识图谱来可视化元数据和数据关系。图数据库使用语义上下文丰富数据,以了解信息的含义,而不仅仅是文本字符串。 由图分析提供支持的知识图谱是数据编织的理想解决方案——数据编织架构的主要目的是实现对不同数据源的整体使用而不是重复使用。知识图谱可以通过分析数据源之间的关系来提供业务和运营洞察力。与关系数据库方法相比,它更擅长集成不同的数据,并且挖掘出业务人员更关心的“洞见”。参考文献:
奇拉迪普·巴苏马利克《What Is Data Fabric?》
Gartner 《Gartner 2022年12大战略技术趋势》
据统计,99%的数据大咖都关注了这个公众号
数据治理:如何获得高层领导的支持?
数据治理:说起来容易,做起来难?
数据治理:90%的人搞不清的事情
数据治理失败,90%都是被这样搞垮的!
数据治理工具:数据治理的七把利剑