从“数据孤岛”到“Data Fabric”,新一代企业数据架构
随着数据作为战略资产的重要性日益凸出以及大数据技术的蓬勃发展,政府和企业在数字化转型中数据应用需求和计算模式需求也不断发生变化。“数据孤岛”是企业在信息化向数字化演进历程中的核心问题,为解决数据孤岛问题,企业通过数据汇聚进行统一治理并资产化,但同时又产生了“数据碎片化”带来效率的降低、个性化需求不满足、高耦合性等新问题,政企在数据利用实践中仍然存在多种困境。
融入AI的智能决策分析性需求及困境
融入AI的智能决策分析性需求大大超越了传统的以交易为核心的事务性数据需求,但落地存在诸多困难:
◈ 数据先汇聚再计算,计算周期长、算力成本高;
◈ 海量数据单点计算,内存、磁盘负载高,导致高瓶颈;
◈ 流数据处理效果不佳,实时数据分析达不到要求;
◈ AI技术门槛高,企业难以从感知智能迈向认知智能。
新型的多模数据管理技术需求及困境
当前多种数据格式并存,需要新型的多模数据管理技术来应对数据的共存融合,数据管理现状不容乐观:
◈ 数据重复拷贝、移动以应对频繁变化的需求;
◈ 企业半结构化、非结构化数据占半,却未经利用;
◈ 数据孤岛及数据所有权问题突出,多模态数据难以融合计算;
◈ 数据安全计算保护不全面、不到位。
打造新一代企业数据架构
当前我们正处在VUCA时代,不确定性大幅增强,需求的变化不断推动数据架构演进,中国系统副总裁、数据创新BU总经理刘国栋介绍了相应的对策,即:Data Fabric架构解决数据松耦合融合需求,通过连接任何可访问数据或与数据相关的信息,将现有的数据管理系统和应用程序编织在一起,提供可重用的数据服务。涵盖数据集成、访问、转换、建模、可视化、治理和交付。Gartner将Data Fabric列为2019年和2021年数据和分析领域十大技术趋势之一,又将其推举成2022年10大新兴技术趋势之一。
伴随数据架构演进,数据平台边界趋向虚拟化发展。《将Data Fabric融入混合多云》中指出,管理数据平台之间的边界有三种方法:整合、连接和控制。这些方法都可以是Data Fabric的一部分,但最适合分布式混合云环境的是第三个选项。然而,对于每种方法,关键之处在于将平台中的数据与需要数据的应用进行松散耦合。这种松散耦合的概念在整个Data Fabric架构中都很重要。
新一代交互式数据探索
和数据管理平台应运而生
中国系统基于Data Fabric新一代架构、松散耦合“控制”方法,以数据虚拟化(Logical Data Fabric)为核心发展AI赋能、多源异构融合计算的分布式超级数据分析平台——智能湖仓平台,为政府、行业、企业构建新一代交互式数据探索、数据分析、数据智能服务、打造大安全、强治理、可发展的数据智能超脑。
智能湖仓平台利用后发设计优势,充分吸收前沿的数据基础技术理论,如:Data Fabric、Googel Dremel、Google Spanner和Summingbird等,结合去中心化架构、多模数据管理、统一SQL引擎等技术积累优势,统筹规划和全方位提供多模数据融合分析及数据智能服务能力。
基于新一代数据架构的解决方案
数字化转型进程中,集团型央企普遍面临统一数据管理横向不平衡、纵向不对称的困境:
L3级孤岛式数据管控
部分基层单位独立开展数据管控,所属区域公司不知道有什么数据、不知道数据在哪。
L2级集约化数据管控
部分区域公司开展集约化数据管控,自建数据中心,与L1集团级数据管控原则存在冲突。
L1级不平衡不对称数据管控
各业务条线横向不平衡,数据管理成熟度有差异,标准不一致,统管难度大;各组织层级纵向不对称,对数据平台技术要求不一致,逻辑存储、物理存储需求并存,不能一刀切。
基于Data Fabric架构的智能湖仓构建中大型组织统一数据管理平台,纵向按需接入、横向标准统一,以松耦合数据融合的方式建设全息数据孪生体系,使之可计量、可管理、可认知、可预测、可决策。