查看原文
科技

ETL的痛,Denodo数据编织都懂!

月满西楼 数据猿 2024-05-29

大数据产业创新服务媒体

——聚焦数据 · 改变商业


在当今数字化时代,数据的复杂性正在以前所未有的速度增长,这主要是由于多种趋势的融合所导致的。数据量的激增,特别是随着物联网设备的普及和社交媒体的爆炸性增长,已经导致了数据的海量化。IDC预测,到2025年,全球数据圈(全世界范围内生成、存储、共享和处理的数据总量)将达到175ZB

这些数据往往分布在不同的地理位置和系统中,从而形成了分布式数据基础架构,这种分布式特性要求企业采用新的技术和方法来集成和分析数据。同时,数据民主化的趋势使得更多的业务用户需要访问和分析数据,而不再是仅由专业的IT人员来处理。这种趋势要求企业能够提供更直观、更易用的工具,以便业务用户能够自助地进行数据分析,从而加快决策过程并提高效率。

在这种情况下,传统ETL和点对点数据管理方式已经无法满足当前的需求。企业需要一个集中化的平台来统一管理和分析数据,以确保数据的一致性和准确性,并满足对多源异构数据的管理和数据的实时分析需求。正是这样的背景下,数据虚拟化和数据编织技术应运而生,它们提供了一种全新的数据管理方式。

那么,数据虚拟化、数据编织,作为一种全新的数据管理方式,有哪些特性,能够解决哪些问题呢?接下来,我们就以数据编织的先驱Denodo为例,来分析数据虚拟化的特色和最新进展。(Denodo制作了一个客户实践案例白皮书,详细分析了数十家典型客户的数据编织实践经验。更多数据虚拟化方案细节与全球行业客户实践案例集,识别以下二维码或点击文末“阅读原文”链接均可获取。

数据虚拟化和数据编织重塑数据管理方式

数据管理技术的发展历程,是一个由简至繁、由静态到动态的演化过程,它与企业对数据的需求和利用方式紧密相连。从早期的关系数据库到现代的数据虚拟化和数据编织,每一步都是为了解决不断变化的数据需求和管理挑战。为了搞清楚数据编织的变革意义,我们有必要回顾一下数据管理技术的演进历程。

20世纪70年代,IBM推出的关系数据库管理系统(RDBMS),标志着数据管理的第一个重大变革。关系数据库通过结构化的方式存储和检索数据,成为企业数据管理的基础设施。这一创新极大地提高了数据处理效率,但随着数据量和数据源的增加,单一数据库系统逐渐暴露出其局限性。

进入90年代,数据仓库技术应运而生,旨在解决数据孤岛和整合问题。数据仓库通过ETL(提取、转换、加载)过程,将不同来源的数据集中存储,以支持复杂的分析和查询。Teradata和Informatica等公司开发了强大的数据仓库和ETL工具,使得大规模数据处理和分析成为可能。

然而,随着企业数据量的激增和业务流程的加速,传统的ETL过程开始暴露出其局限性。ETL通常涉及将数据从源头抽取,经过清洗和转换,然后加载到数据仓库或其他存储系统中。这个过程在数据量较小、业务需求预测性较强时表现良好,但面对海量数据和实时性要求高的场景时,就显得力不从心。

例如,ETL的批量处理特性导致数据处理存在延迟,无法满足实时分析和决策的需求。而且,随着数据源的多样化和数据量的增长,ETL的维护和扩展成本急剧上升,且容易遇到性能瓶颈。此外,ETL过程中的数据移动和转换可能会引发数据一致性和质量的问题,增加数据治理的难度。

因此,寻求更为灵活和高效的数据管理方法,以适应不断变化的业务环境,就成为业界的一个迫切需求,数据虚拟化和数据编织技术正是在这样的背景下应运而生。

数据虚拟化技术通过构建一个逻辑上的抽象层,实现了在不物理复制或移动数据的前提下的数据整合。具体来看,这一核心逻辑的实现,依赖于两个关键的技术组件:

逻辑抽象层:数据虚拟化通过逻辑抽象层,将不同数据源的元数据和结构信息进行统一,形成一个统一的、逻辑上的数据模型。这个模型为用户和应用程序提供了一个单一的、透明的数据访问接口,隐藏了底层数据的复杂性和异构性。

查询转发机制:当用户发起查询时,数据虚拟化层接收并解析请求,然后将其转换为对后端数据源的调用。这一过程中,查询优化技术被用来提高查询效率和响应速度,减少对后端数据源的性能压力。数据虚拟化平台通常包含性能优化机制,如缓存和查询结果的预取,以进一步提升数据访问的速度。

数据编织作为数据虚拟化理念的延伸,正在彻底改变数据管理的面貌。它不仅仅是一项单一的技术革新,而是对整个数据管理生命周期的重塑,从数据的收集、清洗、存储、管理、分析到应用,每一个环节都因为数据编织而发生了显著的变革。

数据虚拟化基于为客户降本增效的理念,在数据“采集”端基于“连接”的方式,代替传统复制、抽取的方式,实现“即连即用”。以Denodo的产品为例,数据虚拟化同样支持数据清洗在Denodo逻辑层的实现,其作用可类比轻量级的ETL。Denodo数据虚拟化无需物理存储数据,但亦具备多种缓存模式。

需要指出的是,针对数据源环境网络情况欠佳或者计算引擎资源欠佳的场景,数据虚拟化技术也可以通过数据移动(复制)的策略,实现对查询性能的改善,比如将数据湖、数据仓库或集市作为数据移动的目标环境,通过AI等技术的自动化实现,极大降低数据集成、存储过程中 所需要的人力、物力、财力,同时能达到与传统数据集成方案(数据湖仓/数据中台等)相同的用户体验。

数据编织,作为数据虚拟化理念的延伸,正在彻底改变数据管理的面貌。它不仅仅是一项单一的技术革新,而是对整个数据管理生命周期的重塑,从数据的收集、清洗、存储、管理、分析到应用,每一个环节都因为数据编织而发生了显著的变革。

其中,最核心的是改变了数据集成的环节。传统的数据集成方法依赖于ETL过程,即将数据从源头提取、转换并加载到中央仓库中。数据编织通过在不同数据源之上构建一个统一的虚拟数据层,使得数据集成变得更加灵活和高效。

在这个层面上,数据的复制和移动不再是一种先行的必然方式,特别是针对那些临时性、一次性、探索式的数据访问需求,可以极大缩减数据的交付时间。当然,这也极大的降低了整个数据集成和管理过程中对时间和资源的消耗。

数据集成这一环的变革,对涵盖数据收集、清洗、存储、管理、分析、应用的数据管理全链条,都产生了“连锁反应”,具体来看:

数据收集、数据清洗和预处理环节:在数据虚拟化的支持下,数据收集不再需要前期大量的格式化和清洗工作。这些工作可以在查询执行时动态完成,大大提升了数据的可用性和实时性。这种按需处理的方式,使得数据的即时分析和应用成为可能,为业务的快速响应提供了支持。

数据存储环节:数据不必集中存储在单一的物理位置,而是可以留在原始位置,按需访问。这种方式减少了数据移动带来的风险和复杂性,同时也降低了存储成本,提高了数据的安全性。

针对企业现有数据管理平台的运维成本压力,Denodo做了一个用户调研。根据调研结果,有35%的企业有存储成本压力,排名第二。可见随着数据编织技术的深入应用,对于缓解企业数据管理平台的运维成本压力,具有显著的作用。


企业现有数据管理平台的运维成本压力调研 数据来源:Denodo 2024市场用户调研(5月)

数据分析与可视化环节分析师可以直接基于最新的数据进行分析,而不必依赖于预处理和存储在数据仓库中的旧数据。在数据可视化呈现环节,BI工具可以直接接入数据虚拟化层,实时反映数据的当前状态。

这使得企业能够快速生成动态更新的仪表板和报告,为决策者提供实时的业务洞察。根据Denodo的市场调研数据,有近7成企业都有业务人员实现自主数据分析的敏捷BI需求,而数据编织则为敏捷BI奠定了一个良好的基础。


企业对数据管理的业务需求 数据来源:Denodo 2024市场用户调研(3月)

综上所述,数据编织,依托于数据虚拟化的核心理念,为数据管理领域带来了革命性的变化。这种创新的数据管理方案相较于传统方法,展现出了显著的优越性。

例如,在成本效益方面,数据编织通过减少数据的物理复制和移动,显著降低了数据存储和管理的成本。

除了成本节省这个显而易见的好处,数据编织所带来了两个方面的关键优势:

第一,更高的灵活性和可扩展性。数据虚拟化技术允许用户无需关心数据的物理存储位置和格式,就能够访问和整合来自不同源的数据。这种抽象化处理简化了数据接入的复杂性,使得接入新的数据源或者改变现有数据源的配置变得快速且简单。

此外,数据编织技术进一步增强了这种灵活性,它通过动态的数据服务和API,支持数据的实时访问和处理。这种按需访问的特性,不仅提升了数据处理的效率,也使得系统能够快速适应业务需求的变化。

随着业务的发展,企业可能需要接入更多的数据源,或者对现有数据架构进行调整,数据编织提供的这种灵活性和可扩展性,确保了数据管理系统可以无缝地扩展和演化,以满足不断变化的需求。例如,Denodo的数据编织平台,可以支持理论上一切物理分布的数据源。

第二,更强的实时数据分析能力。数据编织在实时数据分析方面的优势,源于其对数据访问方式的根本性改变。传统的数据分析往往依赖于预先加载到数据仓库中的数据,这导致分析结果存在时间延迟,无法反映最新的业务状态。数据编织通过直接连接到数据源头,允许业务分析和管理决策基于实时数据进行,这意味着决策者可以获取到最准确的数据视图,从而做出更加及时和有效的决策。

这种实时、动态的数据管理方式,是数据编织技术在现代数据管理领域中的重要贡献。对于商品生产、金融服务、在线零售、物联网等行业尤为重要,因为这些领域的企业需要快速响应市场变化,做出敏捷的业务调整。

更强的实时数据接入与分析能力,也是推动生成式AI大规模应用落地的数据基础保障,更实时的数据接入,对于避免AI幻觉具有重要价值,这有助于破除企业因“缺乏高质量数据”而无法释放AI价值的障碍。

还有一点很重要,那就是基于数据虚拟化的数据编织,与云计算是“近亲”,天然更适合云上数据管理。当然,数据虚拟化、数据编织也对本地部署有很强的适配性,并且在跨平台(本地+云部署)数据集成方面有显著优势。

数据虚拟化与云计算之间的紧密联系,源于它们共同的虚拟化基础。云计算通过计算虚拟化、存储虚拟化和网络虚拟化等技术,实现了资源的高效管理和弹性配置,这些资源可以根据需求动态分配和调整,以适应不断变化的业务负载。

类似地,数据虚拟化通过在数据源之上构建一个抽象层,允许用户无需关心数据的物理位置和存储细节,就能够访问和操作数据,这种逻辑与云计算的虚拟化理念是一致的。

随着企业越来越多地将数据和应用程序迁移到云端,数据虚拟化和数据编织的应用范围有望进一步扩展。云环境提供的可扩展性和灵活性,使得数据虚拟化解决方案能够更容易地处理大规模数据集,支持更多用户和应用的同时访问。此外,云计算的弹性计算能力还可以帮助提升数据虚拟化系统的性能,尤其是在处理复杂的数据分析和数据集成任务时。

在将数据编织与云计算进行融合方面,Denodo与AWS(亚马逊云科技)的合作,堪称典范。通过在AWS Marketplace(中国区)作为国内第一批新模式下合作方案中的“特色方案”上架,Denodo的数据虚拟化技术为企业提供了一种新的数据管理方式,使得数据访问变得实时、安全且集中管理成为可能。

这种合作不仅简化了数据管理流程,还通过数据虚拟化技术,让企业能够快速响应市场变化,提升决策效率。同时,Denodo平台与AWS服务的深度整合,为用户提供了端到端的数据流解决方案,增强了平台的可扩展性。此外,Denodo的逻辑数据编织技术与AWS的生成式AI相结合,释放了AI的潜力,提高了企业运营效率和客户体验。这一合作为企业数字化转型提供了强有力的支持,开启了数据驱动的新时代。

总的来说,数据虚拟化和数据编织共同推动了数据管理体系的革新,突破了传统数据管理的瓶颈,使企业能够更有效地利用数据资源,提升业务敏捷性和竞争力。

知易行难数据编织并不是一条好走的路

需要指出的是,尽管数据虚拟化和数据编织为现代数据管理提供了极具潜力的解决方案,但要将这些概念转化为具体的产品和服务,仍面临诸多挑战。这些挑战包括如何提升平台性能、高效处理海量数据、实现跨平台的数据整合、确保数据安全与合规性,以及提供实时的数据访问和分析能力等。

而要解决这些问题,最关键的是数据虚拟化、数据编织领域的企业。只有他们通过不断地技术和应用创新,才能推动行业向前发展。

在这一发展过程中,我们反复提到这家名为Denodo的西班牙企业。那么,它有什么不一样呢?

Denodo自1999年成立以来,一直致力于解决数据集成的复杂挑战。这家企业由西班牙拉科鲁尼亚大学的教授Angel Viña(他被誉为“数据虚拟化之父”和“逻辑数据编织之父”)创立,其初衷是通过数据虚拟化技术,实现不同数据源的实时集成和访问,而无需物理地移动数据。

起初,Denodo专注于数据虚拟化技术,帮助企业构建统一的数据视图。随着大数据和云计算的兴起,Denodo不断扩展其平台,支持更广泛的数据源和更复杂的数据集成场景。近年来,Denodo进一步发展了数据编织的概念,通过自动化和智能化的数据管理,满足现代企业对数据敏捷性和可扩展性的需求。

目前,Denodo已经发展成为一个全球性的公司,拥有遍布30多个行业的上千家世界500强与全球2000强的龙头客户。在 Gartner 数据集成工具魔力象限报告和 Forrester Wave 企业数据编织报告中,Denodo都被认定为长期蝉联的领导者。此外,Denodo 也在 Gartner Peer Insights“客户之声”:数据集成工具报告中获评“2023 年客户之选”。

因此,Denodo可以视为数据虚拟化、数据编织发展历史的一个缩影。我们可以将Denodo作为一个窗口,来观察数据虚拟化、数据编织如何攻克一个个技术难点,以及其未来的发展方向。

Denodo以Denodo Enterprise Plus(DEP)为核心代表产品,DEP通过其数据虚拟化和逻辑数据编织技术,贯穿了数据集成、管理和交付的整个生命周期,形成了一个强大的数据管理生态系统。


Denodo Enterprise Plus 架构

在数据集成方面,DEP借助数据虚拟化技术,允许企业在不同数据源之间创建逻辑连接,避免了数据的物理移动,从而减少了数据整合的复杂性,并提高了灵活性。这种技术能够跨越公有云、私有云以及混合云环境,实现数据的无缝集成,支持连接多种数据源,包括关系型数据库、NoSQL数据库、云服务以及大数据平台。

在数据管理方面,DEP通过逻辑数据编织架构,为企业提供了统一的数据视图,简化了业务方对多个数据系统的访问。DEP的集中式数据安全和治理层确保了数据按预定义语义和治理规则交付,支持细粒度的访问控制。此外,DEP的数据目录功能支持数据发现和数据科学计划,帮助用户快速找到和使用信息资产,促进了自助服务与数据发现。

数据交付层面,DEP通过RESTful、OData、GraphQL等标准,以多种数据格式公开数据,确保了数据交付的高效性和安全性。DEP的智能查询加速功能通过预计算和缓存技术,显著提升了查询执行的速度,优化了数据交付的性能。

DEP的自动化基础设施管理功能,尤其是在云环境中,简化了与安装、配置、部署和升级Denodo平台群集相关的任务。此外,DEP的Design Studio工具、数据适配器、嵌入式MPP引擎以及AI/ML建议等特性,进一步提升了用户体验和性能。

需要指出的是,Denodo虽然成立了25年时间,在数据编织领域有深厚的积累,但其没有躺在功劳簿上。数据编织技术在持续演进,同样的,Denodo也在与时俱进,不断用新技术来更新迭代自己。

近期,Denodo在将数据编织与Gen AI进行融合应用方面,进行了大量的探索。

一方面,通过数据虚拟化,Denodo平台能够整合来自不同源的异构数据,为AI模型提供统一的访问接口,这降低了数据集成的复杂性,同时确保了数据的实时性和准确性,这对于训练和运行AI模型至关重要。数据编织则进一步增强了数据的管理和治理,为Gen AI提供了符合业务规则和安全协议的数据视图。

另一方面,Denodo平台通过集成AI技术,增强了数据目录的智能性,使得非技术用户也能够轻松地与数据交互。此外,Gen AI在数据准备、查询优化和数据质量监控等方面的应用,提升了数据编织平台的自动化水平,优化了数据交付流程,使得数据编织能够更好地适应AI时代的需求。

Denodo的探索和实践,揭示了数据虚拟化、数据编织与AI大模型、Gen AI之间的互动关系。通过这种互动,Denodo不仅为Gen AI提供了坚实的数据基础,同时也利用AI技术优化了自己的数据管理能力,共同推动了数据管理和AI技术的进步,为企业在数据驱动的决策和创新中提供了强有力的支持。

在实践中用数据编织给客户带来真实的价值

在企业追求数据驱动决策和数字化转型的当下,全局逻辑数据管理的重要性日益凸显。然而,这不仅是一个技术挑战,更是一个需要深厚实战经验积累的过程。没有经过逾千家行业头部客户的工程化打磨,没有几十年的技术积累和客户实战的严格考验,任何数据管理解决方案都难以承担起为企业提供准实时业务决策支撑的重任。选择未经验证的解决方案,将企业视为“小白鼠”,可能会给企业带来不可估量的业务风险。

接下来,我们就从Denodo具体的客户案例出发,来分析数据编织有哪些典型的应用场景,以及其对企业的价值。

目前来看,数据编织领域在IT基础设施现代化、数据自助服务、改善客户体验的数据基础、提高运营效率敏捷性和韧性、风险与合规的集中管理5个典型业务场景中,具有显著的价值

在IT基础设施现代化方面,数据编织能够促进现有系统的无缝集成与新系统的灵活接入,为企业提供了一个可扩展且高效的数据管理平台。这不仅提高了数据处理的速度和灵活性,也为企业采用新技术和适应数字化转型提供了坚实的基础。

在数据自助服务方面,数据编织通过简化数据访问流程,使得非技术用户也能轻松地获取和分析数据,从而提高了决策的自主性和响应速度。这种自助服务模式减少了对专业IT人员的依赖,加快了数据处理和分析的速度。

对于改善客户体验,数据编织通过整合分散在不同系统中的客户数据,为企业提供了一个统一的客户视图。这有助于企业更精准地理解客户需求,提供个性化服务,从而增强客户满意度和忠诚度,降低可以流失率。

在提高运营效率方面,数据编织通过优化数据流和工作流程,增强了企业的敏捷性和韧性。企业能够更快地响应市场变化,实现资源的高效配置,同时,数据编织的分布式特性也提高了系统的稳定性和抗风险能力。即使面临业务风险,也能减少业务停机时间。

在风险与合规管理方面,数据编织通过集中管理和自动化的数据治理,帮助企业更好地控制数据风险,确保合规性。这不仅减少了违规风险,也提高了企业对数据的透明度和控制力。

数据编织技术以其强大的数据整合和管理能力,在多个关键业务场景中为企业带来了实质性的价值,推动了企业的数字化转型和持续创新。

例如,TransAlta是北美最大的能源公司之一,面临的挑战包括将本地数据基础设施迁移到云端,实现更广泛、更强大的云计算能力。通过Denodo平台,TransAlta能够快速连接到基于云的Active Directory实例、实时传感器数据和其他来源,实现一系列新的基于云的应用。

TransAlta的新能源交易虚拟数据集市每天服务超过200名用户,提供了跨多个不同数据源的单一真实版本视图,使交易者能够进行市场实时分析。此外,新的结冰预测应用利用实时数据高度精准地预测了危险结冰事件,而新的HR仪表盘为管理者提供了强大的团队绩效和状态视图。这些应用不仅提高了运营效率,还增强了业务的敏捷性和韧性。

TransAlta客户案例的技术架构图

又例如,Albertsons Companies是一家大型杂货公司,运营着2200多家零售食品和药品商店。通过Denodo平台,工程团队的效率提高了99%,他们能够在几分钟内为业务方提供大量表,用于数据消费;Coca Cola PenBev作为饮料行业的一家公司,面临着数据来源分散和数据集成效率低下的问题。

Denodo平台的实施显著提高了数据处理效率,从处理一天数据需要8小时降低到处理一整个月的数据只需30分钟以内,极大地提升了业务决策的速度和质量;Albertsons Companies是一家大型零售连锁企业,公司的数据包含敏感的客户个人信息,需要在遵守相关法律法规(如PI/PHI/PCI)的前提下,进行有效的数据管理和分析。

通过Denodo平台,Albertsons能够实现对客户数据的高级分析,同时显著降低了对受限数据元素的访问,增强了客户隐私保护。

对于大部分企业而言,数据编织是一种新事物。企业是否尝试数据编织,最核心的判断来自于成本与收益的权衡。为了详细计算数据编织对于企业的价值,Forrester通过《使用Denodo平台进行数据虚拟化产生的总体经济影响 (Total Economic Impact™)》研究报告,详细分析了Denodo平台在数据虚拟化方面的成本节约和业务效益。

在这份报告中,Forrester 采用了TEI(Total Economic Impact)研究方法。研究过程中,Forrester与Denodo的利益相关方进行了深入访谈,收集了关于成本、效益和风险的数据。

通过这些访谈,Forrester构建了一个代表受访企业的复合型企业模型,并基于此模型构建了财务模型。该模型考虑了Denodo平台带来的直接效益(如成本节约、运营效率提升)和间接效益(如灵活性增加、客户满意度提升),同时评估了与之相关的成本(如许可成本、部署和支持成本)。

最终,研究得出的结论是,Denodo平台为企业带来了显著的经济利益:投资回报率(ROI)达到了408%(意味着对于每投入1美元,企业能够获得4.08美元的收益);净现值(NPV)为546万美元(意味着从长远来看,投资Denodo平台能够为企业带来超过546万美元的净收益);投资回收期不到6个月(意味着企业在不到半年的时间里就能收回其在Denodo平台上的投资成本)。

Denodo平台不仅能够显著降低数据集成的成本,还能提高数据交付速度、运营效率和数据科学家的工作效率,从而为企业带来快速的价值实现和利润增长。此外,Denodo还通过减少遗留系统的整合成本,提供了额外的成本节约。此外,Denodo在提高企业灵活性、客户和员工满意度以及审计、安全和治理方面,还有大量的未量化收益。

展望未来,在数据资产化和要素化的背景下,数据虚拟化和数据编织技术对于释放数据要素的价值具有重要意义。数据虚拟化和数据编织技术正成为推动数据管理体系变革的关键力量,这些技术不仅优化了数据的集成和管理过程,还极大地提升了数据的可用性和价值,为数字经济的建设提供了强有力的支撑。

Denodo作为数据虚拟化和数据编织技术的先行者,一直致力于通过数据编织生态的建设,来推动技术的创新和应用的拓展。Denodo的生态策略强调开放合作,旨在与数据库、数据中台、数据分析、BI以及各个应用系统厂商等产业链伙伴建立紧密的合作关系。

在此,我们呼吁数据管理产业链上的企业携手合作,共同推进数据虚拟化和数据编织技术的发展和应用。通过共建共享的数据编织应用生态,我们可以实现数据的最大价值,推动数字经济的持续繁荣,为社会的进步和发展做出更大的贡献。

One More Thing

为了更好挖掘数据编织技术的应用价值,Denodo与数十家全球头部企业客户携手合作,撰写了一本详尽的案例集,带来了制造、高科技、零售、能源等行业头部客户的数据编织最佳实践,深入分析了数据编织在数据自助服务、IT基础设施现代化、提高运营效益与敏捷性、集中化数据治理与合规等方面的应用价值。

☆☆☆更多数据虚拟化方案细节与全球行业客户实践案例集,识别以下二维码或点击文末“阅读原文”链接均可获取。


*识别以上二维码获取案例集



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存