都强调实时性,偶数科技实时湖仓一体有啥不同?
面对越来越复杂多变的市场,为了能在激烈竞争中保持优势,企业需要更及时的数据洞察和快速的反应能力,构建实时基础设施成为数字化时代的企业必修课,现代技术栈正加速转向支持实时化。
比如,Uber的实时基础设施每天产生多个PB级的数据和数万亿条信息,这些数据持续不断从Uber司机、乘客和其他用户那里收集而来。Uber的移动应用、内部仪表盘、机器学习模型和临时数据探索工具都有实时用例。而Netflix的实时基础设施每天基本处理数十万亿次的事件。
伴随着企业实时需求增多,新的数据技术概念也如雨后春笋般长了出来。比如近两年火热的实时数仓,丰富了实时数据处理的应用场景,未来数据栈将会向着怎样的趋势发展?
IT168&ITPUB策划了实时数仓系列选题,与业内专家共同探讨新技术、新趋势、新应用。本文为其中一篇,采访嘉宾:偶数科技解决方案部总监张立群。
实时分析三大场景
技术的变革往往是因为业务的需求推动,反过来,变革后的技术也将促进业务创新增长。
目前,实时业务场景越来越多,比如运营层面的实时营销,当日分时业务分析,千人千面的实时推荐页面,金融领域的实时风控,生产层面的实时系统监控等。而随着5G等新技术发展,未来海量的实时数据处理需求只会更多。
张立群介绍,其实从技术角度来看,参照去年年底Gartner给出的定义,按照事件发生的时间先后顺序,实时数据处理的需求可以分为实时流处理、实时按需分析、离线分析三类。
其中,实时流处理,可以理解为连续实时处理,24小时不停采集数据和处理实时流数据。按需实时则是根据用户不定时提出需求,能够做到及时响应。“简单概括来说,实时数仓必须具备实时计算的能力。这里在数仓中进行的实时计算指的是面向实时流数据和历史数据相结合的按需实时处理,而非仅进行连续的实时处理。”张立群强调,实际上,当用户在业务中提出按需的实时数据处理需求时,不仅需要实时数据处理,也需要实时数据与历史数据结合的实时处理,即需要按需的实时+离线分析,客户要的不仅是T+0,而是T+X,这里的X包括从实时到几秒,几分钟,几个小时,几天等。
张立群介绍,目前,单纯的流计算引擎如Flink、Spark Streaming受限于处理的数据规模,只能做到连续的实时流处理,不具备按需实时处理的能力,按需实时只能在数仓中进行,这就要求实时数仓除了保存Flink、Spark Streaming实时处理的结果数据,还需要自身具备高性能的按需实时处理能力。
实际上偶数科技的实时数仓并非单独的数仓产品,而是一体化的云数据平台——Skylab,该平台拥有四大产品组件,包括云原生数据库OushuDB、机器学习平台LittleBoy、数据管理平台Lava和数据分析与应用平台Kepler。通过ANCHOR六大特性比较,偶数Skylab具备了All Data Types(支持多类型数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency(超高并发)、One Copy of Data(一份数据)、Real-Time(实时 T+0)。
对外服务时,可以根据用户需求以新一代全实时数据处理架构Omega组合应用,比如将OushuDB与Lava结合起来就可以构成一个基础的实时湖仓方案,具有实时数仓能力。其中数据管理平台Lava会集成Flink、Spark Streaming引擎。
据悉,Omega架构融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理业务应用系统获取的可变更数据实时快照的能力。这使得偶数科技的实时数仓方案可以实现按需实时计算与按需离线批处理相结合。
张立群介绍,由于企业的IT系统都是分阶段建设,比如某企业先有了数仓,然后建设了大数据平台,为了实时处理可能又在Hadoop基础上建设了Flink计算引擎。目前大部分企业的技术栈还没有形成体系化,依然处于割裂的状态。不同的系统有各自的计算与存储,传统架构下MPP横向扩展能力弱,且计算与存储不分离,Hadoop横向扩展能力强,但是计算不支持横向扩展,这些不足会成为海量数据爆发下实时分析处理的掣肘。OushuDB采用存算分离架构,并支持虚拟计算集群技术,具有多租户能力,由此打造的实时数仓方案可以实现弹性扩展,提高资源利用效率。
未来数据技术融合的原则
面对复杂多变的新业务场景,随着数据技术不断成熟,新的实时技术栈会出现,数据技术也会经历分离与融合。目前,融合的趋势比较明显。如湖仓一体、实时数仓,将实时处理能力融入数据仓库中。
那么湖仓一体与实时数仓有什么异同?
张立群介绍,原来的数据仓库计算引擎的优势与数据湖的分布式存储优势结合形成了新一代湖仓一体的数据平台技术,基于这种技术研发的产品同时具备了湖的分布式可扩展存储能力和数据仓库的高性能分析处理能力,而在湖仓一体的基础上,添加流计算处理能力便形成了实时湖仓一体,实时湖仓一体本质上还是湖仓一体,同时具备了实时计算能力,能更好的满足业务应用对海量数据高性能实时数据分析的需求。
天下大势分久必合合久必分,张立群认为,数据平台技术栈的建设应该遵循三条基本原则:
一是,架构层面要保持灵活开放,支持多种技术兼容性并存。目前,企业已经部署了多个系统,有自己的一套架构体系,技术融合落地时需要最大化利用企业原有IT资产,保护客户投资。
二是,有效利用资源,降本增效。原来传统的技术栈,所有资源参与计算,造成IT资源浪费。比如,云原生资源池化,可以实现资源隔离与动态管理,便于最大化利用资源。
三是,满足更高的用户体验。从用户角度来看,在技术条件具备的前提下,比如高性能、高并发、实时性更强,便具备了更强的信息加工能力,能够在很短的时间内满足用户各种各样的数据服务需求,提升用户体验。
随着实时分析场景日益增多,实时数仓等具备实时处理能力的产品与解决方案将会得到更广泛的应用。IT168&ITPUB将会推出更多关于实时数仓建设落地的内容,敬请期待。