下一站灯塔!湖仓一体,用“数”之道的必选项
近年来,随着数字化驱动的深入,湖仓一体技术热度不断攀升,越来越多的数据库企业推出相关产品或解决方案,俨然已成为了大数据技术发展的“下一灯塔”。
作为国内湖仓一体技术的代表性厂商,巨杉数据库于近期举行线上发布会,发布了基于「湖仓一体」架构的升级产品SequoiaDB v5.2,并特邀赛迪顾问分析师对日前发布的国内首份《湖仓一体技术研究报告》进行深入解读,进一步诠释了「释放全量数据价值」的价值观点。
全量数据价值驱动新兴技术,「湖仓一体」备受瞩目
“面对企业海量大数据场景下的实时处理、非结构化数据治理的需求,以及数据仓库/数据湖独立建设的架构局限,湖仓一体架构成为各厂商探索的方向。”赛迪顾问分析师在对《湖仓一体技术研究报告》解读中表示。
过去,企业的数据多以结构化数据为主,但随着行业数字化转型进程的深入,数据多元化趋势日益明显,“全量数据”这一概念屡被提及。即对各个业务系统中产生的结构化,半结构化及非结构化数据进行分布式存储,统一对接上层应用进行调度服务。“全量数据”概念的出现,使得数据业务场景愈发复杂,也对数据存储管理架构提出新的要求。
不同的发展阶段及业务需求,推动了数据库技术不同的发展方向。上世纪80年代,由于数据库“脑容量不足”,擅长事务型工作,不擅长分析型工作,于是产生了数据仓库。本世纪10年代,随着海量数据的爆发式增长,数据类型的日益多元化,则推动了数据湖的出现。而在更加强调数字经济、智能化的20年代,湖仓一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,成为了企业数字化转型过程中的关注焦点。从交易核心到数据核心,“实时”成关键要素
过去的10年,是信息化向数字化转型的10年,移动互联网、AI、IOT、大数据等的兴起与发展,数字化成为企业的全新课题,数据库则是企业数字化转型的基石。
“各行各业都在加速数字化发展,行业不但需要基于信息化的传统交易核心,更需要面向全量数据价值的数据核心,形成以数据为纽带的双核心架构。”巨杉数据库在发布会中提到。与传统「交易核心」往往仅针对特定业务系统解决其交易需求不同的是,「数据核心」需要汇聚从多个「交易核心」产生的实时交易流水数据,为全企业跨业务的多个系统提供高并发的实时对客全量数据查询及数据探索分析能力。
以对数据管理要求最高,场景最为复杂的金融银行业为例。以往,金融机构的部分数据相关业务和服务,如历史交易数据查询、证券开户等,因数据库缺乏全量数据存储及实时能力,无法实现实时处理,需要花费几分钟甚至几小时的时间。这对于当前的用户体验标准而言,无疑是不符合要求的。而从银行自身角度来看,如果不能对用户的消费行为、过程行为等数据做到实时存储、分析,那就无法针对性地对用户做个性化的服务推荐,这同样也不符合银行的需求。因此,对全量数据的处理从内部离线转向实时对客已势在必行,这就需要底层数据库能够支持对全量数据的实时调用读取分析。
对此,作为长期聚焦于金融银行业的巨杉数据库SequoiaDB,基于「湖仓一体」架构,能够将企业多个「交易核心」数据库所产生的业务流水数据,以流式入湖的方式,秒级汇聚到SequoiaDB形成全量数据底座,实现所有数据可对客提供高并发毫秒级访问。形成全量数据的价值从「内部离线」向「实时对客」的进一步释放。
近年来,在中国高速增长的市场环境下,国内数据库行业发展也进入了快车道。但无法忽视的是,关系型数据库自上世纪70年代末诞生,在经历了40多年的发展后,对于其固有的业务场景来说,业界基本已经做到了极致。在这个赛道中,相比海外数据库厂商,国产数据库仍在努力追赶。
新的需求催生新的赛道。从需求侧来看,面向海量数据实时访问、非结构化在线处理等新的业务场景,传统交易型数据库明显力不从心。因此,对于国产数据库厂商而言,湖仓一体将是一个实现数字化创新突破的新兴赛道。这也是国内数据库厂商纷纷入局的原因之一。
纵观国内湖仓一体技术赛道,各家产品虽然技术路线不同,或自研,或基于开源,或基于自身云平台的产品组合,但最终目的均一致是为了降低数据在不同平台间的流动。比如像阿里云、华为云等云厂商,会通过各类云上的工具打通不同产品或组件间的数据流通,而巨杉数据库等分布式数据库企业,则会尽可能让同一平台上的数据具备更丰富的应用场景。
作为国内分布式数据库的代表企业,巨杉数据库SequoiaDB的「湖仓一体」是从「多模数据湖」、「实时数据湖」结合「实时数仓」发展而来,为客户提供面向全量数据存储,实时对客服务,及基于统一数据源分析能力的需求,驱动数字化业务创新,释放全量数据价值。
相信,伴随着中国经济的高速发展,“释放全量数据价值”这一观点势必将成为业界共识。而湖仓一体技术,也将为中国数据库行业带来全新的机遇与挑战。