用户案例|中信建投引入 StarRocks 构建统一数据服务平台
引言:数据库作为金融信息系统的核心组件,在技术架构的搭建中起着决定性作用。随着国内软硬件性能的突破,以及金融业向服务场景化、生态化的演进,Oracle、Netezza和Teradata等老牌数据库厂商已无法满足分析需求。在业务发展持续创新的驱动下,围绕客户体验、精准营销、风险控制等典型金融应用场景,金融业对数据库的性能提出了更高的行业标准。
基于 StarRocks 发展起来的企业级商用镜舟数据库,采用 MPP(Massively Parallel Processing)分布式执行框架,全面向量化执行引擎,及自研的CBO优化器,打造极速全场景分析引擎,实现查询结果实时返回,速度远超同类产品。此外,镜舟数据库还兼容 MySQL 协议,可使用 MySQL 客户端,并可适配机构内部的报表平台、用户画像、信用卡系统和结算清算系统等,满足金融客户对技术支持、解决方案、生态建设、售后保障等方面的极致要求。
本文重点分享社区用户中信建投使用 StarRocks 的经验分享。如您有相关问题或交流需求,可点击阅读原文或跳转到小程序填写相关信息,我们将安排专人与您联系。
Storage:以HDFS和S3等对象存储为主; File format:StarRocks提供自身特有的文件格式,除传统的Parquet、ORC、CSV等,用户可以有更多选择; Table format:StarRocks通过自身的表引擎,可提供与Iceberg、Hudi、Delta lake类似的功能; Catalog:StarRocks的FE支持自有的Catalog元数据格式,同时也能很好的支持包括Hive Catalog以及其他云产品的Catalog; Compute engine:计算引擎是StarRocks的核心优势。作为查询引擎,它能够很大程度的提升整个报表分析的性能,并且通过Spark、Flink的配合,流批处理后的数据StarRocks可以做报表的查询。
经过几轮沟通,StarRocks提供了多种湖仓融合的方式,中信建投对 StarRocks 湖仓融合的理念给予了高度肯定,并希望进一步讨论具体的架构方案。如您对 StarRocks 湖仓融合解决方案感兴趣,同样可以联系我们,进行详细沟通。
案例详情
#01 需求背景
1)数据加工链路复杂
在数据分析的流程上,数据部门通常是首先用 Presto 做即席查询,再通过 Hive 进行数据加工,最后将加工过后的数据下发到各部门的 Oracle 或 MySQL 事务型数据库,业务人员在事务数据库里对下发数据进行查询和分析。整个过程需要在三套系统之间进行数据交换,且三套系统使用的 SQL 语法也不一致,需要不同人员进行开发维护,从而产生了多种问题:
数据开发和维护成本高
数据口径可能不一致,导致数据应用结果不准确
用数需求难以得到及时满足,通常要“T+1”才能给到数据报表
2)大数据量下性能不足,查询响应慢
3)大量实时数据分散在各个业务系统,无法进行联合分析
4)缺少预计算能力加速固定查询
#02 引入 StarRocks 构建统一查询服务平台
图:中信建投统一数据查询服务平台
作为一款高性能全场景的分析型数据库,StarRocks 使用 MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的外部数据源高效导入数据,也支持不做数据转储,便可直接通过外表形式分析查询数据湖的数据,统一的 SQL 交互将数据分析结果或物化视图预计算结果分发到各个数据应用,为中信建投实现了三套系统使用功能的整合以及数据应用流程的简化。
具体而言,针对中信建投的痛点问题,StarRocks具备如下优势:
1)在性能方面
2)在外部表联邦查询方面
以 Hive 外表功能为例,中信建投可以将其 Hive 中的离线数据导⼊ StarRocks 中进⾏⾼性能分析查询。同时,StarRocks 也可以支撑湖仓一体联邦分析,将离线数据与实时数据进⾏关联,打通不同数据存储间的壁垒,从⽽⽀撑业务分析时在数据湖中进⾏数据探查和极致分析的需求。
3)在预计算方面
#03 落地后的效果与价值
1)大数据查询性能得到显著提升
2)预计算能力降低了固定报表加工成本
3)降低数据迁移成本,提升数据管理和使用效率
#04 项目经验总结
1)分析型数据库的选型需要充分考虑企业自身的用数需求,以及现有数据平台的技术架构,选择符合自身实际情况的数据库是获得较好的落地效果的关键。例如,中信建投大部分的数据都存储在 Hive 中,StarRocks 提供的类 Presto 的外表查询功能可以避免数据迁移增加的额外成本,同时也很好地满足了公司的用数需求。
2)随着企业数据规模不断增长,以及分析场景更加复杂,分析型数据库需要不断提升数据查询分析的性能,以及针对固定报表、自助 BI 等各种应用场景,提供场景化解决方案、生态工具,才能满足用户在数据查询分析方面功能和性能的复杂需求。
👇 点击阅读原文