中纺集团×StarRocks:构建企业级数据资产管理的实践
#01
云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长:
#02
发展趋势:大数据工作是企业实现数字化转型的必由之路
回顾数据发展历程,数据发展主要经历三个阶段。信息化时代:数据被视为业务记录的主要载体,数据管理与业务系统、管理系统相结合,从而具备一定的业务含义。大数据时代:随着数据规模持续增加以及技术成本投入下降,越来越多的组织开始搭建大数据平台,以实现数据资源的集中存储和管理。数据要素化时代:数据作为资产的理念正在成为共识,即以释放数据资产价值为核心目标,制定数据赋能业务发展战略,持续运营数据资产。
#03
因此需要选择一款部署和运维代价适中、适合现有开发团队技术栈演进的 OLAP 数据库,StarRocks 通过实际业务数据需求技术测试和方案验证脱颖而出。
测试方向 | 具体内容 | ClickHouse | Apache Doris | StarRocks |
易用性 | 建表和SQL改造 | 改造成本高 | 语法类似MySQL,相对简单,成本较低 | 语法类似MySQL,相对简单,成本较低 |
查询性能 | 业务场景查询测试 | 性能表现优于Oracle,略低于StarRocks | 某些场景优于Oracle,个别场景略低于Oracle | 性能表现均优于Oracle,三者表现最佳 |
健壮性 | 宕机测试 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 |
开源社区成熟度 | 调研测试 | 开源社区成熟,案例多,关注度高 | 开源社区成熟,案例中等,关注度高 | 开源社区在中国的影响力和成熟度高,技术支持力度大 |
数据量 | Oracle (现用) | StarRocks | Apache Doris | ClickHouse |
四张几百万到数十条的表关联查询 | 差 | 最优 | 中等 | 较差 |
几十万级数据量单表查询 | 差 | 最优 | 较差 | 中等 |
几十万与几万条数据关联查询 | 差 | 最优 | 中等 | 较差 |
StarRocks 可以做到“统一安装、统一部署、统一管理、统一运维”,最终形成集团统一的数据资产目录。依据 “试点先行、小步快跑、标杆示范、以点带面”的建设原则,中纺首先将中纺棉商情大数据分析平台迁移至 StarRocks 平台,以验证 StarRocks 的稳定性和性能。
中纺棉商情大数据分析平台是棉花期现货经营的决策分析平台,棉花商情研发数据范围包括国内外棉花期现货价格、现货数量、棉花质量、USDA 数据、天气数据、海关数据、汇率、储备棉数据等等,数据来源繁杂,目前已经汇聚了近 3 亿条行业数据,平均每周增量近五十万条,商情研发工作对该系统高度依赖。在商情大数据平台的有力支撑下,2021 年,中纺棉商情部比美国农业部(USDA)提前半年研发出棉花全球年度平衡表,行业大数据应用首屈一指!
在原有的传统关系型数据库体系下,系统存在计算性能瓶颈,使用的 Oracle 一体机扩容难、计算资源紧张、无法划分租户,数据只能通过批量同步方式同步。数据时效性不好,存在个别数据量大、需要 Join 表多的 SQL 无法运行出结果,即便增加临时表,打开需要用时 2-3 分钟左右。
通过对商情平台数据分析底座数据库架构的迁移和改造工作,目前中纺棉商情大数据平台已经切换运行在 StarRocks 平台上。系统运行稳定,查询速度快,产品兼容性好,支持力量及时完备。分布式查询性能有保障、兼容性好,实现了异源异构数据秒级实时汇聚,计算性能好、改造代价低,原来跑不出结果的 SQL 可以返回结果,经过增加中间表、使用分区分桶等比较简单的操作即可将数据响应控制在 3 秒以内,大大提升了用户对系统的使用体验。
StarRocks 运维管理更省心。StarRocks 有数据自动均衡功能,包括节点间的数据均衡,以及单节点扩缩容磁盘后的磁盘间数据均衡能力。企业版带有图形化的管理后台,是一站式全集群管理平台,对于提升集团型企业数据集中管理的便捷性和可靠性也至关重要。
StarRocks 有较为完善的技术服务生态。官网及产品论坛上提供了丰富的技术学习资料和教程,方便开发者自我学习,项目组也建立了解答技术问题的工作群,同事们提出的每个技术问题都会得到圆满的解答。StarRocks 有专业的解决方案可供参考。除了数据的存算部分,Fink CDC、传统数据库接入、国产数据库等相关部分,也可以提供经过实战项目检验的成熟方案,企业完全可以直接借鉴,大大降低了验证测试时间和开发成本。
#05
当前工作:建设中纺棉数据资产管理平台
建立统一的数据资产管理平台是中纺棉花“十四五”数字化规划的重点工作任务之一,该平台设定了四个“一”的项目目标,即“一套数据、一套体系、一套标准、一个出口”。
具体任务是基于现有的数据中台组件,建设数据资产管理平台,集成现有各个系统中的有效数据,实现数据层面的整合共享集成,建立数据治理体系,明确数据标准,确保数据质量,构建数据资产目录,用统一的数据源头和计算逻辑对内、对外提供报送数据。并在此基础上,建立数据模型和指标体系,进行深度整合和科学分析,对决策提供准确有力的支撑。项目一期设计的具体工作内容为 3 个数据集。#06
关于 StarRocks
StarRocks 面世两年多来,一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。
当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。
2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超过 3600 个。StarRocks 的全球社区飞速成长,至今已有超百位贡献者,社群用户突破 7000 人,吸引几十家国内外行业头部企业参与共建。StarRocks 技术内幕:
👇 阅读原文了解 StarRocks 产品详细信息