查看原文
其他

星环云原生数据湖,为企业精准决策提供全方位技术支撑

构建明日数据世界 星环科技 2023-08-31

随着数据价值由数据统一化逐渐到数据生态化演进,企业对数据平台的需求越来越高,许多企业面临内部数据孤岛等现状,需要全集团统一的、可共享的数据平台,来推进建设统一的数据平台,构建数据驱动业务的数字化转型战略,为企业管理和决策提供数据基础与分析能力保障,助力企业发展。


数据湖作为支撑企业数字化转型的数据底座,能够为企业提供数据驱动、精准决策等全方位技术支撑,因此企业级数据湖的建设,是数据价值逐渐释放的基础,是企业数字化战略转型的关键。



企业建设数据湖一个重要的目标是,面向企业各个事业部、子公司,建设统一数据湖,用来统一整合企业内、外部各类业务系统数据,保障企业数据全面性和唯一性,以及统一管理内外部数据资产,形成企业统一数据治理标准及规范,加强数据安全管控及数据安全。

基于TDC的数据湖整体方案


 一个完整的数据湖解决方案需要建立在数据接入、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等一些列技术之上。市场上的数据湖解决方案多数只具备部分能力,给企业建设数据湖带来障碍。
基于星环科技数据云平台 Transwarp Data Cloud(TDC)、星环大数据开发工具 Transwarp Data Studio (TDS)等产品的星环数据湖解决方案,能够一站式解决企业从建湖到管湖全部过程,为企业管理和决策提供数据基础与分析能力保障,助力企业发展。
在数据入湖阶段,星环科技大数据整合工具 Transporter 负责将分散于各个地方、各种平台上的各种格式的数据同步或集成到大数据平台上。而星环大数据基础平台  Transwarp Data Hub (TDH ) 内置 8 种独立的存储引擎,支持业界主流的 10 种存储模型,解决数据湖需要的结构化、非结构化、半结构化数据存储能力。在数据治理、元数据、数据质量、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。
基于 TDC 建设数据湖的基础架构设计

TDC 数据云平台的数据湖基础架构,核心理念是以多租户的形式,承载整整个集团的数据业务。


包括集团级中心数据湖、主题库和数据集市,以及事业部、子公司等独立租户,同时可为任何组织部门按需提供数据沙箱,基于集团数据湖数据进行二次数据探索和分析。
TDC 数据湖解决方案在银行的最佳实践

以银行客户为例,某银行需要部署一个数据湖,并需要将公共的数据放在数据湖租户中,用数据湖来承载集团的全部数据,并由集团 IT 部统一管理。允许各子公司、事业部、各个部门有条件使用该数据。
同时,因为银行数据湖业务负载有潮汐差异性,为了更好的响应业务的处理要求,在业务繁忙时,希望能自动调整配置,以响应业务负载,当业务负载下降时,能及时减少资源配置,以将资源给其它租户或应用使用,这其中涉及计算单元的自动弹性伸缩。此外,该银行的数据量每天会有一定量的增加,需要定时扩容。
根据上述背景,我们可以将客户的关键需求总结为:

规划多租户,由独立的租户承建数据湖,保证数据湖的隔离性;配置数据湖的自动弹性扩展能力;数据湖计量,为了方便对每个租户进行成本管理或企业内部计算,需要对各个租户使用的资源进行计量和计费。


星环科技数据云平台 TDC 支持不同的操作系统和 CPU 架构,可以采用图形化的方式部署和配置异构集群。在 TDC 之上,该银行部署数据湖,我们提供了一套图形化向导方式,一步一步帮助银行完成各项选择和配置。
针对该银行的数据湖需求,基于星环数据云平台 TDC 做了如下工作:

为该银行创建两个租户,一个为存放公共数据的数据湖租户 datalake,一个为使用数据湖数据的租户marketing;

将租户datalake设置为共享租户;

开启租户datalake的 TDFS 组件的数据共享;

在租户下 datalake下部署一个实例datalake_1,并开启组件 TDFS 的共享;

开启 datalake_1 实例的弹性伸缩功能;

在租户 marketing 下部署一个实例 marketing_1,引用租户 datalake 的 TDFS 组件;


数据湖与多个数据租户是一种协同分层解决方案。TDC 的租户是指一个包括资源、应用和数据的隔离,租户之间相互独立,完全隔离,同时能够通过安全可控和共享模块的配置,实现资源、数据、应用的跨租户共享。通过共享租户在数据湖中实现数据、平台、工具和模型的统一,通过隔离实现每个部署空间的独立性、安全性。
数据湖租户设置为共享租户,通过将数据存储TDFS组件开放并共享出来。需要共享的数据、工具、模型都放在一个租户中,设为共享租户,其他租户可以查看或使用该租户共享出来的数据。数据湖的多租户规划即为将数据湖租户设置为共享租户,其他租户建设自己的数据仓库时可查看并选择该共享组件,这样其他租户即可依赖数据湖租户共享出来的 TDFS,实现数据的共享。
基于星环科技 TDC 建设的数据湖,承载了该银行集团的全部数据,并由集团 IT 部统一管理。允许各子公司、事业部、各个部门有条件使用该数据,实现了数据的集中治理以及安全的共享交换。
目前,星环科技新一代智能数据云平台 Transwarp Data Cloud(TDC)已经在众多行业有成熟的全方位解决方案落地,满足了各种数据处理场景的需求,实现了企业数据与应用的生态化建设。未来星环将在数据云领域持续深耕,助力企业不断提升大数据能力,引领企业数字化转型升级浪潮。


更多数据云TDC相关:
1.【漫画】数据云,真香在哪?
2.基于星环数据云平台 TDC 的一站式数据湖解决方案

3.云原生的数据云,下一个十年的数字化转型趋势

4.企业数字化转型的四个阶段,星环科技自研数据云平台全部搞定


☟关注下方视频号☟
发现更多精彩内容
-扫码关注-

简介 评测 投资 培训 巡展 媒体报道 认证考试 用户大会

TDH TDC Sophon 流式计算 图数据库 闪存数据库

技术支持 深入机器学习 技术干货 白话大数据 小白学AI   

金融  政府 能源 证券 航空 交通 制造业 银行 基金 质检  保险 物流 医疗 气象


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存