查看原文
其他

当今数据平台的建设策略及5个关键考虑因素

晓晓 数据驱动智能
2024-09-16

我们生活在一个数据驱动的世界,我们的企业严重依赖精心规划的数据分析平台。它可以被视为支持所有数据相关活动的核心,从数据采集到每个业务部门的数据服务。

构建数据平台不再是可有可无的事情,而是大多数组织的必需品。企业根据其从数据中获取可操作见解的能力进行赋能,从而改善客户体验、增加收入,甚至定义其品牌。

这些数据平台的成功取决于明确的数据战略,即如何处理、组织和管理数据,以及如何利用数据推动创新和解决业务问题。以下是数据平台建设策略应考虑的重要五个方面。

一 采集什么数据以及创建什么能力

回顾过去,我们发现数据团队过去花费大量时间和精力从源系统提取大量数据,而这在以前是现有本地分析系统的一大限制。但与此同时,从大数据平台的“数据消费者”角度来看,这增加了上市时间。

因此,一个非常关键的步骤是确定不同业务职能中的用例,并进行优先级排序,以创建高优先级数据中心用例组合和管道。这些用例可以看作是通过从数据中生成所需信息来解决业务问题的数字产品。这些数据应该通过数据平台提供。

这还将帮助开发团队根据优先功能调整平台构建路线图。例如:如果业务团队热衷于数据科学实验项目,他们需要清理数据和工作台服务。因此,平台团队可以在平台建设的早期优先提供数据实验或数据科学服务。

用例驱动方法将有助于基于高优先级用例逐步构建数据,这些数据可以真正为业务增加价值,而不是收集所有可用数据并有可能在将来用于某些或其他用例。

二 如何组织数据

除了确定需要哪些数据的优先级之外,还应关注如何在平台内组织数据。如果数据平台以组织混乱的方式保存了太多数据,而没有合适的元数据管理和可靠的数据治理,那么相关数据就会变得越来越难以找到。尽管新数据不断增加,但信息内容开始减少。

简而言之,我们需要制定策略,让数据从其来源“数据生产者”遍历或跳跃到“数据消费者”应用程序和系统。这方面最有效的方法是遵循如下图所示的路径:识别->收集->清理->整理->衍生 -

三 谁应该拥有数据

这种数据架构的成功实际上取决于谁在推动整个数据建设过程,谁坐在前排,谁在后排提供支持,这意味着所有权。在过去的回顾中,我们观察到,构建数据和做出相关决策通常由不同的数据团队负责,他们在从数据管理员那里获得知识转移后才这样做,投入了时间和精力,却无法让数据消费者满意。因为这些团队与实际数据系统不够接近,无法了解数据过程,从而做出正确的决策来推动完整的数据周期。

这就需要定义数据领域团队和联合治理模型。领域团队由跨职能人员组成,例如数据管理员、数据架构师、业务代表、数据合规官等。他们共同负责在各自领域内做出治理决策,确保数据质量、隐私、安全和合规性,最重要的是数据生命周期——包括数据采集、转换和提供给最终用户。通过将所有权和责任转移回领域,数据所有权不会转移,因此不会造成任何价值损失,最了解数据的人是管理、准备和提供数据以供分析的人。

虽然治理职责分布在不同的领域,但整个组织仍然需要保持一致性和协调性。这需要建立共同的治理标准、政策和框架,以提供指导并确保遵守总体组织目标和监管要求。

四 技术可以提供什么支持

技术在支持和实现数据战略方面发挥着关键作用。它提供了有效管理、处理、分析数据并从中获取价值的工具、基础设施和功能。

现代数据平台通常涉及多种技术的组合,例如数据湖、数据仓库、云存储和大数据处理框架。不过,云托管数据湖仍然是解决方案,因为它简化了查找相关数据并使其准备好用于分析的过程,同时为数据科学团队提供了可访问数据的完整视角。

但是数据湖也面临一些挑战,例如读/写过程中缺乏一致性、缺乏模式实施等。因此,需要进一步思考并采用结合数据湖和数据仓库最佳特性的 Lakehouse 架构。基本上,它在数据湖之上添加了一层结构化处理和查询引擎。这一层通常包括 Apache Spark、Delta Lake 或类似框架等技术。这些技术可以实现模式实施、数据质量管理、事务功能以及提高查询和分析数据湖中存储的数据的性能。

另一个重要方面是处理框架,在大数据背景下,技术从 Apache Hadoop 发展到与MPP 云数据库相结合的Apache spark。Spark的内存处理能力使其在某些工作负载下比 Hadoop 的 MapReduce 更快。通过将 Spark 与 MPP 数据库相结合,组织可以从数据库的可扩展性和分布式处理能力中受益,同时利用 Spark 丰富的数据处理和分析功能。但是,也可以采用混合方法,具体取决于最适合特定用例的方法。

除了技术选择之外,还应尽可能采用基于微服务的架构方法,并将数据提取、处理、部署和其他活动创建为独立的数据服务。当多个领域团队负责使用组织的数据平台为其领域创建数据资产或产品时,这些数据服务在实现标准化和节省资源方面发挥着关键作用。

五 如何保持数据策略的相关性

保持相关性并更积极地响应不断变化的业务或客户需求是获得竞争优势的关键。它需要根据组织的整体数据策略、目标和具体要求不断进行调整和评估,以确保最佳利用率和成功。

此外,在整个组织和业务部门中培育一种数据驱动的文化是十分必要的。它有助于获得积极的参与和贡献,从而可以利用不同的数据视角来获得 360度的数据视图。

制定培训计划和举措,以提高数据素养、数据意识,最重要的是鼓励使用组织的数据平台,以便业务部门能够创建和使用越来越多的数据产品。采用数据市场可能是一个很好的策略,它提供了一个平台,数据提供者可以在此出售或交换数据,数据消费者可以发现、访问和获取他们需要的数据。这样,数据提供者和消费者都可以互动、分享知识或最佳实践,提供反馈,以不断提高数据产品的相关性。

拥抱新兴技术、行业最佳实践和监管变化也可以极大地增强数据战略。此外,持续跟踪数据管理、分析、人工智能和云计算方面的进步,以发现创新和改进的机会也是必不可少的。

六 小结

平台的建设策略可分为三个重点领域 -

用例驱动流来识别不同业务职能中的用例,并进行优先级排序练习,以创建高优先级数据中心用例管道组合。总体负责培养数据驱动的文化和协作环境,在该环境中共享和利用数据洞察来推动业务成果。

数据管理流可能遵循良好、可靠的去中心化领域模型,通过制定正确的政策和条款来端到端地管理数据旅程,同时在中央管理团队的支持下确保数据的有效性和相关性。

技术和架构流可以根据用例需求负责整体平台架构,通过选择正确的技术(例如 Lakehouse 架构、内存计算或处理框架、基于微服务的实施方法)并跟踪技术进步。

最后,这些三流之间紧密协调与合作对于使用这种有效的数据策略实现整体组织目标非常重要。


往期推荐

6月CDGA考前辅导报名

数据基础系列:数据建模中的范式

CDGA考前辅导报名

数据资产管理方案

通过两个阶段实现数据平台的现代化

数据基础系列:Lambda架构和Kappa架构

继续滑动看下一个
数据驱动智能
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存