查看原文
其他

数据中台的建设方法、架构和技术栈!

用友云平台团队 数据仓库与Python大数据 2022-11-29

👆点击上方“蓝色”,获取更多技术干货

导读:发现一本好书,推荐一下,新书速递~

多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有,还不到考虑数据利用的时候。”

这句话在某种程度上代表了一部分企业对于数据利用的认知,即数据利用从先有数据开始。

而数据是在应用建设后存到数据库里的,所以先建设应用,然后等数据库里有了数据后,再考虑如何利用数据。

听上去,这个逻辑完全正确。但其实这就是很多企业对于数据利用的误解,即先建设应用,再考虑数据利用。

如果用这样的思路建设,过了一年以后,这个企业就会立刻提出新的问题:“多个应用系统之间的数据打不通,对不齐,不一致,数据用不起来。”这种误解,从根本上说是没有充分理解数据利用的两个本质。

PART ONE建设方法论

第一,数据是客观存在的,不取决于企业建不建设应用。

一个企业,只要业务在运行,哪怕没有建设任何系统,数据都在实时产生,只是没有把它采集起来而已。

数据是业务在数字化世界里的原子,业务流程和行为会时刻产生各种数据,而不是必须要建设应用数据才产生。

举一个例子,当快递员接到一个快递订单的时候,发件人、收件人、货物类别、发货地、运输工具类型、距离等数据就已经产生。

信息化系统的支持只是改变了这些数据的记录和传递的手段,是一张纸还是一个网络而已。这些数据是客观存在的,不会因为信息化系统本身而改变。

企业要从本质上认知到,数据是业务在数字化世界里的投影模型,它是业务的镜像,是客观存在的。只要有业务,那么就存在对应的数据。应用只是把数据通过软件采集到存储设备里而已。

第二,数据利用的规划要早于应用和流程的建设。

在建房子之前,要做整体设计,规划各种利用场景,只有这样才能设计出一个符合预期的房子。

现在,每个企业都意识到,数据是企业的核心资产,应用是采集和利用这些资产的工具。

为了数据在采集后得到充分的利用,每个企业必须在规划应用和流程之前,完成数据利用的规划。

这就包括企业的数据资产目录的规划,数据利用场景的规划,数据存储的规划,处理分析数据的技术平台的规划等。

企业构建数据驱动的架构体系,既是一个技术工作,也是对企业组织和文化的升华。

企业进行顶层设计,需要从一把手的视角进行规划,看到整个企业的痛点,打通企业运营的七经八脉。建议企业在组织上配套建立平行于IT的数据管理组织,赋予组织更多的预算和决策权力。

数据管理组织不仅要承担企业数据驱动的技术和业务落地,同时也要推动企业数据驱动的文化建设,帮助业务部门在决策上基于数据“说话”。

在规划、组织、文化上的思路统一后,一般来说企业数据驱动的转型和执行就不会有大的偏差。在实施上选择更靠谱的供应商,更先进和更开放的技术,可以帮助企业少走弯路,直奔目标。

在做数据项目之前,企业首先要找到一套符合自身特性的建设方法论,才能不走弯路,不掉入中台项目实施的“陷阱”。

用友集合了多年信息化发展经验,总结了一套适合大中型企业的数据中台规划方法论。

结合数据中台项目的核心内容,企业可以制定合理的建设方案。

(1)数据资产管理。盘点数据资源、规划数据资源、获取数据资源,并将所有资源进行完整呈现。企业可根据数据资源规划报告指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。

(2)数据管理分析平台的搭建。按照数据资产梳理结果,落地搭建企业级的大数据平台,获取相关的数据,并搭建相应的技术平台。

(3)数据指标体系的建立。对用户、产品、客商、营销等各主题域进行标签提取,将其特征数字化,为后续进行精准营销和客户画像提供必要条件。搭建企业标签体系,着重分析当前需要但是无法获取的指标,描述使用不便的指标,分析问题原因,绘制数据供应链条。

(4)数据治理。从基础数据、业务数据、大数据视角综合分析当前的数据质量问题,建立相应的组织、设定相应的流程,对数据资产进行管理。

(5)数据可视化应用。基于当前外部数据、IoT数据、非结构和半结构化数据进行大数据应用的规划,并论证实现过程和成本评估。数据可视化应用一旦评估通过可以帮助企业进行大数据应用的完整开发和落地。数据可视化应用可以描述数据背后的价值,在最短的时间内用最具冲击力的视觉语言,将企业最重要的数据/信息传递给最重要的人。

PART TWO技术架构

数据中台应该采用什么样的技术架构?

首先要充分意识到数据中台是一个企业加工生产数据的业务系统,不是一个传统意义的技术平台,而是一个生产系统

它的生产资料是数据,它的产品是对业务产生洞察和价值的服务。这跟企业的业务目标行业领域文化结构流程体系等因素紧密相关

所以数据中台一定不是一个可以一次性购买部署的套装软件,它是一个为企业的业务目标服务量身定制的系统。

其次它紧密跟随着企业的业务战略,所以它是一个演进式架构,在不同的阶段不同的领域,会采用不同的技术选型。

从用友的实践来看,企业的数据系统,正从原来数据仓库的封闭架构走向开放架构。

企业的数据中台是开放平台,是一个建立在演进式架构之上的开放平台。传统数据仓库架构已不能满足企业数智化转型的需求。

企业在数据应用上呈现“五大转变”,从统计分析向预测分析转变、从单领域分析向跨领域分析转变、从被动分析向主动分析转变、从非实时分析向实时分析转变、从结构化数据向多元化数据转变。

并且企业对统一的数据中台有强烈诉求,对数据中台的运算能力、核心算法及数据全面性提出了更高的要求。

数据中台的技术架构在发生变化。

一是以Hadoop、Spark等分布式技术和组件为核心的“计算和存储混搭”的数据处理架构在成熟,它们能够支持批量和实时的数据加载及灵活的业务需求。

二是数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。

而大数据背景下的架构体系是ELT结构,可以根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。用友数据中台技术架构如图所示。

数据中台在整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,通过多租户技术进行资源打包整合和开放,并通过微服务的方式为用户提供“一站式”数据服务。

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合。

企业基于自身的信息化建设基础、数据基础及业务特点对数据中台的能力进行定义,最后基于能力的定义并利用数据组件来搭建自己的数据中台。

PART THREE技术栈

了解数据中台技术架构每个部分的位置、功能和含义能让企业更好地了解数据产品的范围和边界,技术实现的效果和更好的实现方式。

另外,很多技术的设计理念对认知世界、了解复杂系统也有所裨益。

一般来说,从数据中台的角度,我们将数据整个链条区分为四个环节:数据采集&传输、数据存储、数据计算&查询、数据可视化及分析。

数据中台技术堆栈框架如图所示。

本文摘自《数字化中台》一书,更多关于企业级数据中台的建设问题请阅读此书哦!

限时五折专享↓

快快扫码抢购吧!↓☟




如果喜欢本文
欢迎 在看留言分享至朋友圈 三连
推荐阅读:
大数据界的黑马—ClickHouse 全面概述

更多精彩,请戳"阅读原文"到"数仓之路"查看

 

 

关注不迷路~ 各种福利、资源定期分享

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存