啥叫数据中台 | 企业用数据驱动业务的架构
最近一段时间“数据中台”一个词特别流行,我觉得这个词的定义,比我前段时间几次谈到的“中台”(见下文),在人们的沟通中更模糊不清。如同“中台”是为“前台”而生,所谓“数据中台”也是为服务前台业务而生的。
原生互联网公司形成“数据中台”,是因为要处理从互联网上获取的海量数据,要形成洞察来支持前端业务。所以,他们的“数据中台”是“从前面往后面”长出来的。
而传统企业,例如制造业、零售业、金融服务业、交通物流业等,其业务运营并非能够或者需要全面对接互联网前端,同时又存在大量的企业内部数据(例如财务数据、生产数据、交易数据),这些企业要用数据去驱动业务,数据分析平台应该是“从后面往前面”生长的。数字化转型中的传统企业的“数据中台”架构,不能简单照搬互联网公司的框架。
企业的数据中台究竟包括什么内容?有朋友问我,是不是传统的数据库、数据仓库和BI也算“数据中台”?我觉得这个问题背后是可能没有充分理解,企业的数据分析模式从基于数据仓库的传统分析方法,向基于“大数据”的分析方法的范式变化。
简单说,传统方式是业务假设驱动,用假设去找数据,分析效率低,数据管理成本高;而大数据方法是基于全量数据去探索规律,并关联到业务问题解决:
所以,我认为“数据中台”应该就是企业级的大数据分析平台(Data Analytics Platform),其组成架构如下(我看过若干大数据架构图都太偏技术,以下架构图更利于业务人员理解):
来源:IBM数据分析参考架构 2016 (IBM Analytics Reference Architecture)
数据湖的数据存放包括四种形式:
各种数据(结构化、半结构化、非结构化)的着陆区,非关系型数据源的存储
互联网海量数据的对象存储和缓存
面向报表展现、具有强语义背景的、传统意义上的数据仓库和数据集市;从大量数据源产生的深度分析和数据建模
数据科学家、分析师撷取少量数据进行探索的数据沙箱
面向数据的发现和洞察,大数据平台提供一个“数据访问层”,使得数据科学家、数据工程师、前端应用开发人员等可以通过自助服务、数据虚拟化、数据联合以及开放API等方式,方便访问到数据湖里的数据。
用数据来发现和洞察业务,形成“可行动的洞察”,有这样一些方式:
报表
数据可视化
故事板分析
决策支持:场景决策、协同计划等环境下,求解复杂环境下的最优解
预测性分析:基于统计学,发现规律范式
深度学习和人工智能
来源:IBM数据分析参考架构 2016 (IBM Analytics Reference Architecture)
将形成的业务洞察去“赋能”前端业务应用,这些前端业务通常包括如下应用场景,而这些场景的数字化应用,既包括面向用户的互联网应用,也包括面向内部业务人员的ERP类的业务运营系统:
营销相关:围绕用户体验提升的精准推送、个性化推荐等
运营相关,例如:
供应链优化:库存水平优化、生产计划优化
金融服务的反欺诈
设备资产的预防性维修
公共管理的风险预警
零售的品类/定价/促销优化
消费品企业的需求预测
风险管理相关:财务、IT、风控的审计和信息披露
人力资源管理相关:组织行为分析(参见 数字化人力资源 | 从微软WPA看HR大数据新潮流——ONA)、绩效评价、销售激励分析等
商业创新:市场机会洞察、产品研发机会发现、商业模式创新等
假设企业将数据分析平台放在云平台上,从数据来驱动业务的数据管道流向如下图:
来源:https://www.ibm.com/cloud/garage/architectures/dataAnalyticsArchitecture/reference-architecture/
从各种数据源搜集“大数据”,并通过API网关,传到数据分析平台(DAP)上。数据源包括网络数据集、内容数据、社交媒体数据、传感器数据等各种格式的动态数据.
企业内部系统的“静态数据”,例如客户数据、交易数据、POS数据等,也可以通过安全网关,接入到DAP上
实时数据可以用“流式计算”来搜集和分析
依据数据使用目的来准备和集成批量数据,人工智能被用来提高数据接入、准备和集成的效率;数据被转换、增强,并送入数据处理链路中
数据存放为不同类型的数据提供“分析加载区”
数据科学家(运用专业工具的数据分析人员)和公民分析师(运用非专业工具的数据分析人员)根据这些数据来进行数据分析和探索,利用机器学习等技术,建立新的分析模型或者增强既有模型。
执行新建的分析模型,利用机器学习等技术进行预测、模拟、优化等,输出可执行业务洞察
这些业务洞察结果可以增强企业内的核心系统(例如ERP系统的采购功能执行供应链优化的结果)或者提供方云上的SaaS应用
业务洞察结果也可以推到公共网络的用户或者移动应用上,例如数字化营销的实时个性化推荐
信息治理、安全管理和系统管理贯穿了数据处理的整个过程,保证数据和信息的一致性和合规性。
数据用户分为两类:企业用户和企业外用户。企业用户在企业网络环境内,访问报表程序或者分析型应用
企业外用户通过提供方云的应用或者通过API网关授权访问
不论DAP是不是放在云上,还是企业自建(当前,企业自建DAP,其技术组件几乎都在公有云上,或者采用云原生架构的开源组件),DAP平台就可以被认为是传统企业的“数据中台”
数字化转型,请关注