易观的大数据中台之路
作者 | 易观CTO郭炜
出品 | AI科技大本营(ID:rgznai100)
本文为CSDN即将推出的《新战场:决胜中台》专刊的第 2 篇文章。
什么是数据中台?
中台的定义来自于投资银行,简单说来,投行当中前台是赚钱的、后台是做支持赚钱的,而中台是支持更快赚钱的。而建设大数据中台的本质在于把过去在后台的工作挪到中台,进一步支持前台更高效的做数据分析。
整体说来,数据中台可以分成两种建设模式:广中台和深中台。
广中台:大部分大厂使用这种模式,在IaaS之上有大数据组件组成的PaaS中台,可以帮助各业务团队的研发,快速申请资源、快速研发数据相关应用,满足业务团队用户需求。广中台的用户基本上是各业务部门的技术人员。
深中台:大部分小厂或者创新团队使用这种模式,在IaaS之上,根据数据的“主题域“或者业务领域,分别建立直接给业务人员使用的PaaS,让业务人员可以直接操作数据、进行实时计算、用户分群、用户营销等等。深中台的用户基本上是该业务主题域的业务运营或者产品人员。
用一个不恰当的比喻,广中台有点像当年的数据仓库,以整合计算算力、共享数据资源为目标,需要技术人员再次加工来提供业务应用模型,深中台有点像当年的数据集市+ACRM,以直接驱动业务、业务用户直接使用数据为目标。
为什么要建立大数据中台
数据中台就是企业从传统信息化到数字化演进过程中的必然产物。大数据平台过去几年内非常火爆,几乎所有数字化企业都启动了相关的大数据项目,但是,建设大数据平台时有各种各样的痛点:
大数据项目启动难:大数据平台建设周期长,成本高、人员互联网运营经验不足; 大数据项目效果体现难:大数据如何解决互联网运营问题、大数据系统建设结果是更多的BI报表、大数据建设ROI无法衡量; 大数据项目执行难:数据源纷繁复杂、原有系统涉及到多部门协调沟通、以及数据治理问题; 往往一个大数据平台建设完成后,带来了大量的运维工作,而业务支持能力被业务部门质疑,到底如何衡量大数据的ROI是一个行业的痛点。
在这个背景情况下大数据中台营运而生,数据中台的目标就是:
1、把业务分析还给业务,让业务人员、数据科学家直接使用数据,而不是传统软件提需求出报表的方式;
2、实时数据分析,即时满足运营人员的各种推测和分析需求。
3、数据治理要在业务端进行,而不是在技术端进行梳理。
从大数据平台到数据中台是一次从大数据从技术到业务的飞跃,过去我们只看技术,到中台时期,是从业务端看技术。
如何建设大数据中台
易观在建设大数据中台过程中,主要从这三个方面来进行:面向业务、开放连接、共享共建。
面向业务
易观的大数据中台是一个“深中台“模式,也就是中台的目标是定位在直接赋能业务用户使用,减轻大数据人员重复劳动上下功夫。因此,易观的数据中台产品“方舟”是以智能用户数据中台为目标,定位在于用户数据为中心的相关业务。深入业务用户的使用场景,提供留存、转化等等实际的业务场景,让业务人员使用。同时,根据业务人员反馈的需求、基于开放的用户数据PaaS快速打磨迭代上面的场景和应用。
易观智能用户数据中台——方舟
开放连接
如果要支持上述提到的快速迭代,底层的大数据PaaS就需要非常灵活,开放接入各种组件、支持多种灵活的二次开发方式,还要支持多云,这里易观采用的是“大数据IOTA”架构的数据PaaS:
它的基本思路就是把数据计算分布在所有节点上,从数据采集开始就进行边缘计算,这样一来定义数据采集原子口径,将业务口径归还业务部门,更加快速的支持业务调整:
统一格式/口径的数据接入(前后端采集、数据上传)方式
抽象为“主-谓-宾”数据标准化模型数据计算
秒算引擎满足实时多维度多模型数据查询
支持业务系统数据接入,整合企业数据
支持外部系统导出数据,满足更多应用场景
得益于IOTA架构,易观的用户数据中台,支持4大类、10小类、近百个API,还支持JDBC接口,让业务人员和技术人员都可以快速根据自己的实际情况进行二次开发——授人以鱼不如授人以渔,最了解业务的还是业务用户自己,数据中台就是帮助它实现自主完成相关业务分析和数据驱动的工具。
数据中台还要选择具有联通型的组件,这样可以快速和企业内部的各种组件对接,易观选取的是Presto,它具有的特性是可以快速链接多种大数据组件的能力,天然支持Mysql,HDFS和Cassandra,而易观又扩展了它的能力,开源了自主研发的Kudu Connector,Hbase Connector等,让企业可以快速通过易观的数据中台联通自己的内部大数据组件。
开放性还体现在多云支持上,目前,公有云、私有云多种形态并存,大数据中台组件要适配当前的多种云方式,目前易观自己的用户数据中台方舟采用了IOTA架构中“计算-存储分离”的模式已经支持了阿里、AWS、腾讯等主流云厂商,这样可以帮助企业顺利使用多云模式。
共享共建
大数据平台组件繁多,如何可以让数据中台与大数据平台有效配合,易观的思路是从开放API、开放组件到开源布局,下图是易观免费的用户数据中台Argo和大数据平台生态布局的关系。
免费的用户数据中台Argo与大数据平台的关系
作为免费用户数据中台,Argo帮助初创企业和创新团队建立自己的用户行为中台,完成业务分析部分,但是大的企业有自己的大数据平台,直接如何方便互联互通。这个情况非常复杂,很难通过一家企业来完成所有的生态,易观的思路是开源,共享共建。大数据平台中的核心ETL调度组件,易观3月份正式开源了分布式易扩展的可视化DAG工作流任务调度系统Dolphin Scheduler,在众多用户期待和全球技术专家投标的肯定下,8月底正式加入Apache孵化器,成为国内唯一的一家Apache大数据调度引擎,10月底A10峰会上,易观正式开源了“可视化埋点SDK”,旨在帮助企业解决数据埋点这个痛点。
数据中台作为一个可内聚的产品,周边的组件是要通过开源、共建生态来完成的,无论是甲方的企业还是乙方的专业公司,中台的建设都需要开放心态,共享使用场景、经验,共同打造开源社区,共享行业资源才可以真正做好。
数据中台的未来展望
每一个技术架构的升级,其实背后是管理思路的变革,数据中台将过去数据决策迭代周期从数月到数天乃至数天,是“精益”理论和敏捷开发在数据行业里的具体实现。更多的让业务用户可以直接使用数据、利用数据进行运营、测试,形成精益闭环是未来大势所驱。
技术上,大数据中台的发展,也对大数据平台工程师提出了更高的业务需求,最终会形成一个新的工程师种类——大数据中台工程师,他们是了解业务、懂得数据分析,还会使用大数据技术来实现大数据中台的技术人员。
大数据中台,只是数据从后台走向前台的过渡阶段,最终在IOT、5G、AI的助力下,数据技术会成为一个公司的“前台”业务,最终让数据和人工智能替代前台人员直接为业务变现。
《新战场:决胜中台》专刊文章链接:
◆
精彩推荐
◆