查看原文
其他

如何利用阿里云大数据产品建设数据中台?

阿里云开发者社区 云祁的数据江湖 2022-08-17
简介:本次分享介绍客如云如何利用阿里云大数据产品来建设数据中台。客如云是2012年成立的一家公司,覆盖餐饮、零售、美业,还有其他的业态以及服务的一家综合性的SaaS公司。到2020年为止,客如云已经服务了60万商家,帮助60万商家实现了数字化、智能化的改造,接下来我们会覆盖更多的商家。


客如云技术总监 李浩


本次分享介绍客如云如何利用阿里云大数据产品来建设数据中台。


客如云是2012年成立的一家公司,覆盖餐饮、零售、美业,还有其他的业态以及服务的一家综合性的SaaS公司。到2020年为止,客如云已经服务了60万商家,帮助60万商家实现了数字化、智能化的改造,接下来我们会覆盖更多的商家。


目前客如云是四中心的架构,我们的研发中心在成都,硬件研发中心在深圳,总部在北京,销售中心在武汉。接下来主要介绍我们的业务范围:客如云是以软硬一体的SaaS收银服务为核心的,所以SaaS收银系统的硬件和软件是我们第一层,是我们的效率工具。第二层,我们和餐饮、零售的友商企业一起打造的人、财、物、客的生态系统。第三层,我们利用增值服务,比如营销、供应链、人效、商业智能、金融服务,还有大数据的应用,去满足各层级的商家的需求。从S1到S5,所有的大小品牌我们是全覆盖的。我们的愿景是帮助客户,帮助商家实现店开天下,客如云来,而我们从中能够更好的服务于商家,帮助商家提效降本,去获得更多的营收,降低更多的成本。


目前客如云整体的系统全部建设在阿里云的服务之上,保证了在较少的资源的情况下,支撑我们现在成为平台级的公司。


接下来介绍一下,我们如何利用阿里云的产品来进行数据中台建设的。大家都知道阿里巴巴的数据中台是3个One的核心,One ID,One Data,One Service。在基础设施的完善之上,首先我们要做到数据集成,所以我们利用了阿里云的DataHub、DataWorks、DTS等产品,把我们的业务数据统一到我们的Hadoop集群里面,然后我们现在再迁移到我们的MaxCompute里面,利用大数据的产品来进行整个数据仓库的建设。MaxCompute帮助我们实现了整个离线数据的计算和存储,包括数仓空间的建设,然后我们利用PAI建设了我们的算法中心和机器学习的样板,利用Flink的技术打造了实时计算的平台。我们在这些实时计算和离线计算的基础之上,建立了统一的查询服务。利用阿里云的Hologres产品,实现了我们的一体式查询的One Service的理念。


在这个基础上,我们保证了我们整个的数据应用,包含我们内部的数据应用,BI的产品,还有外部的数据应用,大屏,还有报表,还有整个的算法,智能推荐、精准营销等这块的整个的实现,建立了我们客如云的数据中台,然后快速的满足了我们的内部用户和外部用户的数据需求。


接下来我们再讲一下,在这个过程中,我们如何利用阿里云的产品来帮助解决我们的哪些痛点问题?


首先我们看到的是我们原先是自建的Hadoop集群,难以维护,因为成本很高。我们经过了一年的努力,把整个Hadoop集群换成了MaxCompute,这样的效果很明显,我们的运维成本降低了1倍,计算速度增加了8倍,保证了我们快速交付ETL等计算处理的能力,给到业务线来使用。


第二个问题,我们遇到了很多数据安全的问题,自建的Hadoop集群没办法做数据审计,所以我们用到了阿里云的敏感数据保护产品SDDP,来进行数据的分级分类,保护我们的产品,实现数据的零泄漏。同时我们自建的Presto集群做交互式查询时和我们的MaxCompute又不能相互融合,我们调研了以后发现Hologres的产品,相对来讲比Presto性能更好一些,所以我们用Hologres的产品代替了Presto,保证了我们可以直接从MaxCompute里查询,使整个交互实现了无缝对接。接着我们遇到了一些数据模型,数据建模的产品,目前还在调研Dataphin产品,实现整个的数据模型的建设。


我们最大的痛点是实时大屏的性能问题,这个时候我们发现用Flink的技术,再加上QuickBI能解决我们的前端和后端的问题。接下来我们以实时大屏为核心,来介绍一下我们怎么样应用的,然后怎么样解决掉这个问题的。


数据大屏我们遇到的难点第一个是我们的数据源太多了,我们用到了MySQL、 RDS、MongoDB、Redis、ES等多种数据来源,我们要把这些数据来源统一的汇聚,解决掉我们的数据源多的问题。第二个是我们的大屏性能方面,现在我们数据量特别大,然后样式又特别多,需求特别复杂,这个时候怎么样去解决掉这个问题。接着是看到这些需求,生成这些数据后,如何快速的在前端展示,这也是一个很大的问题。所以我们在调研QuickBI产品的时候,发现确实是能够解决我们这方面的问题。


我们再来看一下我们是如何解决掉问题的。第一个问题,我们其实主要还是要做数据的治理,源数据的管理,血缘关系,甚至是一些多数据源的处理,减少我们的现有的集群。第二个问题,因为数据量大,现在各类企业其实有着海量的数据,需要解决快速查询的问题,方案就是我们利用阿里云的实时计算平台,基于Flink开源技术,解决了我们整个的查数据速度的问题。我认为整个的阿里云的Flink技术确实是能够更快的查询到想查询的海量的数据,它的性能和高扩展性我们确实是得到了体验,我觉得在这块领域阿里云还是名列第一的。而在整个大数据前端这块,我们发现的问题是渲染慢。但是我们用QuickBI自定义拖拽,快速地去定义数据源,导入到不同的框标里面,可以快速的查询出来。


上面是解决了一些问题,接下来介绍客如云的实时计算平台是怎么样的架构。我们通过4个层,基础数据层实时计算层接口层展示层来架设我们的实时计算平台。重点讲一下我们的实时计算层,计算层这块其实我们有一些需求,不单是当天的数据,比如说商家要看这个月现在为止我们的营业额是多少,他不但需要当天的数据,还需要从8月1号到现在为止,所有的数据。所以它会体现到我们不但要有流表的接入,还要有维表的接入,还要有聚合计算,从而形成了一个数据流。多流的汇聚,实现了我们在接口层的调用的情况下,展示层能够展示到我们当天能满足商家每个维度的需求的数据,就像我举的那个例子一样,能够看到当月到现在为止它的营业额是多少,这样的一个场景。所以说我们实时计算的平台主要是为了满足业务各方面的需求。


接下来分享一下实际应用的场景。我们已经帮着一些菜市场实现了数据大屏。这块的展示主要是当天的销量是什么,哪个销量最好,这样能够帮助商家了解第二天进什么货更合适。这个大屏的应用实际上已经是能够帮助商家在实际的生活场景里面得到很好的体验。

餐饮实时大屏是基于我们现有的数据,展示了一下我们中国餐饮大数据的一些情况,但这是只是代表一部分客人的数据。当然这里面可以说客人的规模越来越大,我们做的也会越来越好,我们就可以展示出来到底中国人民喜欢点什么菜,哪个菜是最好吃的,大家喜欢什么样的口味,我们都可以通过我们的实时数据计算,通过数据挖掘来发现出来。

BI应用主要是为内部客户使用,我们的运营团队、销售团队、研发团队还有其他团队,能够保证我们整个的在数据的分析运营和辅助决策里面起到很大的作用,节省很多的管理层的成本和时间。利用我们的BI产品,可以解决这样的需求。


总结一下主要介绍的三点,一个是客如云是干什么的?客如云是要帮助我们的餐饮、零售、美业的商家,实现店开天下、客如云来的愿景的SaaS公司。第二点是客如云如何利用阿里云的大数据产品来建设客如云的数据中台。第三点是客如云如何利用实时大屏、我们的商家画像产品以及其他大数据应用产品,来赋能商家。





数据中台交付专家告诉你,数据架构的分层怎样更加合理?

2020-12-02

从DataPhin看数据中台的另类理解

2020-10-21

详解阿里云数据中台,一篇文章全面了解大数据“网红”

2020-08-29


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存