案例分享:Apache Kylin在唯品会大数据的应用
Apache Kylin & Alluxio Meetup@上海 讲师们的分享产生了大量干货,其中唯品会大数据平台高级技术架构经理谢麟炯介绍的案例和经验十分宝贵。
https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=v0350j3lbxj
现场演讲视频
谢麟炯是唯品会大数据平台高级技术架构经理。主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。
“让大数据成为唯品会的增长引擎”,是唯品会大数据团队的slogan。在使用Apache Kylin之前,唯品会在数据分析方面有三个痛点。第一是流程长(反复沟通、排期等待、结果难预测、信息衰减);第二是缺少工具(变更慢、工具少);第三还是缺少工具(重复开发、不可复用)。总结下来,唯品会有两个核心诉求,第一是需要自由的组合维度和指标的平台;第二,即便是大数据量也需要快速获得所需的数据。
唯品会大数据团队选择使用Apache Kylin的原因,首先是利用空间换时间,从原理上已经确保了ad-hoc响应速度达标;支持SQL;支持Dimension-Fact的Join;支持查询重写;对ETL开发来说创建和管理CUBE比较简单,且透明化了MR和HBase同步;可以很方便的在调度系统中调用Kylin API定时刷新CUBE。综上所述麒麟是比较好的解决方案。
谢麟炯讲师还介绍了Apache Kylin的使用情况和他们在唯品会做的改进。还讲述了大数据团队遇到的“坑”,比如HBase维护成本较高;高Cardinality维表反复查询可能撑爆内存;CUBE一旦Build就不可更新定义。
最后,谢麟炯讲师分享了关于实时数据作为OLAP数据源的思考,引发了现场的热烈讨论。
以下是唯品会谢麟炯讲师演讲PPT:
您可能还想看:
云中麒麟 – Apache Kylin在微软Azure上的实践