查看原文
其他

【干货】Apache Kylin 首本电子书新鲜出炉!

apachekylin 2022-04-23




麒麟者,神兽也,古人以为,其为四灵之一,仁兽,凡其出没,必有祥瑞。


卷首语

作者:韩卿 | Luke Han 

Kyligence联合创始人兼CEO


两年前,我们在eBay的时候开源了一个大数据OLAP框架,在基本都是使用动物来命名项目名字的大数据生态中,我们选取了麒麟,Kylin,作为项目的名字,最终成为了今天的Apache Kylin项目,这在世界众多大数据及开源项目中一眼即知这是来自中国的开源项目。
在Hadoop被证明是一个优秀的大数据存储及批处理的平台之后,自然而然用户的需求是如何在 Hadoop平台之上实现传统数据仓库,商业智能的能力,提供交互式的,多维分析能力,或者,换句话说,如何在Hadoop之上,构建数据集市及数据仓库,并提供在传统数据仓库技术所不能做到的超大规模数据集的快速查询,并使用普通的PC硬件,而无需采购专用的,私有的一体机或者高端存储等。
因此,Kylin项目一经开源,即获得了业界众多的称赞,并被邀请加入Apache软件基金会的孵化项目,在2014年11月,正式经投票加入了Apache大家庭,项目名字也改成了“Apache Kylin”,在项目开源伊始即幸运的加入全球最大的开源软件基金会,从而开启了麒麟大数据之旅。
在2015年11月,Apache Kylin经项目管理委员会及孵化器管理委员会共同投票,正式毕业成为Apache顶级项目,和Apache Hadoop, Apache Spark, Apache Kafka等众多软件一起成为顶级项目,这是中国工程师的骄傲,目前为止,Apache Kylin是唯一来自中国的Apache顶级开源项目。
我本人也成为Apache软件基金会唯一一位来自中国的项目管理委员会主席,副总裁。并被提名成为 Apache Member (ASF Member)。目前,项目发展了众多的 PMC member 及 committer,包括来自Kyligence、美团、百度、京东、eBay等众多的贡献者及用户活跃在Kylin的社区。
开源项目,开源容易使用难,被广泛使用则更难。而今天,经过Kylin社区两年不断的努力和发展,已 经有超过100多家国内国外的公司正式使用Kylin作为其大数据分析平台的核心。包括eBay、Glispa、微软、Expedia、百度、美团、网易、京东、唯品会、中国移动、中国电信、国泰君安、华泰证券、联想、OPPO、魅族、去哪儿,等等。Apache Kylin被用到了诸多如数据仓库,用户行为分析,流量(日志)分析,自助分析平台,电商分析,广告效果分析,实时分析,数据服务平台等各种场景。并且众 多使用者在贡献了非常多的代码,特性等同时,也分享了很多的案例参考,促进了Kylin社区的进一步发展。
开源,也促进的商业模式的变革,从最早的Linux商业化公司红帽,到今天,Hadoop诞生了 Cloudera, Hortonworks, MaR, Kafka诞生了Confluent, Spark核心开发者则组建了Databricks。同样,Kylin的核心开发者,也在中国组建了Kyligence,作为中国唯一一家完全由Apache顶级项目核心开发者组建的公司,在中国及国际上进行开源-商业模式的探索和尝试,从提供企业级的Kyligence Analytics Platform,到在线的诊断与支持服务KyBot等,正在一步步实践开源-创业-商业的转换路径。

下载方式

PDF版本:点击文末的阅读原文链接。
文章目录

1. Apache Kylin在电信运营商的实践和案例分享数据规模决定要选择高效的处理技术。北京移动的用户规模超过两千万,每天入库的原始数据超过三百亿条。经过处理后入库的数据是3TB,而集群规模是400TB存储;每天执行的任务超过800个,其中大概有600-700个是属于临时产生的任务,所以我们的集群很繁忙。如果不选择高效的数据处理技术,将无法满足分析需求。Kylin可以在夜间非忙时进行一些预计算,这样可以满足一些临时任务的数据需求,从而提升集群的工作效率。本文介绍了为什么北京移动选择使用Kylin;应用场景;使用Kylin应注意哪些问题;基于Kylin的前景规划。
2. Apache Kylin在美团数十亿数据OLAP场景下的实践美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,如何将Kylin应用到实际场景中,以及目前的使用方式和现状。同时也将Kylin和其它系统(如Presto、Druid等)进行了对比,阐述了Kylin的独特优势。
3. Apache Kylin在百度地图的实践百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。目前,我们大数据OLAP多维分析平台承载百度地图内部多个基于Apache Kylin引擎的亿级多维分析查询项目,共计约80个cube,平均半年时间的历史数据,共计约50亿行的源数据规模,单表最大数据量为20亿+条源数据,满足大时间区间、复杂条件过滤、多维汇总聚合的单条SQL查询毫秒级响应,较为高效地解决了亿级大数据交互查询的性能需求,非常感谢由eBay贡献的Apache Kylin,从预计算和索引的思路为大数据OLAP开源领域提供了一种朴素实用的解决方案。
4. Apache Kylin在网易云音乐的实践和调优本文来自网易杭州研究院在实际使用Apache Kylin中的经验总结,特别是对网易云音乐的分析需求,深入解构业务特性,加之团队对Kylin的深入研究,从业务和技术角度突破,转换思路,最终将查询性能从最初的上百秒提升到1秒以内,取得了非常好的效果。
5. Hadoop上的超高速数据查询Apache Hadoop到今天已经十年,作为一个平台很好的解决了大数据的存储和运算的基本需求。伴随着技术的成熟,业界对大数据的需求也越来越高。从最早的NoSQL,最近几年又回归到了SQL-on-Hadoop,而在不断涌现的各种技术之中,有着不一样的设计理念和哲学。本文是在这样的背景下作者对大数据系统的一些思考。
6. 专访韩卿:Kylin是如何成为Apache顶级项目的?2015年12月8日,Apache基金会批准Apache Kylin正式毕业成为Apache的顶级项目。Apache Kylin(麒麟)是由eBay 研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台。Kylin于2014年10月开源,并于当年11月成为Apache孵化器项目,是eBay第一个贡献给Apache软件基金会的项目,也是第一个由中国团队完整贡献到Apache的项目。为了了解Apache Kylin的开源发展历程以及经验,InfoQ记者采访了该项目的负责人韩卿。



本次推送来源公众号:大数据杂谈



点击“阅读原文”下载pdf版本

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存