开源访谈 | 2.0 划时代版本后的 Apache Kylin ,前路何方?
【本文转载自开源中国】
摘要
Apache Kylin 2.0 正式版发布已有半年,社区反响如何,哪些特性最受欢迎,下一步将往哪个方向发展?本期【开源访谈】邀请 Kyligence 技术合伙人兼高级软件架构师李栋,解疑 2.0 划时代版本之后的 Apache Kylin ,以及基于 Kylin 的云端服务平台 KyBot 。
李栋,Kyligence技术合伙人兼高级软件架构师,Apache Kylin Committer & PMC Member,专注于大数据技术研发,KyBot 技术负责人。毕业于上海交通大学计算机系;曾任 eBay 全球分析基础架构部高级工程师、微软云计算和企业产品部软件开发工程师;曾是微软商业产品 Dynamics 亚太团队核心成员,参与开发了新一代基于云端的 ERP 解决方案。
1、首先请老师介绍一下目前在 Kyligence 和 Apache Kylin 主要负责的工作。
我是 Apache Kylin 的 PMC Member ,参与 Apache Kylin 的开发、维护、发布等工作,近期作为 Release Manager 发布了 Apache Kylin 2.2 。在 Kyligence 担任技术合伙人兼高级软件架构师,参与企业级产品和云产品的核心研发,同时也是 Kyligence Robot(简称 KyBot ) 的技术负责人。
2、Apache Kylin 2.0 正式版发布已有半年,社区反响情况如何?有哪些特性最受欢迎呢?
Apache Kylin 2.0 是一个划时代的版本,支持 Spark Cubing、雪花模型等等,从功能特性和用户体验方面都有质的提升。这半年来,大部分社区用户都升级到了 2.x 版本,社区也有很多关于新特性的讨论。以 Spark Cubing 为例,在 2.0 刚发布时只是试验性的 beta 功能,后来社区都在踊跃使用,并积极反馈问题和建议,帮助我们把这些特性做得更加稳定,例如对不同极端场景和运行环境的支持;最终得以在 2.2 版本时去掉了 beta 字样。这也是开源带来的魅力所在。
3、Apache Kylin 目前的版本迭代主要是围绕哪些方面?能透露一些 Kylin 接下来的发展方向吗?
高性能、高并发是 Apache Kylin 的优势所在,每次版本迭代都会做很多性能方面的改进。此外,易用性也是一个重要的方面,近期发布的 SQL 查询下压、支持雪花模型等特性,都是为了更好地提升易用性,让用户更加方便地进行业务上线,且支持更加复杂的业务场景。接下来的发展方向除了上面提到的两点,还希望再实时性方面有所突破,目前的 Streaming 实现了分钟级近实时,我们希望接下来能够进一步缩短这个延迟;以及加强与 Hadoop 生态的集成,如支持 Hadoop 3.0 , 以 Spark SQL 为数据源等等。
4、国外的用户和国内的用户在特性方面的需求是否有差异?
国外的 BI 发展更加成熟,他们对于 BI 软件集成方面的需求会更加强烈。整体来说,还是不同行业对于特性的需求差异更大,例如金融、电信等传统行业,对于权限控制、数据安全等要求更高,而互联网需求因为技术能力较强,对于平台兼容性、性能调优更有需求。我们的技术团队针对这些不同的企业需求也推出了企业级解决方案,例如 Kyligence ODBC Driver 可以支持更好的 BI 兼容性,KAP 的单元格权限控制可以支持更好的安全性管理,Kyligence Robot (简称 KyBot )可以帮助用户快速诊断、提高性能、优化效率等等。
5、Apache Kylin 目前在国内的发展情况如何?
这一年 Kylin 的发展十分迅速,去年全球用户还是 200+ ,今天已经是 500+ 了,可见用户增长速度之快。从社区的讨论来看,很多用户的问题都相当深入,可见已经在 Kylin 上线了很多复杂业务。最近几个月,我们还看到云上的用户开始多了起来,无论是邮件列表的讨论还是在 JIRA 开的 issue ,很多用户都在讨论云上的平台兼容和性能优化,例如 AWS S3 的存储支持、EMR/HDInsight 的环境问题等等,可见随着云平台的发展,更多用户开始利用云平台动态伸缩的特性进行大数据分析,这也是大数据发展的一个趋势。为了帮助用户更加方便地上云,我们的研发团队联合 Azure、AWS 等平台供应商把 Kylin 商业版上线到应用市场等平台,帮助用户一键部署 Kylin 实例,加快上云的步伐。
6、Kyligence 的 KyBot 服务最初是基于什么需求而生,具体又是如何实现的呢?
一方面,企业数据平台的管理员有数据统计的需求,想要了解 Kylin 的用量、性能等统计信息,以进行预算规划和资源管理;KyBot 提供的丰富的可视化图表和界面就可以方便地解决这些问题,例如帮助管理员统计 Cube 热度,并找到使用率低的 Cube 等等。另一方面,大数据的开源软件都有很复杂的部署架构和数据流,这增大了对运维人员的技术要求,Kylin 也不例外,想要诊断和优化 Kylin 的故障和性能,需要同时查看很多系统的日志,如 MapReduce 日志、HBase 日志等;我们的技术团队拥有丰富的 Kylin 及大数据平台开发和实战经验,我们把这些知识输出成智能引擎,通过 KyBot 收集和分析日志,快速解决用户遇到的各种问题。
7、KyBot 在保持和 Kylin 的版本同步方面是如何做的?
向前兼容是进行 Kylin 的功能开发时一个必须考虑的方面;至少在元数据结构上,Kylin 的新版本总是能兼容老版本,这就降低了 KyBot 中对不同 Kylin 版本支持的难度。目前 KyBot 支持 Kylin 1.5.0 之后的所有版本,而且 KyBot 我们保持至少每周一次大更新的更新频率,QA 流程也会保证对 Kylin 各个版本的兼容性。
8、怎么看待大数据的未来走向,人工智能的热潮对大数据发展会带来怎样的影响?
人工智能现在真的很火,但这也不代表大数据的风头要被取代。实际上,大数据技术是人工智能的基础,大数据技术的进一步发展和革新依然是推动人工智能技术发展的动力。人工智能的热潮也会推动大数据技术的发展,一方面,人工智能技术可以为大数据提高效率,例如 AWS 通过机器学习方法实现数据库自动调优,都是鲜活的案例,另一方面,大数据也可以为人工智能服务,例如 Kylin 让数据聚合和访问变得更快,不管什么算法,对于获取数据的速度总是越快越好,Kylin 能够有效的帮助合适的算法提升这部分的性能和效率。
更多信息请点击阅读原文
"Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation in the US and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks."
您可能还会想看
使用Kyligence Robot诊断Apache Kylin系统故障
【案例分享,附PPT】Druid与Apache Kylin在美团的选型与实践
【干货,附PPT】:Apache Kylin v2.x最新特性分享