查看原文
其他

CommunityOverCode Asia 专题介绍之 OLAP & Data Analysis

ALC Beijing ALC Beijing
2024-09-11

引言

CommunityOverCode Asia 2023

随着数字化转型进入深水区,企业数字化转型开始向数据驱动决策的转变。越来越多企业希望通过数据分析来发现隐藏在业务数据中的机会,从而更好地提升业务运营效率,提高生产力,增强企业竞争力。

为满足企业决策管理的需求,OLAP 技术应运而生。OLAP 技术的优势在于能够提高数据处理效率,降低数据存储成本,同时能够提高数据质量,提供更加精准的数据分析结果,在企业管理中提供更深刻的业务洞察力,充分释放数据价值。

本次 CommunityOverCode Asia 2023(原 ApacheCon Asia)的 OLAP & Data Analysis 专题,将给大家带来 Apache 相关项目的最新资讯,现在就一起来看看吧!


出品人

CommunityOverCode Asia 2023

陈明雨

CommunityOverCode Asia 2023


Apache Doris PMC Chair,Apache Member,前百度资深研发工程师,7年分布式系统研发经验,专注于分布式可扩展分析型数据库领域。



专题介绍

CommunityOverCode Asia 2023

随着大数据时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛。为了促进业界在这一领域的交流和分享,我们设立了 OLAP 和数据分析专场。我们希望邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展。


在 ASF,有各种关于 OLAP 和数据分析的项目,例如:Apache Doris, Apache Druid, Apache Kylin, Apache Pinot,  Apache Hawq 等。


该主题可以涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。我们相信,这将给与会者带来极大的好处。



议程亮点

CommunityOverCode Asia 2023

8 月 18 日 13:30 - 17:15


演讲议题:Apache ECharts 的图表服务端渲染方案


分享时间:8 月 18 日 13:30 - 14:00


议题介绍:


With over 20 chart types, Apache ECharts' package size can be as much as 1MB, causing prolonged loading times on mobile devices without 4G connectivity. Discover how Server-Side Rendering (SSR) resolves this issue, while also exploring the implementation of SVG animation techniques that enable users to interact with rendered images. Learn innovative methods to optimize performance and create engaging, interactive visualizations that captivate your audience while keeping package sizes minimal. Don't miss this opportunity to unlock the full potential of Apache ECharts on mobile devices and revolutionize your data visualization practices.


嘉宾介绍:

Ovilia丨Apache ECharts PMC Chair


Ovilia has been working on Apache ECharts project since 2016 and is now PMC Chair of the project. She is also a passionate advocate for data visualization. Through her work, Ovilia strives to democratize access to information, ensuring that it is readily available and easily understandable for people from all walks of life.




演讲议题:日志存储分析的数仓化


分享时间:8 月 18 日 14:00 - 14:30


议题介绍:


从 ElasticSearch 到 Apache Doris,构建十倍性价比的新一代日志系统 1. 日志系统的典型应用场景和特点 2. 基于 ES 的日志系统典型架构和面临的挑战,包括对 schema free 的支持不够、分析能力较弱、写入和存储成本很高 3. 基于 Doris 的日志系统典型架构和优势,包括对 schema free 的原生支持、基于 SQL 引擎的强大分析能力、支持倒排索引的基础上性价比提升十倍。


嘉宾介绍:

肖康丨SelectDB 技术副总裁


2009 年至 2012 年在百度从事 Hadoop 平台开发与建设。2012 开始先后在 360、奇安信负责大数据平台,研发基于 MPP 架构的安全大数据引擎,构建全球最大的网络安全大数据。2022 年联合创立 SelectDB,致力于研发新一代云原生实时数仓。




演讲议题:Apache Arrow DataFusion: 向量化查询引擎揭秘


分享时间:8 月 18 日 14:30 - 15:00


议题介绍:


Apache Arrow DataFusion 是一个快速的、可扩展的、向量化执行框架,使用 Arrow 作为其内存数据格式,使用 Rust 语言进行实现。DataFusion 提供了多种层次的扩展接口:用户在实现数据库或者查询系统的时候,可以轻松地将 DataFusion 集成进去,从而利用其极致的性能,避免重复实现查询引擎的问题。


本次介绍主要包含:

1. DataFusion 是什么以及其发展历史

2. DataFusion 的架构

3. DataFusion 提供了哪些扩展能力(udf,logical plan,execution plan/node等)

4. DataFusion 使用的场景是什么

5. DataFusion 当前有哪些使用案例


嘉宾介绍:

刘昆丨eBay大数据工程师,Apache Arrow Committer & PMC Member


毕业于清华大学软件学院;目前就职于 eBay 大数据开发团队,大数据工程师;Apache Arrow PMC,Apache IoTDB PMC,主要从事数据库、存储引擎、查询引擎等领域的工作。




演讲议题:Apache Impala 4.2 & 4.3 版本新特性一览


分享时间:8 月 18 日 15:00 - 15:30


议题介绍:


Apache Impala 是一个基于 MPP 架构实现的分布式查询引擎。本次演讲将分享 Impala 社区的最新进展,包括已经发布的 4.2 的核心功能,以及将要在 4.3 中发布的新功能。


嘉宾介绍:

黄权隆丨Impala PMC Member & Committer,

Cloudera 研发工程师


Cloudera 研发工程师,主要工作为 Impala 内核开发。在开源社区是 Apache Impala PMC member & Committer,Apache ORC Committer。




演讲议题:Apache Doris 在衔远科技的应用实践


分享时间:8 月 18 日 15:45 - 16:15


议题介绍:


随着实时数据分析需求的不断增长,实时数据仓库在衔远科技内部承担着越来越重要的分析诉求。经过多个版本的迭代,正式确定了以 Apache Doris 为核心的实时数据仓库架构。在本次的分享中,我将会为大家分享  Apache Doris 在衔远科技的实践经验,以及在实际业务场景中如何为我们降本增效。


嘉宾介绍:

王永臣丨北京衔远科技大数据开发工程师


一个爱骑行的数据从业者。




演讲议题:字节跳动大数据 SQL 权限精细化管理实践


分享时间:8 月 18 日 16:15 - 16:45


议题介绍:


近年来,数据安全问题逐步受到各国政府和企业的重视,随着国家数据安全法、个人信息保护法的相继颁布和实施,对于数据最小够用原则也提出了明确的要求。因此,如何更细粒度管控权限也变成了每个企业都必须解决的问题。当前问题:业界通常基于规则对 SQL 中的权限点进行提取,将这些权限点横向按照行维度,或者纵向按照列维度进行管控。这种单一维度的权限管控粒度过粗,无法支持多条权限间的组合关系。在字节跳动这种多业务线统一存储的中台大宽表场景下,难以满足对数据的细粒度权限管控需求。


基于上述问题,字节跳动基于Apache Calcite 及自研权限服务 Gemini 设计了一套行列混合权限的精细化管理方案:

1.基于 Calcite 血缘的精准权限点提取;

2.基于血缘能力,精准定位SQL中真正使用到的权限点信息(表,行,列等),进行精细化权限提取;

3. 行列混合权限多维度权限管控  - 在传统的库权限,表权限,列权限之上,新增加了一种行限制权限,行权限可以作为一种特殊的资源附属在表权限/列权限上面。

4.每一个表权限/列权限可以同时捆绑多个行权限资源,不同表权限/列权限的行限制相互独立;

5.通过横向/纵向权限点的捆绑组合,将查询资源定位到行列重叠的'资源单元格'上,达到更细粒度的资源级别权限。


方案优势:在新的方案下,通过精准的细粒度权限点提取,以及多维度的行列混合权限支持,将资源管控由横向的某一行,或者纵向的某一列,细化到行列重叠的'资源单元格'上。进一步细化了权限管控范围,在保证用户正常使用的前提下,最小粒度的授予所需权限。具体典型案例和实现原理将会在演讲 PPT 中进行介绍。


嘉宾介绍:

朱江丨火山引擎 LAS 高级研发工程师




演讲议题:基于 Apache Calcite 的多引擎指标管理最佳实践


分享时间:8 月 18 日 16:45 - 17:15


议题介绍:


数据分析中有着各种各样的指标,在维护海量指标的时候,常常有如下的痛点:1.重复片段无法得到复用;2.不同引擎需要编写不同的 SQL;3.口径变更难以同步到所有下游。


为了解决这些问题,字节跳动尝试过用已有的技术能力设计方案:

1.将指标尽可能地存储到 Hive 表中:会极大增大存储成本和回溯成本,不太可行。

2.将指标封装到View中:不仅会在 Hive 产生额外的表信息导致表数量翻倍,而且对分区的支持不友好。查询使用体验较差,因此难以推广。


因为目前已有的技术不足以解决上述问题,所以字节跳动基于 Apache Calcite 设计并实现了两套新的语法能力:

1. 虚拟列:列级别的视图,复用表列权限,推广简单。

2.SQL Define Function:使用 SQL 直接定义函数,方便SQL片段的复用。

这两项能力结合,可以有效降低指标管理的成本例如:1. 指标仅需修改一次,无须下游再同步修改;2. MAP、JSON 等集合类型中的字段可以定义成虚拟列,逻辑更加清晰、使用更加方便。具体典型案例和实现原理将会在演讲 PPT 中进行介绍。


嘉宾介绍:

谢佳君丨火山引擎 LAS 高级研发工程师,Calcite Committer


字节跳动高级研发工程师,曾参与 2022 年 ApacheCon Asia 的演讲。热爱开源,经常参与社区工作,现在是Apache Calcite active committer 和 Linkedin  Coral Contributor。




8 月 20 日 13:30 - 16:45


演讲议题:Apache Impala 在神策数据仓库中的最新实践


分享时间:8 月 20 日 13:30 - 14:00


议题介绍:


引言

1.1 Apache Impala 简介

1.2 神策数据仓库概述优先级调度实践

2.1 优先级调度原理

2.2 神策数据仓库中的应用与效果弹性计算实践

3.1 弹性计算原理

3.2 神策数据仓库中的应用与效果物化视图实践

4.1 物化视图原理

4.2 神策数据仓库中的应用与效果总结与展望

5.1 主要观点回顾

5.2 未来发展与挑战


嘉宾介绍:

张倩琼丨神策网络科技(北京)有限公司大数据架构师


专注于分布式计算和存储系统研发的大数据架构师,曾在腾讯基础架构部、百度大数据部工作,目前就职于 Sensorsdata 的基础研发部。张倩琼对分布式计算、数据存储和数据处理领域有深入的理解,并能够运用最佳实践来构建高效的大数据解决方案。在 Hadoop、Impala、Flink、Kudu 等 Apache 系统的优化方面积累了丰富的经验。




演讲议题:Federated Cross-platform SQL with Apache Wayang


分享时间:8 月 20 日 14:00 - 14:30


议题介绍:


Federated query processing enables distributed query processing across multiple data sources, eliminating silos and improving data accessibility. It allows organizations to seamlessly query and analyze diverse databases or systems as a unified virtual database. By leveraging federated query processing, businesses gain deeper insights from distributed data sources, while data remains in its original location. This approach simplifies data integration, enhances governance, and empowers informed decision-making.


In this talk, we will present how we can achieve federated cross-platform query processing with Apache Wayang. Apache Wayang (incubating) is a scalable cross-platform system that decouples applications with data processing platforms and hence it frees developers from developing applications for specific platforms. It provides an abstraction layer on top of existing data processing platforms, such as Apache Spark and Apache Flink, with the aim of enabling cross-platform optimization and interoperability. It automatically selects the best data processing platforms for a given task and also handles cross-platform execution. Apache Wayang comes with a cross-platform optimizer at its core to achieve this. To enable federated SQL analytics, we have built a library on top of Wayang that provides a unified SQL interface for cross-platform SQL processing. The SQL library allows users to embed SQL queries in their cross-platform applications. I will talk about how we utilize Apache Calcite to support cross-platform SQL. The major benefit of Calcite integration in Wayang is that of platform independence and opportunistic cross-platform data processing. Apache Wayang with Calcite integration leads to a powerful system capable of federated data processing in a platform-agnostic way.


嘉宾介绍:

Kaustubh Beedkar丨Assistant Professor, Indian Institute of Technology, Delhi


Assistant Professor, Indian Institute of Technology, Delhi 、Committer and PPMC Apache Wayang, The Apache Software Foundation、Co-Founder, Databloom AI.




演讲议题:Apache Druid 开源十年后的 26.x 大版本


分享时间:8 月 20 日 14:30 - 15:00


演讲方式:远程演讲


议题介绍:


Apache Druid 作为一款著名的 OLAP 分析引擎,从 2012 年年底的 0.1 版本开始,十年磨一剑,终于迎来了最新的 26.x 大版本,使得整个架构设计和性能水平都达到了前所未有的高度。本次演讲我将带着大家深入了解 Druid 的发展历程,以及最新版本所带来的强大功能。


嘉宾介绍:

金嘉怡丨Shopee 技术专家,Apache Druid Committer & PMC Member


Shopee 大数据技术专家,Apache 顶级项目 Druid 的 Committer 和 PMC,阿里云开源组织 Member,ApacheCon 技术峰会的讲师,极客时间的签约讲师,Imply 高级技术顾问,《宇宙湾》博客的博主,《Java Coding Problems》一书的译者(预计今年上市)。




演讲议题:Kylin 5:现代化的大数据分析平台


分享时间:8 月 20 日 15:00 - 15:30


议题介绍:


Kylin 5 经过一年的准备终于在 2023 年上半年正式发布,新的版本在提升性能、降低使用门槛和增加使用场景上得到了大幅提升,社区老用户也在对新版本进行二次开发和上线测试。在未来的半年时间内,社区的路线图还会有更多的特性会被开源,主要包括:1. 增加 Native Runtime;2. 增加对包括 Metrics Platform 的支持;3. 对云原生的支持等。在这次演讲中,我将为大家详细介绍 Kylin 5 今年的开发进展和未来即将发布的特性。


嘉宾介绍:

俞霄翔丨Kyligence Inc 大数据研发工程师


Kylin Committer & PMC , Kyligence 大数据研发工程师。




演讲议题:小米基于 Apache Doris 的 OLAP 实践


分享时间:8 月 20 日 15:45 - 16:15


议题介绍:


Apache Doris 在小米集团有着广泛的应用,主要用于满足集团内部对于报表分析和BI看板的需求,支持了小米内部近百个核心业务,并且在小米内部已经形成了一套以 Apache Doris 为核心的数据生态。本次演讲将重点分享 Apache Doris 在小米的使用情况以及 Apache Doris 在小米OLAP场景的应用实践。


内容提纲:

1.历史选型及应用现状介绍小米内部OLAP系统的发展历史、选型情况,以及Apache Doris目前在小米集团的应用现状。

2.支持集团数据看板介绍Apache Doris在集团BI平台数据流中的位置及使用方式,介绍小米针对Apache Doris的权限管理、元数据管理机制及数据治理情况。

3.小米用户行为分析场景的实践介绍Apache Doris在小米用户行为分析平台的应用实践,包括:(1)基于Apache Doris的用户行为分析函数(漏斗分析、留存分析、路径分析、事件分析等)的实现机制;(2)对于bitmap精确去重、物化视图加速查询等的应用情况;(3)Apache Doris向量化版本上线实践。

4.痛点及未来规划介绍小米用户在使用Apache Doris过程中遇到的痛点,及未来的发展规划(存算分离、资源隔离、云原生方案等)。


嘉宾介绍:

魏祚丨小米数据库内核研发工程师,Apache Doris Committer & PMC Member


小米数据库内核研发工程师、Apache Doris PMC,在小米集团负责 OLAP 系统的研发、优化和运维工作。




演讲议题:中国移动基于 Apache HAWQ 的云原生分析型数据库


分享时间:8 月 20 日 16:15 - 16:45


议题介绍:


随着数字化转型的深入发展,数据仓库技术正在不断深度融合云计算的特点,为用户提供大规模、高弹性、高性能、低成本的极致使用体验。中国移动信息技术中是集团“大数据”重点工作责任单位,具备丰富的大数据业务场景和国产自主可控需求,整合中国移动大数据平台资源与人才优势,打造了一款“好用、易用、管用”的创新产品——中国移动梧桐云原生分析型数据库。中国移动梧桐云原生分析型数据库是中国移动信息技术中心研发,通过了信创测试,安全可控。采用存算分离架构,兼容主流厂商云生态,并可基于云基础设施的弹性伸缩、按需使用。通过向量化执行引擎可以支持高性能的分析查询计算和超高并发。原生对接多种存储,支持数据融合分析。中国移动梧桐云原生分析型数据库适用于多种大数据分析场景,特别是在混合业务负载及高并发、全实时数据处理和湖仓融合等场景下表现优异。我们在 2022 年底完成了 v1.0 版的研发,成果已应用于河南、江苏,并在江西、甘肃、青海、黑龙江等省公司正在进行主数仓的国产化替代。


嘉宾介绍:

王小玉丨中移动信息技术公司数据库内核架构师


中移动信息技术公司数据库内核架构师,分析型数据库产品负责人。负责公司分析型数据库产品的研发和应用。有十数年的数据库内核研发经验,主要研发领域包括查询优化器、高性能计算、SQL on Hadoop 等。



专题议程

CommunityOverCode Asia 2023


作为 Apache 软件基金会(ASF)的官方全球系列大会,每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。8 月 18 日至 20 日,即将强势来袭的 CommunityOverCode Asia 2023 上,大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。


继续滑动看下一个
ALC Beijing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存