COSCon'21 大数据(D)论坛介绍
“ 点击蓝字 / 关注我们 ”
| 作者、编辑:王玥敏
| 设计:朱亿钦、宋传琪
第六届中国开源年会 (COSCon'21) 将于 10月30-31日由开源社举办。
本次年会将采取线上线下相结合的形式,北京、上海、深圳、成都、珠海、大连、无锡、福州八城联动,1个主论坛,15个分会场,线上线下同时进行。
01
大数据(D)论坛介绍
数字化和开源是当今最热的 2 个话题,2 个话题碰撞会产生怎样的火花?今年的大数据场涵盖了众多领域如 Apache Inlong、Apache Hudi、Apache Kyuubi、Apache Pulsar、TBase、ShardingSphere、Apache Doris、Apache DolphinScheduler、Jupyterlab、Apache RocketMQ、GraphScope、Ray、GreatSQL 及 HTAP 领域等热门技术,在本次 2 天盛会中,相信大家更能了解这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。
02
论坛出品人及出品标准
堵俊平
华为云与计算开源业务总经理
开放原子开源基金会TOC主席
Apache Member
Apache Hadoop PMC & Committer
代立冬
新一代大数据工作流调度平台 - Apache DolphinScheduler PMC Chair
Apache IPMC Member
Apache Linkis(Incubating) 孵化导师
ApacheCon Asia Bigdata Track co-Chair(2021)
组织 6000+ 人的实名认证的 DolphinScheduler 社区
多个大型大数据开源社区技术群的维护者和活动组织者
大数据(A)论坛出品标准
-- 大数据前沿开源技术趋势
-- 大数据技术选型,技术架构与运行原理、未来规划等
-- 开源技术应用实践案例分享,经验传承,贡献社区的经验等
03
论坛讲师
张国成
个人简介:
张国成,腾讯数平大数据专家工程师,Apache InLong PPMC
演讲主题:《Apache Inlong, 一站式流数据接入集成解决方案》
内容摘要:
数据接入量级日均过百亿、千亿、万亿,甚至十万亿条时,数据平台会面临怎样的挑战和考虑,Apache InLong,一站式流数据接入集成解决方案,给大家带来近百万亿量级时的思考和做法。
目标听众:
大数据研发工程师,IOT 数据接入研发工程师,数据平台管理者
李心恺
个人简介:
T3 出行大数据平台计算引擎方向负责人
演讲主题:《Apach Kyuubi 在 T3 出行的深度实践》
内容摘要:
T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。构建了以 Apache Hudi 为基础的企业级的数据湖。最初的离线作业大多数是基于 hive on spark,但是随着Apache Hudi 的大规模应用和数据量的快速增长,Hive On Spark 性能和使用场景已经不能满足现有的业务,所以引入了 Apache Kyuubi。并根据实际场景,对 Kyuubi 添加了监控管理 ui,能够进行指标监控,会话管理,statement管理,多租户管理等。同时添加了贴近实际业务场景的 Apache Hudi 相关 DML、DDL 语法,使得业务能够完全sql处理分析Hudi格式的相关数据。支撑 ETL Batch SQL 任务、OLAP 分析、Ad-Hoc 查询、Hive/Hudi/ClickHouse/MongoDB/MySQL 联邦查询等场景,并围绕它致力于打造一个企业级统一的分析查询、数据摄取、数据湖管理平台。
目标听众:
大数据爱好者从业者
能够对基于 hudi 和 kyuubi 的数据湖的存算分离的企业级场景获得一定的实践经验
李鹏辉
个人简介:
StreamNative 首席架构师李鹏辉
演讲主题:《Apache Pulsar: 打造新一代云原生流数据平台》
内容摘要:
作为云原生时代分布式消息和流数据平台,Apache Pulsar 采用存储计算分离及无主架构,为云端部署、扩缩容提供了极大的便利性。云平台资源的多样性也是 Apache Pulsar 能在云平台上给用户提高更优质的服务、更低成本的基础。灵活的跨地域复制,可以很好满足跨云的数据多备的需求。
Apache Pulsar 2.0 版本引入了 Pulsar Functions, 作为一个轻量化的计算框架用户可以使用多种语言编写核心计算逻辑并提交给 Function Runtime 运行。而 Function Mesh 是一种 Kubernetes operator,助力用户在 Kubernetes 上原生使用 Pulsar Functions 和 connectors,解锁 Kubernetes 的全部特性,包括部署、扩缩容、管理应用程序等。
本演讲中,StreamNative 首席架构师李鹏辉、StreamNative 软件工程师付睿将解读 Apache Pulsar 如何发挥云原生的优势,满足跨云数据多备、结合云上资源 。同时他们将分享结合 Serverless 和 Kubernetes、应云而生的基于 Pulsar Function 编排工具 Function Mesh,更便捷地利用云上的资源。
目标听众:
听众:架构师
听众收益:
- 解读流数据存储痛点
- 了解云原生消息系统 Apache Pulsar 与其提供的云平台服务能力
- 探索 Apache Pulsar 有效降低存储成本的解决方案
- 集成数据湖与消息系统,利用 Apache Hudi, Apache Iceberg 等产品有效管理二级存储数据
谢灿扬
个人简介:
谢灿扬,腾讯云数据库高级工程师,PG社区顾问。多年分布式数据库研发经验,参与了云上RDS设计,冷热分离,在线扩容,数据库安全管理,全局索引等多个核心功能的设计与开发,主要负责数据库内核研发与性能优化工作。
演讲主题:《TBase:第七次全国人口普查背后的HTAP数据库》
内容摘要:
介绍新一代企业级 New SQL HATP 企业级开源数据库TBase的技术架构,发展历程等,并在全国第七次人口普查等重要业务场景中的应用。
目标听众:
听众为广大的开源数据库用户,希望通过演讲可以让大家了解到 TBase 背后的功能与技术实例,扩大应用范围。
苑晓龙
个人简介:
苑晓龙,浪潮云溪数据库资深架构师。在大数据计算分析领域拥有多年平台研发、实践经验,研究方向主要为分析型数据库、分布式存储和计算等。曾在“源动力”数据库技术沙龙等各类专业沙龙中做过多次分享,经验丰富。
演讲主题:《浪潮云溪数据库 - HTAP 特性揭秘》
内容摘要:
本次分享从 “HTAP=OLTP+ETL+OLAP” 的定义引入,主要介绍浪潮云溪数据库在 HTAP 特性方面的功能,以及实现方式-列存引擎;深入讲解了列存引擎的部署架构、如何保证列存副本的强一致性读写以及加速查询分析的算子下推和下沉技术。同时,分享中还将探讨未来浪潮云溪数据库中 HTAP 特性的发展路线图以及架构层面的演变。
目标听众:
听众为广大开源数据库用户,以及对数据库及HTAP技术感兴趣的开发者
江龙滔
个人简介:
SphereEx 中间件高级研发工程师,Apache ShardingSphere committer,目前专注于 ShardingSphere 数据库中间件研发及开源社区建设。
演讲主题:《Apache ShardingSphere 进化:从 Middleware 走向 Database Plus》
内容摘要:
经过几年的快速发展,Apache ShardingSphere 在数据库中间件领域已然独树一帜。作为国内开源项目的佼佼者,ShardingSphere 在分布式数据库生态的探索中并没有停止脚步,为了更好的满足用户需求,率先提出了 Database Plus 理念。
基于这一理念,ShardingSphere 设计了特有的 SQL 语言 DistSQL(Distributed SQL),用于搭配整个 ShardingSphere 分布式数据库体系,打破中间件和数据库之间的界限,让用户像操作数据库一样使用 Apache ShardingSphere。在提供更标准化的分布式数据库管理方式的同时,兼具灵活、便捷和优雅的特性,更好的为传统数据库赋能。
目标听众:
1、Apache ShardingSphere 用户;
2、对分布式数据管理(如数据分片、读写分离等场景)有潜在需求的人群;
3、对分布式数据库或数据库中间件感兴趣的所有听众;
希望为听众带来 Apache ShardingSphere 的最新发展动向,以及介绍近期发布的重要特性。
武云峰
个人简介:
百度资深研发工程师,百度智能云Elasticsearch 技术负责人,Apache Doris Contributor
演讲主题:《Doris on ES的设计原理、技术实现与未来规划》
内容摘要:
Doris On ES作为Apache Doris的重要拓展特性之一,将Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合,提供了更完善的OLAP分析场景解决方案。
本次演讲将从Doris on ES的设计原理、技术实现出发探讨技术演进路线、应用场景、落地实践以及后续规划。
目标听众:计算机,机器学习从业者。从演技中获取隐私计算落地技术
李进勇
个人简介:
Apache Dolphinscheduler Committer,就职于政采云大数据部门,从事大数据平台架构开发工作,擅长大数据平台和数据仓库工具的设计和开发,以及线上 troubleshooting 等。
演讲主题:《Apache Dolphinscheduler 在政采云实践之路》
内容摘要:
政采云大数据 ETL 任务以前是使用 Airflow 进行调度的,在使用过程中有些痛点,比如定义DAG(有向无环图)、与大数据开发平台通信。本篇分享是讲在迁移 DolphinScheduler 的过程中做了哪些工作,以及参与 DolphinScheduler 的工作流 DAG 大 json 拆分给了哪些改变与思考。
目标听众:
希望听众是做大数据并了解 Dolphinscheduler
马渝泽
个人简介:
阿里云机器学习PAI平台云原生产品线负责人
演讲主题:《Jupyterlab如何助力数据科学的开展与落地》
内容摘要:
本演讲将由 JupyterLab Contributor 阿里云机器学习PAI平台云原生产品线负责人 鱼哲 同学 为大家带来 Jupyterlab 服务模式的演进以及目前在海内外落地的场景。
目标听众:
对于数据科学,教育,云厂商感兴趣的群体。希望他们可以得到更多如何合理运用开源产品来帮助工作进展。
鲍亮
个人简介:
Apache Dolphinscheduler PMC , 自由职业者,专注于大数据平台,有多年大数据平台的设计开发经验
演讲主题:
《ApacheDolphinscheduler 2.0 版本功能设计思想》
内容摘要:
本次演讲将介绍 ApacheDolphinscheduler 2.0 版本的诞生历程,以及新特性在数据处理平台的使用场景。
目标听众:
对于大数据平台感兴趣的平台研发人员、数据开发人员、大数据平台管理人员
李伟
个人简介:
李伟,腾讯云数据库内核开发工程师,Apache RocketMQ 北京社区联合发起人,RocketMQ项目Committer,RocketMQ社区Python客户端项目负责人, Apache Doris Contributor,著有《RocketMQ分布式消息中间件:核心原理与最佳实践》。
演讲主题:
《大数据流利器 --- Apache RocketMQ 全家桶与 5.0 展望》
内容摘要:
主要介绍Apache RocketMQ的生态项项目(生态项目包含流计算项目、云原生项目、多语言客户端、微服务支持项目、一体化监控项目、一体化管控平台等)和社区当前进展情况, 以及如何围绕RocketMQ打造稳定可靠的数据流场景。最后简单讲解了新一代RocketMQ5.0主要围绕基于消息、事件和流三个核心场景介绍未来的发展和趋势。
目标听众:
目标听众:对消息队列技术、大数据流感兴趣, 或者关注 RocketMQ 的相关技术人员
徐静波
个人简介:
阿里巴巴高级技术专家,GraphScope 创始人。
演讲主题:
《GraphScope:一站式图计算平台》
内容摘要:
GraphScope 是一个一站式图计算平台,支持交互式查询,图分析以及图学习。GraphScope是业界第一个能够同时提供这些图计算能力的开源平台,GraphScope 在 Kubernetes 上部署,具有很好的可扩展性。GraphScope 提供了对用户友好的 Python API,帮助用户很容易地构建真实工业级场景中复杂的端到端图计算工作流。在这个演讲中,徐静波将首先回顾GraphScope 的设计初衷,介绍 GraphScope 的总体架构,并讨论 GraphScope 在阿里巴巴的真实场景中如何发挥作用,最后会介绍 GraphScope 正在进行的一些工作以及后续的规划。
目标听众:
对图计算感兴趣的开发者和用户。
李枫
个人简介:
先后就职于摩托罗拉, 三星等IT公司, 现为独立开发者。
在移动平台上积累了十年以上年研发经验, 近几年主要专注于边缘计算/云计算基础设施领域。
是《灰帽黑客 第4版:正义黑客的道德规范、渗透测试、攻击方法和漏洞分析技术》(ISBN:9787302428671)和《恶意网络环境下的Linux防御之道 》(ISBN: 9787115544384)中文版的主要译者。
对技术创新具有浓厚的兴趣和实践能力,热心参与开源社区的各种活动,之前参加的IT会议和技术分享请见: https://github.com/XianBeiTuoBaFeng2015/MySlides
演讲主题:
Ray as a universal infrastructure for distributed computing.
内容摘要:
Open source project Ray provides a novel and universal infrastructure for distributed applications(especially for AI and Data Processing) and there are also many community integrations with Ray(including Dask, MARS, Modin, Horovod, Hugging Face, Scikit-learn, and others). Actually, Ray still has rooms for improvement, and also has great potential to be used in more fields that may far from our imagination. This talk will come with the following sub-topics:
1) Demystify the architecture and design of Ray;
2) Try to run Ray with GraalVM for better performance and experience against DevOps;
3) Evaluate lightweight Kubernetes implementation like K0S/K3S for Ray Cluster;
4) Attempt to port Ray to ARM, e.g., the open hardware platform like Raspberry Pi/96Boards.
目标听众:
对分布式计算(主要目标是人工智能及大数据处理)感兴趣的同学,可以从本话题中更深入地了解源自 UC Berkeley RISELab 的 Ray 分布式计算框架,更好地理解其背后的设计思想和动机,以及潜在的改进和派生。RISELab是在分布式计算、大数据处理、人工智能等领域世界知名的实验室,其前身 AMPLab 推出过很多著名开源项目如 Apache Spark 和 Alluxio。
叶金荣
个人简介:
万里数据库开源生态总监,国内知名 MySQL 专家,Oracle MySQL ACE Director,腾讯云TVP 成员
演讲主题:
《面向金融级 MGR 应用场景优化》
内容摘要:
MGR 是 MySQL 未来实现读写可扩展战略的重要依托,可谓重中之重。可惜 MySQL 社区版的 MGR 无论是稳定性、可靠性方面都有不少可提升空间,但官方在这方面近期进展很慢。
GreatSQL 是源于 Percona Server 的分支版本,在其原来已有的稳定可靠、高效、管理更方便等优势基础上,进一步提升了 MGR(MySQL Group Replication)的性能及可靠性,新增金融级应用场景需求特性并修复数个影响可靠性的严重 bug。
本次分享的主要内容有:
1、几个新增的金融级应用场景特性。
2、稳定性及性能方面的提升。
3、修复了哪些严重的 MGR BUG。
目标听众:
DBA,架构师,开发者
我们在大数据(D)论坛等你!
“ 扫码进群
/
开心开源 ”
中国开源年会
COSCon'21
相关阅读 | Related Reading
大咖来了!今年的 COSCon 主论坛你可以见到这些大咖
COSCon'21 开源百宝箱(T)论坛介绍
2021中国开源年会无锡城市分会场开源点亮无锡
开源社KAIYUANSHE
B站
开源社2020
微博/简书/头条
开源社