查看原文
其他

搜狐、美团、小米都在用的Apache Doris有什么好? | BDTC 2019

CSDN App AI科技大本营 2020-02-17


【导读】12 月 5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑协办的中国大数据技术大会(BDTC 2019)在北京长城饭店隆重举行。100+ 顶尖技术专家、1000+ 大数据从业者齐聚于此,以“大数据驱动智能+”为主题,聚焦智能时代大数据技术的发展曲线,围绕大数据与社会各行业相结合的最新实践,进行了深度解读和讨论。               
马如悦,当前为百度杰出架构师,主要负责百度内外部大数据处理相关产品的规划和研发,其领导研发的Doris分析数据库在2018年成为Apache开源孵化项目。在领导分析数据库方向之前一直是百度分布式计算方向的技术负责人,也是百度Hadoop团队的创始人。
 
Doris是Apache的孵化项目,作为MPP架构的关系型分析数据库,其性能表现卓越。此外Doris高度兼容MySQL协议,支持在线表结构变更且不依赖任何外部存储;扩展能力强,单集群可水平扩展至200台以上;多副本数据、元数据高可用,同时支持 Kafka流式导入,未来希望吸引更多外部贡献者加入做出有效改进。
 
以下内容为演讲实录:
 
Doris作为Apache的孵化项目,有很多体量比较大的企业在使用,例如搜狐 、一点资讯、美团、小米、京东等。Doris产品在百度的最初研发大概在十年之前,当前内部偏数据仓库的业务基本都运行在其上,作为MPP架构的关系型分析数据库,起初在设计时主要追求便捷与问题解决,支持PB级别。由于传统数据仓库主要是商业智能的方向,并没有对高并发、高可用做很多优化,而是集中在多维分析与报表查询等功能,而Doris可以确保7×24小时服务,通过滚动升级不中断线上服务,Doris在2017年在Github上开源 ,并于2018年进入Apache孵化器。
 
具体说到Doris的特色,性能卓越是不可忽视的一方面。了解一种数据库的卓越性能,我们需要看其场景,离开场景泛泛谈数据库性能,是不科学的。Doris每个单后端可以做到在高并发情况下做到每秒钟8000+次的查询性能,100台节点的集群基本可以达到几万到十几万QPS的性能,这个性能基本可以满足类似百度统计这种,支撑全网几十万网站与APP的查询要求。此外,Doris高度兼容MySQL协议,支持在线表结构变更;只设FE、BE两个进程,方便部署,其中FE 负责元数据存储、查询解析和规划,BE 负责数据存储、执行查询算子。
              
基于此,我们都知道类似Kylin这类系统在线变更极其不便,仅仅是增加删除列可能都需要重新做表,影响在线服务,并且依赖很多Hadoop组件,使得部署使用非常复杂。但Doris高度集成并没有过多依赖外部存储,快速安装并可做到主节点高可用,就算是切换也可做到无感知并操作简单。此外,Doris扩展性强,架构优雅,其单集群可水平扩展至200台以上,支持Kafka流式导入集群,通过ODBC、JDBC链接前端可视化工具或开发应用等,表现出高可用、多副本等优势特性,Doris作为大企业开源的软件,是在实践中千锤百炼累计出来的,对解决实际问题的效果很好。

在京东,他们主要采用Doris来解决京东广告平台的报表查询,需要满足每日千万级查询、每日百亿级增量、毫秒级查询延迟以及每日百亿报表查询/多维分析/日志分析等数据指标。Doris在618大促期间表现突出。此外在美团数据仓库迁移的过程中,原本是基于Apache Kylin的数据建模,由于 Kylin的Cube预构建会造成较多的数据重复,保持数据时效性还需要每天需要对大量历史数据进行重计算;但现在主要基于Doris进行数据建模,按天同步维度表和事实表,ad-hoc query查询即可。
              
              
未来关于Doris,我们希望吸引更多的外部贡献者加入到社区来,一起对Doris作出改进 。Doris下一步的主要研发规划,包括存储和计算分离。我们发现目前有很多的历史数据存在于存储节点之上,未来希望可以存储在云上的对象存储中,将Doris改进为云原生数据库。毕竟在云上部署弹性的计算资源,一旦计算与存储分离,成本也会相应得到降低;引入新的存储格式,提升存储效率,包括索引、新的实时更新存储引擎等,以便提升效率;此外还会在查询优化方面下功夫,例如研发新的查询优化框架,支持CBO。
       

目前云上也有很多企业级用户,每天都在使用Doris的商业版本。大家可以持续关注Doris社区。

(*本文为AI科技大本营翻译文章,转载请微信联系 1092722531)



精彩推荐




2020年,由 CSDN 主办的「Python开发者日」活动(Python Day)正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作,联手顶尖企业、行业与技术专家,通过精彩的技术干货内容、有趣多元化的活动等诸多体验,共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来,我们和中国万千开发者一起分享技术、践行技术,铸就中国原创技术力量。


【Python Day——北京站】现已正式启动,「新春早鸟票」火热开抢!2020年,我们还将在全国多个城市举办巡回活动,敬请期待!
活动咨询,可扫描下方二维码加入官方交流群~

CSDN「Python Day」咨询群 🔽
来~一起聊聊Python

如果群满100人,无法自动进入,可添加会议小助手微信:婷婷,151 0101 4297(电话同微信)



推荐阅读

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存