其他
面向大数据存算分离场景的数据湖加速方案
The following article is from 百度智能云技术站 Author DLG
导读
introduction
01
1.1大数据技术的演进
1.2 百度智能云大数据方案概览
第一种是托管大数据平台 BMR。BMR 完全兼容社区生态,有着非常丰富的主流的计算存储的组件,集群管理和运维监控也非常的完善,并且支持弹性的扩缩容。
另外一种是企业级的数据仓库 Doris。它通过物化视图向量化的一个执行以及现代化的 MPP 架构,以及极致的列式存储引擎等等,轻松的实现 PB 级数据的高效查询和报表工作。
02
03
第一个部分是针对 BOS 平坦 Namespace 带来的性能和原子性问题,BOS 开发了原生的层级 Namespace,也就是把原来平坦的目录数转化成一个层级的目录数,这样就能够以更高效的方式供大数据应用使用。
第二个优化是我们在进计算节点增加了元数据和数据的缓存产品 RapidFS。
3.1 原生层级 Namespace
3.2 缓存加速 RapidFS
第一种是 BOS 平坦 Namespace 和 BOS 层级 Namespace 的一个对比。
第二种是 RapidFS 和直接访问 BOS 的一个对比。
04
END