Data Dive

其他

聊一聊Hudi的原理(1)

作为这个公众号的第二篇文章,来讲讲近年来比较火,并有越来越火的趋势的存储系统——Hudi。Hudi经常被拿来跟Delta,Iceberg一起,并称为“数据湖三剑客”,最近的热度也是越来越高,被很多的大公司采用(例如字节,bilibili,顺丰等),相信有不少朋友也正在考虑引入Hudi,或者已经进入调研试用的阶段。然而Hudi的概念很多,文档写得稍微语焉不详,估计有些朋友看完文档以后还是“有点懵”。这篇文章就是希望讲清楚Hudi的原理,帮助大家更好地理解Hudi的工作机制和每个配置项的含义,然后在生产环境可以用好Hudi。01首先我会讲一讲Hudi的背景,因为背景对理解一个项目很关键。(只想看原理的朋友,可以直接跳到第二节)Hudi,正式的全称是Hadoop
2022年3月6日
其他

详解Parquet文件格式

作为这个公众号的第一篇文章,思考了半天,决定讲一个大家既熟悉又陌生的话题:Parquet文件。相信每个做大数据的工程师肯定都接触过Parquet文件,都知道它是一种列式存储格式,在面对OLAP查询时可以减少读取的数据量,提高查询性能。但是对于它的格式具体是如何设计的,以及更重要的:为什么这样设计,可能就没有那么清楚了。这篇文章会带你深入Parquet文件的实现细节,并试图说明这些设计背后的意义。01要理解一个系统,首先第一个要提出的问题就是这个系统为了解决什么问题也就是“这个系统提供了什么功能”。这是理解任何一个系统都需要关注的主线。只要心中有这条主线,就不会陷入各种细节的泥沼,而迷失了方向。对于Parquet文件来说,这条主线在Twitter宣布Parquet开源的文章中就讲得非常清楚Parquet
2022年2月27日