Data Dive

聊一聊Hudi的原理（1）

作为这个公众号的第二篇文章，来讲讲近年来比较火，并有越来越火的趋势的存储系统——Hudi。Hudi经常被拿来跟Delta，Iceberg一起，并称为“数据湖三剑客”，最近的热度也是越来越高，被很多的大公司采用（例如字节，bilibili，顺丰等），相信有不少朋友也正在考虑引入Hudi，或者已经进入调研试用的阶段。然而Hudi的概念很多，文档写得稍微语焉不详，估计有些朋友看完文档以后还是“有点懵”。这篇文章就是希望讲清楚Hudi的原理，帮助大家更好地理解Hudi的工作机制和每个配置项的含义，然后在生产环境可以用好Hudi。01首先我会讲一讲Hudi的背景，因为背景对理解一个项目很关键。（只想看原理的朋友，可以直接跳到第二节）Hudi，正式的全称是Hadoop

Data Dive -

2022年3月6日

其他

详解Parquet文件格式

作为这个公众号的第一篇文章，思考了半天，决定讲一个大家既熟悉又陌生的话题：Parquet文件。相信每个做大数据的工程师肯定都接触过Parquet文件，都知道它是一种列式存储格式，在面对OLAP查询时可以减少读取的数据量，提高查询性能。但是对于它的格式具体是如何设计的，以及更重要的：为什么这样设计，可能就没有那么清楚了。这篇文章会带你深入Parquet文件的实现细节，并试图说明这些设计背后的意义。01要理解一个系统，首先第一个要提出的问题就是这个系统为了解决什么问题也就是“这个系统提供了什么功能”。这是理解任何一个系统都需要关注的主线。只要心中有这条主线，就不会陷入各种细节的泥沼，而迷失了方向。对于Parquet文件来说，这条主线在Twitter宣布Parquet开源的文章中就讲得非常清楚Parquet

Data Dive -

2022年2月27日

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

Data Dive

聊一聊Hudi的原理（1）

详解Parquet文件格式

{{{title}}}