其他
聊一聊Hudi的原理(1)
作为这个公众号的第二篇文章,来讲讲近年来比较火,并有越来越火的趋势的存储系统——Hudi。Hudi经常被拿来跟Delta,Iceberg一起,并称为“数据湖三剑客”,最近的热度也是越来越高,被很多的大公司采用(例如字节,bilibili,顺丰等),相信有不少朋友也正在考虑引入Hudi,或者已经进入调研试用的阶段。然而Hudi的概念很多,文档写得稍微语焉不详,估计有些朋友看完文档以后还是“有点懵”。这篇文章就是希望讲清楚Hudi的原理,帮助大家更好地理解Hudi的工作机制和每个配置项的含义,然后在生产环境可以用好Hudi。01首先我会讲一讲Hudi的背景,因为背景对理解一个项目很关键。(只想看原理的朋友,可以直接跳到第二节)Hudi,正式的全称是Hadoop
2022年3月6日