其他
我们常说的海量小文件的根源是什么?
小文件的问题其实以前也一直困扰着我,对于传统数仓,导致小文件多的原因非常多:
分区粒度,如果你分区非常多,就会导致更多的文件数产生
很多流式程序是只增操作,每个周期都会产生N个文件,常年累月,积石成山。
以前为了解决更新问题,经常一份数据会有中间好几个存储状态,也会导致文件数很多。
读取某个版本之前的数据
将涉及到标记删除的文件真实物理删除
将标记为add的文件按分区(如果有分区)进行合并操作产生新的文件,然后标记删除这些文件,物理删除这些文件
获取事务并且尝试提交
文章不错?点个【在看】吧! 👇