其他
卓越产品计划丨神策分析性能优化详解:数据重组织查询优化
一、相关名词解读
二、shuffle merge 原理
三、神策的数据重组织查询优化实践
同一分区内同一 User_id 的数据分散在不同的文件里,在 shuffle 时需要一次打开多个文件,每个文件仅读一部分,带来大量的随机 IO。因为同一 User_id 的数据分散在不同的文件里,在多读取不同的 User_id 序列时,会存在同一文件多次读取的情况,IO 会成倍放大 同一 User_id 的数据分散在不同的文件里,导致归并排序时归并路数过多,维护败者树的代价过高。单个文件读取较慢则会阻塞整个查询进程
▼ 点击“阅读原文”,免费体验神策分析 demo