其他
贝壳找房1.公司是否有做生命周期管理2.为什么要做生命周期管理3.为什么使用parquet列式存储?为什么不用别的?4.orc,rc,parquet列式存储有什么区别,底层存储的内存是否是连续的?5.为什么orc有索引就一定快?我答了orc的构成,他随后问到的6.hive的优化7.说提前使用combinehiveinputformat,那么具体是怎么实现的?这个inputformat是什么东西?有几种格式?8.你刚刚说开启数据倾斜时负载均衡,那么具体是怎么实现的?不能只说个大概,要说用mr是怎么实现的9.什么是维度建模,为什么要维度建模10.为什么要维度退化,维度退化有什么好处?11.kylin的构建算法光说个概念不行,会问你逐层构建每轮mr做了什么,要讲清楚,否则会一直问,我说不会,他还是追问了下。12.拉链表