粉丝最新整理的大数据面试题
贝壳找房
1.公司是否有做生命周期管理
2.为什么要做生命周期管理
3.为什么使用parquet列式存储?为什么不用别的?
4.orc,rc,parquet列式存储有什么区别,底层存储的内存是否是连续的?
5.为什么orc有索引就一定快?
我答了orc的构成,他随后问到的
6.hive的优化
7.说提前使用combinehiveinputformat,那么具体是怎么实现的?这个inputformat是什么东西?有几种格式?
8.你刚刚说开启数据倾斜时负载均衡,那么具体是怎么实现的?不能只说个大概,要说用mr是怎么实现的
9.什么是维度建模,为什么要维度建模
10.为什么要维度退化,维度退化有什么好处?
11.kylin的构建算法
光说个概念不行,会问你逐层构建每轮mr做了什么,要讲清楚,否则会一直问,我说不会,他还是追问了下。
12.拉链表 也问的很细
面试官问的很细,都是离线的,而且每涉及到一个知识点,都会问你底层用mr是怎么实现的。不能只回答表面,会一直追问。
微盟
1.groupby和count(distinct)的底层机制和区别是什么
2.Spark和flink的双流join的底层原理
3.sparkstream统计每天营销额的时候,系统崩溃后,如何处理已经聚合后的数据,数据保存在哪里(这里我解释了幂等性和事物和ack-1,面试官揪着这里问了很久,他关心的事出了问题之后怎么解决)
4.各种表怎么导入的,sqoop倒导表的详细步骤,累积型快照事实表,拉链表,现场写代码展示等
5.数仓里面建的各种表,都建了哪些表,数仓每层之间同事都会有数据进行导入导出和计算,如何保证每层计算间有序状态不干涉
6.精确一次,至多一次,至少一次对checkpoint有什么影响
7.flink里面异步IO代码具体怎么写的,每一步具体描述出来
8.都用实时做了哪些任务
9.都是根据你的简历,然后给你场景,让你分析,不然你介绍项目,他很抠细节,面试官年龄不大,2,30岁的样子。
Blibli一面
1:kfk 整体架构的三个概念(名词)
2:kfk broker里的名词
3:kfk 分区一个消费的慢,一个消费的快,这是什么原因,怎么分析呢
4:kfk的分区副本follower同步leader流程说明下
5:查看磁盘、网络IO,顺序读写、随机读写的方法
6:kfk 某主题10个分区,消费者组有11个消费者线程,那么第十一个线程会干什么
7:zero copy原理描述下
8:zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费,明天消费,那么会用到zero copy吗
9:kfk map file的配置
10:kfk启动时加载的是什么文件
11:ISR列表缺失问题处理方法
12:内核级调优用过哪些?
13:hadoop HDFS 的组件罗列下
14:zkfc的作用
15:CAP理论描述下
16:journeyNode的作用
17:NN HA failOver流程概述下
18:HBASE、Kfk的CLOSE_WAIT现象有哪些
19:TCP、三次握手四次挥手
20:如何查看一个broker的流量数据流出?消费、生产端ip信息如何获取?
海致星图
1. 对flink了解,一直说
2. 说到watermark,就编了一个题目,挺恶心的
3. 双流join,left join,左流数据先来,右流一直没来,左流会这么样(1.5版本之后就又flink sql了,1.11多了hive)
4. 左流数据已经输出到sink了,此时右流数据来了,可以join又会这么样
5. flink故障恢复,说我概念记得挺牢的(我没理他)
6. Savapoint了解多少
7. 作业挂掉了,恢复上一个Checkpoint,用什么命令
8. 为什么用yarn-session
9. 说一下状态编程
10. 使用Mapstage,group by id 如何设计
11. 继续上面的Mapstage,id不放在key行不行
12. 数据积压问题
13. Kafka数据很多,内存很少,读取数据都是问题,现在想要写,怎么控制写速率(上面都是flink)
14. Spark哪一块用的多,实时,spark streaming用的是结构流还是什么,后面说到df
15. df与ds区别,课上讲的没够用
16. Map与mapPartition,我说完说我让我看源码
17. Task与 partition 有什么关系
18. Stage,宽依赖
19. Kafka一直说
20. 一个topic有3个分区,两个消费者,会怎么样
21. 一个topic有2个分区,三个消费者,会怎么样
22. Kafka怎么处理大量数据(为什么这么快),说我概念背的好,但是细节不是很注意
23. Hdfs小文件处理,spark处理小文件
24. arraylist在 Scala有什么可以做到同样功能,比较像的
25. Hbase,redis,es选一个,我选hbase,又谈到凤凰,凤凰和hbase这么放一起的,rowkey
26. 最后闲聊,数仓分层
花旗银行
Java多线程
多线程的创建方式
Java线程池
德鲁伊连接池的特点,如果我连接突然断了,会发生什么
Java锁,怎么加锁,用过见过哪些锁,加锁有哪些影响
Java数据结构,hashmap 和arraylist
spark client cluster
spark shuffle
spark rdd
mr底成和spark stage的区别,mr也是有stage的?mr stage是什么
spark提交参数
怎么开启压缩
压缩的效率有多高
lzo压缩以后,传输量提高了多少,把具体值说一下
hive表优化
hive各种参数
hive去重
spark数据倾斜
查看『BAT大数据架构』