【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击
热身30题
1.描述一下HDFS的写流程
2.描述一下HDFS的读流程
3.详细讲解一下HDFS的体系结构
4.如果一个datanode出现宕机,恢复流程是什么样的?
5.通常你是如何解决Haddop的NameNode宕机的,流程是什么?
6.描述一下NameNode对元数据的管理
7.NameNode对元数据的管理机制是什么?
8.详细描述一下Yarn的调度流程?
9.讲解一下Hadoop中combiner和partition的作用
10.你在MapReduce过程中遇到过数据倾斜问题吗?你是如何处理的?
11.Hadoop的Shuffle分为哪几个阶段?有什么特点
12.Mapreduce的map数量和reduce数量是由什么决定的?
13.你对MapReduce做过什么优化?有什么经验?
14.用过Combiner吗?什么情况要使用Combiner?
15.讲解一下MapReduce的流程?
16.HDFS的系统架构是如何保证数据安全的?
17.在通过客户端向HDFS中写数据的时候,如果某一台机器宕机了,会怎么处理
18.你对Hadoop集群做过哪些优化?有哪些常用的优化措施?
19.写出MapReduce求TopN的思路
20.Hadoop集群中有哪些进程?他们各自有什么作用?
21.Hadoop的job和Task之间的区别是什么?
22.Hadoop高可用HA模式如何配置?工作原理是什么?
23.安装过集群吗?大概需要哪几步骤?
24.fsimage和edit的区别
25.详细描述Yarn的三大调度策略
26.说出一些hadoop的常用shell命令
27.如何用MapReduce实现求用户PV TOP10?
MapReduce部分深入
1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
2.FileInputFormat切片机制
3.在一个运行的Hadoop 任务中,什么是InputSplit?
4.如何判定一个job的map和reduce的数量?
Maptask的个数由什么决定?
6.MapTask和ReduceTask工作原理和机制
7.描述mapReduce有几种排序及排序发生的阶段
8.描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段
9.描述mapReduce中combiner的作用是什么,一般使用情景,哪些情况不需要,及和reduce的区别?
10.如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
11.MapReduce 出现单点负载多大,怎么负载平衡?
12.MapReduce 怎么实现 TopN?写出关键代码
13.Hadoop的缓存机制(DistributedCache)
14.如何使用MapReduce实现两个表的join?
15.什么样的计算不能用MapReduce来提速?
16.ETL是哪三个单词的缩写,说说你用过的ETL场景和哪些技术点?
HDFS部分深入
HDFS 中的 block 默认保存几份?
2.HDFS 默认 BlockSize 是多大?
3.负责HDFS数据存储的是哪一部分?
4.SecondaryNameNode的目的是什么?
5.文件大小设置,增大有什么影响?
6.hadoop的块大小,从哪个版本开始是128M
7.HDFS的存储机制
8.Secondary Namenode工作机制?
9.NameNode与SecondaryNameNode 的区别与联系?
10.HDFS组成架构
11.HAnamenode 是如何工作的?
YARN部分深入
1.简述hadoop1与hadoop2 的架构异同?
2.为什么会产生 yarn,它解决了什么问题,有什么优势?
3.HDFS的数据压缩算法?
4.Hadoop的调度器总结?
5.MapReduce 2.0 容错性?
6.Mapreduce推测执行算法及原理?
优化和其他问题
1.MapReduce跑得慢的原因?
2.MapReduce优化方法?
3.HDFS小文件优化方法?