BATJ与小企业数据仓库面试题
注:感谢读者朋友、群友、星球好友,联合贡献大小厂真实面试题目,现整理汇总。
1>做过的印象最深刻的项目是哪个,最有挑战性的地方在哪儿(数据平台和数据仓库都可以说说)
2>数据倾斜如何处理,如果是2个大表join
3>Hbase性能调优(GC,文件合并,写入参数优化,预分区散列)
4>进程和线程的区别
5>多线程如何交互
6>Hbase的rowkey设计和OLAP存储
7>ETL全量和增量的实现,以sqoop举例说明
8>Oracle物化视图实现
9>Apache Phoenix的实现原理
10>进程切换的开销
11>ETL调度平台的设计实现(整体架构,如何实现的,表如何设计的)
12>算法(一个字符串中字母的排列组合,一个句子单词中的最大公共子串,链表的实现)
1>binlog解析的实现(增量如何和下游merge)
2>mapreduce实现原理(数据倾斜如何解决)
3>ETL过程中的数据一致性如何解决(设计一个系统验证数据进出一个组件后前后的一致性)
4>数据仓库如何分层的,大概讲讲
5>数据平台的一些开源组件都有哪些,越多越好
6>有哪些开源的hadoop,spark生态组件,大概讲讲,越多越好,能对比优缺点和使用场景
7>算法,括号匹配问题
8>数据仓库的数据同步比如全量和增量的实现问题
9>多线程的实现方式,如何交互,线程池的原理
1>项目介绍,数仓,Hbase等
2>Hive,Spark性能调优
3>Flume高可用实现,channel种类,sink的优化
4>Spark sql,core,structstreaming的理解和描述
5>JVM的GC分类等
6>RPC的实现,ProtocolBuffer实现
7>Java的一些编码好习惯,能提高性能的
8>HashMap的底层实现
1.数据仓库是怎么分层的,为啥要这么分(结合项目具体讲)
2.OLAP Cube是什么?怎么构建?为啥要这么构建(结合项目业务讲)
3.数仓的缓慢变化维是什么?怎么处理?为啥这么处理?(结合项目业务讲)
4.规模比较大的快速变化维怎么处理?为啥这么处理(结合项目业务讲)
5.数仓建模的方式?(二种)你们用的 哪种?为啥要用这种?好处是什么?
6.维度建模是什么?为啥要用维度建模?(结合项目业务讲)
1>1T的文件的存储方式有哪几种?用分布式的存储方式来讲?
2>Hbase的数据统计有哪几种方式?
3>Kafka的底层存储是怎么样子的,详细讲讲
4>Hadoop集群的搭建过程,进程名,高可用如何实现?
5>平时开发spark应用程序用的哪种语言,比如(scala,java,python),选取语言的原因是啥?
6>Hbase的rowKey设计
7>spark实时处理kafka的消息如何保证message不丢失,如何设计
8>Hbase使用种遇到啥问题,如何性能调优
9>ELK用过吗?大概讲讲
10>如果让你设计一个分布式系统,大概过程是啥样的,讲讲
1>hive性能调优,结合例子讲讲
2>spark性能调优,结合例子讲讲
3>你觉得你哪个项目做的最好,讲讲你在里面发挥社么作用了
4>你觉得好的数据仓库话应该是啥样子的
5>用过Flink吗?
6>实时的话storm和spark streaming的区别,为啥当时项目要用spark streaming
7>你觉得你以往的工程经验和技能哪个优势大,对阿里这边会有社么帮助
8>Hbase性能调优,讲讲
公众号回复“0808”,即可获取ppt下载资源链接,目前已经上传到百度网盘。
Q: 你还想了解什么?
更多精彩,请在文末点击“面试系列”查看
!关注不迷路~ 各种福利、资源定期分享!