面试系列 | 大数据、数仓大厂面试锦囊(二)
Editor's Note
The following article is from 数据爱好者社区 Author 鬼鲛
0x00 前言
本是金三银四,今年貌似并不乐观。之前云神有分享过一篇文章:面试真经 | 大数据/数仓面试灵魂30问 社区小伙伴反馈梳理总结每一个题目后,顺利拿到offer,再次送上恭喜与祝贺!这篇文章更多的偏向于初中级,概念思想和理论性更强,今天分享的文章更偏向于高开/资深大数据/数仓工程师。
此时,上班996,在家007的我们,更应该未雨绸缪,弯道超车,提升自身技术硬核实力。
下面主要总结了三个大厂(一二线互联网公司)的面试题目,以供大家参考学习,提升自己。
0x01 大厂A
数据仓库是怎么分层的,为啥要这么分(结合项目具体讲)
OLAP Cube是什么?怎么构建?为啥要这么构建(结合项目业务讲)
数仓的缓慢变化维是什么?怎么处理?为啥这么处理?(结合项目业务讲)
规模比较大的快速变化维怎么处理?为啥这么处理(结合项目业务讲)
数仓建模的方式?(二种)你们用的 哪种?为啥要用这种?好处是什么?
维度建模是什么?为啥要用维度建模?(结合项目业务讲)
0x02 大厂B
hive性能调优,结合例子讲讲
spark性能调优,结合例子讲讲
你觉得你哪个项目做的最好,讲讲你在里面发挥社么作用了
你觉得好的数据仓库话应该是啥样子的
用过Flink吗?时间/水印/窗口都讲一下,Flink SQL难点在哪?
实时的话storm和spark streaming的区别,为啥当时项目要用spark streaming
你觉得你以往的工程经验和技能哪个优势大,对阿里这边会有社么帮助
Hbase性能调优,讲一下。从哪些方面,可举栗
0x03 大厂C
1T的文件的存储方式有哪几种?用分布式的存储方式来讲?
Hbase的数据统计有哪几种方式?
Kafka的底层存储是怎么样子的,详细讲讲
Hadoop集群的搭建过程,进程名,高可用如何实现?
平时开发spark应用程序用的哪种语言,比如(scala,java,python),选取语言的原因是啥?
Hbase的rowKey设计
spark实时处理kafka的消息如何保证message不丢失,如何设计
Hbase使用种遇到啥问题,如何性能调优
ELK用过吗?大概讲讲
如果让你设计一个分布式系统,大概过程是啥样的,讲一下
0xFF 寄语
感谢社区老师把真实面试经历面试真题分享于我们,作为面试参考,已可谓是面试锦囊。希望能抛砖引玉,对同学们有所帮助。可先自行整理答案,相信一定会大有收获!疫情过后,我们一起看春暖花开。升职加薪,加油!
看完本文有收获?请转发分享给更多人
关注「数据爱好者社区」加星标,提升数据技能
后台回复:画像、中台等,还可领取资料哦
推荐阅读
(点击标题可跳转阅读)
关注「数据爱好者社区」加星标,提升数据技能
技术干货 资源福利
武汉加油!中国加油!