查看原文
其他

BATJ与小企业数据仓库面试题

猎猎 数据仓库与Python大数据 2022-07-01

注:感谢读者朋友、群友、星球好友,联合贡献大小厂真实面试题目,现整理汇总。


1>做过的印象最深刻的项目是哪个,最有挑战性的地方在哪儿(数据平台和数据仓库都可以说说)

2>数据倾斜如何处理,如果是2个大表join

3>Hbase性能调优(GC,文件合并,写入参数优化,预分区散列)

4>进程和线程的区别

5>多线程如何交互

6>Hbase的rowkey设计和OLAP存储

7>ETL全量和增量的实现,以sqoop举例说明

8>Oracle物化视图实现

9>Apache Phoenix的实现原理

10>进程切换的开销

11>ETL调度平台的设计实现(整体架构,如何实现的,表如何设计的)

12>算法(一个字符串中字母的排列组合,一个句子单词中的最大公共子串,链表的实现)


1>binlog解析的实现(增量如何和下游merge)

2>mapreduce实现原理(数据倾斜如何解决)

3>ETL过程中的数据一致性如何解决(设计一个系统验证数据进出一个组件后前后的一致性)

4>数据仓库如何分层的,大概讲讲

5>数据平台的一些开源组件都有哪些,越多越好

6>有哪些开源的hadoop,spark生态组件,大概讲讲,越多越好,能对比优缺点和使用场景

7>算法,括号匹配问题

8>数据仓库的数据同步比如全量和增量的实现问题

9>多线程的实现方式,如何交互,线程池的原理


1>项目介绍,数仓,Hbase等

2>Hive,Spark性能调优

3>Flume高可用实现,channel种类,sink的优化

4>Spark sql,core,structstreaming的理解和描述

5>JVM的GC分类等

6>RPC的实现,ProtocolBuffer实现

7>Java的一些编码好习惯,能提高性能的

8>HashMap的底层实现



1.数据仓库是怎么分层的,为啥要这么分(结合项目具体讲)

2.OLAP Cube是什么?怎么构建?为啥要这么构建(结合项目业务讲)

3.数仓的缓慢变化维是什么?怎么处理?为啥这么处理?(结合项目业务讲)

4.规模比较大的快速变化维怎么处理?为啥这么处理(结合项目业务讲)

5.数仓建模的方式?(二种)你们用的 哪种?为啥要用这种?好处是什么?

6.维度建模是什么?为啥要用维度建模?(结合项目业务讲)



1>1T的文件的存储方式有哪几种?用分布式的存储方式来讲?

2>Hbase的数据统计有哪几种方式?

3>Kafka的底层存储是怎么样子的,详细讲讲

4>Hadoop集群的搭建过程,进程名,高可用如何实现?

5>平时开发spark应用程序用的哪种语言,比如(scala,java,python),选取语言的原因是啥?

6>Hbase的rowKey设计

7>spark实时处理kafka的消息如何保证message不丢失,如何设计

8>Hbase使用种遇到啥问题,如何性能调优

9>ELK用过吗?大概讲讲

10>如果让你设计一个分布式系统,大概过程是啥样的,讲讲



1>hive性能调优,结合例子讲讲

2>spark性能调优,结合例子讲讲

3>你觉得你哪个项目做的最好,讲讲你在里面发挥社么作用了

4>你觉得好的数据仓库话应该是啥样子的

5>用过Flink吗?

6>实时的话storm和spark streaming的区别,为啥当时项目要用spark streaming

7>你觉得你以往的工程经验和技能哪个优势大,对阿里这边会有社么帮助

8>Hbase性能调优,讲讲




公众号回复“0808”,即可获取ppt下载资源链接,目前已经上传到百度网盘。



Q: 你还想了解什么?

更多精彩,请在文末点击“面试系列”查看

关注不迷路~ 各种福利、资源定期分享



戳原文,面试系列专题!       你也「在看」吗?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存