查看原文
其他

字节跳动-数据仓库高级工程师面试

The following article is from 数据爱好者社区 Author 云碟B


写在前面:

2020.05月份疫情期间面试整理,已斩offer,试用期现已转正。此时,借社区公众平台分享给大家!



思想和方法论:


  • 如何建设数仓,如何构建主题域

  • 缓慢变化维 几种处理方式

  • 什么是维度建模,星型模型与雪花模型的区别

  • 数仓的好处

  • 分层的好处

  • 怎么做数据质量,怎么保证及时性和准确性

  • 什么是维度,什么是度量

  • 如何数据治理?

  • 三范式

  • 数据仓库vs数据中台vs数据湖

  • 做过实时数仓吗,讲一下

  • OneDdata发散


hadoop:


  • MapReduce原理,map数、reduce数的参数

  • 说一下 map join 与 reduce join

  • hive sql怎么优化

  • spark和hive的区别

  • 数据倾斜几种解决方式

  • 数据如何清洗

  • 说一下udf、udtf、udaf ,集成的类、接口,怎么写

  • hive文件存储格式,对比

  • 内外表区别

  • hive执行的job数是怎么确定的

  • cube、grouping sets、grouping__id



Spark:


  • join 实现有几种呢,源码有研究过吗?底层是怎么实现的

  • shuffle形式有几种?都做哪些优化

  • 是通过什么管理shuffle中的内存,磁盘的

  • 讲讲spark内存模型?说说你了解这些,对实际的工作有什么帮助?

  • rdd有哪些特性?

  • 宽依赖,窄依赖都是什么?有什么不同?除了大家都认为的不同点以外,还有哪些不同?

  • spark为什么比hive快

  • 讲讲sparksql优化

  • 讲讲RDD, DAG, Stage

  • 说说groupByKey, reduceByKey

  • spark是怎么读取文件的?

  • 有没有遇到过spark读取文件,有一些task空跑的现象?

  • 窗口函数中几个rank函数有啥不同

  • parquet文件和orc文件有啥不同



shell:


  • 字符串替换(sed)

  • 本文逗号分隔输出第二列(awk)

       注:新浪也考过 awk输出并求和


python:


  • 数组和列表的区别,什么是字典

  • 什么是模块,有哪些内置模块

  • 全局变量与局部变量


算法:


  • 几种排序算法,说一下冒泡排序

  • 堆vs栈


sql题:


  • 手写7日留存

  • 手写连续3日登陆

  • 1000亿userid如何最高性能求uv



业务:


  • 讲一个最复杂的业务场景

  • 数据赋能,你如何体现数仓职位的价值

  • 指标体系搭建

  • 你能为我们带来什么?职业规划与发展



End

Day Day Up . 关注我们提升自己不迷惑,我们下期见啦 ~


欢迎加入大数据|数仓技术交流群

进群方式:请加微信(微信号:iom1128),回复:数据,通过审核会拉你进群。


数据治理,该怎么做?全面解读!


数据资产治理-元数据采集那点事


最新大数据资料合集.ppt


Flink Forward Asia 2020 干货总结!


再次分享!漫谈数仓OLAP技术哪家强?






  • ▼ 福利时刻 ▼ 


  • 文末扫码后台回复关键词:加群数据质量、Hive、画像ppt、实时数仓、数据治理,都可获取宝贵干货资源与资料。



Q: 关于大数据,你还想了解什么?

进群联系小助手:iom1128『仙子紫霞』

  

关注不迷路~ 各种福利、资源定期分享

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存