查看原文
其他

面试真经 | 大数据/数仓面试灵魂30问

邪云 大数据技术团队 2022-05-08

点击上方蓝色字体,置顶/星标

目前10000+人已关注加入我们

作者:邪云


0.自我介绍


1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)

  • 业务调研 需求调研 数据调研

  • 业务域 主题域/数据域 CDM 总线矩阵

  • 分层架构 定制规范 命名规范、开发规范、流程规范

  • 维度建模 星座模型 宽表 粒度 指标体系

  • 任务调度 数据质量 元数据管理 血缘关系 数据治理

  • BI可视化 OLAP多维分析 用户画像 推荐系统 


2.如何建设数据中台?可简单说下理解与思路


3.数据仓库、数据中台、数据湖的理解


4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)

  • 建模工具

  • ETL工具

  • BI报表工具

  • 调度系统


5.传统数仓和大数据数仓的异同?有哪些大的变化?


6.印象最深刻的项目?为什么?亮点与优势?


7.数仓最重要的是什么?

  • 模型  模型最重要的是什么?粒度 | 一致性维度 四步建模

  • 规范 如何制定规范的?命名规范、流程规范、开发规范等

  • 思想 解决方案、数据链路、设计思想、大数据架构

  • 其他  发散.. 见仁见智


8.实时数仓做过吗?采用什么架构?lambda有哪些优缺点?

   离线和实时是在server layer如何merge的?

   丢数如何规避的?实时表存一天的数据,还是两天的?为什么?


9.如何看待kappa架构?iota架构呢?


10.责任心?沟通能力?团队协作?数据思维?


11.用户画像(静态、动态标签,统计、规则、预测标签,衰退系数、标签权重


12.推荐系统(协同过滤,基于用户、商品,SVD,各种距离算法等


13.数仓基础理念理解

   (主题域 血缘关系 拉链表 代理键 维度退化 缓慢变化维SCD 事实表类型 增量dwd处理 星型/雪花/星座模型 事实 维度 粒度 原子/派生指标 OLAP


14.数仓如何确定主题域?CDM?


15.数仓如何分层的?及每一层的作用?思考:为什么要这么分层?


16.数仓有哪几种建模思想?维度建模、范式建模、datavault?.. 有什么优劣,如何选择?


17.SCD的常用处理方式?优劣?与SCD2与拉链表有什么异同?


18.元数据的理解?元数据管理系统?


19.如何控制 数据质量?


20.如何做 数据治理?数据资产管理呢?


21.Hive优化?SQL优化,参数优化

mapjoin、列裁剪、分区、分桶、Map数、Reduce数、常用参数等


22.数据倾斜     


23.小文件问题


24.order by、sort by、distribute by、cluster by


25.udf、udtf?处理的问题?


26.shuffer优化


27.MySQL如何改写row_number


28.连续n天登录用户


29.用户留存、用户活跃、沉默用户、回流用户


30.lag/lead()over()函数、ntile() 等分析函数


31.rollup、cube、grouping sets  grouping_id


32.partition和分桶 order by和sort by



今天就先写到这里,作为面试参考,希望能抛砖引玉,对你有所帮助!答案可自行整理,面试完全可以稳拿25k+薪资哦~加油!


更多精彩

  1. 在阿里工作几年,女友跑路,晋升无望,买不起房,我活成了一个笑话~

  2. ”去他丫的北上广,老子要去成都定居了!“一名33岁老码农有话说

  3. 我是技术总监,我出来求职,竟然找不到工作!

  4. 电脑屏幕太小不够用?这有妙招!



觉得内容不错的话 请分享到朋友圈哦~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存