搞定这25道面试题,拿下腾讯大数据岗没问题
By大数据研习社
概要:搞定这25道面试题,拿下腾讯外包大数据开发岗没问题
福利:公众号后台可加我微信,交个朋友!答案会和大家一起探讨!交流!总结!分享!!
1、假设一张表有1w条记录,查询特别耗时,该从哪些方面优化查询?写清楚文字描述和大致的处理逻辑
2、数据是怎么从ods到dws的,你们都做了什么操作?
3、Hive如何实现负载均衡?
4、问你你们的分区技术是怎么实现的,hive的动态分区?
5、数仓你们是怎么做ETL的?
(1)没有用专门的etl工具,自己写代码实现逻辑
(2)kettle
6、讲讲Hive/HQL的常见优化手段
7、数据存在Hbase里面,RowKey是怎么设计的?
8、在使用Hbase的过程中,你遇到过哪些问题?
9、在数仓,如果要对某张表的字段进行增加或删除,怎么操作?
10、算法题,100万数据,需要对他进行排序,讲讲你的实现思路
1、介绍一下hadoop? hdfs yarn mapreduce
2、讲一下hadoop的心跳机制? nn 跟 dn 心跳连接 nn通过心跳来判断dn是否还活着
3、讲一下hive如何转换成mapReduce的?
4、yarn的调度器,具体讲解一下如何工作的?
5、请说一下mapreduce 的shuffle阶段?
6、HDFS的四大机制? 两大核心?
7、hive的数据倾斜问题?
8、分桶表和分区表的区别?
9、自定义UDF函数吗,自定义过哪些?
10、用Hive sql实现用户信息表t_user_info(里面的数据时间范围:20200101-20200201),字段信息ftime(日期)、province(省份)、user_id(用户id)
11、问下面两个sql语句执行后结果是否相同及原因。
(1)select ftime, from t_user_info where ftime = 20200101 and province = ‘福建’ or province = ‘广东’;
(2)select ftime, from t_user_info where ftime = 20200101 and (province = ‘福建’ or province = ‘广东’);
12、 现有文件stu.txt,如下:
001,xiaojie,男,21
002,xiaolong,女,18
003,xiaotao,男,19
004,xiaoming,女,20
(1)创建一个外部表关联上面文件的数据(字段名,文件路径任意)
(2)创建一个分区表,按照性别分区,然后添加分区,并将外部表数据导入到分区表中(使用动态、静态两种方式)
13、全量用户登录日志表t_login_all,字段信息ftime(登录日期)、openid(登录帐号)。
新增用户表t_login_new,字段信息ftime(新增日期)、openid(帐号)
求每天新增用户7天留存率。
(说明:7天留存是指当天有登录且第7天还登录的用户)
14、用Spark core实现,写个scala脚本
15、现有文件file.txt,文件格式如下
Order_id, user_id, payment, productid
1, 1768, 50, 155
2, 1218, 600, 211
3, 2239, 788, 242
4, 3101, 288, 599
5, 4899, 25, 230
6, 2311, 890, 981
……
求Top 10个payment字段的值
完
最新字节、快手-实时数仓、实时平台、推荐系统、实时特征、实时SQL、流批一体行业案例分享PPT
基于 Spark 快速构建数仓项目
面试必备!10道海量数据处理BAT面试题
数据管理、数据治理、数据中心、数据中台、数据湖、数据资产等的关系与区别
数据治理操作指南.doc
数据中台建设方案(PPT)
大数据架构干货文章精选(推荐收藏)
苏宁数据中台建设与技术实践(PPT)
华为大数据解决方案(PPT)
1.公众号后台回复“sn”,即可下载《苏宁数据中台技术实践》完整版PPT。
2.公众号后台回复“hw”,即可下载《华为大数据解决方案》68 页PPT全文