查看原文
其他

搞定这25道面试题,拿下腾讯大数据岗没问题

大数据研习社 BAT大数据架构 2022-11-29

By大数据研习社

概要:搞定这25道面试题,拿下腾讯外包大数据开发岗没问题

福利:公众号后台可加我微信,交个朋友答案会和大家一起探讨!交流!总结!分享!

01一面


1、假设一张表有1w条记录,查询特别耗时,该从哪些方面优化查询?写清楚文字描述和大致的处理逻辑

2、数据是怎么从ods到dws的,你们都做了什么操作?

3、Hive如何实现负载均衡?

4、问你你们的分区技术是怎么实现的,hive的动态分区?

5、数仓你们是怎么做ETL的?

(1)没有用专门的etl工具,自己写代码实现逻辑

(2)kettle

6、讲讲Hive/HQL的常见优化手段

7、数据存在Hbase里面,RowKey是怎么设计的?

8、在使用Hbase的过程中,你遇到过哪些问题?

9、在数仓,如果要对某张表的字段进行增加或删除,怎么操作?

10、算法题,100万数据,需要对他进行排序,讲讲你的实现思路



02二面


1、介绍一下hadoop? hdfs yarn mapreduce

2、讲一下hadoop的心跳机制? nn 跟 dn 心跳连接 nn通过心跳来判断dn是否还活着

3、讲一下hive如何转换成mapReduce的?

4、yarn的调度器,具体讲解一下如何工作的?

5、请说一下mapreduce 的shuffle阶段?

6、HDFS的四大机制? 两大核心?

7、hive的数据倾斜问题?

8、分桶表和分区表的区别?

9、自定义UDF函数吗,自定义过哪些?

10、用Hive sql实现用户信息表t_user_info(里面的数据时间范围:20200101-20200201),字段信息ftime(日期)、province(省份)、user_id(用户id)

11、问下面两个sql语句执行后结果是否相同及原因。

(1)select ftime, from t_user_info where ftime = 20200101 and province = ‘福建’ or province = ‘广东’;

(2)select ftime, from t_user_info where ftime = 20200101 and (province = ‘福建’ or province = ‘广东’);

12、 现有文件stu.txt,如下:

001,xiaojie,男,21

002,xiaolong,女,18

003,xiaotao,男,19

004,xiaoming,女,20

(1)创建一个外部表关联上面文件的数据(字段名,文件路径任意)

(2)创建一个分区表,按照性别分区,然后添加分区,并将外部表数据导入到分区表中(使用动态、静态两种方式)

13、全量用户登录日志表t_login_all,字段信息ftime(登录日期)、openid(登录帐号)。

新增用户表t_login_new,字段信息ftime(新增日期)、openid(帐号)

求每天新增用户7天留存率。

(说明:7天留存是指当天有登录且第7天还登录的用户)

14、用Spark core实现,写个scala脚本

15、现有文件file.txt,文件格式如下

Order_id, user_id, payment, productid

1, 1768, 50, 155

2, 1218, 600, 211

3, 2239, 788, 242

4, 3101, 288, 599

5, 4899, 25, 230

6, 2311, 890, 981

……

求Top 10个payment字段的值



欢迎点赞 + 收藏 + 在看  素质三连 


▼往期精彩回顾▼

最新字节、快手-实时数仓、实时平台、推荐系统、实时特征、实时SQL、流批一体行业案例分享PPT


基于 Spark 快速构建数仓项目


面试必备!10道海量数据处理BAT面试题


数据管理、数据治理、数据中心、数据中台、数据湖、数据资产等的关系与区别


数据治理操作指南.doc


数据中台建设方案(PPT)


大数据架构干货文章精选(推荐收藏)


苏宁数据中台建设与技术实践(PPT)


华为大数据解决方案(PPT)




福利时刻

1.公众号后台回复“sn”,即可下载《苏宁数据中台技术实践》完整版PPT。

2.公众号后台回复“hw”,即可下载《华为大数据解决方案》68 页PPT全文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存