HiveSQL高级进阶10大技巧

大数据技术团队 2022-11-29

Editor's Note

10个高级技巧，建议先收藏，慢慢研究学习。尤其最后两个针对不同类型的数据倾斜给出的不同的技巧解决方案。#面试宝典#

The following article is from BAT大数据架构 Author 花荣

转载：BAT大数据架构

作者：花荣

直接上干货，HiveSQL高级进阶技巧，重要性不言而喻。掌握这10个技巧，你的SQL水平将有一个质的提升，达到一个较高的层次！

1.删除：

insert overwrite tmp select * from tmp where id != '666';

2.更新：

insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id != '666';

3.行转列：

-- Step03：最后将info的内容切分select id,split(info,':')[0] as label,split(info,':')[1] as valuefrom (-- Step01：先将数据拼接成“heit:180,weit:60,age:26” select id,concat('heit',':',height,',','weit',':',weight,',','age',':',age) as value from tmp) as tmp-- Step02：然后在借用explode函数将数据膨胀至多行lateral view explode(split(value,',')) mytable as info;

4.列转行1：

select tmp1.id as id,tmp1.value as height,tmp2.value as weight,tmp3.value as age from (select id,label,value from tmp2 where label = 'heit') as tmp1joinon tmp1.id = tmp2.id(select id,label,value from tmp2 where label = 'weit') as tmp2joinon tmp1.id = tmp2.id(select id,label,value from tmp2 where label = 'age') as tmp3on tmp1.id = tmp3.id;

5.列转行2：

selectid,tmpmap['height'] as height,tmpmap['weight'] as weight,tmpmap['age'] as agefrom ( select id, str_to_map(concat_ws(',',collect_set(concat(label,':',value))),',',':') as tmpmap from tmp2 group by id) as tmp1;

6.分析函数1：

select id,label,value, lead(value,1,0)over(partition by id order by label) as lead, lag(value,1,999)over(partition by id order by label) as lag, first_value(value)over(partition by id order by label) as first_value, last_value(value)over(partition by id order by label) as last_valuefrom tmp;

7.分析函数2：

select id,label,value, row_number()over(partition by id order by value) as row_number, rank()over(partition by id order by value) as rank, dense_rank()over(partition by id order by value) as dense_rankfrom tmp;

8.多维分析1：

select col1,col2,col3,count(1), Grouping__ID from tmp group by col1,col2,col3grouping sets(col1,col2,col3,(col1,col2),(col1,col3),(col2,col3),())

9.多维分析2：

select col1,col2,col3,count(1), Grouping__ID from tmp group by col1,col2,col3with cube;

10.数据倾斜groupby：

select label,sum(cnt) as all from ( select rd,label,sum(1) as cnt from ( select id,round(rand(),2) as rd,value from tmp1 ) as tmp group by rd,label) as tmpgroup by label;

11.数据倾斜join：

select label,sum(value) as all from ( select rd,label,sum(value) as cnt from ( select tmp1.rd as rd,tmp1.label as label,tmp1.value*tmp2.value as value from ( select id,round(rand(),1) as rd,label,value from tmp1 ) as tmp1 join ( select id,rd,label,value from tmp2 lateral view explode(split('0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9',',')) mytable as rd ) as tmp2 on tmp1.rd = tmp2.rd and tmp1.label = tmp2.label ) as tmp1 group by rd,label) as tmp1group by label;

推荐阅读：

SQL去重的三种方法汇总

附PPT｜有赞数据地图实践

附PPT｜小米数据管理、地图、规范、成本、质量、安全实践

回复 999，领取资料

希望这篇文章可以帮到你~

欢迎大家点个在看，分享至朋友圈

特别推荐：

☞ 《大数据之路：阿里巴巴大数据实践》下载

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

向哲学习！可楼扎心一修：哲哥比你年轻比你搞笑！芮甜甜官宣复播！

HiveSQL高级进阶10大技巧

您可能也对以下帖子感兴趣

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

向哲学习！可楼扎心一修：哲哥比你年轻比你搞笑！芮甜甜官宣复播！

生成图片，分享到微信朋友圈

HiveSQL高级进阶10大技巧

您可能也对以下帖子感兴趣