进击吧大数据

其他

元数据管理-技术元数据解决方案

2.3.0注意:该表不存在时,将无法进入cli模式Hive数据库相关的元数据表(DBS,DATABASE_PARAMS)DBS:存储Hive中所有数据库基本信息该表的DB_ID字段也是
2020年9月29日
其他

数仓利器-Hive高频函数合集

点击上方蓝字关注我们,更多惊喜等着你每日一句错误的开始,未必不能走到完美的结束,人生没有什么事是一定的。都是在碰,在等,在慢慢寻找。——《流苏与娜拉》前言数据准备数据集建表语句窗口函数row_number:使用频率
2020年9月12日
其他

数据同步神器-Datax源码重构

经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:类型数据源ReaderWriter文档RDBMS
2020年9月9日
其他

2020年大厂面试题-数据仓库篇

通常数据建模有以下几个流程:概念建模:即通常先将业务划分多个主题逻辑建模:即定义各种实体、属性和关系物理建模:设计数据对象的物理实现,比如表字段类型、命名等。
2020年9月7日
其他

一道简单的算法面试题

统计指定字符在字符串中出现的次数,包含连续重复的情况,例如要统计字符'a'在'aaa'中出现的次数,那么统计出的结果是3,如果要统计'aa'在'aaa'中出现的次数,那么统计出的结果是2。具体实现思路:
2020年8月21日
其他

实战:如何实时采集上亿级别数据?

背景介绍公司业务系统做优化改造,同时为了能够实现全链路监控,需收集所有业务系统之间的调用日志。数据情况:每天20亿+机器成本:3台kafka集群,2台logstash采集机器技术:Java,MQ,MLSQL,Logstash下图为最终结果图采集流程流程分解流程一:MLSQL
2020年8月16日
其他

Spark数据倾斜之骚操作解决方案

简单说几句数据倾斜可以说是大数据开发中见怪不怪的事情了,那么什么情况下会出现数据倾斜?以及出现的时候会有什么症状呢?请接下往下看症状以及原因比如一个spark任务中,绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题了,那么这个时候我们就可以认定是数据倾斜了.为什么会这种情况呢?其实这个一般发生在shuffle类的算子中,在进行shuffle的时候,必须将各个节点的相同的key拉到某个节点上的一个task来进行处理,比如按照key进行聚合和join操作等,这个时候其中某一个key数量特别大,于是就发生了数据倾斜分组聚合逻辑中,需要把相同key的数据发往下游同一个task,如果某个或某几个key的数量特别大,则会导致下游的某个或某几个task所要处理的数据量特别大,也就是要处理的任务负载特别大join计算中,A表和B表中相同key的数据,需要发往下游同一个task,如果A表中或B表中,某个key或某几个key的数量特别大,则会导致下游的某个或某几个task所要处理的数据量特别大,也就是要处理的任务负载特别大如何定位数据倾斜?上面简单说明了一下数据倾斜的症状以及原理,那么如果定位到具体哪块的代码出现了数据倾斜呢?首先我们知道了数据倾斜是发生在shuffle阶段,那么肯定就要先找shuffle类的算子,比如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup等我们知道一个application会拆分为多个job,一个job又会划分多个stage,stage的划分就是根据shuffle类的算子,也可以说是宽依赖来划分的这个时候就可以在spark
2020年8月13日
其他

0004-01-03 Livy REST 提交Spark作业

http://bigdatatest-1:8999/sessions/130/statements注意:如果在同一个session,提交的代码片段是共享的,相当于在同一个spark
2019年5月31日