进击吧大数据

其他

元数据管理-技术元数据解决方案

2.3.0注意：该表不存在时，将无法进入cli模式Hive数据库相关的元数据表(DBS,DATABASE_PARAMS)DBS：存储Hive中所有数据库基本信息该表的DB_ID字段也是

进击吧大数据 -

2020年9月29日

其他

数仓利器-Hive高频函数合集

点击上方蓝字关注我们,更多惊喜等着你每日一句错误的开始，未必不能走到完美的结束，人生没有什么事是一定的。都是在碰，在等，在慢慢寻找。——《流苏与娜拉》前言数据准备数据集建表语句窗口函数row_number：使用频率

进击吧大数据 -

2020年9月12日

其他

数据同步神器-Datax源码重构

经过几年积累，DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下：类型数据源ReaderWriter文档RDBMS

进击吧大数据 -

2020年9月9日

其他

2020年大厂面试题-数据仓库篇

通常数据建模有以下几个流程：概念建模：即通常先将业务划分多个主题逻辑建模：即定义各种实体、属性和关系物理建模：设计数据对象的物理实现，比如表字段类型、命名等。

进击吧大数据 -

2020年9月7日

其他

一道简单的算法面试题

统计指定字符在字符串中出现的次数，包含连续重复的情况，例如要统计字符'a'在'aaa'中出现的次数，那么统计出的结果是3，如果要统计'aa'在'aaa'中出现的次数，那么统计出的结果是2。具体实现思路:

进击吧大数据 -

2020年8月21日

其他

实战：如何实时采集上亿级别数据？

背景介绍公司业务系统做优化改造，同时为了能够实现全链路监控，需收集所有业务系统之间的调用日志。数据情况:每天20亿+机器成本:3台kafka集群，2台logstash采集机器技术:Java,MQ,MLSQL,Logstash下图为最终结果图采集流程流程分解流程一：MLSQL

进击吧大数据 -

2020年8月16日

其他

简单说几句数据倾斜可以说是大数据开发中见怪不怪的事情了，那么什么情况下会出现数据倾斜？以及出现的时候会有什么症状呢？请接下往下看症状以及原因比如一个spark任务中，绝大多数task任务运行速度很快，但是就是有那么几个task任务运行极其缓慢，慢慢的可能就接着报内存溢出的问题了，那么这个时候我们就可以认定是数据倾斜了.为什么会这种情况呢？其实这个一般发生在shuffle类的算子中，在进行shuffle的时候，必须将各个节点的相同的key拉到某个节点上的一个task来进行处理，比如按照key进行聚合和join操作等，这个时候其中某一个key数量特别大，于是就发生了数据倾斜分组聚合逻辑中，需要把相同key的数据发往下游同一个task，如果某个或某几个key的数量特别大，则会导致下游的某个或某几个task所要处理的数据量特别大，也就是要处理的任务负载特别大join计算中，A表和B表中相同key的数据，需要发往下游同一个task，如果A表中或B表中，某个key或某几个key的数量特别大，则会导致下游的某个或某几个task所要处理的数据量特别大，也就是要处理的任务负载特别大如何定位数据倾斜？上面简单说明了一下数据倾斜的症状以及原理,那么如果定位到具体哪块的代码出现了数据倾斜呢？首先我们知道了数据倾斜是发生在shuffle阶段，那么肯定就要先找shuffle类的算子，比如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup等我们知道一个application会拆分为多个job,一个job又会划分多个stage，stage的划分就是根据shuffle类的算子，也可以说是宽依赖来划分的这个时候就可以在spark

进击吧大数据 -

2020年8月13日

其他