大数据范式

其他

50年长盛不衰,SQL为什么如此成功?

年,查尔斯·w·巴赫曼(与埃利希·巴赫曼没有关系)是通用电气一个小团队的一员。一年后,巴赫曼团队推出了后来被公认为第一个数据库管理系统的集成数据存储系统(IDS)。10
2022年2月7日
其他

我也不想的,可是她太美了!

最中意哪个呢?弹幕里说一下吧~
2022年2月6日
其他

数仓架构之数仓分层

在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表提升公共指标的复用性,减少重复加工,直观来说,就是对通用的核心维度进行聚合操作,算出相应的统计指标。Data
2022年1月17日
其他

数据分析指标篇——指标解读

指标的解读,包括日常看数,目标的达成情况监控,异常问题定位等等。指标对业务的执行进行好坏衡量或是建议指导,最关键就是指标的解读。指标的解读,并不等同于汇报指标的值+同比环比,更多的是需要反馈指标背后的业务问题或者流程问题,对于业务操作能有问题的发现和解决问题的建议。指标解读,大家第一感觉就是对于指标的数据进行波动汇报,认为不需要训练能直接上手,并且在短期之内还感觉解读的不错。但是长远下来会进入到一些误区当中,这里列举三种误区。第一种是会发现自己解读的数据,跟让听众自己去看数据效果差不多,解读的内容带不来听众任何惊喜感。其本质原因是,解读的方式,是“观察式解读”,缺少对于指标背后业务本质的理解。第二种是没有弄清楚相关关系和因果关系,这种解读极易引发大家的逻辑争议,甚至会引导出错误的决策判断,属于数据分析里面所谓的dangerous
2022年1月12日
其他

深入理解HBase Memstore

要避免“写阻塞”,貌似让Flush操作尽量的早于达到触发“写操作”的阈值为宜。但是,这将导致频繁的Flush操作,而由此带来的后果便是读性能下降以及额外的负载。每次的Memstore
2022年1月11日
其他

大批量更新数据mysql批量更新的四种方法

(1,2,3)到这里,已经完成一条mysql语句更新多条记录了。php中用数组形式赋值批量更新的代码:$display_order
2022年1月10日
其他

快手领域数据建设与探索.ppt

建设流程▌快手短视频领域建设实践1.
2021年12月7日
其他

经典面试题 | 消息被重复消费,怎么避免?有什么好的解决方案?

条消息也由于一些异常原因,例如机器重启了、外部异常导致消费失败,没有消费成功呢?也就是说这时候延迟消费实际上每次过来看到的都是消费中的状态,最后消费就会被视为消费失败而被投递到死信
2021年12月6日
其他

HBase数据迁移到Kafka?这种逆向操作你震惊了吗!

-这里实现的代码量也并不复杂,下面提供一个伪代码,可以在此基础上进行改造(例如Rowkey的抽取、MapReduce读取Rowkey并批量Get
2021年11月30日
其他

Redis重点难点 | Redis性能优化总结

string,list)进行增删改查的效率是由其底层的存储结构决定的。我们在使用一种数据类型时,可以适当关注一下它底层的存储结构及其算法,避免使用复杂度太高的方法。举两个例子:ZADD
2021年11月25日
其他

MySQL 用 limit 为什么会影响性能?

pool。符合我们的预测。也证实了为什么第一个sql会慢:读取大量的无用数据行(300000),最后却抛弃掉。而且这会造成一个问题:加载了很多热点不是很高的数据页到buffer
2021年11月24日
其他

全面总结 | HiveSQL优化方法

by时如果某些key对应的数据量过大,就会发生数据倾斜。Hive自带了一个均衡数据倾斜的配置项hive.groupby.skewindata,默认值false。其实现方法是在group
2021年11月19日
其他

高频面试必问 | MySQL为什么要使用B+树索引?

不论读一行,还是读多行,都是将这些行所在的页进行加载。也就是说存储空间的基本单位是页。一个页就是一棵树B+树的节点,数据库I/O操作的最小单位是页,与数据库相关的内容都会存储在页的结构里。-
2021年11月5日
自由知乎 自由微博
其他

Flume+Kafka双剑合璧玩转大数据平台日志采集

zdh101:9092,zdh102:9092agent1.sinks.kafkasink.topic=mytopicagent1.sinks.kafkasink.requiredAcks
2021年11月3日
其他

MySQL到ClickHouse 实时复制与实现

的数据一致性。要想富,先修路!来源:https://bohutang.me/2020/07/26/clickhouse-and-friends-mysql-replication/-
2021年11月2日
其他

ClickHouse必知必会 | ClickHouse深度解析

系统成果每分钟乙级的数据量,整个数据链路数据延迟在毫秒,数据查询响应在秒级别,动态设置schema生成宽表,做到整个系统的复用性,避免重复开发,查询性能比Hive快几百倍,满足了实时性的要求。-
2021年10月29日
其他

附PPT | ClickHouse在BIGO的实践及优化

-公众号后台回复:bigo,完整版PPT视频直播回放猜你喜欢猜你喜欢Flink重点难点:Flink
2021年10月28日
其他

代码实战 | SQL中 LEFT JOIN 左表合并去重实用技巧

是以A表为基础,A表即左表,B表即右表。左表(A)的记录会全部显示,而右表(B)只会显示符合条件表达式的记录,如果在右表(B)中没有符合条件的记录,则记录不足的地方为NULL。使用left
2021年10月27日
其他

Spark实现WordCount的几种方式总结(源码)

SparkConf().setMaster("local[*]").setAppName("combineByKey")val
2021年10月26日
其他

Flink SQL 之优化器(源码解析)

Relnode新的等价节点relnode会匹配上新的规则,新的rule加入到rulequeue中进入下一次循环,直到没有rule可以匹配上,这样bestexp就可以返回优化后的最优的relnode了
2021年10月25日
其他

Hadoop重点难点 | Hadoop IO/压缩/序列化

隐藏文件。文件块的大小作为元数据存储在.crc文件中,所以即使文件块大小的设置已经发生变化,仍然可以正确读回文件。在读取文件时需要验证校验和,并且如果检测到错误,LocalFileSystem
2021年10月20日
其他

Flink重点难点 | Flink SQL高效Top-N方案与原理

-Top-N是我们应用Flink进行业务开发时的常见场景,传统的DataStream
2021年10月19日
其他

Flink必知必会 | Flink基本架构与执行原理

上述内容,主要介绍了,Flink的基本架构以及Flink执行的基本原理,重点说明了Flink实现高性能的一些基本原理,因为写的比较匆忙,如有错误之处,欢迎大家评论指正。-
2021年10月18日
其他

Spark必知必会 | SparkSQL数据抽象和底层执行过程

2.0中将DataFrame与Dataset合并,其中DataFrame为Dataset特殊类型,类型为Row。针对RDD、DataFrame与Dataset三者编程比较来说,Dataset
2021年10月11日
其他

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

}}3、然后在SparkSession生成的对象上通过sparkSession.udf.register进行注册,如下代码所示:
2021年10月8日
其他

实时数仓 | Flink实时维表join方法总结(附项目源码)

[{"type":"s2","score":0.2,"level":"A"},{"type":"s1","score":0.2,"level":"D"}]}{"dt":"2019-11-19
2021年9月30日
其他

大数据资产管理平台实践.ppt

中国联通,大数据基础平台负责人高级架构师超过10年的软件研发项目经验
2021年9月29日
其他

Hive文件存储格式和Hive数据压缩小总结

作为默认的行组大小,当然也允许用户自行选择参数进行配置。ORCFILE存储方式:数据按行分块,每块按照列存储。压缩快,快速列存取。效率比rcfile高,是rcfile的改良版本。-
2021年9月27日
其他

浅谈数据质量(DQ)

-1、准确性:数据不正确或描述对象过期2、合规性:数据是否以非标准格式存储3、完备性:数据不存在4、及时性:关键数据是否能够及时传递到目标位置5、一致性:数据冲突6、重复性:记录了重复数据-
2021年9月26日
其他

元数据管理在数据仓库的实践应用

年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理、数据挖掘(Data
2021年9月24日
其他

数仓任务开发规范流程

SLA,及时性保障。上游血缘任务最迟的一个产出时间,本次上线任务预计执行时长,是否有数据倾斜等性能风险,是否需要挂载基线且无破线风险。ps:欢迎加我微信:edw0808
2021年9月23日
其他

Flink重点难点:Flink Table&SQL必知必会干货

API和SQL,本质上还是基于关系型表的操作方式;而关系型表、关系代数,以及SQL本身,一般是有界的,更适合批处理的场景。这就导致在进行流处理的过程中,理解会稍微复杂一些,需要引入一些特殊概念。1
2021年9月22日
其他

SQL 语法速成手册,yyds!

触发器是一种与表操作有关的数据库对象,当触发器所在表上出现指定事件时,将调用该对象,即表的操作事件触发表上的触发器的执行。可以使用触发器来进行审计跟踪,把修改记录到另外一张表中。MySQL
2021年9月2日
其他

数据中台建设方法论、技术体系、组织架构

星标一起成长1数据中台建设的方法论数据中台建设的方法论就是我们的指导思想,主要分为2大块:(1)数据统一管理(2)服务化(一)数据统一管理数据统一管理有如下方法/要点:1、按主题域管理
2021年8月23日
其他

字节跳动ClickHouse在用户增长分析场景的应用

BOY,自保秘籍!数据被污染?蚂蚁金服数据治理之道数仓开发,欢迎大家关注呀!
2021年8月20日
其他

Spark源码精度计划 | SparkConf

-如果上述代码#1.1中的loadDefaults参数为true,那么SparkConf会从Java系统属性中加载配置项。如果调用无参的辅助构造方法,即直接new
2021年8月17日
其他

数据被污染?蚂蚁金服数据治理之道

一、数据治理概况近年来,蚂蚁金服不断在数据架构上进行升级改造,其目的在于解决蚂蚁所面临的数据物理孤岛问题。如今,蚂蚁以及整个阿里巴巴集团的底座都统一到了同一个平台上,这样当实现第五代数据架构体系升级时,就降低了一站式研发的整体门槛,并使得蚂蚁金服的所有工程师都可以在平台上轻松玩转数据。在蚂蚁的数据架构中已经能够很好地解决数据孤岛问题,而如今在数据治理体系中所需要关注的就是逻辑的孤岛。在对数据治理展开论述之前,先谈一谈数据价值。之前的情况是,当数据首先需要经过专门团队负责处理,删除没有价值的数据,负责上线或者下线数据。但是,对于数据价值的判断也是一个非常令人头疼的问题,大部分的数据只会上线不会下线,这样就造成了大量没有价值的数据的堆积。而如今,蚂蚁不仅关心下线没有价值的数据,同时也侧重数据资产的价值最大化。在数据价值方面,蚂蚁有一套完整的数据资产等级以及数据资产的易用模型,这样就能够驱动自身充分利用数据资产,来创造更多的价值。但是如果这些数据被使用了,但是质量却很低,这样就会使得数据资产的价值大打折扣。(1)数据质量产生分析接下来将重点介绍蚂蚁金服在数据治理质量领域的实践思路和方案,如下图所示的是抽象数据抽取的全流程图。当某个业务同学录入数据的时候出现一点错误,就会造成数据的质量问题,比如把客户的行业信息填错或者打错了一个字都会造成数据质量问题,而这样的问题很容易出现。在基于传统数据库资产开发数据应用的时候,基本都是从数据源端产数据过来,经过加工、分析再将数据发送出去,也就是“从业务中来,最后回到业务中去”。现在的方案与之前存在很大区别,以前做数据处理时,从数据生产的采集数据来,加工之后就给出去了,而如今蚂蚁很多数据应用将数据处理之后还会回到数据系统中。比如芝麻信用分的计算中存在很多大家看不到的场景,这些数据处理之后还会回到系统之中,而这个过程中每个环节都可能存在数据质量问题。二、数据质量治理的挑战在下图中的左侧展示了蚂蚁的业务形态。如今,蚂蚁的业务场景已经不再仅限于统计分析,而在蚂蚁的芝麻分、花呗、借呗以及“310”放款的背后都是数据在进行支撑并驱动着其发展。今天,蚂蚁的业务形态成为了“技术+数据+算法”三者的融合来追求价值最大化。与此同时,数据质量治理也存在着诸多挑战,它们来自于业务方面、数据方面、用户方面。三、数据质量治理实践(1)数据质量治理思路从事金融业务的同学往往深有感触,互联网金融时代业务的生命周期缩短了很多,并且变化也非常频繁,相比于原本银行的节奏显得非常快。此外,目前无论是蚂蚁金服还是阿里巴巴都在谈“数据业务化、业务数据化”,数据和业务一同共同发展和前进,并且已经进入了发展的深水区。之前的几年,蚂蚁在业务上偏向于“T+1”,而如今,原来的架构体系不足以支撑蚂蚁未来继续发展以及高时效性的诉求。同时,如今蚂蚁的数据体量很大,而数据业务也驱动蚂蚁的整个人才体系的升级。现在,除了本身做数据算法研发的同学之外,其他的技术同学也都会在平台上使用数据,这些同学可能对于数据的认知不同,那么在数据驱动下真正保证数据质量就显得异常重要。那么如何实现数据质量治理呢?首先,需要有一套明确的组织,这是持续建设企业文化的土壤,而数据质量治理文化的建设一定是一个确定的、有组织的并且需要长期持续推进的事情。在组织保障和质量文化的基础之上,蚂蚁还侧重了研发流和数据流。在金融领域,研发流的管控更严格,也更严谨。而对于如今的互联网金融而言,也需要进行强管控,这是因为业务形态决定了研发周期很短,现在蚂蚁在研发流做了强管控,在一站式数据研发平台上,使用了分级管控。需求提出之后就会被等级管理,并且进行打标,进而走入不同流程。此外,研发流上还侧重分级管控,在同一套标准上定义级别,拉平不同的研发流。对于数据流而言,当一个应用发布到生产环境之后,大部分精力花费在数据流中,每天需要从生产环境将数据采集到处理平台,然后运行算法计算,之后将数据返回到生产环境中,走这样的闭环。如今,蚂蚁在数据流链路上做了很多事情,也建设了很多能力。对于数据流而言,如果源头被污染了,如果不能控制其污染到下游,那么越往下修复成本就越大。基于以上的数据质量治理思路,蚂蚁金服做了很多有意思的东西,在数据平台运行时会将整个体系监控起来,如果出现数据质量故障,就能够及时进行修复。此外,从研发到生产的各个环节,蚂蚁都做了大量的工作,这是因为基于平台进行数据研发的同学很多,需要尽量降低使用门槛。对于全数据流而言,主要建设了四大能力,包括感知能力、识别能力、智愈能力和运营能力。平台需要能够感知发布任务的故障问题以及数据质量问题,此外,平台需要能够识别出潜在风险,因为需要非常及时地了解被破坏的数据。当风险被识别出来之后,就需要智愈能力,之所以使用“智”,是因为原本数据处理任务往往是离线的,可能从凌晨开始到早上8点钟左右属于数据生产高峰,在这段时间里会有人员参与质量保障任务。而智愈能力就希望通过AI算法来配合数据处理工作,使得感知能力叠加算法能力,能够对于数据感染进行自愈。最后是运营能力,数据质量不会被展现在前台,如果数据质量足够好,完全可以实现无感知,使用者不用再担心数据能不能用,也不会出现敢不敢用的疑惑,因此数据质量对于运营而言也非常重要。其实,数据质量问题既不仅属于研发也不仅属于业务,而是需要全员参与,共同来解决,这就是数据治理的思路。(2)蚂蚁数据质量治理架构如下图所示的是蚂蚁金服的数据质量治理架构体系。在系统层,按照上述所谈到的具体思路,研发阶段主要集中在数据测试、发布管控以及变更管理等方面的建设,这里着重提及变更问题,数据的变更不仅仅设计到系统层的变更管理,也会涉及到在线系统的相互打通。如今,在线数据源的变更,也会使得数据运营发生变更,更可能会导致数据运营的数据质量问题。在线研发部分为数据运营系统提供了一些相关的接口,能够通知使用者线上的哪些变更会影响到数据运营。对于发布管控能力而言,蚂蚁投入了大量精力进行研发。目前在蚂蚁已经没有专职负责数据测试的同学,基本上全部都是全栈工程师,所以对于研发而言可能管控不是非常强,但却实现了强大的发布管控能力,将与经验、规范、性能以及质量相关的检测全部在这部分执行。在生产阶段,则主要侧重于质量监控、应急演练以及质量治理这三个系统能力。质量监控告警系统能力在大部分的数据系统架构中应该都有,其功能类似于汽车的刹车功能,因此肯定是存在的。而蚂蚁却做了一件很有意思的事情——数据攻防演练,工程师会人为创造故障,然后测试系统能否在短时间内发现故障并进行有效修复,这部分也是目前蚂蚁在重点进行建设的能力。在质量治理部分,会根据不同应用的级别,发布到生产环境之后进行定期巡检,分析是否会影响数据质量。总之,对于数据质量架构体系的系统层而言,不仅原数据非常重要,如今更是结合机器学习来自动配置一些相关策略。(3)数据质量治理方案如下图所示的是蚂蚁金服在实践中的事前、事中、事后的数据质量质量方案。整体而言,事前包括需求、研发、和预发三个阶段,而如今蚂蚁在事前可以做到的可管控、可仿真、可灰度。在事中,监控问题是重点建设的,出现问题不可怕,但是需要实现自主发现问题。而为了使得防御能力更强,蚂蚁实现了主动的攻击演练,而正是通过攻防演练,帮助蚂蚁发现了自身很多薄弱的地方。除此之外,还在事中提供了强大的应急能力,某些事件将会触发应急预案,在这部分,保证数据质量其实就是把不确定的数据风险变成确定的东西。在事后,数据质量也非常重要,事后需要通过有效的指标和管控手段来进行审计和度量,以此发现整个链路上不完善的地方并持续完善。(4)数据质量治理案例最后为大家分享蚂蚁金服在数据质量治理方面的两个案例:案例1:在蚂蚁数据治理架构体系下的发布环节,实现了一个发布强管控的流程。任何脚本在提交时都需要经过检测,然后发布到线上,并再进行一次检测。案例2:数据治理涉及到整个链路,而针对不同链路上的数据版本,数据采集主要是将数据从一端搬运到另一端,不存在加工的过程,此时可以人为注入一些故障,分析数据质量治理体系能否发现问题并作出修改,因此这就产生了“攻”与“防”双方。数据加工处理又另外一套体系结构,其涉及逻辑的加工,更多地需要考虑注入怎样的故障,需要面临什么。如今,在蚂蚁真正落地数据质量治理体系的时候,在攻防演练环节投入了大量精力。来源:蚂蚁金服作者:李俊华大家都在看:往期推荐如何使用SQL实现DQC(数据质量校验)数仓开发到底在开发什么?从
2021年8月13日
其他

如何使用SQL实现DQC(数据质量校验)

1.前言在本系列文章中,我们会介绍如何从0到1做DQC。数据可能由于很多原因而出现错误,比如数据重复,schema变动等。DQC是我们保证数据准确性的第一道防线。好的DQC应当在观察到数据出现问题时,能够自动进行报警,进而通知相关人员进行修复。DQC有五个方面:Freshness:我的数据是最新的吗?
2021年8月11日
其他

数仓开发到底在开发什么?

写在前面:数据仓库是干什么的?我们先从全局视角☞大数据职业发展方向看一下,如图:图片来源:大数据职业发展方向.xmind数据仓库开发是开发什么呢?我先说3个:数仓开发平台开发报表开发...仓库开发,被熟知的数仓分层模型:ODS层->明细层->聚合层->应用层图片来源:数据仓库分层模型分层模型,就好比学校的不同年级。当学生被送到学校之后,要经过低年级到高年级的学习,每个年级学习的内容和目标都不一样,而最终的目的就是让学生离开学校之后能做一个有用的人。同样的,数据进入到数仓之后,要经过不同层级的加工,每层都有各自的职责和目标,最终目的是让从数仓产出的数据能有效的为人所用。eg:数据仓库分层模型Kimball
2021年8月10日
其他

从 0 到 1 搭建业务数据监控平台

数仓希望这篇文章可以帮到你~欢迎大家点个在看,分享至朋友圈热文特别推荐:☞
2021年8月4日
其他

数据治理平台系统 v2.0

数仓同步之道&技术栈&ETL加载策略爱奇艺大数据生态实时数仓:ClickHouse爱奇艺数据中台建设方案(附下载)橙心优选-数据仓库高级工程师面试
2021年8月3日
其他

流批一体Hudi近实时数仓实践

数据计算域中的云上或本地Spark或者Flink集群通过对应的湖组件数据接口读取数据湖中的数据表并进行计算。02近实时数仓数据流转过程通过Hudi构建近实时数仓,数据流转过程如下:1.
2021年8月2日
其他

基于 Flink 搭建实时平台

或其他渠道获取用户的行为数据信息,进而推测用户的意愿,然后系统开始做预查询,把用户的相关信息放到缓存里,这样当用户在前端触发操作时,后端直接从缓存里调用数据开展计算,极大地提升了数据处理速度。在
2021年7月30日
其他

数据中台与数据治理方案.PPT

当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,业务维度会变得更加复杂,数据中台的建设也会面临更多的挑战,主要表现如下:建议在数据中台加强数据治理,在数据标准、数据质量、元数据、数据安全方面,持续应用数据管理的工具与方法,推进数据治理工作,并将数据治理与数据中台运营管理过程相结合,有效持续提升数据中台的数据质量,加强数据中台服务能力,实现银行数据价值,支撑企业数字化转型。end盘点Flink实战踩过的坑推荐系统之标签体系漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?小米用户画像实战(附48页PPT)大数据开发一枚,欢迎大家关注呀!
2021年7月29日
其他

盘点Flink实战踩过的坑

org.apache.flink.runtime.resourcemanager.slotmanager.SlotManager.removeSlots(SlotManager.java:756)
2021年7月26日
其他

推荐系统之标签体系

为什么要先介绍标签体系?一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。对于用户画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用户的实时画像和离线画像中的各个动态维度。标签体系概览以京东的标签体系中的京东超市为例用思维导图来拆解,后面我们会详细的介绍如何构建标签体系。这里对京东超市标签拆解粒度到三只松鼠年货大礼包的实体级别,实际上各个公司的标签体系大致都是如下构成一、二、三级分类体系都很好理解,参考京东超市的拆解,相信大家就会明白。标签体系中实体标签和概念标签不好理解。
2021年7月20日
其他

漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?

Sea?因为,企业的数据要有边界,可以流通和交换,但更注重隐私和安全,“海到无边天作岸”,那可不行。so,数据湖,Data
2021年7月19日
其他

小米用户画像实战(附48页PPT)

用户画像非常重要,在广告业务,决定你用户增长的关键,你只有足够的了解你的人群,才可以更好的为他们服务,根据不同的人群,推荐不同的广告,强烈建议大家多看看这个ppt(可以收藏本文)。高活用户低活用户流失用户安装未激活激活未注册用户性别,职业,年龄,城市,购物倾向等等猜你喜欢打造轻量级实时数仓实践实时数仓建设思考与方案记录实时数仓之流式ETL实践华为数据治理实践Flink
2021年7月16日