大数据技术与架构

其他

一网打尽Flink中的时间、窗口和流Join

Function都继承自RichFunction接口,所以都有open()、close()和getRuntimeContext()等方法。而KeyedProcessFunction[KEY,
其他

5000字阐述云原生消息中间件Apache Pulsar的核心特性和设计概览

log文件中,而bookie上有一个用于做垃圾回收的线程,该线程会将没有关联任何ledger的entry文件进行删除,以便回收磁盘空间,而compaction的目的则是为了避免entry
2021年7月27日
其他

193篇文章暴揍Flink,这个合集你需要关注一下

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多惊喜前一段时间我写了一篇:《我们在学习Flink的时候,到底在学习什么?》。基本上把大多数情况下Flink需要学习的点都照顾到了。然后重点来了,我整理了一个合集放在了CSDN论坛,根据Flink版本发布过程和知识点,收录了网络上写的比较好的文章,基本覆盖了近100%的Flink的知识点。点击文末的【阅读原文】可以跳转,你有必要收藏一下。或者你可以参考这里:https://blog.csdn.net/u013411339/category_8631091_2.html未来这个合集会不断壮大,Flink有什么,这里就有什么。另外我把我发过的原创文章分门别类整理好了放在Github上。你可以参考这里:https://github.com/wangzhiwubigdata/God-Of-BigData不要问我叫什么,我的名字叫雷锋。我们在学习Flink的时候,到底在学习什么?我们在学习Spark的时候,到底在学习什么?在所有Spark模块中,我愿称SparkSQL为最强!Flink
2021年7月26日
其他

在所有Spark模块中,我愿称SparkSQL为最强!

点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。在实际的开发过程中,SQL化已经是数据领域的共识,大家疯狂的将大数据框架的易用性做到了最高,即使一个刚刚毕业的同学,只要有SQL基础就可以看懂甚至上手开发了。那么我们有必要对SparkSQL这个模块进行一个全面的解析。我之前也写过一篇文章可以参考:《Spark
2021年7月22日
其他

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

com.alibaba.ververica.cdc.debezium.DebeziumSourceFunction.run(DebeziumSourceFunction.java:299)at
2021年7月20日
其他

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

大家不要在惦记我的师姐了。😆师姐孩子都幼儿园水平了,上上周来园区,直接给我手撕了一个冒泡排序。我当时汗都吓出来了。😅下次有机会我们来介绍一下我的小师妹。我们又来到「学习什么」系列了。这篇文章是对「硬刚Hive」的补充。我在之前的硬刚系列《大数据方向另一个十年开启
2021年7月15日
其他

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜我曾经在之前的文章中提到过关于Flink生产环境中遇到的各种问题。直到有一天,我在阿里巴巴藏经阁看到了阿里的工程师们在生产环境中的问题合集,如获至宝,在此整理了其中的TOP经典问题给大家参考。小编第一次使用Flink已经是2019年了,这中间经历过Flink从1.6版本到最新的1.13版本的各种优化和坑,大家可以参考:《生产上的坑才是真的坑
2021年7月12日
其他

八千里路云和月 | 从零到大数据专家学习路径指南

是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都具有时间戳。总之,在一个
2021年7月10日
其他

大数据方向另一个十年开启 |《硬刚系列》第一版完结

《硬刚Presto|Presto原理&调优&面试&实战全面升级版》《硬刚Apache
其他

我们在学习Spark的时候,到底在学习什么?

我必须要说,Spark这个框架出现之前,我对很多大数据领域的框架源码甚至都是嗤之以鼻的。很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。我之前发过一篇关于阅读Spark源码的文章:《Spark源码阅读的正确打开方式》。我们在这篇文章的基础上总结一下我曾经总结过的关于Spark的路径。如果有什么更好的资料,欢迎大家加我微信推荐给我。Spark的背景和核心论文假如你是第一次接触Spark,那么你需要对Spark的设计思想有所了解,知道Spark用了哪些抽象,Spark在提出RDD的时候是基于什么样的考虑。在这里给大家推荐几篇论文如下:第一篇:《弹性分布式数据集:一种为内存化集群计算设计的容错抽象》,链接如下:https://fasionchan.com/blog/2017/10/19/yi-wen-tan-xing-fen-bu-shi-shu-ju-ji-yi-zhong-wei-nei-cun-hua-ji-qun-ji-suan-she-ji-de-rong-cuo-mo-xing/这篇文章中提出了弹性分布式数据集(RDD,Resilient
其他

我写过的关于成长/面试/职场进阶的文章

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源如果我说,程序员是这个时代最好的职业之一。估计有一堆人要来喷我。但是,你静下心来想想。实际上这个职业才是当下最享受时代红利的职业。所以除了坚持学习,刻意练习,加强自身技能和护城河还需要在红利期迅速积累软实力。在写技术文章的这近两年时间里,我一直坚信的一个理念是,技术能力的提升只有一个途径:无他,唯手熟尔。而且极少数的人会一直从事基层的编码工作,大多数还是希望自己在职场上更上一层楼。在生活中养成一些好习惯,在工作中积累一些好方法。我自己的经历来看,程序员代码之外的功夫,就是为人处世的方式和方法,解决问题的思维和能力,项目交付后的复盘和成长。我把这样的文章总结记录下来。一方面是我自己的总结和记录。另一方也展示出来给大家看,作为参考,少走一些弯路。莫言春度芳菲尽,别有中流采芰荷。我们更高处见。
其他

数据治理方法论和实践小百科全书

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多惊喜什么是数据治理?数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。是一个持续性的服务,而不是一个有着明确范围的一锤子买卖。为什么要实施数据治理?经过
其他

【面试&个人成长】2021年过半,社招和校招的经验之谈

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源长话短说。今天有点晚,因为一些事情耽误了,文章发出来有些晚。周末的时候和一个知识星球的读者1对1指导了一些应届生的学习路径和简历准备。因为马上就要秋招了,有些公司的提前批已经启动。2021年已经过半了,各位。时间真是太快了。正好周末抽了一点时间看之前买的关于面试的电子书,针对校招和社招的面试准备和需要注意的点在啰嗦几句。校招提前批要不要投简历?提前批要不要投简历。我的观点是一定要投!重要的话说一遍。提前批是每年7-8月份开始,提前批和高考报志愿里的提前批有异曲同工之妙。公司的目前有2个:提前锁定优秀候选人和减轻正式招聘压力。这个阶段首先竞争压力比较小,方式灵活,多找自己的师兄师姐去打听。很多人不会这么早准备,比如刷题这件事,绝大多数的人都还没开始,所以如果你实习经历结束的早,然后早点着手开始准备,那么提前批就像提前跟你开了个后门。实习经历没有,项目经验太少怎么办?如果你在学校在北京上海这种大城市,实习机会多的数不过来,自己要主动去找,不要脸皮薄。脸重要还是前途重要?自己心里要明白。比如你的实验室方向是后端Java,你实在不想去那个方向卷,想走数据开发,早点看上几本书,B站划拉几个项目敲一敲。然后找个实习,把项目和实习经历有机的结合一下,这不就妥了吗?退一万步讲,没有企业实习经历。那么老师也会有一些校企合作项目吧,再不济也有一些实验室的大作业这种东西,好好做一做,多用上几个技术点,写到简历上也很好看。论文、专利重要吗?对校招生非常重要,哪怕你的论文、专利很水,这是你学生时代唯一证明自己科研成果的东西。校招中有一项评估就是科研成果。就看论文和专利。言尽于此。大数据方向的学习路径?Github搜:https://github.com/wangzhiwubigdata/God-of-Bigdata
2021年6月28日
自由知乎 自由微博
其他

Presto原理&调优&面试&实战全面升级版

ETL:这类的查询特点是任务会不加过滤的从叶子结点拉取大量的数据到上层节点进行转换操作,致使上层节点压力非常大。针对以上两种场景遇到的问题,引擎可以通过多线程来运行单个操作符序列(或
2021年6月17日
其他

Apache Iceberg技术调研&在各大公司的实践应用大总结

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多惊喜作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用,总结在下面。希望能给大家带来一些启示。随着大数据存储和处理需求越来越多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在数据湖存储上构建起
2021年6月16日
其他

放完假先收心 | 「个人经历不可替代」

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源假期一直在休整,新的技术文章手稿还在整理中,明天可以看到。在路上的时候想起来了这个话题。之前有读者给我留言,问我在技术方向学习上有没有「捷径」。我之前写过几篇关于技术学习路线的文章,比如:《我们在学习Flink的时候,到底在学习什么?》《剑谱总纲
2021年6月15日
其他

标签体系下的用户画像建设小指南

了什么事,所以会打上某标签。用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型,同时该标签对该用户的重要程度也决定了用户标签的权重,进一步转换为公式:用户标签权重
2021年6月10日
其他

4万字长文 | ClickHouse基础&实践&调优全视角解析

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源我们在之前的文章中提到过ClickHouse:《腾讯基于Flink+ClickHouse的实时数据系统实践》《来自俄罗斯的凶猛彪悍的分析数据库-ClickHouse》Clickhouse
其他

数据仓库体系建模&实施&注意事项小总结

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源什么是数仓从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。这里我们会遇到一个问题就是同样是存放数据的仓库,那数据库和数据仓库是一样的吗?数据库
其他

【大数据哔哔集】Spark面试题灵魂40问

SparkContext向资源管理器(Standalone、Mesos、Yarn)申请Executor资源,资源管理器启动StandaloneExecutorbackend(Executor)
其他

360度无死角 | Pulsar与Kafka对比全解析

MoP。)批存储和事件流存储越来越多的企业需要及时做出决策,并迅速对变化作出反应,因此企业非常重视重要的实时数据。另外,集成、理解大量历史数据对展示业务的整体概况也至关重要。传统的大数据系统(如
其他

技术大牛成长之路

导读:曹乐,清华大学毕业,16年初加入滴滴,带领团队建设了滴滴网约车技术体系,现任滴滴网约车技术部负责人。面对技术团队同学的成长困惑,曹乐给同学们写过一封信,他从各个维度去阐明自己的见解与想法,帮助同学们不再局限于从技术视角去看待问题,而是拥有更广阔的视野与方法。他围绕如何成为技术大牛这一话题提出以下一些想法:寻找范式、刻意练习、及时反馈;垂直打透、横向迁移、深度复盘;聪明人要下笨功夫。在此再次分享给大家这封信的内容。很多同学都有关于工程师该如何成长的问题,大家普遍对如何成长为牛人,如何获得晋升,如何在繁忙的工作中持续学习充满了困惑,这其实是每一位同学成长过程中必经之路,在这里也想跟大家分享一下我的一些心得。同学们普遍对成长充满了焦虑感。工作太忙没时间学习,需求太多太琐碎感觉自己没什么进步,做技术是不是做到35岁以后就没人要了,等等,都是对成长焦虑的体现。这种焦虑是正常的,所有的渴望,在内心的投射其实都是焦虑。任何一个渴望成长的人,不管处于什么阶段,一线工程师,架构师,还是总监,副总裁,其实内心中都是充满了焦虑的,无一例外。对于这种焦虑,我们所要做的是接纳,而不需要过度担忧。这种焦虑并不是说,想明白如何成长了就会没有了,到了某个阶段就会没有了的。成长的脚步和期待一刻不止,内心的焦虑也一刻不会停歇。正是这种焦虑感,驱使你写代码追查问题到星夜,驱使你牺牲休息娱乐的时间和一本本厚厚枯燥的书作伴,驱使你不断努力向前,不舍昼夜。相反的,如果内心中没有这种焦虑,反而是值得担忧的。这可能说明已经习惯呆在自己的舒适区了。在现在这样一个高速发展的社会,以及我们这样一个高速发展和变化的行业,失去对成长的渴望和焦虑反而是一个非常危险的信号。所谓的程序员35岁危机,其实背后的根本原因是,有太多太多人在工作几年以后,就觉得自己什么都会了,之后的十几年工作只不过是头2-3年的简单重复而已。在我们这样一个行业里,在招聘的时候,如果摆在管理面前的两个人,一个是初出茅庐或刚工作2-3年,充满了对成长的渴望;另一个工作十多年了但水平和工作2-3年的人差不多,只是更熟练一些,不过在舒适区已经躺了十年了。如果负责招聘的是你,你会做出什么样的选择?而另一方面,其实是高端人才在行业内的极度极度稀缺,这在行业内是非常普遍的现象,真正的大牛太稀缺了。在这样一个行业里,如果一个人能够持续成长,能力和工作年限成正比的持续提升,这样的人,任何时候在行业里都是被疯抢,怎么可能会遇到任何年龄的危机呢?如何学习,其实是有方法论的,那就是刻意练习。所谓的10000小时成为大牛的理论是片面的,如果只是简单重复10000小时,是不可能成为大牛的。刻意练习包含了三个步骤。第一,找到你要学习的这个领域体系的范式(pattern);第二,针对每个范式刻意的反复学习和练习;第三,及时反馈。大家在过往的工作和学习生活中,或多或少都在实践着刻意练习。拿面临高考的中学生举例子,好的学生通常是把一门功课拆成了很多知识点(寻找pattern),然后针对知识点以及他们的排列组合,有针对性的反复做各种难度的题(刻意练习),每次做完题都对一下答案看看正确与否,如果错了就思考,记录,复盘(持续及时反馈)。这样的学习方法就是事半功倍的。而事倍功半的学习方法,就是不分青红皂白拿起一本习题或卷子就拼命做,我上学的时候身边不少同学非常勤奋但成绩并不好,多半都是这个原因。再举一个我最近在学打羽毛球的例子,正确的学习方法是把打羽毛球拆解成步法和手上动作,小碎步,米字步,正反手挑球,放网,正手和头顶高远球吊球杀球等(寻找pattern),然后针对每一个动作反复练习(刻意练习),然后请教练或者录下来看视频纠正自己的动作(及时反馈);而错误的学习方法是,上来就盲目找人打比赛,以赛代练,这样的进步是很慢的,而且错误的动作形成习惯以后未来反而很难纠正。当学习方法不正确的时候,刻苦的学习常常只是看起来很勤奋,并没有应有的效果。当接触一个陌生领域的时候,错误的学习方法是不带目的性,上来就找一堆相关的大部头开始啃。而正确的学习方法应该是快速梳理该领域的知识点,形成框架体系(寻找pattern),这里有些小窍门可以快速构建起一个领域的知识点体系,例如看一些该领域的综述性或开创性的文章(看论文,别瞎看网上的文章),或者找本该领域综述性的教科书看它的目录(注意,好的教科书的目录往往就是这个领域的知识框架,内容倒不一定非要看下去)。然后,针对每个知识点,找书里的相关章节,该领域相关paper里的相关section深入学习,建立起自己对这个知识点的理解(刻意练习)。最后,再把知识点和现实工作中的情况(自己工作,或其他公司相关的工作)进行对照(及时反馈),从而建立对一个知识点的深度理解,最后融会贯通建立对一个领域的理解。这样说可能有点抽象,拿我当年学习分布式存储的过程为例子,先结合自己的工作内容梳理出需要深入了解的知识点(例如,元信息组织,Meta
2021年5月30日
其他

为什么你的简历总是石沉大海?

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源今天聊一个很基本的话题。为什么你投出去的简历总是石沉大海?毫无音讯?或者是简单一轮沟通就没了下文?是你不够优秀吗?还是你的简历做的不够好?大多数情况都不是的。这种情况一般出现在规模较大的公司,在IT领域大家能叫得出来的那几家上市公司,或者是极具潜力的某一个领域的创业公司。我们直接说原因。首先,大多数空出来的公司岗位,内部消化掉了。以我经历过的情况来看,如果某一家公司有新的业务出现,或者新的赛道开辟。最先来应聘的是内部员工,也就是优先考虑内部转岗的员工。HR对这些人的个人信息了如指掌,并且有同事和Leader背书,是风险最小的招聘通道,而且绝大多数的公司都有内部转岗、活水通道。实在找不到人才会去网站发帖招聘,但是招聘甄别成本相当高。其次,内部推荐。绝大多数公司都会鼓励内部员工推荐自己的同学、前同事到新的岗位来。而且奖励颇丰。这个背后的逻辑是【优秀的人往往会和优秀的人在一起】。
2021年5月29日
其他

网易互娱的数据库选型和 TiDB 应用实践

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源一、业务架构简介计费组是为网易互娱产品提供统一登录和支付高效解决方案的公共支持部门,对内是互娱的各个游戏工作室,对外是国内外数百个渠道。由于业务场景的特殊性,我们为各个游戏产品部署了不同的应用服务,其中大产品环境独立,小产品集中部署。随着部门业务量的激增,单机
2021年5月27日
其他

数据仓库&数据指标&数据治理体系搭建方法论

指标体系生命周期生命周期主要包含定义、生产、消费、下线四个阶段。针对整个生命周期要持续做指标运维、质量保障,同时为了提高指标数据复用度,降低用户使用成本需要做对应的数据运营工作。3.
2021年5月26日
其他

八股文一文不值 | 云原生时代大数据的危与机

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源周末的时候,在网上看了周志明老师关于《云原生时代的Java》公开课,感慨颇深。周志明老师就不多做介绍了。我可以很负责的说,如果你没有听过周老师,那么你根本不是一个合格的
2021年5月25日
其他

硬刚Hive | 4万字基础调优面试小总结

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源本文基本涵盖以下内容:一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、Hive/Hadoop高频面试点集合(二)基于Hadoop的数据仓库Hive基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1.1
2021年5月23日
其他

如何打破职业瓶颈

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源前几天,有读者在后台提问,大体就是IT是典型的青春饭,如何选择自己的技术方向,如何能延长个人的职业生涯,充满了对未知的恐惧和疑惑。当然这个问题我没法从正面回答,因为我个人还没有经历。但是我能从我所见和所收集的信息中尝试解答一下。我从个人不够长的从业经历来看,我身边稍微年长一些的前辈们,大都还在程序的世界里摸爬滚打。一个运气不是那么差,头脑不是那么笨的开发者,如果你的技术能力过硬,在某一个行业都持续的积累,都可以成为这个领域的专家。所以我还真的没办法直接回答,如果不做技术了去做什么的问题。我觉得不如把这个问题换成,如何在年龄不是优势的情况下,保持个人的竞争力以及如何做好个人的职业规划。很早之前,我在网上看过池建强老师的分享,关于职业规划和打破职业瓶颈的课。我可以拿过来给大家分享。《拆掉思维里的墙》和《你的生命有什么可能》的作者古典给职业生涯发展做了定义:职业生涯发展指的是一个人有计划、有掌握、可持续的自我实现过程,而生涯发展管理的关键是提高效率,降低风险,保持可持续。如果探究到本质,职业生涯是一件非常简单的事情,它就是需要你反复地做这两个动作,对内自我探索,出结果;对外展示成果,做营销。说实话,营销这个词我不是很喜欢,但是一时间又想不出更好的词语描述它。为什么要这样,因为任何职业的选择都取决于你和组织之间谁的议价能力更强。各位可以从这个角度评估一下你自己和当前职位PK,谁的议价能力更强?古典老师也用了一个
2021年5月21日
其他

所谓数据治理

可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科学家和数据分析人员没有后顾之忧,放心地使用数据资产,降低因为数据不可用、不可信而导致的沟通成本和管理成本。
2021年5月19日
其他

快手大数据平台服务化实践

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点。第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解。第三部分是经验总结和未来思考。背景快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过API方式交付给业务方使用。数据开发工程师有两个痛点:1、开发数据服务门槛高;2、重复开发数据服务。痛点一:开发数据服务门槛高数据开发工程师除了开发完数据表外,通常还需要思考如下问题:1.数据如何交付:业务通常期望使用数据接口方式来使用数据,而非数据表,这会更加灵活、解耦、高效。数据开发工程师因此需要建立对应的数据服务。2.服务如何开发:数据服务有多种形式,通常要求开发工程师有微服务知识、服务发现注册、高并发等。3.权限、可用性问题:开发完数据服务后,需要考虑权限问题,确保数据资源能被安全的访问;此外还需要考虑可用性问题,要以多种手段保障数据访问的稳定性。4.运维问题:数据服务本身涉及多种运维问题,如扩容、迁移、下线、接口变更、服务报警等。以上问题都需要数据开发工程师去解决。这要求数据开发不仅仅是开发出数据表,还需要将数据表包装成一个独立的、灵活的、高可用的、安全的数据服务。这对于数据开发工程师要求很高:除了具备基本的业务需求捕获、数据建模、SQL开发等能力外,还要具备开发高可用、高性能的数据服务能力(包括java开发、微服务等)。痛点二:重复开发数据服务快手很多业务线(如支付业务、直播业务、账户业务等),都存在数据需求,各业务线都做着:1、数据同步到线上数据库和缓存;2、建设微服务等开发,其中不同业务线下,数据同步和微服务通常有很多共同之处,重复烟囱式的开发意味要重复开发数据服务,造成了人力资源浪费,而且开发效率低,从数据开发到最终交付数据服务,需要经历较长的周期。基于上述痛点,我们开始建设统一的数据服务化平台。由此开启一个新模式去解决问题。大数据服务化平台数据平台本身的定位是一站式自助数据服务平台。用户通过平台来创建数据服务接口、运维服务、调用服务。平台秉承“配置即服务”的理念:数据开发工程师不再需要手写数据服务,只需要在平台上进行简单配置,平台便可自动生产和部署数据服务,从而提升效率。系统架构大数据服务化业务架构如下所示,Data
2021年5月16日
其他

企业级一站式大数据开发平台理论及实践

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源前言本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文借鉴了众多网络上公开的案例和实践。旨在为大家提供建设一站式的数据平台的思路。一站式大数据平台,应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理,以及数据安全、运维监控等管理。使用户能够更有效地利用数据构建核心系统,加速业务创新。我们期待的一站式数据平台应该包含:一站式数据治理:提供数据仓库的构建,多样化抽取任务调度配置,实现业务数据/实时数据抽取清洗,并入库到数据仓库。同时,提供数据仓库数据高效的检索,满足数据的多样化查询需求。数据血缘分析:数据血缘分析是保证数据融合(聚合)质量的关键环节,通过血缘分析实现数据融合处理的可追溯。同时,可分析数据的数据价值。智慧数据目录:数据资产目录提供自定义目录编目、标签系统、资产快速检索,同时支持用户搭建全局知识库,沉淀业务理解。数据可视化:产品将图形语法产品化,用户无需掌握编程,简单拖拉拽即可进行可视化分析数据隐私:针对些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护我们用网易易数官网的典型架构图进行说明:图中从数据采集、存储、开发和业务支持提供了一站式的服务。并且在此之上支持了以下的数据产品:下面是几个典型的一站式数据平台的实施方案:微众银行一站式大数据平台建设方案微众银行基于海量数据、数据孤岛等痛点,微众银行的业务模式要求大数据平台解决方案必须:支持海量数据一站式的数据存储和用户体验符合金融级别的可靠性、安全性的要求自主可控低成本在明确大数据平台的目标和要求之后,微众银行形成了一个基于大数据生态的套件平台
2021年5月15日
其他

高屋建瓴 | 13页PPT讲述中台架构在阿里的实现!

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源本文整理了阿里几位技术专家,如架构总监谢纯良,中间件技术专家玄难等几位大牛,关于中台架构的几次分享内容,将业务中台形态、中台全局架构、业务中台化、中台架构图、中台建设方法论、中台组织架构、企业中台建设实施步骤等总共13页PPT精华的浓缩,供大家学习借鉴。01
2021年5月14日
其他

所谓数据模型

明细粒度事实层:以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。您可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理。
2021年5月12日
其他

所谓的数据质量

大数据开发、大数据面试、大数据框架、大数据实时计算、大数据离线计算Flink/Spark/Hadoop/数仓开发,干货,面试,资料下载,源码解读等
2021年5月11日
其他

Flink on YARN模式下TaskManager的内存分配探究

\xyz-1.0.jar该作业启动了10个TaskManager,并正常运行。来到该任务的Web界面,随便打开一个TaskManager页面,看看它的内存情况。
2021年5月10日
其他

业务和管理决定上限,技术决定下限

初级的时候我们可能只需要熟悉自己负责的系统,那么随着工作时间的增长,技术人员也应该熟悉所负责的整个业务的大的蓝图,甚至应该主动去了解其他公司是如何做的?我们能不能把经验借鉴过来。
其他

脱离ZooKeeper依赖的Kafka Controller Quorum(KRaft)机制浅析

经典Raft协议只定义了两种RPC消息,即AppendEntries与RequestVote,并且是以推模式交互的。为了适应Kafka环境,KRaft协议以拉模式交互,定义的RPC消息有如下几种。
其他

背景调查时在调查些什么?

还有一些常识问题,例如非本人无法查询社保、公积金等等,这些信息在专业的背景调查公司面前都不是问题。也会有人质疑背景调查的合法合规性,现在来看只要你签了背景调查意向书,那基本就是随便查了。
其他

缓存之王 | Redis最佳实践&开发规范&FAQ

buff跟每个客户端的连接有关系,正常情况下比较小,但是当Range操作的时候,或者有大key收发比较慢的时候,这两个区的内存会增大,影响数据区,甚至会造成OOM。还包括JIT
2021年4月28日
其他

【大数据技术与架构】2021年大数据面试进阶系列系统总结

独孤九剑-Spark面试80连击(下)https://blog.csdn.net/u013411339/article/details/100179469
2021年4月27日
其他

监控新星 | 实战Prometheus搭建监控系统

的健康检查up这条语句会查出Prometheus抓取的所有target当前运行情况,譬如下面这样:up{instance="192.168.0.107:9090",job="prometheus"}
2021年4月26日
其他

数据湖存储架构选型

大数据开发、大数据面试、大数据框架、大数据实时计算、大数据离线计算Flink/Spark/Hadoop/数仓开发,干货,面试,资料下载,源码解读等
2021年4月25日
其他

尝鲜!Flink1.12.2+Hudi0.9.0集成开发

-DskipTests注意:默认是用scala-2.11编译的如果我们用的是flink1.12.2-2.12版本,可以自己编译成scala-2.12版本的mvn
2021年4月24日
其他

实操 | Flink1.12.1通过Table API / Flink SQL读取HBase2.4.0

ratting=5.0}注意这里我们在Flink在SQL里面定义HBase的Table时,指定的字段都是用的STRING类型,虽然本来应该是INT,但是用INT的时候,报错了,改成INT就ok了。
2021年4月23日
其他

数据湖架构、战略和分析的8大错误认知

临时的“Ephemeral”:就像沙漠可以有小的、临时的湖泊一样,临时的数据湖“Ephemeral”也是短暂存在的。它们可以用于项目、试生产、PoC或者一个点解决方案,可以很快打开,也可以很快关闭。
2021年4月22日
其他

一致性哈希及其在Greenplum中的应用

1)的概率肯定是相对小的,也就是说随着j的增大,发生重分布的key的比例越来越小,j可以不必逐次自增,而是跳跃前进,这也就是算法名称中"jump"一词的由来。
2021年4月20日
其他

一万五千字详解HTTP协议

分块编码与持久连接若客户端与服务器端之间不是持久连接,客户端就不需要知道它在读取的主体的长度,而只需要读取到服务器关闭主体连接为止。当使用持久连接时,在服务器写主体之前,必须知道它的大小并在
2021年4月18日
其他

Spark如何协调来完成整个Job的运行详解

result.deserialize()Discussion架构部分其实没有什么好说的,就是设计时尽量功能独立,模块独立,松耦合。BlockManager
2021年4月16日
其他

最新Hive/Hadoop高频面试点小集合

有时虽然某个key为空对应的数据很多,但是相应的数据不是异常数据,必须要包含在join的结果中,此时我们可以表a中key为空的字段赋一个随机的值,使得数据随机均匀地分不到不同的reducer上。
2021年4月15日
其他

Spark Shuffle过程详解

的HashMap,内存+磁盘使用的是ExternalAppendOnlyMap,如果内存空间不足时,ExternalAppendOnlyMap可以将
2021年4月14日