数据社
其他
详解如何在数仓中管理元数据(文末彩蛋~)
年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理、数据挖掘(Data
2022年2月11日
其他
企业级数据仓库建设最新版(附16页文档)
数仓任务及时产出附目前完整脑图,还在持续更新中数据仓库建设规范(文档版)一哥答疑:数据仓库如何确定主题域?浅谈数据仓库质量管理规范关注本公众号,后台回复“规范”,即可下载数仓建设文档。
2022年1月7日
其他
数据体系的要义:贴源、规范、建模、标签、设计、建设....(82页PPT)
4万字基础调优面试小总结群友问题,如何面对繁杂的数据需求?关注本公众号,后台回复“数据体系”,即可下载。
2022年1月6日
其他
4万字长文 | ClickHouse基础、实践、调优全视角解析
(3,'bob','北京',33,'财务部',50000),(4,'tony','杭州',28,'销售事部',50000);当我们再次插入具有相同emp_id,name的数据时,观察结果INSERT
2021年12月28日
其他
硬刚Hive | 4万字基础调优面试小总结
Coordinator。其中PlanFragment由PlanNode组成,能被分发到单独的节点上执行,每个PlanNode表示一个关系操作和对其执行优化需要的信息。获取元数据与数据地址。Query
2021年12月22日
其他
周末写的数据库文章又被官方推荐了!
近期,数字化转型在业界提的很火热,数字经济规划作为单独篇章出现在了最新的十四五规划中,足以说明国家对数字经济的重视。那么对于我们数据人来说,这无疑是一个非常好的“风口”,可以让我们大展身手。那么对于做数据工作,特别是处理海量数据,有一款趁手的数据计算引擎,无疑是非常重要的。那么对于海量数据处理,今天给大家聊一聊
2021年12月16日
其他
数仓建设OneData体系
开发规范总原则原则上不能依赖非数据团队节点。未获得节点owner许可的情况下,不能擅自修改别人的节点。不能随意变更节点owner,必须知会接收人并得到同意。--END--关注下方公众号,回复
2021年11月23日
其他
自动化数据治理探索方案(附PPT)
即可下载完整版PPT~五个篇章讲明白如何从0到1搭建大数据平台一哥闲聊,如何成为优秀工程师90页PPT讲懂开源分布式流处理平台Kafka
2021年11月18日
其他
五个篇章讲明白如何从0到1搭建大数据平台
大家好,我是一哥,整理了一下之前写的搭建大数据平台的5个篇章,请大家收藏,文末可以获取完整PDF版本。01如何从0到1搭建大数据平台大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的搭建门槛也越来越低。借助开源的力量,任何有基础研发能力的组织完全可以搭建自己的大数据平台。但是对于没有了解过大数据平台、数据仓库、数据挖掘概念的同学可能还是无法顺利完成搭建,因为你去百度查的时候会发现太多的东西,和架构,你不知道如何去选择。今天给大家分享下大数据平台是怎么玩的。00
2021年11月4日
其他
实操 | Hive 数据倾斜问题定位排查及解决
进入主页,点击右上角“设为星标”比别人更快接收好文章多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在
2021年10月30日
其他
90页PPT讲懂开源分布式流处理平台Kafka
Manager:该监控工具更偏向于对kafka集群的管理,也有监控;https://github.com/yahoo/kafka-manager/releasesKafka-eagle:
2021年10月20日
其他
流批一体大数据在资产租赁SaaS服务中使用
来源:zhisheng全文共8862个字,建议阅读23分钟目录流水查询需求什么是实时数据即时查询系统架构实现扩大业务覆盖率实时离线一体化系统之技术架构实时离线一体化系统之数据流实时离线一体化接入数据仓库分层规范化预计算方案(Kylin+Kudu)实时离线开发统一访问数据入口透明的数据分层存储展望未来00流水查询需求基于TB级的在线数据,支持缴费帐单明细在线查询。大家都知道,像银行帐单流水一样,查几年的流水是常有的事。支持的维度查询:帐期、欠费状态、日期范围、费用科目类型、房屋分类、房屋所属项目、关联合同信息、统计列。01什么是实时数据实时可以分为:实时采集、实时计算、高性能,低延时的产出结果数据。实时数据指从源系统中实时采集的数据,以及对实时采集的数据进行实时计算直接产生的中间数据或结果数据。实时数据具有时间有效性,随着时间的推移,实时数据会失效。02即时查询系统房屋租赁费用、水电费用、物业管理费用等数据的有效期,一般是不定的,比如办公租赁可能预交费用5年、10年。那么这种数据,对于业务来说,仍然属于线上数据,是不可归档的数据。
2021年10月8日
其他
从看《长津湖》想到的数字化转型
作者:数据一哥,来源:数据社全文共2631个字,建议阅读10分钟大家好,我是一哥,今天聊一聊传统企业的数字化转型。00前言国庆期间看了《长津湖》,影片真心不错,好久没看到过这么能拉动你情感的电影了,近3个小时,完全处于“憋尿状态”看完,杜比的影音效果也很好(座位也超级舒服!)。看着前半部分,进入战场局面,心里只想到了一个词——“降维打击”,最后靠着人民必胜的信心与智慧,赢得了这场实力悬殊的战争。但我今天想说的是数字化转型,如果现在传统企业不及时进行数字化转型,那将来面临的必定是转型企业和互联网企业的“降维打击”!01数字化转型概述相信2021年很多企业都在搞数字化转型,特别是传统企业,领导层已经意识到必须要转型了,为什么会有这种意识?首先,肯定是看到了一些企业转型有了大的收益,比如美的;另外,这两年的疫情也加速了数字化转型的进度,可以看到一些线上营销或者“会员制”的良好运营,为企业带来了正增长的收益;最后,你会注意到最新的国家十四五规划全文中,“数据“这一词汇提到了53次,同时也多次提到了数字化转型。如果国家的政策方向有这块,那么数字化转型的成为必然趋势,也必将会成功。那么,数字化转型该怎么转呢?数字化转型与传统信息化dd
2021年10月7日
其他
我怕你们读到这本书
作者:数据一哥,编辑:数据社全文共1992个字,建议阅读5分钟中秋节前,领导给我买本书,让回去读一下,三天假期,也没想着读几页,但是竟然用不到一个下午看完了,里面讲解的一些故事和“道理”还是很有道理的。就是这本!01一句话读《商战》这本书的整个逻辑,是将商场比做战场,将公司分为四种类型的公司——行业领导者、大型公司、中小公司、区域小公司,针对这四种类型,对应的战术——防御战、进攻战、侧翼战、游击战。02现代化商战战场从古至今一直随着社会的发展而变化,从远古时期可能就互相扔石头。第一次世界大战成为了真正意义上的现代战争,出现了威力巨大的新式武器(例如坦克、空袭、大规模杀伤性武器等),直到最后原子弹终结了战争。作为小弟的我们,很多时候都会听到领导们说“商场如战场”,其实还真是如此,营销的媒介也不断发展,改变了竞争的方式。最早的时候挑个担子沿街叫卖就好了,小时候“磨剪子戗菜刀”的吆喝声,你还记得吗?(暴露年龄…)现在各种整合营销,无处不在,当你下班坐上地铁,一路上看到无数“大灯广告屏幕”;回家坐上电梯,除了电梯门那一边,剩余三面各种广告;回到家打开电视,先来15秒开机广告……营销无处不在!03商战三要素顾客“顾客是上帝”这句话已经家喻户晓,但现在的市场,这句名言已经不再通用了。现在的顾客已经越来越聪明了(都是被很多无良商家欺骗的成长),商家和顾客很难建立一种信任关系,所以顾客首先考虑的就是我花的钱到底值不值,商品的“创意”显得尤为珍贵,但是售后服务是加分项。产品以前人们的需求都是显性的,服务商只要生产出产品就可以了。这个时代,你通过调研客户需求,很容易设计一款畅销产品,比如需要远程通信,于是电话出现了。现在,你会感觉人们的很多需求都已经被满足了,很难通过“调研客户需求”直接设计出畅销产品,这里也想对现在的产品经理说一句,不能仅仅以客户的需求出发设计产品,因为客户永远无法知道他自己真正要的是什么,产品经理需要综合客户的需求发现客户“潜在的需求”。所以,现在各大商家都在绞尽脑汁发现人们的“潜在需求”,进而满足顾客。竞争对手现在看以前面对的竞争对手,都感觉很“真诚”,都是硬碰硬,不服直接开干就好了。现在面对竞争对手,都在讲究战略,有时候你会发现很多公司,今天还在风光,明天可能因为一个网络舆论,就暴了各种雷,这两年看了应该不在少这样的例子了吧。可以说,现在竞争不再“按套路出牌”。04商战策略本书中提了几种战争策略:防御战、进攻战、侧翼战、游击战。防御战1.只有市场领先者才应该考虑防御,顾客脑中的领先者才是真正的领先者。2.最好的防御战略是进攻自我,这里的进攻自我,可以更好的理解为创新同类产品,毕竟活动的靶子比静止的靶子更难击中。腾讯是个很好例子,有了QQ,但是还开发出了微信,毕竟把生意从自己手中抢走,总比被别人抢走强得多。进攻战进攻和防守就像八卦里阴阳的关系,适合这一战术的公司就是处在市场第二、三位置的大公司(其实很多公司处在这一阶段)。1.重点考虑领先者在市场中的优势这也就是我们做产品之前经常要对标,看看别人哪里做的优秀,能不能“抄”一下,突然又想起来了TX……2.在领先者的优势中找弱点,并向这一弱点发动攻击就像之前滴滴几乎垄断了打车行业,滴滴是共享经济,它的优势是利用了闲置的汽车资源,大家打车就方便了。但是,还有一些企业发现了这样并不很安全,于是专车模式出现了,涌现出了一批强者。侧翼战比较适合一些中小公司,但是要有钱。1.在无人竞争的地区展开无人竞争,意味着无人防守,无人防守,意味着市场需要重新开发,勇于当第一个吃螃蟹的人,或许是唯一强大起来的途径。2.在顾客注意不到或不关心的方面降低成本,不露声色这几年可以看到共享经济是发展趋势,未来越来越多的产品会变成免费,那么就需要重新寻找能够赚钱的地方,比如服务。也依然成为了很多创业公司的套路,先免费获取客户,然后再“割韭菜”。游击战这个策略是不是听着非常熟悉,小时候看过《地道战》的同学可以举手了(暴露了年龄…)。伟大的军事家毛爷爷说过:“敌进我退,敌驻我扰,敌疲我打,敌退我追”。这个策略就不过多解释了,不懂就多看看近代史。05阅后推荐语总体来说,本书作者很好的运用了军事原则——“集中优势兵力歼灭敌人”,商业上也是如此,只是不同的角色在面临具体的情况时候,需要选择不一样的环境进行。书中的案例非常多,各种案例把不同竞争态势下的应对策略都一一的进行了分析归纳解读,无论对大公司还是个人创业或者个人职业发展,都有很强的借鉴意义。虽然我们现在很多都不是企业的直接领导者,但是还是推荐大家阅读一下,也许总有一天能够用到的~
2021年9月21日
其他
两万字Flink笔记
DataStream,两个或多个数据流的合并,创建包含来自所有流的所有数据元的新流。如果将数据流与自身联合,则会在结果流中获取两次数据元。dataStream.union(otherStream1,
2021年8月25日
其他
数仓治理:数据地图长什么样?
大家好,我是一哥,最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。图:来自亿信文章分为以下四个部分:1.
2021年8月13日
其他
面试官系列:谈谈你对Flume的理解
大家好,我是一哥,今天给大家分享一下Flume的面试点,按照这个回答,面试官会吐血,哈哈!01Flume起源Flume最早是Cloudera开发的实时日志收集系统,最早的时候Flume的版本称为Flume
2021年6月11日
其他
面试HDFS技术原理
Client联系NameNode,确认数据写完成,NameNode持久化元数据。HDFS数据读取流程:HDFS数据读取HDFS数据读取流程如下:业务调用HDFS
2021年6月7日
其他
基于Flink CDC打通数据实时入湖
照片拍摄于2014年夏,北京王府井附近大家好,我是一哥,今天分享一篇数据实时入湖的干货文章。在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache
2021年6月4日
其他
郑州有哪些牛逼的互联网企业
大家好,我是一哥,最近看到有号主整理的武汉和成都的互联网公司,一哥也想整理一下郑州的“互联网”公司,在郑州其实叫“IT公司”更合适,希望能给一线城市想回郑州的读者一些帮助。虽然郑州互联网公司不多,但是也有一些还可以的IT公司,今天就给大家分享一下,如果有遗漏,可以在评论区补充,想要内推岗位,可以关注【数据社】,添加我的个人微信发送简历。声明:公司排名不分先后!声明:公司排名不分先后!声明:公司排名不分先后!中移在线注册地位于洛阳,研发中心在郑州高新区长椿路,附近有地铁口,中国移动的全资子公司,是以前各个省公司下的10086客服中心合并成立的,被称为“互联网国企”。有很多一线大厂回来的技术人员,平台大,技术合作厂商比较多,包括亚信、东方国信、科大讯飞、浪潮等,可以了解很多方面的技术。主要项目:主要是移动客服相关数据业务,为中国移动客户服务运营支撑,数据量还是很大的。岗位:数据工程师、数据分析师、测试、算法工程师、系统运维、开发工程师、产品经理都有招聘。可帮忙内推简历!中原银行办公地点:数据银行部在东区行署国际楼上,河南省属法人银行,这几年崛起的郑州本地银行企业,主要是之前城镇银行的合并,发展很快,还有个中原消费金融公司。属于国企,技术方面也挺好的,因为工资开的还可以,所有对郑州的IT人员还是很有吸引力的。主要项目:银行相关业务,信用卡,小额贷款等业务岗位:数据工程师、数据架构师、Java开发、产品经理、产品运营可帮忙内推简历!新华三办公地点:郑州高新区西四环外,郑州的大厂,主要是做一些政务相关的业务,郑州这边有大数据的研发中心,人还挺多的。如果你在郑州高新区定居,去这里上班也挺好的,旁边规划的还有双湖科技城,旁边住宅有万科城。主要项目:政务相关,智慧城市解决方案教育类项目岗位:智慧城市架构师,售前解决方案、大数据开发工程师可帮忙内推简历!UU跑腿办公地点:金水路英协路楷林国际,郑州时空隧道信息技术有限公司(UU跑腿),是郑州同城快递行业的先驱者,可以说是真正的郑州互联网公司,如果公司总部在北上广深的话也许融资情况就很好了。主要项目:同城跑腿快递,快递和你点外卖一样快~岗位:数据开发、前端工程师、高级Java工程师、算法工程师、Python开发、高级产品经理、高级UI设计师可帮忙内推简历!宇通客车办公地点:紫荆山南路宇通路(紫荆山路南三环附近),客车行业的龙头老大,在智能网联和自动驾驶方面也发展的很好。做IT很低调的一家公司,技术实力很强,听说强制员工不加班!主要项目:新能源客车、车联网、智能网联、自动驾驶岗位:java开发、大数据开发、数据分析师可帮忙内推简历!郑州银行办公地点:郑东新区,港股上市银行,郑州老牌银行企业,听朋友说IT团队不加班~主要项目:银行业务相关岗位:科技开发岗、产品研发岗可帮忙内推简历!浪潮办公地点:熙地港附近,老牌信息技术公司,卖软件、卖硬件、卖解决方案,以前和政府合作过较多的项目。主要项目:面向企业建设IT解决方案,很多传统企业。岗位:大数据开发、政府解决方案类数字郑州办公地点:郑东新区新发展大厦,阿里和郑州政府合作成立的一家公司,主要做郑州的智慧城市建设,去年疫情做了很多产品,帮助很大,不得不说阿里的智慧城市解决方案还是有一套的。面试一般有四轮吧,两轮技术面试,不过项目紧的时候常有加班,但是工资在郑州开的也还可以,想回郑州体验阿里文化的可以了解一下。主要项目:郑州智慧城市建设岗位:解决方案架构师、数据工程师、数据产品经理、java开发、数据咨询架构师可帮忙内推简历!APUS麒麟合盛网络技术股份有限公司,互联网独角兽企业,在郑州有研发中心,据说是全球第二总部基地。比较大的互联网企业,在郑州有完整的团队,工资水平也还可以,可以尝试下~主要项目:APUS桌面、APUS加速、APUS应用雷达岗位:大数据开发、数据仓库高级工程师、java开发中讯设计办公地点:碧沙岗附近,国企,中国联通全资子公司,提供数据中心、智慧城市、云计算、大数据及物联网和产业互联网等新兴领域质量佳、服务好的技术咨询与设计。主要项目:中国联通全资子公司,联通运营商相关产品开发运营。岗位:AI算法工程师、测试工程师、云计算研发工程师、前端架构师、产品经理、架构师信产投办公地点:东区龙子湖,河南投资集团发起设立的全资子公司,国企。河南省政务云建设主体公司,下属有很多子公司,部分还存在竞争关系,不知道最后能够有几个生存下来。总体来说,靠谱国企,跟对老板也许可以养老!信产投承接的是河南省的政务建设,数字郑州目前主要是郑州的城市大脑建设,还有一个正数科技,其实存在竞争关系。主要项目:河南省政务系统建设,大数据建设等岗位:大数据工程师、项目经理可帮忙内推简历!信大捷安办公地点:金水区杨金路,国家商用密码体系为技术核心基础的信息安全企业,致力于移动互联网、物联网信息安全领域产品的研发、生产、销售,主要产品是以国密安全芯片为基础的安全终端类产品、安全平台类产品。主要项目:移动互联网、物联网信息安全领域产品的研发、生产、销售,主要产品是以自主国密安全芯片为基础的安全终端类产品、安全平台类产品。岗位:嵌入式开发、Java开发威科姆科技办公地点:郑州市高新区莲花街。国内领先的教育信息化和北斗卫星应用研究企业,围绕教育行业做的产品较多。主要项目:多媒体教室方案,移动教学岗位:测试工程师、java开发、前端开发、产品经理中科院大数据研究院办公地点:金水区龙子湖,中科院计算所与郑州市政府共建,研究大数据与智能计算相关技术,加强技术与应用融合,促进科研与产业结合,构建大数据产业链、价值链和生态链。这个真的是中科院的下属机构,听说这种几个是不会黄的~主要项目:与高校、政府合作,开展大数据应用岗位:数据中台负责人、大数据工程师、前端开发、算法工程师可帮忙内推简历!牧原股份办公地点:郑东新区绿地双塔,全国养猪第一大户!近两年猪肉价格大涨,牧原现金流很充足,正在极速扩张。IT团队已经成型,听说表现好了可以给员工发股票!主要项目:智能化养猪岗位:大数据架构、大数据开发、算法工程师、java开发可帮忙内推简历!郑州珑凌科技有限公司公司规模不大,但是盈利能力极高,福利待遇也挺好,在郑州做的挺良心的一家公司。主要项目:玲珑网游加速器岗位:产品经理、运维工程师、伊拉看书办公地点:西三环大学科技园,打造优质动画阅读平台。主要项目:咿啦看书岗位:产品经理天迈科技办公地点高新区西四环外,智慧交通和智慧充电综合解决方案提供商,和郑州公交有多年关系,以前办公地点就和郑州公交在一起。公司整体有硬件、软件、解决方案提供,在交通方面还是很有实力的主要项目:BRT解决方案、车载视频监控平台,交通项目相关。岗位:java工程师、前端工程师、嵌入式工程师建业办公地点:郑东新区商务外环,建业这家公司应该不用过多介绍,
2021年6月2日
其他
结合公司业务搞懂数仓建设
这样正向流动,可以防止因数据引用不规范而造成数据链路混乱及SLA时效难保障等问题,同时保证血缘关系简洁化,能够轻易追踪数据流向。在开发时应避免以下情况出现:数据引用链路不正确,如
2021年6月1日
其他
数据湖比数据仓库香在哪?
上图是我拍摄于2016年冬天的大理洱海大家好,我是一哥,昨天分享了老彭的一篇关于数据湖引擎干货文章《数仓的未来到底是什么?》,有小伙伴留言问了下面的问题:碰巧的是,昨天下午刚好面试一个同学,简历中他提到了数据湖,我就问了一下,发现他做的其实是数仓,应该只是凑个技术热度……。想要解决上面读者留言的这个问题就要理解数据湖到底是能干什么的以及数据湖相比数据仓库的好处在哪?一哥早期看过一篇外文,讲的不错,今天给给大家分享一下。01什么是数据湖引擎数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。数百万数据消费者使用的工具,如BI工具、数据科学平台和仪表板工具,假设所有数据都存在于一个高性能的关系数据库中,当数据在多个系统中,或者在非关系存储(如ADLS、Amazon
2021年5月26日
其他
数仓的未来到底是什么?
前言前两天,我详细剖析了一下这两天脉脉上很火的数据建模帖子。指出来帖子里百度小哥“只见宽表不见建模”的核心原因是整个数据圈的核心逻辑变了。然后就引起了建模群里一帮人在疯狂吐槽。也有大厂的数仓大佬高屋建瓴,指点江山,侃侃而谈。为啥吐槽?因为我们知道,这再也不是以前数据至上、工程为先的俄罗斯方块游戏了,而是客户至上、业务为先的神庙逃亡游戏。但是绝大多数企业的数据仓库工程师,究竟还是沦落到拉宽表的境地。大清都亡了,你上哪找辫子去啊?玩法变了早些年,业务变化还没那么频繁,战略是一年定一次,KPI
2021年5月25日
其他
网易湖仓一体的探索与实践
应对多种上层应用场景的基础。而要在分布式海量数据存储上实现数据更新和删除功能,我们首先要面对的问题是:如何高效的定位所需修改/删除的数据?一种方案是维护所有数据的主键索引(比如通过文件级
2021年5月14日
其他
数据人如何提高核心竞争力
大家好,我是一哥,最近几个小伙伴私聊问题数据人的未来在哪里,天天提数,接需求,看不到头。今天结合自己的一些经验来给大家谈谈,每个人的路线不一样,仅供参考哈,有不同想法的可以在评论区留言让我看到哈~1
2021年5月11日
其他
【数据文化】Uber的数据治理
我们重新组织了移动分析事件的模式,并允许生产者和消费者将自己添加为强制评审者,以避免在没有适当评审和通知的情况下进行更改。我们还构建了一个移动日志测试框架,以确保数据测试在构建时运行。强制所有权:
2021年5月7日
其他
2万文字,一文搞懂Kafka
放到DelayedOperationPurgatory(延时管理器)中。假如在30秒之前如果所有follower都写入副本到本地磁盘了,那么这个任务就会被自动触发苏醒,就可以返回响应结果给客户端了,
2021年5月3日
其他
数据人上班划水都聊什么?
设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,今天上午数仓专业群里讨论的格外火热,中午11点得空看了一下几百条消息,想了下,一定是发生了有趣的讨论,现在一哥就带你一起回顾下~
2021年3月31日
其他
饿了么元数据管理实践之路
本文转载自dbaplus社群讲师介绍王金海饿了么大数据平台架构师多年大数据平台开发架构实践,曾在唯品会担任人群个性化推荐研发工作;目前主要负责饿了么大数据平台的调度系统和元数据系统架构研发。一、背景大数据挑战大数据时代,饿了么面临数据管理、数据使用、数据问题等多重挑战。具体可以参考下图:数据问题:多种执行、存储引擎,分钟、小时、天级的任务调度,怎样梳理数据的时间线变化?数据使用:任务、表、列、指标等数据,如何进行检索、复用、清理、热度Top计算?数据管理:怎样对表、列、指标等进行权限控制、任务治理以及上下游依赖影响分析?元数据定义与价值元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;数据分析时,使用数据图谱进行字典检索;根据表名查看表详情,以及每张表的来源、去向,每个字段的加工逻辑;提供个人或BU的资产管理、计算资源消耗概览等。开源解决方案WhereHows是LinkedIn开源的元数据治理方案。Azkaban调度器抓取job执行日志,也就是Hadoop的JobHistory,Log
2021年3月30日
其他
一哥闲聊:畅想数据湖
Flink在顺丰的实践应用.ppt小米用户画像实战(附48页PPT)趣头条ClickHouse实战.ppt基于Flink构建实时数据仓库.ppt京东金融大数据平台架构(附82页PPT)福利时刻01.
2021年3月23日
其他
京东金融大数据平台架构(附82页PPT)
Flink在顺丰的实践应用.ppt小米用户画像实战(附48页PPT)趣头条ClickHouse实战.ppt基于Flink构建实时数据仓库.ppt福利时刻01.
2021年3月15日
其他
收藏,HBase巡检的Checklist
的最大大小hbase.regionserver.global.memstore.upperLimit,hbase.regionserver.global.memstore.size:默认值0.4
2021年3月13日
其他
快手超大规模集群调度优化实践
导读:随着公司业务的快速发展,离线计算集群规模和提交的作业量持续增长,如何支撑超大规模集群,如何满足不同场景的调度需求成为必须要解决的问题。基于以上问题,快手大数据团队基于YARN做了大量的定制和优化,支撑了不同场景下的资源调度需求。今天的介绍会围绕下面四点展开:调度相关背景及快手数据规模与场景快手调度器Kwai
2021年3月10日