BAT大数据架构

其他

阿里算法工程师的工作总结

上也确实拿到了一定的涨幅,但是一上线人就懵了,在线指标跟online模型一模一样。后续跟朋友、师兄的讨论才明白了,渠道特征本质上是环境特征。这一部分特征,让模型可以分辨高
2022年4月15日
其他

《LeetCode刷题答案》pdf

很多朋友在后台留言说,刷LeetCode上的数据结构+算法题时难免会遇到困难,想要找一本答案题解做参考。其实几个月之前,咱们这里已经分享过一本《LeetCode算法题的PDF版题解》,只不过当时那个是Go语言版本的实现。今天应大家的要求,分享一本由谷歌大佬(https://github.com/soulmachine)所撰的《LeetCode算法题解+代码》,里面包含了详细的题目分析+详细代码答案且已开源,可作为刷题的辅助和参考,格式为PDF,方便阅读,也方便打印出来学习。如何获取资源扫描二维码回复
2022年3月24日
其他

数据治理标准化白皮书.PDF(附下载)

个方面,如下图所示:3、提出数据治理标准化体系运行机制(1)设立数据标准化工作机构数据标准化工作是一项整体性活动,设立工作机构是系统、全面、可持续开展数据标准化和数据治理
2022年3月22日
其他

阿里巴巴数据中台实践(PPT)

PS:公众号读者福利文末即可下载完整ppt01中台模式驱动全集团业务阿里的“大中台、小前台”战略,驱动着:新零售、金融、物流、营销、旅游、健康、大文娱、社交八大战略。而中台架构,也逐渐升级成为“数据中台+业务中台”,即“双中台”战略。大家耳熟能详的,淘宝、天猫、聚划算、盒马、阿里健康等业务,背后都有中台架构的支撑。02数据驱动业务的典型场景以《微微一笑很倾城》这部剧为例,这部剧播放10天破60亿播放量。在购买决策以前,通过舆情分析、文学内容排行榜监测,锁定了题材和内容的受关注程度,就找到了符合标签特性的《微微一笑很倾城》。这部剧在视频平台播出期间,分析了第一波追剧的观众标签画像,将该剧推荐给有类似标签的人群,观众基数越滚越大,形成了现象级热播剧。同时,根据观众留言标签聚合,又找到了类似的剧集进行购买,把这一题材剧集及时推出,也取得不错的播放率。03阿里数据中台体系的核心要素阿里数据中台体系核心要素包括:数据资产化、创新敏捷化、平台智能化、服务产品化。04数据中台:数据资产化OneID体系,以业务/自然对象+萃取标签为架构构建,实现统一数据,即:用户统一、企业统一、商品基础数据统一等等。OneData体系,以业务板块+业务过程+分析维度为架构构建,业务数据指标维度的统一,杜绝一个指标多种定义。实现数据的统一采集,接入等。
2022年3月19日
其他

华为数据治理之旅.PDF(附下载)

关注【BAT大数据架构】公众号,加我微信:bat6188,附截图发送PDF完整版。华为数据治理之旅▼因篇幅太长,剩余内容请下载原文阅读。如何获取资源扫描二维码回复
2022年3月18日
其他

PPT | 数据治理方案与体系框架

当前大多传统企业的数据中台建设还处于初级阶段,但随着移动互联网的发展、线上线下融合,数据服务的形式、场景开发增多,业务维度更加复杂,数据中台建设面临更多挑战,主要表现如下:数据缺乏标准与规范,难以有效集成与使用数据中台需要集成内外部、各系统的数据,只有建立一致的数据规范,通过统一的模型容器,才能实现数据有效整合,避免数据误入“形合神离”的窘境。数据可信度偏低,导致数据不可用、不敢用数据中台的数据来源为内外部的系统,其数据完整性、时效性、真实性都有待评估和度量,只有在数据中台建立完整的数据质量评估、问题发现、整改的机制与流程,避免数据“垃圾进,垃圾出”,才能不断提升数据中台的数据质量,使数据使用人员逐渐增强对数据中台所导出和展现数据的信任。数据没有业务视角的展现方式,业务人员不会用随着企业级数据应用的深入,风险、运营、营销等岗位的业务人员,需要更多的运用数据分析技术,因此了解和掌握数据情况变得尤为重要。而传统的开发人员所用的数据模型或者数据字典,作为一种描述数据的方式和语言,缺乏与业务场景的结合,偏重于技术角度,比较难于理解和应用。数据不可溯源,跟踪数据处理过程困难数据中台为了能实现数据整合与高效应用,以及指标计算的复杂性,往往会进行多层的数据处理。而且数据处理的逻辑往往只是在程序或者文档描述中,存在结构化差、描述不全、不及时、不准确等情况。但数据中台所支持的应用越来越多,采集的数据也越来越多,加工过程会越来越复杂。因此对于数据来源路径分析、数据问题跟踪分析方面,工作量大且极为困难。建议在数据中台加强数据治理,在数据标准、数据质量、元数据、数据安全方面,持续应用数据管理的工具与方法,推进数据治理工作,并将数据治理与数据中台运营管理过程相结合,有效持续提升数据中台的数据质量,加强数据中台服务能力,实现银行数据价值,支撑企业数字化转型。资料下载了解更多数据湖的内容,欢迎扩展阅读:如何搭建数据指标体系?SQL优化之数据倾斜解决案例全集4w字,全面详解数据仓库、数据湖、数据中台大爱三连击
2022年3月16日
其他

SQL优化之数据倾斜解决案例全集

size(xxxx)的数据占了绝大多数,导致我们匹配回去无法有效的筛选出少量结果。我们必须找到一个能有效区分各行数据的字段,这个字段的值必须很松散。最后我发现比较好的是userid。因此将
2022年3月9日
其他

4w字,全面详解数据仓库、数据湖、数据中台(建议收藏)

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。1.1
2022年3月8日
其他

大数据湖体系规划(PPT)

往期推荐干货!一文详解数据标准管理粉丝最新整理的大数据面试题来拿!数据仓库建模指南系列视频教程(超详细)B站基于Iceberg的湖仓一体架构实践元数据管理指标管理与元数据管理平台腾讯公布
2022年3月3日
其他

新型大数据解决方案,数据湖如何建设?

每天7:37发文,我们不见不散!点击下方关注我们,星标或置顶哦点击关注【BAT大数据架构】大家好,我是Tech-Y(花荣)随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“数据湖”应运而生。01
2022年3月1日
其他

粉丝最新整理的大数据面试题

贝壳找房1.公司是否有做生命周期管理2.为什么要做生命周期管理3.为什么使用parquet列式存储?为什么不用别的?4.orc,rc,parquet列式存储有什么区别,底层存储的内存是否是连续的?5.为什么orc有索引就一定快?我答了orc的构成,他随后问到的6.hive的优化7.说提前使用combinehiveinputformat,那么具体是怎么实现的?这个inputformat是什么东西?有几种格式?8.你刚刚说开启数据倾斜时负载均衡,那么具体是怎么实现的?不能只说个大概,要说用mr是怎么实现的9.什么是维度建模,为什么要维度建模10.为什么要维度退化,维度退化有什么好处?11.kylin的构建算法光说个概念不行,会问你逐层构建每轮mr做了什么,要讲清楚,否则会一直问,我说不会,他还是追问了下。12.拉链表
2022年2月21日
其他

湖仓一体架构构建与平台应用实践(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!数据仓库适合存储结构化的、信息密度高的、经过处理后的数据。例如我们通过大数据分析得到的关联信息、画像信息等,都可以放在数据仓库中。“仓库”一词也将它的特点表现得清清楚楚。仓库,东西要放在规整的货架上,甚至还会给货架编号。这里的数据很规范,用起来没那么灵活。数据湖适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到数据湖中。曾经有一段时间,大家对于大数据的存储形式分裂为了两派。不断询问是选择数据湖,还是选择数据仓库?选择数据湖,才能拥有数据的多样与灵活,有利于将不同的数据组合在一起,发现新的规律。选择数据仓库,才能拥有数据的规范与清晰,有利于数据的便捷使用,也利于数据的长时间存储。湖仓一体,即打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。这就像是在你的面前放了一个摆满了文档的书桌(数据湖),也放了一个小书架(数据仓库)。于是两者的数据以随意获取,在灵活与规范之间取得了平衡。下面这份PPT材料来自DAMA中国,专题分享活动《湖仓一体,构建企业数字化新基座》,作者数据科学家毛亮坚老师,主要介绍了大数据平台架构演进、详细阐述湖仓一体架构构建与探索思路、湖仓一体化平台应用实践案例、最后提出了湖仓一体化平台未来发展趋势,推荐给大家阅读。据统计,99%的数据大咖都关注了这个公众号👇往期推荐数据湖元数据治理实践(PPT)腾讯大数据安全体系(PPT)主数据管理方法论与实践(PPT)数据治理体系架构方案(PPT)数据中台建设方案及实施路径(PPT)阿里大数据OneData体系架构(PPT)数据仓库实施步骤与建模体系(PPT)
2022年2月8日
其他

详解数据仓库分层架构

朋友圈,是对我们最大的支持点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!
2022年2月7日
自由知乎 自由微博
其他

数据中台建设方案及实施路径(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!数据中台不是凭空而来的,它是企业的应用、数据、业务发展到一定阶段的必然产物。当企业进入大数据阶段以后,会发现当需要报表或者其他数据分析结果时,还是需要自己来处理,在速度上就稍微慢一点。而随着互联网经济的发展,数据中台应运而生,数据中台可以更加快速的去支撑前端的业务,也就是数据业务化,数据中台通过数据的抽象、共享、复用的能力,快速的支撑前端业务的发展。中台具有四种能力,首先是对流程和数据的抽象、共享、复用。其次,中台是对接口和数据资源的编目、管理和交换。第三,中台具有对上层应用快速整合和拼装的能力。第四,中台规范开发行为、数据行为、交换行为。中台必须具有上述的四种能力,缺一不可,否则它就不是一个真正的中台,而可能只是一个大数据平台。中台更是一种思想,是一种文化,它一定会在整个公司的各个部门,各个流程上有所体现。据统计,99%的数据大咖都关注了这个公众号👇往期推荐2021最新大数据白皮书(附下载)数据资产管理实践白皮书5.0正式发布(附下载)30页PPT|DAMA-DMBOK2.0数据管理知识体系指南主数据管理解决方案(PPT完整版)数据治理体系架构方案(PPT)125页PPT《华为数据之道》数据治理:数据质量提升十步法(PPT)数据仓库架构、模型、调度、指标建设方案(PPT)♧
2022年1月28日
其他

腾讯大数据安全体系(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!关注【BAT大数据架构】公众号,加我微信:bat6188,发送PDF完整版。导读:PPT短小精悍,每一页每个字都是纯干货!建议收藏转发到朋友圈。据统计,99%的数据大咖都关注了这个公众号👇♧
2022年1月26日
其他

数据分析知识图谱

点击上方蓝字设为星标每天发文07:37一起成长!1、数据分析步骤地图2、数据分析基础知识地图3、数据分析技术知识地图4、数据分析业务流程5、数据分析师能力体系6、数据分析思路体系7、电商数据分析核心主题8、数据科学技能书知识地图9、数据挖掘体系10、python学习路径11、线下店铺数据分析12、小程序数据分析13、用户分析14、用户画像法15、Excel常用公式16、Excel透视表17、数据分析图表18、MySQL19、统计学20、回归分析方法注:部分导图来源于网络,本文仅作学习分享,侵删。据统计,99%的数据大咖都关注了这个公众号👇♧
2022年1月25日
其他

数据仓库实施步骤与建模体系(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!据统计,99%的数据大咖都关注了这个公众号👇往期推荐2021最新大数据白皮书(附下载)数据资产管理实践白皮书5.0正式发布(附下载)30页PPT|DAMA-DMBOK2.0数据管理知识体系指南主数据管理解决方案(PPT完整版)数据治理体系架构方案(PPT)125页PPT《华为数据之道》数据治理:数据质量提升十步法(PPT)数据仓库架构、模型、调度、指标建设方案(PPT)♧
2022年1月24日
其他

主数据管理方法论与实践(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!资料下载往期推荐一个月薪
2022年1月21日
其他

阿里大数据OneData体系架构(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!END据统计,99%的数据大咖都关注了这个公众号👇♧
2022年1月20日
其他

一个月薪 12000 的北京程序员的真实生活

年来,白公子通过活动行等网站报名参加了各种活动,认识了几个异性,可惜的是,白公子喜欢的她们大都有对象了,所以白公子就徘徊在等待有那么一个她的突然到来,梦里或许来了无数次了。春夏秋冬,一年过后,16
2022年1月17日
其他

数据架构、数据模型、数据平台、数据管控总设计方案(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!这两天看到这份PPT材料,觉得内容非常不错,分享给大家。其主要内容包含:数据架构设计原则和方法、企业数据模型设计方法,尤其是对各个数据主题域的内容设计,介绍的很详细,非常值得参考和借鉴。然后还对各种数据平台规划做了介绍,比如主数据管理平台、元数据管理平台等,最后提出了数据管控的概念和思路,也具有可借鉴性,值得研究学习。废话不多说,下面上干货:据统计,99%的数据大咖都关注了这个公众号👇往期推荐2021最新大数据白皮书(附下载)数据资产管理实践白皮书5.0正式发布(附下载)30页PPT|DAMA-DMBOK2.0数据管理知识体系指南主数据管理解决方案(PPT完整版)数据治理体系架构方案(PPT)125页PPT《华为数据之道》数据治理:数据质量提升十步法(PPT)数据仓库架构、模型、调度、指标建设方案(PPT)♧
2022年1月13日
其他

2021最新大数据白皮书(附下载)

点击上方蓝字设为星标每天发文07:37一起成长!2021年12月20日,中国信息通信研究院发布《大数据白皮书(2021年)》。白皮书以数据要素的价值释放作为核心逻辑,重点探讨大数据政策、法律、技术、管理、流通、安全等方面的内容,并对“十四五”期间我国大数据的发展进行展望。关注【BAT大数据架构】公众号,加我微信:bat6188,发送PDF完整版。以下是白皮书全文END据统计,99%的数据大咖都关注了这个公众号👇♧
2022年1月7日
其他

主数据管理解决方案(PPT完整版)

)是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据
2022年1月5日
其他

Presto在字节跳动的内部实践与优化

社区最新的功能。这部分功能我们将会逐步贡献回社区:https://github.com/prestodb/presto/issues/17006本文中介绍的字节跳动内部
2022年1月4日
其他

数据资产管理实践白皮书5.0正式发布(附下载)

点击上方蓝字设为星标每天发文07:37一起成长!2021年12月20日,在第四届“数据资产管理大会”上,《数据资产管理实践白皮书(5.0版)》正式发布,由中国信息通信研究院云计算与大数据研究所高级业务主管王妙琼进行解读。文末附下载方式《数据资产管理实践白皮书》是我们在数据资产管理领域的系列研究报告,从2017年开始已连续4年发布,成为了国内数据资产管理的“风向标”。《数据资产管理实践白皮书(5.0版)》结合业界数据资产管理先进理念和关注焦点,总结最新实践案例,在《数据资产管理实践白皮书(4.0版)》基础上,聚焦数据资产前沿问题、优化数据资产管理理念,进一步完善数据资产管理框架、明确数据资产管理路径。从数据要素宏观环境变化和企业数字化转型的微观发展出发,明确数据资产管理的核心逻辑是赋能业务创新与发展,推动数据资产的内外部高效合规流通,搭建数据资产管理的整体框架。但是与此同时,我们也应认识到当前企业面临数据资产管理内驱力不足、数据资产管理与业务发展存在割裂、数据开发效率和敏捷程度较低、数据资产难于持续运营等问题。为解决以上问题,一方面,充分利用技术手段,结合企业实际情况,优化数据资产管理策略,制定数据资产管理实施路径,建立覆盖战略、组织、制度、技术等方面,提升管理效率、降低管理成本。另一方面,丰富数据资产应用场景,加速数据资产内部共享与外部流通,构建数据价值评估方法,持续开展数据资产闭环运营,使数据资产成为企业数字化转型源源不断的动力。随着数字经济和大数据技术的发展,未来,数据资产管理将朝着管理模式更敏捷、技术架构可扩展、管理手段更智能、合规发展均兼顾等方向发展。以下为现场分享
2021年12月30日
其他

6500字详解数据中台,一份完整的数据中台手册!

如果一个企业数据赋能业务的痛点非常明显,即紧迫度很高,业务在线能力比较完善,但其组织架构相对薄弱,数字化现状以及中台战略不是特别清晰,则推荐先行建设领域数据中台。因为领域数据中台的突出特点是快。
2021年12月29日
其他

我在美团的八年

点击上方蓝字设为星标每天发文07:37一起成长!这一篇,标题为“写给工程师的10条精进建议”,看完觉得写得非常不错,给大家分享一波!正文作者:云鹏,2014年加入美团,先后参与了美团酒店供应链体系、分布式调度系统的建设,现在负责美团旅行客户关系管理系统、基础信息服务的建设工作。引言时间回到8年前,我人生中的第一份实习工作,是在某互联网公司的无线搜索部做一个C++工程师。当时的我可谓意气风发,想要大干一场,结果第一次上线就写了人生中第一个Casestudy。由于对部署环境的不了解,把SVN库里的配置文件错误地发到线上,并且上完线就去吃晚饭了,等吃饭回来发现师傅在焦头烂额地回滚配置。那次故障造成了一个核心服务20分钟不可用,影响了几百万的用户。这仅仅是一个开始,在后来半年的时间里,我几乎把所有职场新人可能犯的错误都犯了个遍。架构师让我调研一个抓取性能提升方案,我闷头搞了两周,也没有得出任何结论;本来安排好的开发计划,由于我临时要回去写论文,搞得经理措手不及;参加项目座谈会,全程“打酱油”……那段时间,自己也很苦恼,几乎每天晚上11点多才走,很累很辛苦,但依然拿不到想要的结果。8年过去了,自己从一个职场小白逐步成长为一名技术Leader。我发现团队中的很多同学在不停地重复犯着自己当年类似的错误。他们并不是不努力,到底是哪里出了问题?经过一段时间的观察与思考后,我想我找到了答案。那就是:我们大多数同学在工作中缺乏原则的指导。原则,犹如指引行动的“灯塔”,它连接着我们的价值观与行动。不久前,桥水基金创始人雷·达里奥在《原则》一书中所传达的理念,引爆了朋友圈。每个人都应该有自己的原则,当我们需要作出选择时,一定要坚持以原则为中心。但是在现实生活中,我们往往缺少对原则的总结,对于很多人来说这是一门“只可意会不可言传”的玄学,是属于老司机的秘密,其实不然。“追求卓越”是美团的价值观。作为一名技术人员,我们应该如何践行呢?本文总结了十条精进原则,希望能够给大家带来一些启发,更好地指导我们的行动。原则一:Owner意识“Owner意识”主要体现在两个层面:一是认真负责的态度,二是积极主动的精神。认真负责是工作的底线。首先,要对我们交付的结果负责。项目中每一个设计文档、每一行代码都需要认真完成,要对它的质量负责。如果设计文档逻辑混乱,代码没有注释,测试时发现一堆Bug,影响的不仅仅是RD的工程交付质量,还会对协同工作的RD、QA、PM等产生不好的影响。久而久之,团队的整体交付质量、工作效率也会逐步下降,甚至会导致团队成员之间产生不信任感。其次,我们要对开发的系统负责。系统的架构是否需要改进,接口文档是否完善,日志是否完整,数据库是否需要扩容,缓存空间够不够等等,这些都是需要落地的事情。作为系统Owner,请一定要认真履行。积极主动是“Owner意识”更高一级的要求。RD每天要面对大量的工作,而且很多并不在计划内,这就需要具备一种积极主动的精神。例如我们每天可能会面对大量的技术咨询,如果客户提出的问题很长时间得不到回应的话,就会带来不好的客户体验。很多同学说忙于自己的工作没有时间处理,有同学觉得这件事不是很重要,也有很多同学是看到了,但是不知道怎么回答,更有甚者,看到了干脆装没看见。这些都是缺乏Owner意识的体现。正确的做法是积极主动地推动问题的解决,如果时间无法排开或者不知道如何解决,可以直接将问题反馈给能解决的同学。积极主动还可以表现在更多方面。比如很多同学会自发地梳理负责服务的现状,根据接口在性能方面暴露的问题提出改进意见并持续推动解决;也有同学在跨团队沟通中主动承担起主R的角色,积极发现问题、暴露问题,推动合作团队的进度,保证项目顺利推进。这些同学无一不是团队的中坚力量。所以,我们在做好自己份内工作的同时,也应该积极主动地投入到“份外”的工作中去。一分耕耘一分收获,不要给自己设限,努力成为一个更加优秀的人。原则二:时间观念相信大家都有时间观念,但是真正能执行到位的可能并没有那么多。互联网是一个快速发展的行业,RD的研发效率是一个公司硬实力的重要体现。项目的按期交付是一项很重要的执行能力,在很大程度上决定着领导和同事对自己靠谱程度的评价。大家可能会问:难度几乎相同的项目,为什么有的同学经常Delay,而有的同学每次都能按时上线?一个很重要的原因,就是这些按时交付的同学往往具备如下两个特质:做事有计划,工作分主次。工作安排要有计划性。通常,RD在设计评审之后就能预估出精确的开发时间,进而再合理地安排开发、联调、测试计划。如果是项目负责人,那么就会涉及协调FE、QA、PM等多个工种的同学共同完成工作。凡事预则立,不预则废。在计划制定过程中,要尽可能把每一项拆细一点(至少到pd粒度)。事实证明,粒度越细,计划就越精准,实际开发时间与计划之间的误差就会越小。此外,务必要规定明确的可检查的产出,并在计划中设置一些关键的时间点进行核对。无数血淋淋的事实告诉我们,很多项目延期都是因为在一些关键交付点上双方存在分歧造成的。例如后台RD的接口文档计划在周五提供,FE认为是周五上午,而RD认为是周五下班前提交,无形中会给排期带来了1pd的误差。所以,我们要做到计划粒度足够细,关键时间点要可检查。工作安排要分清楚主次。我们每天要面对很多的事情,要学会分辨这些工作的主次。可以尝试使用“艾森豪威尔法则”(四象限法则),把工作按照重要、紧急程度分成四象限。优先做重要紧急的事情;重要不紧急的事情可以暂缓做,但是要持续推进;紧急不重要的事情可以酌情委托给最合适的人做;不重要不紧急的事情可以考虑不做。很多项目无法按期交付的原因,都是因为执行人分不清主次。比如在开发中需要使用到ES,一些不熟悉ES的同学可能想系统性地学习一下这方面的知识,就会一头扎进ES的汪洋中。最后才发现,原本一天就能完成的工作被严重拖后。实际工作中,我们应当避免这种“本末倒置”的工作方式。在本例中,“系统性地学习ES”是一件重要但不紧急的事情。要学会分辨出这些干扰的工作项,保证重要紧急的事情能够按时交付。原则三:以终为始“以终为始”(Begin
2021年12月28日
其他

微信官宣1000W个微信红包封面,速度撸起来!!

新的一年,新气象,你的微信红包封面是不是该换换了。看别人都有与众不同的红包封面,你柠檬了吗?福利来袭,先到先得,大家抓紧抢数量有限的微信红包封面呀!新年换新颜,前方高能预警:一大波限定红包封面即将抵达!在公众号BAT大数据架构里回复【红包封面】即可免费领取
2021年12月27日
其他

Log4j 持续爆雷,啥时候是个头?

在采访邮件中表示,“开源维护者们创造了大量价值,但却几乎拿不到任何回报。目前支撑全球财富五百强企业业务的很多重要开源项目,都是由志愿者利用下班后的业余时间无偿维护的。”Aboukhadijeh
2021年12月23日
其他

数仓建设与数据治理思维导图.xmind(全)

数仓任务及时产出附目前完整脑图,还在持续更新中END据统计,99%的数据大咖都关注了这个公众号👇往期推荐10张逻辑思维图,迅速提升你的工作能力数据治理体系架构方案(PPT)OPPO
2021年12月22日
其他

10张逻辑思维图,迅速提升你的工作能力

点击上方蓝字设为星标每天发文07:37一起成长!“人与人之间的区别,不仅是“认知差别”,更重要的是“思维差距”。思维差距,是在认知差距基础增加了行为和习惯元素。—
2021年12月21日
其他

数据治理体系架构方案(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部的知识和意见,通过将流程、策略、标准和组织的有效组合,对企业的信息化建设进行全方位的监管,需要企业高层的授权和业务部门与IT部门的密切协作。目标是保证数据的有效性、可访问性、高质量、一致性、
2021年12月14日
其他

OPPO | 构建实时数仓实践揭秘

四、未来展望今天的分享就到这里,谢谢大家。在文末分享、点赞、在看,给个三连击呗~~据统计,99%的数据同行都关注了这个公众号👇热文推荐:架构师
2021年12月13日
其他

125页PPT《华为数据之道》

点击上方蓝字设为星标每天定时发文07:37一起成长!随着数字化转型的深入开展,数据成为新的生产要素。对于非数字原生企业,数据治理的重要性越来越突出。如何有效地开展数据治理工作、提升数据质量、打破数据孤岛、充分发挥数据的业务价值,成了业界的热门话题。《华为数据之道》基于华为数据治理的历程,介绍了华为数据工作的愿景、整体思路框架,阐述了企业级数据综合治理体系和方法论,回顾了华为数据底座的建设过程,总结了华为数据治理和数字化转型的经验。(文末附《华为数据之道》电子书下载链接)《华为数据之道》对华为公司多年数据治理和数据消费变革历程进行了系统性总结,从治理体系、架构方法、流程规范、IT工具、数据组织等多方面总结了企业在数据治理中面临的挑战及其解决方案,并介绍了一些华为独有的创新成果,如数据底座、数据湖、主题联接、数据地图、数据生态等。以下读书笔记来自CIO之家,对全书内容做了细致的研究和归纳总结,便于大家对数据治理进行体系化思考,推荐给大家。(PPT较长,建议收藏)关注本公众号,后台回复“hw”,即可下载《华为数据之道》高清版电子书。更多精彩文章1.资深大数据工程师必备技能点2.爱奇艺埋点体系与治理实践.PPT3.MySQL慢SQL分析及优化指南4.大数据职业发展与规划5.漫谈大牛带你从0到1构建数据仓库实战更多系列文章请查看公众号底部菜单栏【系列文章】,快捷获取大数据、数仓、分析、Java后端、计算机基础、系统架构、大数据、面试等系列文章~如果你喜欢本文请长按二维码,关注
2021年11月22日
其他

数据治理:数据质量提升十步法(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!数据质量管理主要解决“数据质量现状如何,谁来改进,如何提高,怎样考核”的问题。在关系型数据库时代,做数据治理最主要的目的是提升数据质量,让报表、分析、应用更加准确。为什么数据质量问题如此重要?因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。如果一个组织根据劣质的数据去分析业务、指导决策、进行创新,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。下面这份PPT材料通过介绍某集团数据治理工作开展的数据质量提升最佳实践,对组织持续获得数据资产价值的保障能力方面,提出数据质量管理建设性落地解决方案。探讨获得高质量数据和可靠信息的步骤、方法与技术,确保高质量的数据产品和服务支撑组织决策和行动。更多数据质量相关学习材料请点击文末左下角阅读原文获取。下面开始进入正文(PPT比较长,建议收藏学习)文中PPT来源CDO首席数据官,作者王兵更多精彩文章1.资深大数据工程师必备技能点2.爱奇艺埋点体系与治理实践.PPT3.MySQL慢SQL分析及优化指南4.大数据职业发展与规划5.漫谈大牛带你从0到1构建数据仓库实战更多系列文章请查看公众号底部菜单栏【系列文章】,快捷获取大数据、数仓、分析、Java后端、计算机基础、系统架构、大数据、面试等系列文章~如果你喜欢本文请长按二维码,关注
2021年11月19日
其他

30页PPT | DAMA-DMBOK2.0数据管理知识体系指南

点击上方蓝字设为星标每天发文07:37一起成长!2020年6月《DAMA数据管理知识体系指南(原书第2版)》中文版全球首发起,这部权威性著作给出数据管理总体框架和职能、术语、最佳实践方法的标准行业解释。注:文末加微信可领取PDF版。美国Technics出版社社长史蒂夫·霍伯曼说,“这本书包括三个目标,一是为数据管理工作提供指导原则,并说明如何在数据管理功能领域应用这些原则;二是为数据管理实践的实施提供功能框架;三是为数据管理概念建立通用词汇表。”特别是由车轮图(由11个数据管理职能领域)和环境因素六边形图(由7个基本环境要素)共同构成的“DAMA数据管理知识体系”越发深入人心。其中,数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术。数据是理解事实的符号,信息是带有逻辑的数据组合,知识是直接指导业务决策和行动,因而能直接产生价值,最后透过数据进行挖掘、分析和决策,从数据、信息到知识逐层递进,通过DAMA金字塔图中的四个阶段,全面深入学习、了解和掌握核心章节及有关内容:下面这份PPT材料用一句话总结了DMBOK2.0的11个数据管理职能,列举了相比于第一版的不同点,重点将11个数据知识域的核心知识要点进行了总结概括,简洁易懂,推荐给大家阅读。更多数据治理相关学习材料请点击文末左下角阅读原文获取。下面开始进入正文(PPT比较长,建议收藏学习)♧
2021年11月15日
其他

工具链 | 数据中台架构实践

等,是将数据建模、可视化设计能力放到一起,这是天工与它们的最大区别。慧眼,是统一报表门户,所有的报表统一发布到慧眼面向业务。慧眼最大的挑战在于报表权限管控与自动匹配,总共
2021年11月11日
其他

HiveSQL高级进阶技巧

sets(col1,col2,col3,(col1,col2),(col1,col3),(col2,col3),())9.多维分析2:select
2021年11月8日
其他

数据仓库架构、模型、调度、指标建设方案(PPT)

点击上方蓝字设为星标每天发文07:37一起成长!随着我们从IT时代步入DT时代,数据的积累量也与日俱增,同时伴随着互联网的发展,越来越多的应用场景产生,传统的数据处理、存储方式已经不能满足日益增长的需求。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。近年来,随着大数据的应用不断深入,构建企业级数据仓库成为了企业进行精细化运营的一种趋势。从管理者的视角来看,数据仓库是赋能业务并辅助决策的一种工具,从开发者的视角来看,数据仓库是一堆数据模型的集合。数仓开发是一个系统工程,涉及数据集成、数据建模、数据开发、数据服务、任务调度、元数据管理、数据质量管理等一系列的流程。另外,由于数据跟业务是息息相关的,所以在构建数仓的时候,需要对业务有一个非常深刻的理解。值得注意的是,数仓的建设不是一蹴而就的,也没有毕其功于一役的方法,业务的不断变化决定了数仓是在不断迭代中进行完善的。从这个层面上来讲,或许永远没有完美的数仓。由于人员的流动、业务的变化以及前期的系统性建设不足,数仓总会存在这样或那样的问题。下面这份PPT材料帮助大家更好的理解数据仓库相关知识体系,介绍了数据仓库建设的背景、理念,重点阐述了数据仓库的整体架构和数据建模管理,以及数仓调度和指标管理,最后是实例分享。更多数据仓库相关学习材料请点击文末左下角阅读原文获取。下面开始进入正文(PPT比较长,建议收藏学习)大数据同行,欢迎关注!干货推荐:➷往期推荐架构师
2021年11月3日
其他

ETL工具算法构建企业级数据仓库五步法

大厂实时数仓架构图(收藏版)爱奇艺埋点体系与治理实践.PPT【面经】字节跳动游戏数据分析面经(已oc)PS:应粉丝要求,首次公开微信,可点赞之交,朋友圈之交,ID:bat6188
2021年11月2日
其他

架构师 | 大厂实时数仓架构图(收藏版)

资深研发工程师分享大纲:整体概况业务实践平台&引擎总结反思未来规划2实时OLAP,从0到1分享嘉宾:高正炎,比特大陆分享大纲:业务背景机遇挑战架构演进架构优化未来展望3腾讯基于Flink
2021年10月27日
其他

爱奇艺埋点体系与治理实践.PPT

加我微信:bat6188,发送PPT完整版。大数据同行,欢迎关注!
2021年10月26日
其他

【面经】字节跳动游戏数据分析面经(已oc)

点击上方蓝字设为星标每天发文07:37一起成长!面经内容【一面】1.自我介绍(之后的每一面都有自我介绍)2.最近在玩什么游戏?3.介绍在玩一款的游戏的优点和缺点4.如果一款手游的DAU下降,如何着手分析?5.SQL的row
2021年10月25日
其他

MySQL慢SQL分析及优化指南

点击上方蓝字设为星标每天发文07:37一起成长!为何对慢SQL进行治理从数据库角度看:每个SQL执行都需要消耗一定I/O资源,SQL执行的快慢,决定资源被占用时间的长短。假设总资源是100,有一条慢SQL占用了30的资源共计1分钟。那么在这1分钟时间内,其他SQL能够分配的资源总量就是70,如此循环,当资源分配完的时候,所有新的SQL执行将会排队等待。
2021年10月20日
其他

MySQL批量插入时,如何不插入重复的数据

点击上方蓝字设为星标每天发文07:37一起成长!业务很简单:需要批量插入一些数据,数据来源可能是其他数据库的表,也可能是一个外部excel的导入那么问题来了,是不是每次插入之前都要查一遍,看看重不重复,在代码里筛选一下数据,重复的就过滤掉呢?向大数据数据库中插入值时,还要判断插入是否重复,然后插入。如何提高效率看来这个问题不止我一个人苦恼过。解决的办法有很多种,不同的场景解决方案也不一样,数据量很小的情况下,怎么搞都行,但是数据量很大的时候,这就不是一个简单的问题了。几百万的数据,不可能查出来,做去重处理说一下我Google到的解决方案1、insert
2021年10月19日
其他

Hadoop生态,为什么Hive活下来了?

将表映射到了底层对象上,所以它可以基于对象存储支持的主键来表示分区。当分区均衡且数量合理时,分区的粒度可以由用户设置,这种映射可以提高查询性能。这通常被称为“分区修剪”(partition
2021年10月18日
其他

认识了一个做计算机的女孩子。。。

选择“星标”公众号,重磅干货,第一时间送达大家好,今天我们一起来认真看完这个妹子的故事,故事有点长,但很真实。一点一滴记录了一个「非科班半路转行」计算机的不容易。有时候在一个公司呆久了,真的不清楚,外面其他公司的人,都在干嘛。以下是正文。前言
2021年10月8日
其他

通透地讲解Spark与Flink对比

-通过前面的学习,我们了解到,Spark和Flink都支持批处理和流处理,接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先,这两个数据处理框架有很多相同点。
2021年9月30日
其他

详解Hive 排序和开窗函数

by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个reducer,会导致当输入规模较大时,消耗较长的计算时间:降序:desc升序:asc
2021年9月6日
其他

Spark性能调优指北:性能优化和故障处理

作业的大部分task都执行迅速,但是有的task在运行过程中会突然报出OOM,反复执行几次都在某一个task报出OOM错误,此时可能出现了数据倾斜,作业无法正常运行。定位数据倾斜问题:查阅代码中的
2021年9月2日