大数据技术团队

其他

SQL 常用脚本大全

'SQL'+CHAR(9)+'ROAD'执行结果:如果将查询结果以文本格式显示,而不是网格格式显示,SELECT语句也适用,我们先将查询结果改成以文本格式显示--以文本格式显示结果SELECT
2022年11月22日
其他

Spark大数据开发中最佳实践

:在内存中缓存并进行2次备份,如果内存不足将写入磁盘MEMORY_AND_DISK_SER:在内存中缓存并序列化,如果内存不足将写入磁盘MEMORY_AND_DISK_SER_2
2022年9月13日
其他

OLAP平台 & Flink SQL实时数仓平台

查询适合哪个引擎执行,盲目选择,体验不好;另外,用户会在两个入口同时提交相同查询,以更快的获取查询结果,导致资源浪费;离线任务计算时延高,结果产出太慢:典型的如
2022年2月9日
其他

数据质量治理与数据质量评价体系(术)

👇点击“大数据技术团队”,一键关注数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命线。数据质量的好坏直接决定着数据价值高低。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。01
2022年2月8日
其他

赋能数据中台的底层架构逻辑(纯干货建议分享)

👇点击“大数据技术团队”,一键关注本文已有PDF版,文末有获取方式数据中台到底是什么,几年过去了,也一直众说纷纭。笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业
2022年2月7日
其他

首次主持春晚,她因太漂亮登上热搜

—☞《2021年度IT圈吃瓜指南》!
2022年2月6日
其他

《2021年度IT圈吃瓜指南》!

的性能调优之旅!☞2022春节红包封面大全!(最新版,文末送红包)☞附300页PPT|快手大数据治理专场,一次看个够!
2022年2月4日
其他

SQL常用脚本大全(收藏版)

'SQL'+CHAR(9)+'ROAD'执行结果:如果将查询结果以文本格式显示,而不是网格格式显示,SELECT语句也适用,我们先将查询结果改成以文本格式显示--以文本格式显示结果SELECT
2022年1月28日
其他

数仓任务开发规范流程(进阶篇)

SLA,及时性保障。上游血缘任务最迟的一个产出时间,本次上线任务预计执行时长,是否有数据倾斜等性能风险,是否需要挂载基线且无破线风险。ps:欢迎加我微信:edw0808
2022年1月27日
其他

FlinkSQL实时计算平台

演讲PDF~一、发展历程作业帮主要运用人工智能、大数据等技术,为学生提供更高效的学习解决方案。因此业务上的数据,主要是学生的到课情况、知识点掌握的情况这些。整体架构上,无论是
2022年1月26日
其他

Flink 大规模作业调度性能优化

左右。基于分组的概念,我们对作业初始化、任务调度以及故障恢复时计算需要重启的节点等耗时较长的计算逻辑进行了优化。这些计算逻辑都涉及到对上下游之间所有连边进行遍历的操作。在优化后,其计算复杂度都从
2022年1月25日
其他

Flink SQL 的性能调优之旅!

连接了几个维度表以实现查询记录的一些实验。更多性能我们想带上执行。进一步,看看这是否以及如何实现。提示我们的工作人员与我们展示不同的代码(证明),以及未来的预期。这个实验中的一个实验者为我们在
2022年1月24日
其他

Flink构建数据集成平台

摘要:数据仓库有四个基本的特征:面向主题的、集成的、相对稳定的、反映历史变化的。其中数据集成是数据仓库构建的首要前提,指将多个分散的、异构的数据源整合在一起以便于后续的数据分析。将数据集成过程平台化,将极大提升数据开发人员的效率,本文主要内容为:数据集成
2022年1月20日
自由知乎 自由微博
其他

阿里云PB级实时数仓建设

TPS菜鸟网络某数据业务极度复杂分析场景,查询QPS
2022年1月19日
其他

大数据资产管理平台实践(PPT)

中国联通,大数据基础平台负责人高级架构师超过10年的软件研发项目经验
2022年1月14日
其他

美团-数据仓库工程师-面试题

👇点击“大数据技术团队”,一键关注导读:大数据技术团队大厂面试题连载系列第三篇NO.3,本文为美团优选数据仓库工程师岗位面试题,已offer,分享与社区小伙伴们,仅供大家一起学习进步。1.自我介绍(你的舞台你说了算)2.数仓架构与分层,这样分层的好处3.数仓维度建模思想,PK维度建模异同与利弊4.数仓有哪些主题域,如何划分5.讲一下你们公司的业务,说一下最复杂的业务场景6.你们制定了哪些数仓规范,分别说一下7.模型优化项目做过哪些具体的动作,有哪些收益8.HDFS的读写过程(client,namenode,datanode)9.数据倾斜的场景与解决方法10.spark与MapReduce
2022年1月13日
其他

大数据治理解决方案(PPT)

可获取达摩院2022十大科技趋势报告PDF热文推荐淘宝-数据仓库工程师-面试题字节埋点实践数据治理京东ClickHouse的实践之路
2022年1月12日
其他

字节-数据仓库工程师-面试题

👇点击“大数据技术团队”,一键关注导读:大数据技术团队大厂面试题连载系列第二篇NO.2,本文为字节跳动数据仓库工程师岗位一面、二面、三面面试题,分享与社区小伙伴们,仅供大家一起学习进步。一面:1.自我介绍2.窗口函数有哪几类,全面说一下3.针对分析函数出几道简单sql题,现场直接写(排序、分桶、分位数)4.数据倾斜可能发生场景,和不同场景下解决方案5.mapreduce
2022年1月11日
其他

淘宝-数据仓库工程师-面试题

👇点击“大数据技术团队”,一键关注导读:大数据技术团队大厂面试题连载系列第一篇NO.1,本文为阿里淘系数据仓库工程师岗位一面面试题,分享与社区小伙伴们,仅供大家一起学习进步。1.自我介绍(这是你的主场,秀起来)2.前三家公司的离职原因(实事求是,切记不要说前司和前ld不好)3.如何从0到1搭建数仓,怎么规划流程和方案4.如何从0到1搭建团队,怎么开展业务和团队5.介绍下前司快手模型的数仓架构,怎么分层的,每层怎么设计6.介绍下前司贝壳模型是数仓架构,怎么分层的,每层怎么设计,区别是什么5.事实表怎么分类的,使用哪种事实表与场景6.公共维度、公共指标怎么识别,如何设计和沉淀,有什么可落地的方法论7.有哪些主题域,怎么划分,划分的依据和边界是什么8.数仓开发过程中数据量多大,具体场景9.慢任务慢sql讲几个case,不同场景下分别怎么优化10.HiveSQL执行计划11.阐述一下map
2022年1月8日
其他

京东ClickHouse的实践之路

/往期推荐终于,进字节了!大数据文章合集10大高级SQL技巧职业规划-5年数仓之路高级数据研发工程师面试题北京户口到手...
2022年1月6日
其他

字节埋点实践数据治理

/往期推荐终于,进字节了!大数据文章合集10大高级SQL技巧职业规划-5年数仓之路高级数据研发工程师面试题
2022年1月5日
其他

北京户口到手...

👇点击“大数据技术团队”,一键关注在知乎问题「有北京户口的北漂生活状态是怎么样的」下面,这个回答戳中了我的泪点,作者匿名,原问题文末戳阅读原文。每一个选择后面,总有一些失去的东西,看起来光鲜的背后,总是有不为人知的辛酸泪,都不容易。正文毕业进了一家央企,拿到了北京户口,集体户。现在的北京户口非常不好拿,如果不考公务员的话,基本只有去央企才可以,小的国企根本解决不了,一般的央企说尽力帮你申请,如同须弥穿针的才能在某个面试中听到面试官说“我们可以解决户口,for
2022年1月3日
其他

ClickHouse入门、调优、实战全解秘籍

(3,'bob','北京',33,'财务部',50000),(4,'tony','杭州',28,'销售事部',50000);当我们再次插入具有相同emp_id,name的数据时,观察结果INSERT
2021年12月29日
其他

Hive高频面试题30题

👇点击“大数据技术团队”,一键关注导读:如果你是数据开发、数据研发、或数据分析师,那么这篇文章将对你非常有用。记得转发收藏哦。一、Hive面试题1、hive内部表和外部表的区别未被external修饰的是内部表,被external修饰的为外部表。区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),
2021年12月28日
其他

数仓建设与数据治理思维导图.xmind(全)

数仓任务及时产出附目前完整脑图,还在持续更新中END据统计,99%的数据大咖都关注了这个公众号👇往期推荐10张逻辑思维图,迅速提升你的工作能力数据治理体系架构方案(PPT)OPPO
2021年12月23日
其他

Apache Doris和ClickHouse的深度分析

SQL的自由度,变通的方式是通过子查询和查询嵌套来实现多级的Join。Doris和ClickHouse都支持向量化执行,向量化简单理解就是一批数据一批数据去执行,可以多行并发执行,同时也提升了CPU
2021年12月14日
其他

京东—实时数仓治理与实战

PPTEND数据治理操作指南.docx基于OneData的数据仓库建设HiveSQL高级进阶10大技巧关注我关注我,大数据学习不迷路!点个赞+在看,少个
2021年12月10日
其他

数据治理操作指南.docx

若当前运营商客户提供的数据库用户具有dba_***权限,将只需要将DG数据库t_dg_config表中的“all_***”修改成“dba_***”,后续即可对所有表执行采集操作。即将上述表修改为:·
2021年12月6日
其他

基于OneData的数据仓库建设

本文目录:一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具。一、指导思想首先,要进行充分的业务调研和需求分析。其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵,抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。最后,是代码研发和运维。其实施流程主要分为:数据调研、架构设计、规范定义和模型设计。二、数据调研1.
2021年11月22日
其他

HiveSQL高级进阶10大技巧

转载:BAT大数据架构作者:花荣直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升,达到一个较高的层次!1.删除:insert
2021年11月15日
其他

SQL去重的三种方法汇总

后面但是在select中放了的字段,只会返回一条记录(好像通常是第一条,应该是没有规律的)👇点击“大数据技术团队”,一键关注
2021年11月11日
其他

附PPT|小米数据管理、地图、规范、成本、质量、安全实践

点击上方蓝字关注我们我整理的学习资料识别下方二维码,回复“资料合集”,即可获得下载地址。感觉干货多,记得设为星标哦历史精彩文章埋点体系
2021年11月8日
其他

附PPT|有赞数据地图实践

识别下方二维码,回复“资料合集”,即可获得下载地址。感觉干货多,记得设为星标哦历史精彩文章快手领域数据建设探索.ppt体系
2021年11月5日
其他

快手领域数据建设探索.ppt

-猜你喜欢字节跳动ClickHouse在用户增长分析场景的应用数据中台与数据治理方案.PPT小米用户画像实战(附48页PPT)👇点击“大数据技术团队”,一键关注🧐分享、点赞、在看,给个3连击呗!👇
2021年10月26日
其他

体系 | 数据预处理、分析建模、数据可视化

数据中台由于企业不同部门业务不同等的差异,采用的数据处理系统或框架也可能不一样。这样导致企业各部门或不同的系统数据相互独立、隔离,不能实现企业数据真正的互通、互融,使得数据的整体价值难以更好的体现。
2021年10月25日
其他

数据地图:数据资产管理,到底管什么?

导读:数据资产是数据中台的重要根基,没有资产的数据中台是无源之水,就只能叫做数据工具。在数据中台架构中,数据资产建设、管理、治理是重头戏。那么数据资产到底该如何管理,怎样治理呢?本文主要分享数据地图,资产管理模块,后期输出资产建设流程规范、资产治理相关内容。数据资产所处数据中台中的位置一、企业数据资产管理面临的问题数据资产的用户场景可以概况为两类,找数据和管数据。找数据主要是数据分析、产品运营等数据消费者,基于数仓加工好的数据进行分析、应用。找数据时,主要的痛点如下:1.数据找不到数据生产者和消费者会存在业务上的天然屏障。对于很多一线的业务同学并不能第一时间数据的输出。例如,一个新入职的产品要做产品首页的改版,想先分析下目前页面各个流量入口的点击与转化情况,只能去问其他的PM或者去找数据同学,流量数据是哪个数据表,事件埋点规则又在哪里?2.数据不敢用数据处理逻辑不清楚,业务找到了订单数据在XX表中,但是对订单状态的枚举值含义不清楚,或者不知道营收的数据计算口径,不敢用,只能咨询表的负责人。数据质量问题,搞数据的人都知道数据质量是数据团队的生命线,但是却又是无法避免的老大难问题,故障出的多了,用户拿到数据的第一反应是先和数据人员确认下,今天数据没问题吧。管数据,主要是数据开发者,他们的目标是让自己生产的数据可以更安全地被更多人复用,在实践过程中,面临的问题主要是以下几种1.用户咨询多用户用数据找不到或者找到了数据不敢用,就只能向数据负责人进行咨询,不同人的相同问题,或者不同问题。每天处理用户问题可能就要花个几个小时。2.数据复用低数据中台建设要解决的也是数据复用问题,对于数据工作者经常遇到做好了数据模型使用者寥寥无几的问题,有酒香但巷子深无人知晓的因素,也有部门墙、数据安全限制因素。3.价值感知弱数据开发者做了很多的数据模型,但不知道有多少人在使用,用到了哪里,产生了多少业务价值。数仓开发不生产数据,只是数据的搬运工,“工具人”的感受强烈。4.问题排查路径长用户反馈数据异常时,需要翻代码,对数据加工链路进行追根溯源,排查路径长,消耗时间久。5.工作评估难作为数据管理者,对于资产最关心的莫过于建设的怎么样,如何评估数据工作的成果。做了很多的数据模型,绩效就应该好吗?二、数据消费者与生产者的诉求1.找数据数据消费端,通过数据地图寻找目标数据,进行分析或者数据应用。业务场景不知道所需要的数据在哪里,“逛数据”,发现目标知道表名或字段信息,确认数据逻辑或元数据信息用户核心用户:数据分析、数据挖掘、数据开发重要用户:产品、运营覆盖用户:业务开发、商务等产品诉求资产分级分类,提供简单易用的资产“地图”导航,快速找到目标表强大的搜索功能,可以基于关键词、字段、指标搜索目标表元数据信息完善,辅助决策,确定表是不是所需要用的,能不能用,以及逻辑说明2.管数据数据生产者,负责数据加工处理,对数据质量、资产元数据、资产管理负责。业务场景维护表元数据信息数据资产审计,管理用户权限、使用日志数据治理,针对数据表的使用情况,定期下线不用表或者冷数据归档追根溯源:数据质量异常通知下游,数据问题快速排查定位问题用户核心用户:数据开发覆盖用户:数据表创建者产品诉求元数据维护操作简单、快捷,支持批量操作可以清楚的知道自己负责的资产元数据覆盖、用户使用情况平台提供方便的数据追踪、溯源的功能,可以快速定位数据血缘3.数据团队管理者评价数据资产业务价值、数据对业务支撑或赋能效率,对数据开发人员进行量化考核。并对数据资产的健康度、数据成本进行管控。业务场景评价数据资产建设的到底怎么样数据人员工作量化考核平台健康度管控,降本增效用户数据开发管理者数据部门负责人产品诉求能够提供资产健康度评价的全面的指标,如模型覆盖度、复用度、元数据完善度、数据质量等资产责任人到人,可以量化考核每个数据开发者的工作数量和质量三、数据地图需要具备的数据资产管理能力1.资产大盘资产大盘按照不同角色的用户,提供从总体到部门(租户)以及个人的资产视图,主要作用是客观描述资产现状,并且以健康度评价体系,提供资产建设优化指引。主要服务于数据工作者及管理团队。例如:资产数量:资产总数、新增数量、治理数量资源消耗:存储资源、生产消耗计算资源健康度:元数据覆盖度100%表占比、数据质量异常数、高耗时任务及列表、跨层引用数、近90天无访问数治理维度:治理资产数量、治理效果、待治理数量图:阿里数据地图2.数据探索数据检索方式包括基于业务域、主题、标签等层级筛选,表中英文、字段信息搜索,以及热门推荐、个人收藏、数据专题等快捷方式。在实际应用时,搜索功能是第一优先级的,至少要先让用户能够精准触达目标。因为业务域划分、主题标签维护很难做到没有二义性,让用户可以顺利筛选出目标数据。表的元数据信息是指可以给找数据的用户提高更加全面、准确的业务元数据、技术元数据等一系列的信息。包括:基本信息:如表中英文名称、负责人、业务描述、字段中英文、分区字段、字段处理逻辑、业务域、主题、标签层级数据预览:提供示例数据预览功能,可以快速查看字段内容或结构产出信息:产出时间、任务耗时及趋势、最后更新时间数据血缘:数据表上下游,一键通知能力数据质量:数据质量监控规则覆盖、最新监控结果是否正常数据审计:表使用信息、变更记录图:阿里数据地图3.资产管理资产管理主要是面向资产创建者,对所负责的资产进行业务元数据、技术元数据的维护及配置,对资产健康度负责。数据地图需要的功能包括:元数据信息维护:业务描述、字段描述、业务逻辑、审批流程配置元数据更新:表结构变更,如字段删减、新增批量配置:批量授权、批量修改主题、层级;权限移交、复制数据治理流程:主要建立和数据质量监控、数据质量等平台的联动,做到跟进用户使用情况,快速跳转至治理平台,一键治理(归档、下线、删除)4.配置管理提供业务域、数据层级、主题、标签配置,以及部门(租户)公共参数配置能力,主要服务于数据仓库或数据资产管理员,负责资产层级、架构以及创建流程规范的规划。5.个人工作台个人资产盘点,例如有权限的资产,是否有权限即将到期,需要进行批量续期。自己负责的资产,用户权限列表、资产使用分析。代办事项:数据资产管理要建立从上到下的管理和考核机制,否则资产创建时,为了图快不进行元数据信息维护,就必然会导致资产复用度低。资产大盘服务于资产管理者,提供不同维度的资产健康度评价指标。而个人代办则提供每个资产创建者,需要关注的优化任务,例如元数据覆盖不足100%,近XX天无访问,任务耗时长,跨层引用等等。四、总结数据资产管理是提升企业数据复用度的重要数据产品之一,在产品规划和设计时,需要从用户需求场景以及产品目标出发,提供更快速找到数据,以及更方便维护资产信息的能力,同时,为数据工作的量化考核以及开发人员的工作改进提供指引方向。阿里Dataworks、网易猛犸、火山引擎都提供了商业化的数据地图产品解决方案可供参考。
2021年10月21日
其他

大数据架构师 | 实时离线一体化技术架构

大数据技术团队我们都是架构师!架构未来,你来不来?目录流水查询需求什么是实时数据即时查询系统架构实现扩大业务覆盖率大数据需求实时离线一体化系统之技术架构实时离线一体化系统之数据流实时离线一体化接入数据仓库分层规范化预计算方案(Kylin+Kudu)实时离线开发统一访问数据入口透明的数据分层存储展望未来
2021年10月19日
其他

数据分析的三重境界,你在哪个阶段?

导读:工作生活中的很多问题,其实都可以用数据方法解决,数据解决的关键就在于如何将抽象的事物或业务,依据内在逻辑,提炼出结构化的特征。本文主要围绕工作业务场景进行梳理,以做学问的三重境界为切入,梳理数据应用分析的过程和方法。前段时间有档节目,《说唱新世代》,slogan是“万物皆可说唱“,从社会热点到赞助广告,没有说唱玩不了的内容。起笔写下1年来分析师的总结感悟时,也是想到了这句话,”万物皆可分析“,想要表达的是,工作生活中的很多问题,其实都可以用数据分析方法解决,数据解决的关键就在于如何将抽象的事物或业务,依据内在逻辑,提炼出结构化的特征。举个生活中的栗子,比如你想买房,有2个备选方案各有优点,你非常犹豫无法抉择。A位置好,小区环境好,但价格太高超出部分预算;B位置一般,小区环境一般,但是价格便宜且在预算范围内。这时,你可以把房屋的选择抽象为3个关键因素(衡量指标),分别是地理位置、小区环境和价格,然后写下你对于各项因素的考虑权重(保持相加总和为1),通过你的实际感受对2个房源的3项因素分别打分(比如最高10分),最终将各项因素的权重和得分相乘累加,可以获得2个房源理性得分(如下表)。好了,看来你内心更倾向于A房子。言归正传,接下来本文主要围绕工作业务场景进行梳理,王国维曾说做学问的三重境界,第一重“独上高楼,望尽天涯路”,第二重“衣带渐宽终不悔,为伊消得人憔悴”,第三重“蓦然回首,那人却在灯火阑珊处”。数据分析解决业务问题,也有这三重,以此为切入,梳理数据应用分析的过程和方法。独上高楼,望尽天涯路登上高楼,可以看到路的尽头,事物面貌尽收眼底。数据应用的这一重,通过数据来概括事物的特征,可以知其然。1.1
2021年10月15日
其他

埋点体系 | 常见埋点方案优劣势对比及选型建议

前文回顾:☞附300页PPT|快手大数据治理专场数据采集是大数据的基石,用户在使用App、微信小程序等各种线上应用产生的行为,只有通过埋点才能进行采集。没有埋点,数据分析决策、数据化运营都是无源之水,巧妇难为无米之炊。但很多时候,“埋点”两个字却成了C端产品经理、数据产品、数据分析、数据开发等很多人不愿提及的痛。在数据化时代,要做数据仓库流量域,要做用户行为数据分析,都需要了解埋点的流程以及常见的几种埋点方案的特点与应用场景。一、埋点的作用微信指数中,埋点的搜索热度甚至超过了数据分析,主要原因也是用户行为的数据分析必须要依赖于埋点的数据采集。埋点对于产品运营的主要作用包括:1.产品优化分析粗放式运营时代,产品数据分析主要以宏观的DAU、MAU、订单数、营收等宏观指标为主。只要能了解业务整体的经营状况就差不多了。而精细化运营时代,每一次产品的改版,每一个页面按钮的使用情况,都需进行数据效果的分析。例如,通过漏斗分析,发现业务主路径用户流失的主要节点,针对流失严重的步骤,进行产品或运营策略的优化。2.洞察用户行为通过对每个页面或页面元素的埋点,将用户的行为路径串联起来,可以清晰的洞察用户在产品内的行为路径。对于有多业务板块、多流量入口的业务,用户进站后的行为路径复杂多样,通过对用户浏览轨迹的统计分析,发现不同用户群体的使用路径,从而针对不同的路径设定差异化的产品策略。3.用户分群与精细化运营根据用户属性、用户行为事件,实现用户的精细化分层能力,进一步对不同用户群体进行个性化的运营触达。例如,对浏览商品详情页多次,但却未下单的用户,推送促销红包,刺激转化。4.渠道策略优化通过App的启动埋点,记录用户下载激活的渠道,通过站内的行为及转化数据,与站外广告投放归因数据结合,分析渠道的流量规模、渠道用户的质量(留存、客单价、复购力等),流量大、质量高的渠道扩大投放量,反之则减少投入,提升营销的ROI。二、埋点埋什么?在用户行为分析数据埋点中,最常用的模型是事件模型,该包括事件(Event)和用户(User)两个核心实体,同时还需要配合内容(Item)实体,才能做更多维度的分析。1.事件(event)每一次浏览、页面按钮/元素的点击都是一个事件,管理事件时通常按照用户的行为路径以及业务流程,对事件进行分类管理,例如分为浏览事件、点击事件、以及系统事件等类别。一次事件完整的数据结构构成如下:在什么时候,什么位置,做了哪些事情,使用产品为了达到什么目标,他是如何使用的等问题。在埋点开发时,要有能够标识唯一事件的ID标识、事件描述信息、以及事件的属性信息,事件的属性主要包括用户属性和内容属性。2.
2021年10月11日
其他

聚焦数据仓库研发规范

导读:本文将为您介绍数据仓库研发规范的阶段规划、角色职责和整体流程。在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会降低研发效率,增加成本与风险。总而言之,数据资产管理实际上是对物的管理,而研发流程规范管理则是对人的行为的管理。只有落实了作为基础的后者,才能进一步实行数据资产管理方法论。数据仓库研发规范旨在为广大数据研发者、管理者提供规范化的研发流程指导方法,目的是简化、规范日常工作流程,提高工作效率,减少无效与冗余工作,赋能企业、政府更强大的数据掌控力来应对海量增长的业务数据,从而释放更多人力与财力专注于业务创新。阶段规划鉴于对日常数据仓库研发工作的总结与归纳,本文将数据仓库研发流程抽象为如下几点:需求阶段:数据产品经理应如何应对不断变化的业务需求。设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据。开发阶段:数据研发者如何高效、规范地进行编码工作。测试阶段:测试人员应如何准确地暴露代码问题与项目风险,提升产出质量。发布阶段:如何将具备发布条件的程序平稳地发布到线上稳定产出。运维阶段:运维人员应如何保障数据产出的时效性和稳定性。角色职责数据产品经理:负责承接、评估业务方提出的数据需求,并组织需求评审、产出产品需求文档,同时需要把控其它更为细化的技术评审。设计人员:根据已定稿的产品需求文档所述需求,进行数据探查,了解数据形态(数据质量、数据分布),同时根据探查结果实现表设计、Mapping设计、调度设计等系分设计工作。开发人员:根据设计人员产出的稿件,制定计划并实现代码,同时进行单元测试与代码评审。测试人员:负责验证需求与结果的一致性,发现代码问题与项目风险。运维人员:负责发布任务,并处理数据、程序、调度、监控告警等异常事件,保障数据产出时效、程序高效运行和生产稳定性。信息安全与合规人员:在需求评审前期,负责需求实现的安全性与合规性。数据仓库研发规范整体流程下图为根据阶段规划与角色职责的内容,整理出的数据仓库研发规范的整体流程。附录数据仓库需求模板数据探查报告ETL文档调度设计文档单元测试报告发布操作文档代码评审报告测试分析方案报告交付测试报告质量评估报告模板验收报告模板重点规范设计规范逻辑架构技术架构分层设计主题划分方法论命名规范各层级的规范任务规范表命名字段级别的命名指标命名标签命名模型规范建模方法建模工具血缘关系维度退化一致性维度元数据管理开发规范脚本注释字段别名编码规范脚本的格式数据类型缩写规范流程规范需求流程工程流程上线流程调度和表生命周期管理历史精彩文章1、大数据技术沙龙-数据成本治理、数据仓库、数据湖、增长黑客、ABtest、实时平台.PPT2、附300页PPT|快手大数据治理专场,一次看个够粉丝福利公众号回复“999”,即可获取ppt下载链接,目前已经上传到百度网盘,转发本文即可下载。关注大数据技术团队,获取更多大厂技术干货分享回复“flink”,“clickhouse”,“数据治理”,“资料全集”获取海量学习资料~~~你也「在看」吗?
2021年10月9日
其他

附300页PPT|快手大数据治理专场,一次看个够

Tips:点击回复999,即可领取完整版PPT1快⼿从模型规范开始的数据治理实践2快⼿⼤数据管治技术交流会3成本管理-快⼿⼤数据存储管理的落地实践4快⼿数据质量体系及在直播场景的实践5快⼿元数据平台化建设及应⽤场景6快⼿指标规范化以及OneService平台化实战历史精彩文章1、1219大数据技术沙龙-数据成本治理、数据仓库、数据湖、增长黑客、ABtest、实时平台.PPT2、附PPT华为大数据专场
2021年10月8日
其他

企业数据治理落地实施方案(PPT)

基于数据做分析,首先需要数据的聚合,但由于生产系统和数据的离散化,造成了数据标准、数据模型不统一,而且数据质量也不高,因而企业最需要做的就是数据治理。下面这份PPT介绍了企业数据治理落地实施方案,其中提到了数据标准管理、元数据管理、数据质量管理、数据集成管理、数据资产管理、数据安全管理等企业比较关注的数据治理细节,值得研究和学习。废话不多说,下面上干货:(点击图片可以查看高清大图)您可能还感兴趣:终于,进字节跳动了!企业级数据迁移(sqoop建议收藏)企业BI项目蓝图规划建设方案浅谈数仓模型(推荐收藏)企业大数据仓库架构的建设思路数据治理落地实施方案(PPT)浅谈to
2021年9月30日
其他

数据人应该掌握哪些大数据管理技术?

粉丝朋友问了我一个有意思的问题:有哪些技能值得数据管理专家学习,以及如何建立发展路线图?事实上,这个问题也让我陷入深思,因为我的脑海中还没有一个清晰的框架。本文仅仅是我对于这个问题的一些想法,并且很大部分是我对数据管理的当前状态与未来的推测。阅读本文的前置知识首先,和其他任何领域一样,有一些基础知识是任何软件工程师都应该了解的。简而言之,我假设来到大数据领域的人已经知道某种编程语言,并且对例如算法、SQL、版本控制(VCS)、系统生命发展周期(SDLC)、网络、Linux
2021年9月28日
其他

Hadoop平台进阶之路 | 性能优化实践

NameNode的API操作处理)后,将结果返回给client的操作阶段。上图结果表明,在我们集群开启有Security模式下,其中涉及到的加解密过程的开销还是挺大的。本身我们已经开启了async
2021年9月26日
其他

终于,进 字节跳动 了!

前作者:花荣,高级数开,最近在看机会,陆续面试了美团、滴滴、快手、字节等公司。本文将分享面试字节跳动数据仓库开发岗-抖音的面经。言导读:没有几个工程师天赋异禀,技术的差距,是认知的差距。文笔差多包涵,希望对你有用。谢邀!大家好,我是花荣。今天主要和大家分享字节跳动-抖音的大数据数仓职位面试经验,希望对大家有用。因前司[不知名小公司]发生人员动荡,人心惶惶,鄙人也下定决心看看外面的机会,骑驴找马,开启了一波面试。先后面了一些中小型公司,找到感觉后又面试了滴滴、美团、快手、京东、字节等“大厂”。面试陆续用了差不多一个月,整体感觉下来面多了发现面试差不多也就那些问题。更多时候更是时运的一个碰撞,公司项目恰很缺人或和面试官对上眼缘基本能成。单说面试字节,前前后后,历经5面(4轮技术+HR面),历时20天,终于拿下offer。感觉整个人都自信了,职级和薪酬都很满意,奥利给!一面:
2021年9月17日
其他

企业级数据迁移(sqoop建议收藏)

#hive表字段和字段之间的分隔符sqoop的另外一种导出方式:vim一个xxx.opt文件,然后将sqoop导出命令放到文件中。注意:sqoop关键字需要删除、而且参数和参数值需要分行写使用
2021年9月13日
其他

企业BI项目蓝图规划建设方案

BI——商业智能,一个高大上的名字,一直被很多人认为是企业信息化中的“面子工程”。什么是面子工程?“面子工程”是“形象工程”的意思,内含只做表面形象,不解决实际问题,在当今社会成为了一个贬义词。01BI是什么?为什么会成为面子工程?笔者理解的BI,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务和管理决策。BI是以数据为中心,涵盖了数据仓库、数据ETL、数据分析、数据挖掘和数据可视化等内容。Gartner定义:商业智能(BI)描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。我们看到,不论是笔者的个人理解,还是权威机构的定义,BI的本质是“辅助商业决策”。但,一些商业智能(BI)项目的建设失败,引起了人们的质疑和诟病,有人认为BI只是“花花哨哨”的面子工程,对业务没有任何帮助!为什么BI项目会失败,有如何才能做好BI?这是今天我们要分享的主题。导致BI项目失败的原因有很多,例如:目标不明确、需求不清晰、领导不重视、数据质量不高、指标定义混乱、设计不人性、界面不美观、程序响应慢等等。基于以上原因,我们到底该如何做好BI?02做好BI,要从需求调研开始!BI项目都是由企业需求驱动的,而且后续的项目方案也只有和企业的需求契合才能产生价值。项目前期的立项阶段要明确大致需求,这些需求要能支撑BI项目的立项和工具选型;项目正式启动阶段要弄清楚详细需求,也就是具体到业务、数据、技术等层面的需求,这关乎项目的落地。大致需求与详细需求明确大致需求,就是要弄清楚当前企业中各方人员的痛点,找到必须建设BI项目的理由和共识,并确定项目范围。由于不同行业的企业价值诉求点并不相同,因此在项目前期要注意收集和整理,多跟企业领导层、业务部门沟通,挖掘他们的关注点,弄清楚他们真正想要的是什么,再整理出项目的应用场景、功能需求、交互需求、管理需求,预估项目周期等。BI项目成功与否,最终要看项目完成后企业能不能将它用起来。很多企业的BI项目之所以失败,就是因为没想清楚需求就开始建设,导致一步错,步步错,做出来的系统并不能解决企业的问题,甚至根本用不上,领导也会质疑IT部门的价值和BI系统的意义。所以,上BI项目前,要准备好,瞄准目标再出发。要大致了解BI系统是哪些部门用,用在哪些场景中,用了后能够带来多少价值,最好能带来企业整体业绩或者利润的提升(即有可见的、可量化的价值)。有了大致的需求,就可以进行需求调研,收集和明确详细需求进行项目蓝图方案的设计了。详细需求设计是对大致需求的深入和细化,要具体到可执行的粒度,例如每一个业务指标的分析与展示的维度和单位等。这个过程涉及业务、技术、数据等方面,需要通过细致的需求调研来完成。总体来看,大致需求确定BI项目的核心价值和边界,详细需求确定BI项目的落地和验收,两者相辅相成,前者指明出发的本心,后者规范前行的里程碑。需求调研的方法和步骤收集和明确需求并非易事,尤其是挖掘需求方详细的、深层次的需求。很多企业在做需求调研时,经常由于双方对问题描述和理解上的差异,使得需求在不断传递的过程中发生较大的偏差,最终开发出来的功能与原始需求大相径庭。
2021年9月7日
其他

浅谈数仓模型(推荐收藏)

数据仓库轻度汇总层,按照各个业务域进行轻度汇总成分析某一个主题域的服务数据,一般是宽表。DIM:维度表,公共维度层,基于维度建模理念思想,建立整个业务过程的一致性维度,主要使用
2021年9月6日
其他

企业大数据仓库架构的建设思路

本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。总体思路随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富、透明四个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信意味着数据的质量要足够高;丰富是指数据涵盖的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。我们之所以选择基于大数据平台构建数据仓库,是由大数据平台丰富的特征决定的:强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程多样的编程接口和框架,丰富了数据加工的手段丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集各种安全和管理措施,保障了平台的可用性仓库架构设计原则包括四点:第一自下而上结合自上而下的方式,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何一个系统出现问题都会对数仓服务产生影响,因此在数仓构建时,高容错性是必不可少的因素;第三数据质量监控需要贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源可以等同于数据仓库构建的资源;第四无需担心数据冗余,充分利用存储换易用。模型设计构建数仓的首要步骤就是进行模型设计。维度莫建模或实体关系建模常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单,便于实时数据分析,适用于业务分析报表和BI;实体关系建模结构较复杂,但它便于主体数据打通,适合复杂数据内容的深度挖掘。每个企业在构建自己数仓时,应该根据业务形态和需求场景选择合适的建模方式。对于应用复杂性企业,可以采用多种建模结合的方式,例如在基础层采用维度建模的方式,让维度更加清晰;中间层采用实体关系建模方式,使得中间层更容易被上层应用使用。星型模型和雪花模型除了建模方式之外,在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上,两种模型是并存的,星型是雪花模型的一种。理论上真实数据的模型都是雪花模型;实际数据仓库中两种模型是并存的。由于星型模型相对结构简单,我们可以在数据中间层利用数据冗余将雪花模型转换成星型模型,从而有利于数据应用和减少计算资源消耗。数据分层在确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。下面来具体看下每一层的作用。数据基础层数据基础层主要完成的工作包括以下几点:数据采集:把不同数据源的数据统一采集到一个平台上数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类数据结构化,对于半结构化和非结构化的数据,进行结构化数据规范化,包括规范维度标识、统一计量单位等规范化操作数据中间层数据中间层最为重要的目标就是把同一实体不同来源的数据打通起来,这是因为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标识符可能不同。此外,数据中间层还可以从行为中抽象关系。从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。例如抽象出的兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。在中间层,为了保证主题的完整性或提高数据的易用性,经常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,则会放在两个主题库中;为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。数据集市层数据集市层是上下三层架构的最上层,通常是由需求场景驱动建设的,并且各集市间垂直构造。在数据集市层,我们可以深度挖掘数据价值。值得注意的是,数据集市层需要能够快速试错。数据架构数据架构包括数据整合、数据体系、数据服务三部分。其中,数据整合又可以分为结构化、半结构化、非结构化三类。数据整合结构化数据采集又可细分为全量采集、增量采集、实时采集三类。三种采集方式的各自特点和适应场合如上图所示,其中全量采集的方式最为简单;实时采集的采集质量最难控制。在传统的架构中,日志的结构化处理是放在数仓体系之外的。在大数据平台仓库架构中,日志在采集到平台之前不做结构化处理;在大数据平台上按行符分割每条日志,整条日志存储在一个数据表字段;后续,通过UDF或MR计算框架实现日志结构化。在我们看来,日志结构越规范,解析成本越低。在日志结构化的过程中,并不一定需要完全平铺数据内容,只需结构化出重要常用字段;同时,为了保障扩展性,我们可以利用数据冗余保存原始符合字段(如useragent字段)。非结构化的数据需要结构化才能使用。非结构化数据特征提取包括语音转文本、图片识别、自然语言处理、图片达标、视频识别等方式。尽管目前数仓架构体系中并不包含非结构化数据特征提取操作,但在未来,这将成为可能。数据服务化数据服务化包括统计服务、分析服务和标签服务:统计服务主要是偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,供前端的报表系统或业务系统查询分析服务用来提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。分析服务的能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活、更节省成本标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。架构设计中一些实用的点在架构设计中有一些实用的点,这里给大家分享一下:第一,通过巧用虚拟节点实现多系统数据源同步,实现跨系统间的数据传输,实现多应用间数据交互。通过巧用虚拟节点减少运维人员在实际出现问题时的运维成本。第二,采用强制分区,在所有的表都上都加上时间分区。通过分区,保证每个任务都能够独立重跑,而不产生数据质量问题,降低了数据修复成本;此外通过分区裁剪,还可以降低计算成本。第三,应用计算框架完成日志结构化、同类数据计算过程等操作,减轻了开发人员的负担,同时更容易维护。第四,优化关键路径。优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段。数据治理数据治理不是独立于系统之外的保障,它应该贯穿在数仓架构内部和数据处理的流程之中。数据质量保障数据质量,可以从事前、事中、事后入手。事前,我们可以通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该越多;事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量;事后,通过对数据质量情况进行分析和打分,将一些不足和改进反馈数据监控体系,推动整体的数据质量提升。数据生命周期管理出于成本等因素的考虑,在大数据平台上我们依然需要对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。一个合理的数据生命周期管理要保证温热数据占整个数据体系大部分;同时为了保障数据资产的完整性,对于重要的基础数据会长久保留。对于数据中间计算过程数据,在保障满足绝大部分应用访问历史数据需要的前提下,缩短数据保留周期,有助于降低存储成本;最后一点值得注意的是,冷备已经成为历史,在大数据平台下不需要单独的冷备设备。
2021年9月2日
其他

数据治理落地实施方案(PPT)

下面这份PPT介绍了企业数据治理落地实施方案,其中提到了数据标准管理、元数据管理、数据质量管理、数据集成管理、数据资产管理、数据安全管理等企业比较关注的数据治理细节,值得研究和学习。废话不多说,下面上干货:(点击图片可以查看高清大图)大家都在看:往期推荐浅谈to
2021年8月30日