大数据学习与分享
其他
数据治理平台功能架构规划
狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合、对接和共享,从而提升企业信息化水平,充分发挥信息化作用。随着大数据平台和工业互联网兴起,数据治理平台主要采用数据中台技术和微服务架构初步替代传统架构、面向大数据架构下,为数据资源中心与外部数据系统提供数据服务。下面概述了数据治理平台发展背景和平台架构需求分析,重点对数据治理平台功能架构的各个模块进行详细介绍,供企业规划建设数据治理平台时参考和借鉴。推荐文章:元数据的概念、分类及作用
2022年4月6日
其他
数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS
app?答:这个问题不太好回答,我感觉主要就是明确一下DWS层是干什么的,如果你的DWS层放的就是一些可以供业务方使用的宽表表,放在
2022年3月14日
其他
元数据的概念、分类及作用
。再比如,图书馆的藏书信息卡。视频网站里的视频描述、网络中的网页地址等等都是元数据。还有“财务状况表”中的属性字段,如:机构名称、项目名称、币种、余额信息等都是这张表格的元数据信息。02
2022年3月9日
其他
详解用户画像
猜你想看:【大数据学习与分享】文章合集导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。01画像简介用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌,如图1-1所示。用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要。图1-1
2022年2月24日
其他
知乎用户画像与实时数据的架构与实践
猜你想看:【大数据学习与分享】文章合集一、前言知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。在
2022年2月18日
其他
2021年【大数据学习与分享】文章合集
前言:感谢这一年来,所有读者朋友们儿的支持,你们的阅读、转发、收藏、点赞、在看都是对【大数据学习与分享】的肯定。借此也回答一下后台经常被咨询的2个问题:文章《Spark推荐系统实践》的code
2022年1月27日
其他
实时数仓项目架构分层
一、滴滴实时数仓项目在公司内部,我们数据团队有幸与顺风车业务线深入合作,在满足业务方实时数据需求的同时,不断完善实时数仓内容,通过多次迭代,基本满足了顺风车业务方在实时侧的各类业务需求,初步建立起顺风车实时数仓,完成了整体数据分层,包含明细数据和汇总数据,统一了DWD层,降低了大数据资源消耗,提高了数据复用性,可对外输出丰富的数据服务。数仓具体架构如下图所示:从数据架构图来看,顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构;比如ODS层,明细层,汇总层,乃至应用层,他们命名的模式可能都是一样的。但仔细比较不难发现,两者有很多区别:与离线数仓相比,实时数仓的层次更少一些从目前建设离线数仓的经验来看,数仓的数据明细层内容会非常丰富,处理明细数据外一般还会包含轻度汇总层的概念,另外离线数仓中应用层数据在数仓内部,但实时数仓中,app应用层数据已经落入应用系统的存储介质中,可以把该层与数仓的表分离。应用层少建设的好处:实时处理数据的时候,每建一个层次,数据必然会产生一定的延迟。汇总层少建的好处:在汇总统计的时候,往往为了容忍一部分数据的延迟,可能会人为的制造一些延迟来保证数据的准确。举例,在统计跨天相关的订单事件中的数据时,可能会等到
2022年1月19日
其他
数据质量治理与数据质量评价体系
数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命线。数据质量的好坏直接决定着数据价值高低。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。01
2022年1月16日
其他
SQL语句性能优化实例
16,使用表的别名(Alias):当在SQL语句中连接多个表时,请使用表的别名并把别名前缀于每个Column上.这样一来,就可以减少解析的时间并减少那些由Column歧义引起的语法错误。
2022年1月14日
其他
count(1)、count(*) 与 count(列名) 的执行区别
count(列名)只包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不是只空字符串或者0,而是表示null)的计数,即某个字段值为NULL时,不统计。执行效率上:
2022年1月7日
其他
数仓DWD层案例实践
oi.id;4、退款事实表(事务型事实表)需要时间、用户、商品三个维度,查看ODS层表ods_order_refund_info,所有字段都有,那么直接取数装载。4.1、创建表drop
2022年1月5日
其他
基于Flink+ClickHouse打造轻量级点击流实时数仓
领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好。关于两者的优点就不再赘述,本文来简单介绍笔者团队在点击流实时数仓方面的一点实践经验。1.
2021年12月30日
其他
Atlas——元数据存储模型分析
3)若只有一个endDef的isLegacyAttribute=true则该端relationshipEdgeDirection=OUT,对端relationshipEdgeDirection=IN
2021年12月29日
其他
数据治理:数据质量提升十步法
数据质量管理主要解决“数据质量现状如何,谁来改进,如何提高,怎样考核”的问题。在关系型数据库时代,做数据治理最主要的目的是提升数据质量,让报表、分析、应用更加准确。为什么数据质量问题如此重要?因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。如果一个组织根据劣质的数据去分析业务、指导决策、进行创新,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。下面通过介绍某集团数据治理工作开展的数据质量提升最佳实践,对组织持续获得数据资产价值的保障能力方面,提出数据质量管理建设性落地解决方案。探讨获得高质量数据和可靠信息的步骤、方法与技术,确保高质量的数据产品和服务支撑组织决策和行动。文中PPT来源CDO首席数据官,作者王兵推荐文章:数据中心数据质量线上监控的实践
2021年12月23日
其他
必知必会的数据分析知识之数据指标
在刚迈入数据的大门时,经常会对一些数据指标或者数据本身的概念很模糊,尤其是当跟运营、数据分析师扯需求的时候,会被这些密密麻麻的指标给弄糊涂。为了更好的在行业里面摸打滚爬,花了很多时间阅读一些指标相关的文章、书籍,总算解决了这个问题。作为互联网从业人员,目前看来对数据指标、指标的运用还是需要再深入学习下。终于挤出一些时间重新梳理了关于数据指标相关的一些知识,先梳理下数据指标基础知识。01
2021年12月22日
其他
用户画像方法论
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。既然用户体验非常重要,那如何去「度量」和「优化整个流程」呢,那就是站在「用户角度」收集其在各个模块的数据,并利用「统计」、「概率」思维「建模分析」;在产品运营、增长过程中找到「雪球效应」的「撬动点」施以影响,最终建立起「良性的闭环」。落地用户画像,对用户和企业来讲,可以实现双赢。用户在使用产品的时候,可以获得更好的购物体验,企业可以更好地为用户服务,从而实现赢利。要结合业务场景去分析,然后去不要单看画像,而是要做一些对比,通过前后对比,跟竞品的对比,跟频道内与大盘的对比等手段去分析,发现不足和优势,做纠正和调整。通过数据反馈形成数据的闭环,最终在产品的迭代过程中拿到更好的业务结果。总结一下,做画像要「有目标要有数据」,「也不拘泥于技术细节」,「大胆的尝试」,然后「先粗粒度」,「后细粒度」。推荐文章:数据分析之数据预处理、分析建模、可视化推荐系统之标签体系
2021年12月20日
其他
数仓建设之架构分层、指标体系、词根、血缘)
建模。DWS:面向业务,维度建模。数据按业务过程组织,数据结构按事实表和维度表重构,数据粒业务度按需汇总。ADS:面向应用场景使用适合的工具提升数据存储与处理的效率,从而提供数据服务。04
2021年12月14日
其他
Kafka存储结构以及Log清理机制
只能保证每一个分区内部有序性,不能保证全局有序性。如果分区设置的合理,那么所有的消息都可以均匀的分布到不同的分区中去,这样可以实现水平扩展。不考虑多副本的情况下,一个分区对应一个
2021年12月9日
其他
从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践
在其内部支持多个消费线程,简单来说就是每一个线程它持有一个消费者,然后每一个消费者负责各自的数据解析、数据写入,这样的话就相当于一张表内部同时执行多个的
2021年12月8日
其他
亿级数据服务平台落地实践
查阅数据,而非直接访问对应的数仓表。一方面,指标服务统一了指标的口径,同时也支持快速构建新的数据产品。二、架构设计数据服务能给业务带来运营和商业价值,核心在于给用户提供自助分析数据能力。Hera
2021年12月7日
其他
数据中台建设方案及实施路径
数据中台不是凭空而来的,它是企业的应用、数据、业务发展到一定阶段的必然产物。当企业进入大数据阶段以后,会发现当需要报表或者其他数据分析结果时,还是需要自己来处理,在速度上就稍微慢一点。而随着互联网经济的发展,数据中台应运而生,数据中台可以更加快速的去支撑前端的业务,也就是数据业务化,数据中台通过数据的抽象、共享、复用的能力,快速的支撑前端业务的发展。中台具有四种能力,首先是对流程和数据的抽象、共享、复用。其次,中台是对接口和数据资源的编目、管理和交换。第三,中台具有对上层应用快速整合和拼装的能力。第四,中台规范开发行为、数据行为、交换行为。中台必须具有上述的四种能力,缺一不可,否则它就不是一个真正的中台,而可能只是一个大数据平台。中台更是一种思想,是一种文化,它一定会在整个公司的各个部门,各个流程上有所体现。
2021年12月6日
其他
Data as a Service (DaaS) 架构与优势
数据湖以其原生格式保存大量数据。数据工程团队将原始数据清理并丰富为结构化数据,并在整个业务中使用它进行临时分析或由数据科学家用于机器学习目的。此外,这些数据流经不同的下游团队,转换并存储在其自己的基础架构中,并且根据业务需求在其之上构建各种应用程序。尽管大多数关键性能指标和洞察力在应用程序中是通用的,但下游团队将数据存储在自己的基础架构中,他们必须遵循应用在源头上的同一组业务规则、治理和合规性才能满足所有必需的标准。这可能会导致采购、维护和遵循所有这些流程的额外成本和资源限制。数据和流程始终在不断发展,任何更改,例如添加新数据资产或修改现有数据资产或更改业务规则,都应在所有团队之间进行沟通和实施。源团队必须确保更改的向后和向前兼容性,因为所有团队可能不会同时实施这些更改。它通常会延迟整个过程,因为我们必须支持旧版本,直到所有团队都坚持新的更改。数据即服务
2021年12月3日
其他
基于OneData的数仓体系建设
本文目录:一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具。一、指导思想首先,要进行充分的业务调研和需求分析。其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵,抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。最后,是代码研发和运维。其实施流程主要分为:数据调研、架构设计、规范定义和模型设计。二、数据调研1.
2021年12月2日
其他
大数据技术之Hadoop(生产调优手册)
开启回收站配置开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。(1)回收站工作机制(2)开启回收站功能参数说明默认值
2021年11月30日
其他
深度思考:为什么国内 996 干不过国外的 955?
领域,为啥中国的公司如此努力的加班,但是在产品上还是不能跟国外的比?虽然我们公司不是加班很多,但是相比国外同类公司还是工作时长要长很多,我们最近为了赶新版持续部署产品上线,相关团队基本上是
2021年11月28日
其他
数据分析之数据预处理、分析建模、可视化
冗余问题如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。属性或维度命名的不一致也可能导致数据集中的冗余。常用的冗余相关分析方法有皮尔逊积距系数、卡方检验、数值属性的协方差等。3.
2021年11月24日
其他
集团型企业数据中台建设方案
要想更好地挖掘出数据的价值,就需要一个强有力数据中台来打破传统企业组织架构下IT和业务的壁垒,将原本复杂分散的数据孤岛充分进行整合,省去业务数据跨部门传递,并结合高性能的算法开展数智运营,将基于技术的数据分析结果直接转化为业务优化方案。对于大型集团型企业来说,基于数据中台可以实现产品、营销、客户等角度的全域闭环分析,实现业务与经营的洞察和预测,把数据这种“生产资料”转变为持续增值的数据“生产力”,以此来不断推动企业业务模式的优化以及商业创新。从这个角度来说,数据中台可以说是企业数字化转型的“核心引擎”,关系着数字化转型的成功与否,尤其是已经开展了大量信息化建设的传统企业在这一点上更为明显。事实上,这一点也已经成为了众多大型企业的共识。下面这份PPT材料主要介绍了集团型企业数据中台的建设背景和顶层设计思路,重点阐述了数据中台的功能应用,以及数据中台建设完成后的运营,最后谈了几点大数据分析治理的应用。
2021年11月21日
其他
分布式数据库如何平衡一致性和读写延迟?
为了提供高可用能力、避免数据丢失,在分布式数据库或存储系统中需要设立数据副本机制,而副本的引入,可以说是分布式存储中的“万恶之源”。多副本之间应该满足强一致吗?强一致会导致请求延迟增加多少?强一致约束下能提供哪些可用性?诸如此类,种种问题,不一而足。此外,分布式系统中的
2021年11月17日
其他
数据治理工具:战略层工具+管理层工具+操作层工具
数据作为推动经济社会发展及数字化转型的新动能已成为社会共识,数据治理作为基础性工作,受到越来越多企事业单位的重视。数据确权、数据质量、数据安全、数据流通已成为影响数据要素价值潜力发挥的重要因素,如何做好大数据治理工作成为数字化转型的新挑战。数据治理是一个需要长期投入的工作,涉及业务和技术等方方面面,影响范围及复杂度高,治理效率尤为重要。为进一步增强我国各行业各领域对数据治理工具的认知,通过治理工具实现对数据治理工作的降本增效,全国信标委大数据标准工作组组织编制《数据治理工具图谱研究报告(2021版)》,为各行业、各领域数据治理工具的研发和应用提供实践参考,也为后续数据治理工具标准化工作提供思路。本报告基于数据管理能力成熟度评估模型、数据治理规范及数据质量评价等标准,结合重点行业数据治理工具的应用情况、典型数据治理工具厂商的功能架构研制而成。(以下仅展示部分,文末附下载链接)1、报告给出数据治理工具全景图。图谱中的工具划分是按照工具应具备的能力进行划分,并非按照工具的功能开发模块进行划分。依据数据治理及管理组织各层级所关注的侧重点,本图谱将工具划分为三层,包括战略层、管理层、操作层。2、报告给出战略层工具。为提供数据治理战略规划、评估、指导、监控的工具或功能。主要包括五大过程域:组织与职责、体系与制度、团队与文化、计划与监控、成效与评估。3、报告给出管理层工具。为应落实数据治理战略而进行的数据管理活动的工具或功能。主要包括八大过程域:数据架构管理、元数据管理、数据标准管理、主数据管理、数据质量管理、数据资产管理、数据安全管理、数据生存周期管理。4、报告给出操作层工具。为基于治理战略目标要求,以满足数据管理需要,对数据进行操作的工具或功能。主要包括六大过程域:数据存储工具、数据采集工具、数据处理工具、数据共享交换工具、AI计算支撑工具、数据分析应用工具。
2021年11月16日
其他
数据指标体系如何从设计到落地
导语:几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”,虽然这个词对于大家来说并不陌生,但是数据指标到底是什么以及如何具体的搭建,很多人还是一头雾水的。01
2021年11月15日
其他
万字详解MySQL性能优化
BY子句和查询的限制是一样的,都要满足最左前缀的要求(有一种情况例外,就是最左的列被指定为常数,下面是一个简单的示例),其他情况下都需要执行排序操作,而无法利用索引排序。--
2021年11月14日
其他
数据治理体系架构设计方案
数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部的知识和意见,通过将流程、策略、标准和组织的有效组合,对企业的信息化建设进行全方位的监管,需要企业高层的授权和业务部门与IT部门的密切协作。目标是保证数据的有效性、可访问性、高质量、一致性、
2021年11月9日
其他
如何避免数仓模型“烟囱式”建设
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原始数据读取权限,分析师⼜会抱怨数仓数据不完善,要啥没啥,⼀个需求经常要等⼀周甚⾄半个⽉。分析师与数据开发的⽭盾从此开始。这个⽭盾的根源在于数据模型⽆法复⽤,数据开发是烟囱式的,每次遇到新的需求,都从原始数据重新计算,⾃然耗时。⽽要解决这个⽭盾,就要搞清楚我们的数据模型应该设计成什么样⼦。什么才是⼀个好的数据模型设计?来看⼀组数据,这两个表格是基于元数据中⼼提供的⾎缘信息,分别对⼤数据平台上运⾏的任务和分析查询(Ad-hoc)进⾏的统计。表1:表2:下图是数仓分层架构图,⽅便回忆数据模型分层的设计架构:表1表1中有2547张未识别分层的表,占总表6049的40%,它们基本没办法复⽤。重点是在已识别分层的读表任务中,ODS:DWD:DWS:ADS的读取任务分别是1072:545:187:433,直接读取ODS层任务占这四层任务总和的47.9%,这说明有⼤量任务都是基于原始数据加⼯,中间模型复⽤性很差。表2在已识别的分层的查询中,ODS:DWD:DWS:ADS的命中的查询分别是892:1008:152:305,有37.8%的查询直接命中ODS层原始数据,说明DWD、DWS、ADS层数据建设缺失严重。尤其是ADS和DWS,查询越底层的表,就会导致查询扫描的数据量会越⼤,查询时间会越⻓,查询的资源消耗也越⼤,使⽤数据的⼈满意度会低。最后,进⼀步对ODS层被读取的704张表进⾏分解,发现有382张表的下游产出是DWS,ADS,尤其是ADS达到了323张表,占ODS层表的⽐例45.8%,说明有⼤量ODS层表被进⾏物理深加⼯。通过上⾯的分析,我们似乎已经找到了⼀个理想的数仓模型设计应该具备的因素,那就是“数据模型可复⽤,完善且规范”。如何衡量完善度DWD层完善度:衡量DWD层是否完善,最好看ODS层有多少表被DWS/ADS/DM层引⽤。因为DWD以上的层引⽤的越多,就说明越多的任务是基于原始数据进⾏深度聚合计算的,明细数据没有积累,⽆法被复⽤,
2021年11月7日
其他
Hadoop IO/压缩/序列化
隐藏文件。文件块的大小作为元数据存储在.crc文件中,所以即使文件块大小的设置已经发生变化,仍然可以正确读回文件。在读取文件时需要验证校验和,并且如果检测到错误,LocalFileSystem
2021年11月5日
其他
大数据分析平台技术架构建设方案
面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。
2021年11月4日