数据仓库与Python大数据

其他

数据仓库与Python大数据 | 2021年度最受欢迎的10篇干货文章

06Hive重点难点：Hive原理&优化&面试Hive学习知识点宝藏指南，从执行计划到技术原理、从性能优化到面试总结，一篇文章涵盖Hive技术原理完整知识点。07职业规划

数据仓库与Python大数据 -

2022年2月7日

其他

2022春节红包封面大全！（除夕最新版，文末送红包）

携手柠檬（小助手）、Tech-Y（花荣）、空空（渣渣空）、大师兄、大圣归来24、白晶晶、吹角连营、超哥、余修、武大帅等

数据仓库与Python大数据 -

2022年1月31日

其他

大数据文章干货合集（六）

干货合集连载系列腾讯-数据仓库工程师-面试题美团-数据仓库工程师-面试题字节-数据仓库工程师-面试题淘宝-数据仓库工程师-面试题SpFk篇Spark性能调优指南Spark数据倾斜全面总结（收藏版）Flink

数据仓库与Python大数据 -

2022年1月18日

其他

👇点击“大数据技术团队”，一键关注导读：大数据技术团队大厂面试题连载系列第四篇NO.4，本文为腾讯数据仓库高级工程师岗位面试题，受邀整理总结，目前已入职，分享与社区小伙伴们，仅供大家一起学习进步。【面试内容】第一部分是介绍项目，对参与的项目进行阐述，项目和业务灵魂拷问；第二部分是对技术细节进行考察：具体是kylin、druid、clickhouse等；第三部分是技术方案选型：查询引擎OLAP的选型，和数仓建模的选型；第四部分是通用性问题：项目从底层到应用层如何实现的、问题如何解决的，有哪些成就点。【面试题目】1、自我介绍（低调有礼貌）2、项目介绍，项目中使用的技术、难点及如何解决，项目有哪些亮点、又有哪些收益（问的很细、很深）3、关于如何用之前的经验来做这边的的产品，谈谈自己见解4、在百度的数仓有哪些可以优化和借鉴的地方5.

数据仓库与Python大数据 -

2022年1月17日

其他

Apache Flink不止于计算，数仓架构或兴起新一轮变革

streaming”，就是让整个数仓的数据全实时地流动起来，且是以纯流的方式而不是微批（mini-batch）的方式流动。目标是实现一个具备端到端实时性的纯流服务（Streaming

数据仓库与Python大数据 -

2022年1月14日

其他

字节埋点实践数据治理

/往期推荐终于，进字节了！大数据文章合集10大高级SQL技巧职业规划-5年数仓之路高级数据研发工程师面试题

数据仓库与Python大数据 -

2022年1月14日

其他

京东ClickHouse实践之路

👇点击“大数据技术团队”，一键关注Tips：上面公众号后台回复：JD，获取本文PPT演讲视频直播回放/

数据仓库与Python大数据 -

2022年1月14日

其他

数仓用户行为漏斗分析SQL实现（第二节）

wk_dt=concat(date_add(next_day('2019-02-20','MO'),-7),'_',date_add(next_day('2019-02-20','MO'),-1))

数据仓库与Python大数据 -

2022年1月13日

其他

实时数仓项目架构分层

来源：BAT大数据架构一、滴滴实时数仓项目在公司内部，我们数据团队有幸与顺风车业务线深入合作，在满足业务方实时数据需求的同时，不断完善实时数仓内容，通过多次迭代，基本满足了顺风车业务方在实时侧的各类业务需求，初步建立起顺风车实时数仓，完成了整体数据分层，包含明细数据和汇总数据，统一了DWD层，降低了大数据资源消耗，提高了数据复用性，可对外输出丰富的数据服务。数仓具体架构如下图所示：从数据架构图来看，顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构；比如ODS层，明细层，汇总层，乃至应用层，他们命名的模式可能都是一样的。但仔细比较不难发现，两者有很多区别：与离线数仓相比，实时数仓的层次更少一些从目前建设离线数仓的经验来看，数仓的数据明细层内容会非常丰富，处理明细数据外一般还会包含轻度汇总层的概念，另外离线数仓中应用层数据在数仓内部，但实时数仓中，app应用层数据已经落入应用系统的存储介质中，可以把该层与数仓的表分离。应用层少建设的好处：实时处理数据的时候，每建一个层次，数据必然会产生一定的延迟。汇总层少建的好处：在汇总统计的时候，往往为了容忍一部分数据的延迟，可能会人为的制造一些延迟来保证数据的准确。举例，在统计跨天相关的订单事件中的数据时，可能会等到

数据仓库与Python大数据 -

2022年1月13日

其他

美团实时数仓演进与实践（最新版）

Streaming作为美团的第一代实时计算引擎，并且发布了第一版作业托管平台。接下来在2017年，平台正式引进了Flink，并开始初步探索以Flink

数据仓库与Python大数据 -

2022年1月12日

其他

基于Flink SQL构建流批一体实时数仓

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代，其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。本文主要分享基于FinkSQL构建实时数仓的基本架构以及相关的技术点，希望本文对你有所帮助，以下是全文：两个前置知识五个基本概念两个具体实现两种架构对比一个综合实操流处理VS批处理五个基本概念维表JOIN与双流JOIN两种架构对比传统数仓问题1.两条计算链路、造成重复工作、计算资源浪费2.两套数据模型，一致性难以保障实时数仓统一了基础公共数据保障了流批结果的一致性提升了离线数仓的时效性减少了组件和链路的维护成本一个综合实操猜你喜欢：数据治理标准化白皮书.PDF（附下载）粉丝福利：☞点击上方公众号卡片，回复：实时数仓，可领取实时数仓视频资料和PDF合集。

数据仓库与Python大数据 -

2022年1月11日

其他

连载系列 | 字节跳动-数据仓库工程师-面试题

来源：大数据技术团队👇点击“大数据技术团队”，一键关注导读：大数据技术团队大厂面试题连载系列第二篇NO.2，本文为字节跳动数据仓库工程师岗位一面、二面、三面面试题，分享与社区小伙伴们，仅供大家一起学习进步。一面：1.自我介绍2.窗口函数有哪几类，全面说一下3.针对分析函数出几道简单sql题，现场直接写（排序、分桶、分位数）4.数据倾斜可能发生场景，和不同场景下解决方案5.mapreduce

数据仓库与Python大数据 -

2022年1月11日

其他

数仓开发轻量级入门路线

这篇文章我们从面试的角度讨论一下【数仓开发】该怎么学、学什么、学到什么程度。数仓社招面试一般分为三个部分：技术基础：基于简历上写的技术展开去讨论这些技术点的原理、底层实现等sql实践：1~3道sql题，现场写讲项目：中间会基于项目中的一些点展开讨论，穿插业务理解、数据建模、治理相关问题的讨论我们就朝着这三个方面去准备，尽量的把这些知识融会贯通，变成自己能说的东西。方法论我们学习是一个由模糊到清晰的过程：知道概念—>学习理论—>大量练习—>逐渐清晰—>再大量练习—>清晰—>熟练运用—>融汇贯通核心技能数仓开发要学的基础技术大体如下：整个的核心只有一个：sql

数据仓库与Python大数据 -

2022年1月10日

其他

数据治理标准化白皮书.PDF（附下载）

个方面，如下图所示：3、提出数据治理标准化体系运行机制（1）设立数据标准化工作机构数据标准化工作是一项整体性活动，设立工作机构是系统、全面、可持续开展数据标准化和数据治理

数据仓库与Python大数据 -

2022年1月10日

其他

最全面的大数据从0到神文章集合

很多粉丝朋友私信留言，我们公众号干货超级多，希望我们整理一下公众号文章出个合集。应邀周末专门整理总结本文，希望对大家有所帮助，也期望大家帮忙转发支持。再次感谢粉丝朋友们的支持与厚爱~！转发建议文案：今天为大家推荐一个大数据数据仓库领取翘楚公众号【数据仓库与Python大数据】，大数据从0到神文章集合，希望对大家有帮助，干货与福利满满，建议收藏并关注！（目录如下）1、面试经验20篇2、数仓规划10篇3、实时数仓25篇4、数仓案例25篇5、数据中台23篇6、数据湖13篇7、用户画像14篇8、数据倾斜7篇9、数据治理14篇10、指标体系8篇11、Hadoop9篇12、推荐系统8篇1、面试经验：记一次蚂蚁金服面试经历记一次字节跳动面试经历记一次美团&拼多多面试经验记一次蚂蚁金服的面试经历2记一次华为面试数据分析经历漫画

数据仓库与Python大数据 -

2022年1月9日

其他

数仓用户行为漏斗分析数SQL实现（第一节）

“设为星标”比别人更快接收好文章前导读：数仓架构（ods-dwd-dws-ads）每一层之前我们都已经分享过很多干货了，今天这篇文章主要分享数仓用户行为面向需求SQL案例实践。言相关干货：☞

数据仓库与Python大数据 -

2022年1月8日

其他

大数据开发轻量级入门路线

State等模块，有Flink源码阅读经验优先，有二次开发经验请在简历显著位置标注；2、熟悉常见消息队列原理和应用调优，有Kafka、Plusar、RocketMQ等项目源码阅读经验优先；

数据仓库与Python大数据 -

2022年1月7日

其他

解决Spark数据倾斜全面总结（收藏版）

本文转发自技术世界，原文链接：http://www.jasongj.com/spark/skew/假期发现一篇好文章，分享给大家。推荐收藏转发朋友圈备用。导读本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data

数据仓库与Python大数据 -

2022年1月4日

其他

Hive重点难点：Hive原理&优化&面试

student_orc_partition;得到结果：{"input_partitions":[{"partitionName":"default@student_orc_partition@

数据仓库与Python大数据 -

2021年12月31日

其他

从0到1搭建数仓DWD层案例实践

oi.id;4、退款事实表（事务型事实表）需要时间、用户、商品三个维度，查看ODS层表ods_order_refund_info，所有字段都有，那么直接取数装载。4.1、创建表drop

数据仓库与Python大数据 -

2021年12月30日

其他

Hive SQL优化思路

Key分布到同一个reduce中），最后完成最终的聚合操作。但是这个处理方案对于我们来说是个黑盒，无法把控。一般处理方案是将对应的key值打散即可。例如：select

数据仓库与Python大数据 -

2021年12月29日

其他

拿捏SQL数据分析：从基础破冰到面试题解

中查询相关内容涉及广泛，例如经常考察的“多表连接”、“窗口函数”、“子查询”、“分组聚合”等知识点，在求职准备过程中需要花时间充分准备，方能在笔试面试中从容应对。不同公司关于数据分析

数据仓库与Python大数据 -

2021年12月28日

其他

微信官宣1000W个微信红包封面，速度领取起来！！

新的一年，新气象，你的微信红包封面是不是该换换了。看别人都有与众不同的红包封面，你柠檬了吗？福利来袭，先到先得，大家抓紧抢数量有限的微信红包封面呀！新年换新颜，前方高能预警：一大波限定红包封面即将抵达!在公众号BAT大数据架构里回复【红包封面】即可免费领取

数据仓库与Python大数据 -

2021年12月28日

其他

万字好文！数据治理体系与能力提升

今天演讲的主题是数字化转型之大数据治理体系能力的提升，给大家分享的主要是三个部分：第一部分是企业数据治理发展背景及理解，这里面主要讲数据治理面临的挑战和难点和数据治理发展的趋势。第二大部分介绍数据能力已经成为企业必备的核心能力，这里面介绍一下数据治理概要、介绍，企业数据平台转型的基石，数据治理实施路径。第三部分介绍数据治理项目相关的一些建议。首先看一看国家层面在数据治理领域一些比较重要的事件。如下图所示：去年四月份在党中央的报告里面，第一次谈到数据治理是重要的生产要素。数据等同于我们的土地、劳动力一样，是重要的生产要素。生产要素就意味着能够流通、能够变现、能够参与整个资料或者表的建设。去年的二月份工信部发布的工业企业数据分析分类的指南，这也是非常重要的，运输要流通，要交易，那我们有些数据一定要分析。分类有的是商密，有的是绝密，有的是可以共享的数据。最重要的是去年八月份国资委发布了《关于加快推进国有企业数字化转型工作的通知》，在这个通知里面非常重要的一点是要构建企业的整个数据治理体系，包含整个组织的管控还有一些数据平台。国资委发的这个通知里面是广义的数据治理，包含了大数据平台、数据治理、数据管控等等。今年的6月10号，人大通过了《中华人民共和国数据安全法》，在9月1号正式实施。为了规范数据处理活动，保障数据安全，促进数据开发利用，保护个人组织的筹划权益，维护国家主权安全和发展利益。这是中国第一部以数据命名的安全法。在8月20号，《个人信息保护法》也通过评议，在11月1号正式实施。在10月8号，工信部、人社部、电子方案院共同推出了《行业标准大数据从业人员能力要求标准》。让从事数据相关的人，当大数据工程师，里面有十个岗位，包括数据标注师、数据架构师、数据管理师、数据工程师、数据咨询师等等，也是数据从业人员的福音。9月6号可持续发展大数据国际研究中心的成立，会以大数据服务联合国2-3年，是可持续发展历程的国际科研机构，在中国科学院成立。在十月份国家层面也会成立中国数据研究会，也是国内第一个在国家层面成立的数据协会。可见最近这一两年国家层面在一些重要的报告、通知、国标、机构方面，紧锣密鼓的成立跟数据治理相关的法律法规等相关的一些事情。可见国家层面，在各个行业层面，非常重视数据治理的工作，未来十年数据治理应该是非常热的一个行业。数据治理管理面临的问题和挑战实际上在企业里面，业务人员在整个数据治理的过程中面临的很多问题。第一个问题，信用化做到今天，通过过去十多年的信用化建设，我们信息的可能少则十多个，多则上百个信息系统，整个企业在一个集团范围内，内部信息系统孤岛普遍存在，各个单位信息资源混乱不清，信息不能共享，也就是不知道到底有多少的数据资产。第二个，跨业务板块化组织的数据难以直接共享。缺乏完善的交换机制和体系，没有交换的方式，数据拿不到。像财务数据，销售部门想看看财务数据，看起来就是个地雷，很难拿到。第三个，数据质量无法管控。数据安全无法保障，信息不全面、不及时、不准确，管理不好数据资产。第四个数据资产认识不足，缺乏数据应用的经验。数据应用仅限于一些报表报告，很难做一些预测预警的分析，这是建设成效不理想，没有达到预期的目的，数据资产用不好。那业务人员面对数据资产不知道、拿不到、玩不好、用不好，这是针对企业业务人员面临的一个困境。再看看针对企业的管理人员的困境。企业往往做了很多标准，但是并没有真正的落实到管理企业当中去。平时束之高阁，只有在每年的总结汇报或者外部审核的时候才抛头露面，也就是业务标准“两层皮”。第二个“夹生饭”。由于做数据标准化，跟企业管理实际脱节，制定的标准可操作性比较弱，管理层总是知道整个信息化标准做的很漂亮，但实际过程中其实用不到，会出现这种情况。第三个“靠边站”。整个数据治理、数据变化，说起来重要，做起来次要，忙起来就不要。整个数据标准化管理工作在公司任务紧的这个压力下面为项目往往让路，阻碍了整个企业数据标准化的进展。针对企业技术人员来讲，在一个集团公司，也有六个痛点。第一个数据孤岛，无法打通。第二个烟囱式的建设重复造轮子。第三个业务和信息部门各说各话，缺乏统一的口径。第四个沟通问题，鸡同鸭讲，无法穿透业务层。第五个数据人员的痛，就是看不到尽头，每年是同样的问题，第一年，第二年，十年前的问题，现在依然还在重复的存在。第六个最重要的问题，it部门非常尴尬，是成本中心，是弱势的部门，就是现在数据最大的痛点就是数据看不全、看不准、看不到、看不懂、看不到头，这是从事技术人员面临的一些困境。企业目前的主要需求有哪些人？其实在大数据的今天，人工智能，包括数字孪生、元宇宙，这些说的很漂亮。在企业里面，尤其是数据分析应用的数据还是非常强烈的，最近针对100家企业做了一个调研，通过调研问卷显示：第一、数据的时效性要求比较高，要求数据报表能够实时的反映业务的现状；第二、跨服部门、跨组织的数据共享的需求是非常强烈的。第三、对已购外部数据共享的需求也比较迫切。那看看大数据的预测分析角度，尤其在一些工业企业设备故障、智能诊断和预测分析设备的运行诊断分析，客户的精准营销，尤其对视频、图片的处理项目有12项技术，而对文本的数据处理要求非常强烈。尤其像合同管理、设备故障分析等这方面要求高。可能企业里面对数据平台也有个需求，希望总部搭建一个平台，企业在上面唱戏，能够在上面看到各式各样的一些数据。数据应用从过去的十年前的bi到现在有五个转变：从统计分析向预测分析转变；从单一领域的分析向跨领域分析转变；从被动的分析向主动分析转变;从非实时的分析向实时分析转变；从结构分析向多元化分析转变。工具要求数据是全面的、可共享的，有些行业特定的方法、统一的数据服务共享的平台，数据效率要求也比较高。数据治理的发展趋势整个数据治理发展确实是这样，在企业里面有产供销、人财物，其实数据按照整个数据领域的知识体系来讲，数据也是一项职能，也是一项企业运作的基本准则。基本数据是实战要素，和采购和人力资源、财务一样，成为企业运作的基本准则。企业数据的商业化，数字化转型的关键是否可以像数据科学家一样思考。数字化转型战略最重要的是构建数据能力、数据的组织、数据的运营能力、数据团队。数据跟人力、采购、生产一样，这里面有数据治理、数据的安全、数据分析、数据的应用、数据的运营。数据能力已经成为企业不可缺少的核心能力之一。这些都受到转型非常重要的支撑，构建企业级的数据平台，企业级数据平台是数据加工工厂和数据加工工艺，只有好的数据治理工具才能更好的支撑数据平台的建设。整个数据平台能够支撑企业的业务占领的目标，做企业级的数据平台的话，要实现五个打通。第一个横向打通，破除部门壁垒，打通横向化专业间的升级，挖掘，融通。第二个纵向打通。从集团总部到专业板块到下面的三级职员单位形成统一的资源目录，上、下级的数据共享交换。第三个内外打通。消除内部数据和外部数据的分工，实现内部数据和外部数据的观点分析。外部数据可以第一时间了解数据的准确性，一致性。第四个管理打通。建立企业的标准，实现统一的管理统计口径，大家用同样的指标。第五个服务打通。通过数据平台统一对外提供数据服务和应用构建与业务系统数据应用充分的协同，最后构建数据大变革。四个能力：第一个数据接入的整合能力，开展数据接入整合能力，提升工作，实现多类型的数据高效汇聚，支持公司的融通、共享、分析、运营。第二个是技术组建的支撑能力，开展数据平台的支撑能力优化，完善数据平台的技术架构。第三个最重要的，数据的共享能够分析。开展共享分析的能力，跨专业的数据共享分析，支持跨部门化的数据共享分析，应用到各部门，积累、沉淀、共享的数据分析，最后就是数据资产管理能力。第四个开展数据资产的管理能力，逐步完善公司数据标准规范，增强企业的数字感的应用性，对外能力提升。这是构建企业级的数据管理平台的目标，构建云、数、智一体化的整个数据平台。这是一个蓝图，需要3-5年才能建成。整个软的课题就是数据架构，包含数据项、目录、分布、模型标准，还有数据治理体系，数据治理架构、管理制度、管理流程。需要有两个体系，两个平台，一个服务。我把它归纳成一堆的工具体，为了更好的确保数据质量和安全，这里面包含了主数据、数据安全、数据质量加数据工具、指标的工具等等。中间的这部分是整个数据平台。把多元的数据能够统一的接入、清洗、转化、加工，通过物理的和逻辑的整合变成数据。一切业务数据化，数据再资产化，通过数据资产地图、数据的标签、数据资源的目录，上访，分期，分类，保障数据安全。上面是一些检索服务，包括一些计算引擎的服务，分析引擎的服务，把资产服务化。下面是企业里面应用从研发到销售，到生产到物资，到整个风控、智能制造等等，每个角色每个人用唯一的账号唯一的密码通过这个数据平台能看到跟自身所有相关的一些数据。未来各级管理人员通过一个账号一个密码，能看到全域的数据，这是做整个数据平台的架构，两个体系，两个平台，一个服务。数据治理未来的发展方向整个数据治理过程中，肯定是数据战略作为指引，数据战略能够很好的支撑整个业务战略，业务战略是指导数据的战略，业务是核心，数据业务背后就是数据在支撑。数据是基础，把整个经营层面的数据，生产层面的、控制层面的、物联网的数据能够整合起来。数据是基础，智能出价值，因为要做分析，要利用一些人工智能，通过一些大数据，通过一些算法，通过一些二维技术能够更智能化的做一些分析，这就是智能出价值。场景是抓手，因为按照场景做大数据应用场景，通过一个场景项目有做金融营销，做物资大数据的价格分析。场景是抓手，通过一个场景就是一个项目，解决整个企业的痛点、难点的问题。连接是前提，把不同层面的数据通过算法连接起来。运营为保障，数据治理，除了治理外，这是个动词，过程运营为保障，需要有一套整套制度运营起来。数据运营，为数据质量保驾护航，才能真正的体现数据资产的价值。同时也需要根据管理的需要逐步建设完整起来，这是未来的数据治理的动向。那么企业里的数据治理应该包含哪些内容？站在管理的视角来看数据治理就是五域模型。首先是管控域。管控域涉及数据治理的组织、制度、流程、绩效。第二块是过程域。从分析到设计到实施到评估，数据治理是个过程，是PDC。有整个规划、规划过设计、评估整个数据里的成效，这是一个闭环，数字治理里面涉及的有11个域，待会来介绍，这里面包含着数据战略到主数据、原数据、指标数据、实施数据等等，这里面包括数据质量、数据安全。数据治理还有技术域，从总数据架构到整个治理的工具。另外还有价值域。数据资产要体现它的价值，那就一定要共享，共享过后才能实现流通、实现变现。所以数据资产要变现的话，一定要能够价值变现。所以说，在数据治理中比较重要的就是管控域，在数据治理的战略指导下制定企业级治理的组织，明确组织的责、权、力、岗位编制、技能要求。这就是五域模型。站在技术的视角来看，数据治理是个体系化的工程，这上面就属于战略，要规划数据战略和实施战略，然后评估数据战略实施的情况如何，最终还是要体现数据价值，能够实现共享，最后数据能够变现。这里面有两个柱子，一个数字治理体系，组织架构、制度规范、管理机制、绩效体系和再生化体系。另一个是工具平台，这里面有数据的工具、指标的工具、质量的工具、数据安全的工具、互联互通的工具。这里面有八九类数据治理的工具体，那中间的是九个柱子，设计的从数据架构，从逻辑架构到整个的物理架构，架构特别重要。主数据是黄金数据，在整个企业里面，是非常重要的一个数据。原数据是数据仓库里面非常重要的数据指标。刚才讲的指标是企业化管理的一个抓手。实施数据是物联网层面的数据，设备层面的一些数据。企业的数据系统很多通过数据交换的服务来构建数据。数字开放共享能够实现它的价值。后面是数据治理的整个能力，才能做评估。这是技术的设想，是体现了工程。包含战略、体系、工具、数据治理的职能域。上图是车轮图，中间是数据管控。管控，就刚才讲过数据里的组织、制度、流程、管控机制、绩效体系、标准化体系在这里面。那车轮图里面，在工业企业数据治理的车轮组定义的这个数字理的知识域，管控体系应该说跟周边的十个域都有关系。这里是实现功能内部一致性和功能性之间变更所需要的。周边的数据战略，包括架构、主数据、原数据、指标、持续数据、质量管理、安全管理、交换服务、数据开放共享。中间的车轮筒叫数据管控，对数据管理的管理，这里面主要是设计组织制度、流程、绩效标准等等。第一个数据管控，建章立制，对数据管理的管理。第二个数据战略是数据治理的诗和远方，就是有数据的规划，数字设计的一个项目规划。数据治理要有哪些项目去做，解决怎么做的问题，谁去做的问题？第三个数据架构，是数据战略蓝图，是高楼大厦的施工图纸，是水泥钢筋的框架结构和地基，跟整个企业的系统架构师非常相关，这里面有业务的，包括领导的，有不同层级的。第四个主数据是数据中的黄金数据，数据治理的核心，跟所在的业务实体对象相关，像客户、供应商、会计科目、物料、产品、设备，是业务部门实体对象。与业务部门、业务人员紧密相关。第五个元数据管理是关于数据质量，数据管理的基石，跟整个数据仓库底层技术有关。做数据中台，数据平台是非常重要一块，技术人员也非常关心元数据。第六个数据指标管理，是企业经营化管理的抓手，跟企业的各级管理者有关。那是管理人员都有指标，考核指标，收入完成多少，利润完成多少，通过指标实现我们企业经济化管理。第七个时序数据是设备层面的数据。例如温度、压力等等，是生产层面非常重要的一类数据，做一些管控我们整个本质安全，包括整个的节能减排都跟实际数据紧密相关。第八个是数据质量管理，有质量才有价值。做数据治理最重要的就是提高数据质量。第九个，数据安全，有数据安全才有未来，安全是一种高级的竞争力。第十个数据交换与服务，数据移动有效的管理确保数据资产保持增值第十一个数据安全共享是破解数据价值的密码。技术平台能力总体框架下面我们看一看做数据治理的一些工具和平台，在整个十四五期间比较重要的是数据一体化的数据平台，数据中台、业务中台和技术中台三大中台都是构建统一的云平台，无论你是公有云还是私有云还是混合云，技术设施保证网络资源、全球资源、计算资源是足够大的，那在整个帕斯平台上面构建云源时代的恢复框架，分布式的数据库服务的治理。数据平台是集中的数据建模、加工、数据应用和数据资产管理等等，是构建的整个云品牌，那上面会实现能力的聚合、服务的组合、服务的编排，上面是移动应用、app、公众号、小程序，这上面打造一体化的平台，新的技术架构下面整个数据平台构建整个新的技术架构。下面从整个数据的逻辑架构来看，是面向数据全身的周期，提供一站式的数据总规划到开发到治理到服务和应用，整个是五个维度，七个层级。从采数据，聚数据，用数据和保数据。把数据分成七个层级，总数据加化，采集交化，数据的共享交换，批量采集，实采集，网络爬虫采集。后面统一的处理，这里面包括批量的接入、加载、探索、清洗、标准化关联，当然还有实时处理。上面的是存储计算，有大数据平台能搜到的，搜索引擎的关系数据还有实时数据，让数据生产、存储计算，这里面分的有八个区，在数据湖里面。上面的是数据分析，这里面分析有一些工具，做些图像的识别，语音的识别，多维的分析，自助分析。那上面的是服务。有服务总线，有微服务，有标签管指标，上面还有一些的分析，销售分析，采购分析。最上面的是数据应用，所以把数据分为五个维度、七个层级，构建一体化的内向全生命周期的数据平台。那接下来看一看这里面的数据采集，交换，数据计算与存储，数据分析与建模，数据应用，数据治理的体系。这里面主要是有八类工具体，这里面从主数据到元数据，安全质量，这里面有一些标准、规范认为的管理体系，包括一些烟花体系，评价体系都在这里面。从整个数据平台来看，从数据的接入，这里面有数据交换平台，有批量交换平台、kafka、网络爬虫、有很多数据交换，不同的场景，不同的工具，让大数据平台这里面设计的开源。刚才的数据交换平台，里面有数据共享交换平台、分步式的一天工具、实时的数据同步。在这个大数据平台里面也是开源，这里面涉及到大数据平台的基础平台、批量的作业调度平台。第三个数据分析和可视化的工具，这里面投资引擎资源与处理识别引擎套件。像帆软，在国内数据可视化领域处于领先地位。另外，帆软有数据服务总线和数据服务各种产品，通过数据微服务、数据服务总线对外提供数据分析等一些工具。还有数据资产平台，就刚才讲的数字治理平台，有的叫数资产平台，有的叫数字的平台。那这里面还有数据开发的一些工具，这里还有一些应用系统、标签管理系统、指标管理系统。那这是站在工具体比较成熟产品的角度，从全生命周期看到整个数据的一个加工工厂，总是数据介入地产存储，数据可视化对应的有不同的产品不同的工具，完成整个数据的加工工厂，当然我们在整个数字化技术中大屏的可视化就是非常关键的一个产品。目前帆软在大数据可视化方面还是做的不错的，有一体系产品，有开放的平台，这里面能够很好的形象的跟领导做数据化的展现。展现从全球到国家到省份到城市到区域到园区的建筑物到空间，可视化非常形象，可视化技术做的也是非常好的。为大家提供这方面的比较形象的分析服务，让领导能够一目了然的看到生产经营一张图，管控一张图，城市一张图。这个是在社会城市，在一些大屏里面做的比较多的人。那我们看看这里面数据可以做一些相关性分析。看上面的一个指标，指标点进去可以看到历史的数据。在历史数据的基础上，如果关心一些关键指标，像电量、发电量以及发电功率进行相关分析，挖掘出影响值得潜在的因素，这样指导应为人家有效的措施，提高各项指标，提高整个企业的经济效益。用一些相关性分析，那通过这个数据男生提高企业的运行的效率，那可能用一个是物理世界，一个是数字化世界，那数据孪生技术在企业的这个工厂里面就是广泛在这种场景与数据孪生技术构建生态体系贯穿智能系统、服务，显著的提高智能智慧能源生态系统工作效率，降低能源的成本，实现能源的整体规划，这是数据孪生在工具级里面用的比较多。国内数据治理常见的8种实践模式从刚才讲的管理体系来看，是非常庞大的，工具体也很多，那怎么来策划这样的项目呢？领导就是说大数据很好，咱们怎样来策划这样的数据呢，在国内有8个路径。第一个是有整体规划，一个大机构让我们做总体规划，规划3-5年的。数据治理的项目按部就班的走，当然很多政府和大型机构是采用整体规划的方式，在数据治理的整体实现上，规划先行，组织体系先行，这是一种方法。缺点就是建设周期长、见效慢，但是治理成果相对稳定全面。第二个财务领域数据分析要求比较高，可以有个切入点，另一个财务领域短时间的一个项目也特定需求输入进行项目建设，这个也是一种方式，跟着一些共享的企业短期见效。第三种方式数据平台就不管3+2批数据先入。做过后，然后在这技术上也分析展现，这是第三种方式。第四个方式就是大型生产系统开发，在企业里面，上MES，上ERP，同步的要做一些技术性工作，要做数据标准化项目。成果很快在大型的生产性开发过程中能够用到，这也是一种技巧。第五个是企业数据模型建设，通过建模的同时建标准，这是一种定制开发项目里面可以用到的。第六个主数据项目建设模式。通过主数据解决编码不一致的问题，这是在右系统项目供应商，发现统计数据不准的时候，这是一种策略。第七种策略是数据管控模式，从it管理的需要出发，也建系统体现建设成果，这是数据的好模式。第八个就是数据滋养目录的模式，通过数据资源目录做数据交换共享，企业要根据实际情况，因为重点任务在八种组合当中进行选择。归纳起来是三个结合，四个坚持，五个避免，六个导向。三个结合:第一个，大数据治理技术跟传统的业务流程要深度的融合起来，一定要体现业务价值。第二个，长远目标和大体介绍相结合的原则。做数据治理需要3-5年，但不可能说做三年才有一点成果，必须3-5个月有一个成果。大处规划，小处着眼，重点实施，分布治理。第三个，标准工具和运维保障相结合的原则，要确保提高数据质量和安全。四个坚持:坚持统筹规划，设计重处，规划小步快跑，局部执行坚持业务部门牵头进一部门重复规划，外面有自用公司技术支撑坚持标准先行，急用先建，滚动发展坚持标准贯标和内部数据人才的培养五个避免：避免贪大求全，要做小而美的实现素影的方案避免信息部门畅所短信避免流程过长避免为了做标准而标准避免单一的工具内这个建设六个导向：需求导向，了解业务需求在哪里价值导向，关注项目提高了多少价值问题导向，解决实际问题能力导向创新导向结果导向那我们策划项目的时候，一定有一个或两个导向在支撑，让项目能够体现促进你的价值。下面针对云数据的项目提供一些建议。刚才讲过数据战略要规划企业整个数字治理的中长期的规划目标，到底数据治理是怎么实施的？3-5年目标，每年做什么任务？第二个机制落实。整个组织制度流程要落实，没有组织保障的话，没有人在支持的话，这个项目很难去做。第三个管控领域，数据治理有十一个职能域，那这个职能域要逐一逐一的去抓管控。第四个就是工具，有数资产管理工具，有大数据平台，有人工智能平台，通过工具落地，通过数据治理落地满足需求、管理，能够内部数据中企业运营外部数据洞察整个市场。这是产品的服务的移动化，智能化，这是做数据治理项目的思路。最好建议数字产品的动画设计的实施路径怎么来走？机制和数据治理智能与工具的搭建。当然做数据治理，需要有一些保障措施。组织保障。明确数据治理的领导组、管理组、运营组，建立稳定的数据运营的组织。制度保障。要发布整个数据资产管理相关制度，数治理工作要纳入到绩效考核当中去，包括质量、应用水平、平台工具等等。资金保障。要做这个工作一定需要投入，这里面其实也需要比较大的投入。对数据力工作突出的一些组织，个人进行表彰和奖励。人才保障。因为目前来讲，国内无论是甲方还是乙方，无论是外企还是互联网公司，非常缺数据治理的人员，要培养和引进数据治理领域的创新人才。一方面可以从内部的业务部门培养，开展数据治理知识和教育培训，推动全员对数治理的认知水平。国内数据治理的项目成功的案例不是特别多，至少60%-70%是失败案例，那么为了确保项目的成功，我觉得一定要从组织保障、制度保障、人才保障、资金保障，确保项目实施比较好。目前国内有个数据统计，至少目前缺500万数据治理人才，数据工程师有五百万人缺口，那就要加强业务部门信息化能力的培养，开展数据资产管理系列的培训课程培养数据能力，选拔出数据资产的核心人才队伍。第一个要提高员工对数据资产管理基础知识的认知，这非常重要。如果高管重视，这个工作也好做，如果他不重视这个，工作就很难去做。第二个加强员工对数据管理的价值。数据治理到底有哪些价值？第三个要培养数字资产管理的核心人才队伍。所以要在企业里面建立数据文化，数据知识普及，包括数据的一些认证。在10月8号，工信部、电子标准院，人社部发布了大数据从业人员的标准。因为要培养数据管理人才，保障人才标准一致，才能推动行业发展。在这个标准里面，这里面有十类数据相关的工程师，包括大数据处理、管理分析、系统安全服务等等。这是从业人员的福音，大家可以考一考初级的、中级的、高级的工程师，最近工信部也会推出相关的认证、培训，这里面按照知识、技能、经验三个维度提出大数据从业人员岗位能力要求，大家可以把这个找来看一看，可以做一些考试。点击文末阅读原文，可领取春节红包封面，抢先一步！【END】据统计，99%的数据大咖都关注了这个公众号👇往期推荐7000字一文详解数据标准管理！三万字，Apache

数据仓库与Python大数据 -

2021年12月28日

其他

7000字一文详解数据标准管理！

今天我给大家分享的主题是数据治理之数据标准管理。什么是数据标准？提到数据标准大家肯定会想到公司也有相关的产品设计的标准、质量检验的标准、安全环保的标准，对于金融企业的话，还有市场监管相关的一些标准。这些标准其实都不是我要讲的数据标准，以上的文件式标准最多只能被称作规范。在我看来，其实数据标准不能只停留在文件层面上的内容，数据标准更应当是为业务运营和管理决策提供相应的保障。中国信通院在《数据标准管理实践白皮书》中对数据标准给出了定义，我个人认为这个定义是非常贴切的，但是好多小伙伴反应定义感觉有点不太理解，怎么通俗的去理解数据标准？根据我自己的理解，数据标准是企业各部门、各利益干系人在数字化环境中使用的一种共同的语言，就像我们大家交流的语言一样，是在数字化环境中使用的一种语言。数据标准为什么重要？中国有一种传统文化——大一统文化。大一统文化的前提，或者叫背后支撑的钥匙，就是标准化。在国家治理层面，从秦始皇统一六国，他统一了货币、统一了文字、统一了度量衡，废弃分封制，建立郡县制，加强中央集权。他采取了一系列国家治理的措施，我们可以发现他做的最核心的一件事情——标准化。所谓的“车同轨、书同文”，把以前七零八落的、没有统一的东西都统一起来。到我们建国以后，包括普通话的推广，其实也是国家治理的一部分内容。我们试想一下，如果大家在一间屋里面开会，你说四川话，他说东北话，有的说闽南话，有的说粤语。先不提会议能不能达成共识？起码会议的效率肯定会大打折扣的。这就是标准化在国家治理层面上的重要性。刚才我们说了中国的故事，关于标准化的故事不仅在中国有，在国外也有。传说古时候全天下所有的人都说同一种语言。在向东迁移的时候，走到示拿地（古巴比伦的一个城市）。走到这个地方，发现了一大片平原，就住了下来。人们开始修建一座通往天堂的高塔，高塔就叫通天塔，以显示人们的团结跟力量。但是上帝知道了这件事情，特别不喜欢他们的做法和目的。于是在塔快要建成的时候，上帝教会了人们说不同的语言，使人们之间无法正常的交流，塔就没能继续修建下去。后来些人散到世界各地，各自说各自的方言，就导致了我们现在人类的语言没有统一，可见语言文字的标准化在国家治理过程中的重要性。其实我有一种观点就是：语言、文字的标准化在国家治理中有多重要，数据标准在企业数字化环境中就有多重要。说到数据治理我们不得不提一下DAMA体系，其实我本身也是DAMA的忠实粉丝，给我的工作提供了指导。细心的小伙伴会发现，刚才我们提到数据标准，既然它在企业数字化环境中那么重要，为什么DAMA没有专门拿出数据标准作为一个知识领域去写。这也是我的公众号后台有小伙伴给我留言会问的问题，问题问得特别好。我也特意对比了DAMA-DMBOK1和DAMA-DMBOK2确实是没有数据标准体系。但是你看过那本书，就会发现其实在DAMA的体系里面，在各个领域都包含了数据标准的一些内容。但在我看来，数据治理它是顶天立地的事情。我认为数据战略是天，数据战略为企业的数字化转型、为企业的数据治理，指明了整个的方向。所谓的数据标准，就像我们盖房子打地基一样，做数据建模也好，做数据仓库也好，还是做数据质量，做数据安全也好，还是做元数据管理，数据标准都是其他领域的基础，它是核心的基础工作。第一数据标准是所有数据治理关键领域的基础第二数据标准为我们建立业务系统操作性系统、分析新系统提供数据提供基础支撑第三数据标准是用元数据来描述的。在DAMA这套体系里元数据管理的章节，更多的是体现了数据标准相关的一些概念，例如：业务术语表。第四数据标准管理，我认为它是包含了主数据与参考数据管理第五数据标准其实为企业数据质量管理提供了规则和约束，在数据质量管理中，数据标准是给我们提供了相关的遵循规则。第六数据标准对数据安全的分类对数据的分级也提供了相关的参考和依据。第七数据标准跟数据模型的关系，它是指导企业来构建数据模型，同时在建模的过程中又可以为数据标准的制定提供相应的参考。企业数据资源环境构成那有人就会问，数据标准到底包含哪些内容？那么在聊这个问题之前，我们先看一看企业数据环境都包含哪些内容？其实我们在说企业的数据环境的时候，总会说企业有多少个业务域，其实每个业务域都有对应的数据。比如说财务与人力资源管理与生产、销售、采购等等，都是相关的数据域。数据下面还有相应的数据主题，比如说市场营销主题，包括了市场、销售、回款等等些数据的一些主题。数据主题下面涵盖了相应的数据的属性。如果我们把企业数据资源看作是一棵树的话，我认为基础数据是它的数干，基础数据描述企业核心业务对象的数据。它具有一致且统一的属性，是企业开展业务的基础，我们叫它基础数据。比如说现在提到的产品基础数据、客户基础数据、供应商基础数据，还有一些所谓的代码基础数据，也是基础数据的一部分内容。业务数据是树叶。业务数据是在业务活动过程中产生的交易数据，每发生一笔业务交易，就会产生一条交易数据，它的变化频率是比较大的。比如说营销活动的一些数据，销售订单的一些数据等等。第三个部分是果实，我们叫它指标数据。种指标数据是用于统计分析，为管理决策提供参考。比如说新增客户数、客户的转化率、投资回报率等等。那数据标准到底涵盖哪些部分？业内一般会认为，数据标准涵盖了两个部分，第一部分是基础数据，第二部分是指标数据。有人会问业务数据能不能做标准化？其实如果做过数据标准化的项目，你会发现只要你把基础数据标准、指标数据标准做好，业务数据自然而然就会规范了，一般不会针对某业务去定义标准，或者说那是另外一个范畴——模型标准管理。数据标准的三个视角刚才我们讲了数据标准的四个层面，从数据域到数据的主题或者叫数据分类，再到数据的实体，再到数据的属性，是数据标准梳理的四个层面。那我们怎么去完成数据标准化，还有三个视角。一般来说，我们会从以下三个维度去分析数据标准：第一是业务维度。从业务维度的话，数据标准一般包含业务的定义、标准的名称、标准的分类、标准的业务含义，还有业务的规则等等。第二个是技术视角。包括了数据的类型、长度、格式、编码规则等等。第三个是管理视角。从管理的视角看，数据标准的管理者是谁，新增人员是谁，修改人员是谁，谁来使用，来源的系统，使用的系统等等。说到数据标准的三个维度可能有人就会联想到元数据，元数据一般也会提到业务元数据，技术元数据，管理元数据，跟我讲的数据标准的三个视角是完全对应的。接下来看如何去制定标准，其实是非常复杂的过程。如何制定数据标准？首先你要了解企业为何要去制定标准？企业的需求是什么？现状是什么？外部环境的要求是什么？建标准的时候，有没有相关的一些参考？有没有相关的国家标准？行业标准的一些参考？如果没有的话，行业有没有最佳实践可以拿过来参考。要结合以上的些需求去规划数据标准的体系，先要把范围先确定出来。首先，要基于业务的一些痛点，最需要解决哪些问题，先把些要解决的问题找到，再针对要解决的些问题去梳理，到底哪些业务与哪些数据的主题，哪些数据的实体来定数据的标准？在定标准过程中一般有以下的业务步骤：第一资料收集。做it的人员都很清楚，要收集现有的一些材料，包括数据的质量情况、数据的管理情况、数据的标准化情况等等。第二个调研访谈。要解决做项目或者数据，你是要解决什么样的业务问题？第三个分析评估。对整体的情况做分析评估，评估和最佳实践或者最理想情况的标准的差距是多少？第四个标准制定。根据上述的些条件来定义数据，制定标准。第五个意见征集。标准定义完之后，形成的标准文件还需要下发到各个业务单位去收集意见，再根据意见的反馈情况，修订标准。第六步标准发布。标准发布了就代表数据标准化的工作就完成了？其实标准发布才是做数据标准化走出的第一步，后续的重点工作其实需要把标准真正的用起来，要在业务过程中、业务系统中能够使用起来标准，数据标准的贯标跟应用就显得十分重要。在标准贯标和应用的过程中，又会发现标准定义的不准确。那还需要对标准进行迭代和更新。在这里穿插一种数据标准的梳理方法，叫BOR法。刚才讲数据标准的四个层面，从数据域到数据主题，到数据活动，那到了活动之后该怎么去梳理、提炼数据的标准。根据每个业务活动，比如说销售的活动，那就会提炼出销售业务相关的数据对象；比如说客户、销售的产品、销售订单，这些都是相应的实体数据。实体的数据都有相应的属性信息，需要把它的每一项属性信息从三个角度，业务角度、技术角度、管理角度，进行统一的梳理，最后归纳出来与实体之间的关系，形成数据的整体模型。刚才我前面讲的数据标准，包括两个部分内容，部分叫基础数据标准，另部分叫做指标数据标准。基础数据标准的话，从三个维度去看，包括业务、技术和管理属性。右边有具体的示例，比如说企业的组织部门人员，机构、客户供应商人员、组织等等，这些都是基础数据。其实跟主数据是十分相似的，讲主数据的时候，也经常讲主数据是企业的“黄金数据”，是企业需要被共享的在各个业务系统、各个部门之间的具有高价值的数据。其中主数据，它下面包含了参考数据。拿人员为例，它的参考数据，包括了性别、民族、学历、职级、岗位等等，都是参考数据。在做数据标准化的过程中，除了要定义实体，还需要把参考数据进行标准化。比如1代表男，2代表女，那就不能用F、N去代表男和女。我认为基础数据标准是包含主数据和参考数据的。基础数据一旦被共享，那就可以把它当作主数据去看待。接下来是指标数据的标准。指标数据该从哪几方面进行标准化？其实也包含三个层面。第一个方面业务属性。比如说指标分类、指标的名称、指标的定义、指标的计算规则、指标的应用场景，部分的内容是需要业务人员来定义出来的。第二个方面是技术属性。包括数据的来源、数据的值域、统计周期、统计维度、计算精度，是it人员需要提供的。第三个方面是管理属性。比如指标的归口部门是哪？数据提供部门是哪？虽然负责管理，指标是从哪个系统生成的？到哪个系统进行使用？也是为后续的整个元数据管理或者建议指标库提供支撑。接下来如何管理好数据标准。我觉得有一张图六边形图给出来很好的方法论，叫数据治理的基本环境要素，是把之前展示的车轮图加上六边形图的六大基本要素组成矩阵，就形成了针对每域的数据治理的方案。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术等等。我认为数据标准完全可以作为域去独立管理，当然你也可以把数据标准放到其他的解决方案中去处理。DAMA体系引进到中国填报了我们在数据治理领域的理论空白，但我觉得中国人对标准还是有一定的情怀在里面的，数据标准应该成为一个独立的体系。提到的数据标准化，到底该如何去构建标准的体系？接下里说一下数据标准的落地办法，其实刚才我们已经提到，把基础数据的标准库还有指标数据的标准库搭建出来了，最终还是要用到系统中来，用到信息化的环境中来。信息化的环境一般分成两个部分去看，一部分是操作型系统，一部分是分析型系统。操作型系统我们经常看的企业的ERP系统、CRM系统、SRM系统，这些系统有的用的是套装软件，有的是自己开发的。梳理好数据标准要落地的时候主要有以下三种解决方案：第一个解决方案就是刚才我们提到的主数据的解决方案。主数据的解决方案解决机构系统之间的数据统一的问题，要实现“一码一物、一数一源”。主数据是是数据标准落地的解决方案。第二个解决方案是构建标准数据库。新业务系统来了，所有的需要运行的基础数据都可以从数据标准库里面来取，通过数据服务接口把数据标准提供出去，为业务系统的构建提供相应的支撑。第三个解决方案是在分析性系统。将来要做数据分析的时候，要解决分析指标透明不透明的问题，也需要调指标库，有的企业叫指标中心，有的企业叫指标库。指标中心为数据仓库、报表平台、智能分析平台提供了维度和度量，数据标准其实为数据分析提供了重要的支撑。数据标准管理的4个最佳实践最后结合自己的工作实践介绍下数据标准管理的四个实践。第一个，谁来主导？也是很多客户或者很多人问我最多的问题，是业务来主导还是it来主导？如果从书上看，大家都会建议你由业务来主导，因为业务更懂数据，it不是特别擅长的。但是在实践的过程中，你会发现做这个事情往往都是老板拍下来，事情就交给it来做。那这时候我们该怎么做？那其实我一般会给我们的客户提供两个建议，一个叫借势，一个叫造势。所谓的借势，既然企业想做出数据，那一定会找到项目干系人的支持情况，也就是说一定有领导支持才会立项目，也一定会找到比较积极的业务部门。那你就可以借他们的势去做数据标准梳理的工作，哪个业务部门积极那我就先梳理哪个业务部门的，这是一个层面。第二层面，刚才我们讲的各个政策，跟国家相关的一些政策，一些驱动的因素，去借这个势去说服老板和领导。第三个从技术的角度，目前数据治理是我们数字化转型的基础，不管是在《关于推进国有企业数字化转型的通知》上也好，还是在各个行业分析的报告上来说，每个企业的数字化转型——数据治理其实都是最核心的基础。我们可以借技术趋势的势去引导数据治理的工作，来把数据标准制定出来。第二个层面，我们还是要学会造势。我们可以请一些外国的专家甚至是咨询公司给我们的领导来做相关的一些宣传，带他去参观相关行业的标杆等等，关于如何造势我相信身为CIO、CDO的你，要比我还清楚。第二个实践叫循序渐进。数据治理绝对不是一口吃不出个胖子的事情，一下子是解决不了所有的数据问题的。我们要从企业的整个主价值链，从业务的角度去分析，哪些业务是紧迫需要的，哪些数据标准对业务的影响程度是比较大的？哪些数据在各个系统之间共享程度是比较高的？以及数据在实施过程中的难易程度。我们要把所有的治理需求优先级排出来，给到我们的领导。比如说先治理营销领域，因为现在说实话，转型最提倡的就是数字营销，因为营销更贴近于客户，更容易成功，更容易见效。另外，可以从内部管理，比如说先治理财务领域的数据，或者先治理生产领域的数据都是可以的，要根据企业的业务需求优先级来进行排序。第三个实践叫数据标准的动态管理。因为整个外部环境是动态变化的，不管是商业环境还是技术环境都是变化的，数据标准也要与时俱进。比如今天制定好的标准，明天可能就会发生相关的一些变化，那就不能定了标准以后所有的业务都按照标准执行。前提是标准合不合理，合不合规。如果不能与事俱进的话，就会面临实际项目中数据标准用不起来。我们还要建立好数据标准的更新机制和配套相关的组织、管理流程、管理办法。第四个实践是应用为王。最后数据标准还是要应用起来，需要贯彻到各个业务系统里面去，那我们给出来的建议是以对现有系统影响最小为原则去落地数据标准。不要为了落地标准把所有的系统都打乱都重新来一遍，我觉得是很不现实的事情。—

数据仓库与Python大数据 -

2021年12月27日

其他

三万字，Apache Druid 入门与实践总结！

软件基金会，目前处于孵化阶段。核心功能：快速创建数据可视化互动仪表盘丰富的可视化图表模板，灵活可扩展细粒度高可扩展性的安全访问模型，支持主要的认证供应商（数据库、OpenID、LDAP、OAuth

数据仓库与Python大数据 -

2021年12月24日

其他

流批一体不只有Flink，还有实时数据模型

（2）实时和离线由于底层执行机制的不同，通常需要维护两套代码，会带来诸如口径不统一、质量检测难的问题；

数据仓库与Python大数据 -

2021年12月23日

其他

万字详解 | 数仓指标体系全面指南

提升购买的总规模，客单价以及复购率。社交类业务杀掉用户时间，产品通过链接其他资源提供价值。如Soul、探探。核心指标应该聚焦到用户的活跃程度。比如说为了用户提供与其他人的情感连接，

数据仓库与Python大数据 -

2021年12月22日

其他

系列 | 漫谈数仓第十一篇NO.11 监控告警

导导读：数仓漫谈系列回顾,从数仓架构到建模、从ETL到数据应用、从多维分析到开发规范、从数据质量到数据治理，从离线到实时。关注订阅号『数据仓库与Python大数据』到菜单栏“数仓之路”系列（文末直达）▼

数据仓库与Python大数据 -

2021年12月21日

其他

5分钟实战：如何进行数据架构评审

架构师必备技能，今天谈谈如何进行数据架构评审。评审是日常工作中的重要一环，大到业务项目和IT系统的立项、小到具体的业务需求和技术方案，都需要通过评审来保证企业总体规划的落地和执行中不走样。01数据架构评审难点剖析为什么有的时候会出现“规划挂在墙上”的情况，一种可能性在于这种规划本来就不接地气，没有在实践中贯彻的抓手和落脚点；一种可能性是忽略了日常架构持续管理工作中的实际困难，如何让参加评审的人能够持续和稳定地进行评审工作，就要把规划要求贯彻到每一个具体而微的细节中去。在管理中有一句名言，叫做“无法度量的，就无法管理”。这一句话同样适用于架构管理，缺乏清晰的定义，缺乏结构化的拆解，缺乏具体的评审点和KPI，很难相对系统和全面地进行架构评审工作。尤其是当参与人对于评审目标、评审内容还存在个人理解或者种种认识模糊的情况下，要进行有效率和有质量的评审，更是难上加难，走过场的情况也就难以避免。问题已经抛出来了，如何进行数据架构评审，谈几点认识。数据架构评审，实践中包括了数据治理维度评审和应用架构维度评审两个方面。数据治理评审从数据入手，一般包括数据标准体系的维护、数据质量的关切、数据安全的管控。应用架构的评审则一般关注业务方案和技术方案，在IT系统的实施层面，其与企业信息系统架构规划的关系，是否冲击架构定位？尤其是数据类系统，数据集成关系、数据分布、数据流等几个方面是否有违架构原则。02数据治理维度评审怎么进行1.数据标准体系的维护企业数据标准体系，目前共识模式是两套标准+一套规范。具体就是一套基础标准+一套指标标准，同时还有实际开发管控的数据字典规范。基础标准不多，2000-3000不等，主要内容是企业内跨系统、跨业务域的主数据和相关重要附加数据项；指标标准则一般根据企业内部经营管理和外部统计报送需要，按需而定，为了方便管理一般在结构上包括了原子指标、派生指标和组合指标三种类型，数量少则3万多至10万；而字典规范层面，要确保开发阶段的数据建模，也就是建表要“落子有据”，其中尤其重要的是参考数据也就是枚举值数据，对业务管理的影响极大。要维护企业数据标准体系的持续健康，数据治理评审中就要抓几个关键点。其一是基础数据标准的把关，一套业务方案和系统，和现有主数据系统有什么关系，是否新增了或变更了主数据项？这些主数据项的业务主管部门在评审阶段就要落实清晰。其二是指标标准的管理，是否有比较重要的数据指标产生，包括向外报监管的指标，或者内部重要的经营管理方面的指标，这些指标要清晰定义口径，基于企业级的指标库进行核实。其三是枚举值的管理，业务方案和系统是否产生了重要的业务类型码、分类码，需要和已有的字典规范库进行对照。2.数据质量的维护在周周谈第60期，我们谈到了数据质量分为“设计质量”和“执行质量”。通俗一点讲，就是“根儿上的质量问题”和“需求-开发过程中的质量问题”。这两种质量问题中，后一种是执行质量的提升，靠加强业务和技术融合、提高程序开发和测试质量水平、加强各种质量监控。但是，前一种质量问题，就是根儿上的问题，往往是“生在设计时、长在系统里”，一般不影响业务系统交易，但是对经营管理提升和监管报送影响极大，是一种“亚健康”状态。这种设计质量问题，要改进，伤筋动骨，即使增加数据中台类的基础设施也并不能做到根治。所以，要抓，得在产生这些数据的源头去抓，在规划、设计阶段就找抓手。抓手之一就是方案评审阶段，格式化地设计质量评审。例如回答几个基本问题：一套业务方案和系统，后续在监管报送领域的影响是什么？在价值管理和内部考核方面，是否能够实现收入、利润的清晰核算，是否能够分解到机构、网点、员工？是不需要还是不能，如果不能，是否需要把一些非必输字段改为必输项，或者增加必要的数据采集内容来实现后续管理的精细化要求。数据质量的评审，仅依靠数据管理部门的考量并不全面，因为很多业务管理和监管提升的场景经验在业务部门，所以数据质量的评审，还应该做好评审环节的进一步优化，与最终反映问题的业务部门充分合作并得到他们切实、有力的支持。3.数据安全的维护数据安全管理的重要性不言而喻，同时要兼顾与发展的平衡。数据安全的评审，可以从数据生命周期的安全管理角度，对采集、传输、存储、使用、共享、销毁等不同情况进行专门的管理。例如，按照个人隐私保护法和数据安全法，这套业务系统的数据采集方案是否有依据？如果要进行非同一法人间的数据共享，是否合规？传输过程所采取的数据安全措施是否有效和充分等等。03数据的应用架构层面评审怎么进行1.要清晰应用架构的原则目前数据类系统架构中比较重要的一个基点是数据中台，讲清楚应用架构中数据中台是什么、不是什么，能做什么和不能做什么，很关键。也就是在数据的集成、分布、流转上，一套业务方案和系统，哪些应用是对接，哪些应用是数据内置，哪些不要，应该有一个说法。有了这个原则，就可以对新建系统进行套用式的评审，也聚集企业的内部共识。2.要充分考虑实施层面的因素系统架构靠人实施，靠项目组之间的配合，需要贯彻项目计划管理的原则。好的架构能否落地，一方面看架构自身规划，一方面看实施层面的组织和协同。因此，在数据的应用架构评审中要意识到，有些方案被反对，是方案本身的问题，还是组织协同的困难。要克服这些困难，需要对架构进行调适，同时也要投入研究如何采取必要的资源配置和工具化支撑。3.要研究存量系统和新建系统的关系一张白纸好作画，但这在现实工作中往往是一个理想状态。要一张蓝图画到底，还要处理好应用架构中存量和增量的关系。尤其是存量系统，既有架构不合理的情况，更存在底座系统生命期的问题，同时又存在既有资产的累积和重构成本巨大的问题。如何平衡，更重要的是如何取舍，如何保持架构定力的同时兼顾生产安全和业务发展，这是一个难题。在这个角度，利用数字化转型的契机，通过新数据体系和应用架构的落地，以用促建、以用带建，完成新老系统的更替，不失为一个可操作的策略和路径。4.要对数据流转进行充分研究将数据中台与业务中台、数据中台与应用系统之间的关系进行归纳总结。技术类型上，一个是批量数据交换，一个是API接口访问；管理类型上，其一是加工结果数据的交换，其二是原生数据的交换；安全类型上，既有重要敏感信息的流转，也有一般信息的共享；时效类型上，有日批模式，更有微批和实时模式。数据流转方案的评审，需要把系统之间的数据流转类型进行矩阵化的分析评估，给出原则，同时兼顾质量和效率。04结束语数据架构的评审工作，牵涉到业务管理、科技管理、数据管理、系统设计与实施机构等多个方面，以上只是其中一部分。要实现良好的架构维护，好的方式就是制定《评审表单》这样的格式化工具，将规划的意志贯彻到具体的执行中去。同时，还需要不断积累和丰富案例库，将日常工作中的困难场景和问题解决进行经验的持续总结和归纳提升，在形成普遍共识的基础上，久久为功地实现系统架构的优化。点击回复：数据治理更多热文（收藏起来~！）：干货：解读主流大数据架构（推荐收藏）解读数据同步、增量Merge与数据漂移万亿数据下

数据仓库与Python大数据 -

2021年12月21日

其他

数据治理之数据标准管理实践

Pulsar？回复：数据治理，直达资料

数据仓库与Python大数据 -

2021年12月20日

其他

Spark性能调优指南

在2.x版本之前的优化重心在计算引擎方面，而在元数据管理方面并未做重大改进和升级。因此个推仍然使用Hive进行元数据管理，采用Hive元数据管理+

数据仓库与Python大数据 -

2021年12月19日

其他

30页PPT | DAMA-DMBOK2.0数据管理知识体系指南

点击上方蓝字设为星标来源：BAT大数据技术架构2020年6月《DAMA数据管理知识体系指南（原书第2版）》中文版全球首发起，这部权威性著作给出数据管理总体框架和职能、术语、最佳实践方法的标准行业解释。注：文末加微信可领取PDF版。美国Technics出版社社长史蒂夫·霍伯曼说，“这本书包括三个目标，一是为数据管理工作提供指导原则，并说明如何在数据管理功能领域应用这些原则；二是为数据管理实践的实施提供功能框架；三是为数据管理概念建立通用词汇表。”特别是由车轮图（由11个数据管理职能领域）和环境因素六边形图（由7个基本环境要素）共同构成的“DAMA数据管理知识体系”越发深入人心。其中，数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术。数据是理解事实的符号，信息是带有逻辑的数据组合，知识是直接指导业务决策和行动，因而能直接产生价值，最后透过数据进行挖掘、分析和决策，从数据、信息到知识逐层递进，通过DAMA金字塔图中的四个阶段，全面深入学习、了解和掌握核心章节及有关内容：下面这份PPT材料用一句话总结了DMBOK2.0的11个数据管理职能，列举了相比于第一版的不同点，重点将11个数据知识域的核心知识要点进行了总结概括，简洁易懂，推荐给大家阅读。更多数据治理相关学习材料请点击文末左下角阅读原文获取。下面开始进入正文（PPT比较长，建议收藏学习）♧

数据仓库与Python大数据 -

2021年12月16日

其他

数据治理体系图谱.docx（完整版）

学习0-1知识点全景图.xmind大厂晋升，你所需要知道的那些事HiveSQL迁移SparkSQL在滴滴的实践干货

数据仓库与Python大数据 -

2021年12月12日

其他

吐血系列 | 最强最全面的大数据资料，涵盖数据仓库、大数据框架、各大厂面试题等

直奔主题。Tips：今天为大家推荐一个大数据数据仓库领取翘楚公众号【数据仓库与Python大数据】，我关注三年了，干货与福利满满，建议直接关注！（继续往下看，各种全网最强最全面的大数据、数仓资料献上！）2018.06.01

数据仓库与Python大数据 -

2021年12月11日

其他

7000字详解数据指标体系建设实践

导语：几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”，虽然这个词对于大家来说并不陌生，但是数据指标到底是什么以及如何具体的搭建，很多人还是一头雾水的。01

数据仓库与Python大数据 -

2021年12月9日

其他

爱奇艺数据质量监控的探索和实践

01问题和目标：为什么要进行数据质量监控？数据质量监控其实跟当前疫情的防控工作有些类似，核酸检测能尽早去发现病毒，溯源则会更了解病毒会在哪些场景，或者对哪些人有比较大的影响，方便进行跟踪，这和数据质量监控有异曲同工之处。

数据仓库与Python大数据 -

2021年12月8日

其他

高级进阶 | 为什么我们需要Apache Pulsar？

Tips：文末扫码，朋友圈点赞领书福利随着互联网的高速发展，用户规模与业务并发量开始急剧增加，海量的请求需要接收和存储，业务需要中间件来实现削峰填谷；业务也在不断发展，企业内部的系统数量也在不断地增长，不同语言开发出来的系统需要统一的事件驱动；大数据、AI已经成为很多业务中不可或缺的技术，它们都需要统一的数据源。越来越多的场景离不开消息队列，稍具规模的业务，消息队列都是“标配”。有的人可能会问，现在消息队列已经非常成熟了，我们可以使用Kafka、RabbitMQ等满足日常的业务需求，为什么还会出现Pulsar这个消息队列，并且迅速发展呢？理由有很多，由于篇幅问题，我们不能一一列举，下面列出几个日常使用中比较关注的方面。我们会发现，Pulsar不仅仅是一个消息队列。1

数据仓库与Python大数据 -

2021年12月8日

其他

大数据文章干货合集（五）

一、数据仓库二、用户画像三、优化实践四、数据治理五、数据资产六、指标体系七、数据中台八、数据倾斜九、职业规划十、面试经验数据仓库之内容建设（架构、分层、主数据、指标体系、词根、血缘）系统的设计一个指标体系Spark调优

数据仓库与Python大数据 -

2021年12月7日

其他

数据仓库之内容建设（架构、分层、主数据、指标体系、词根、血缘）

点击上方蓝字设为星标每天发文08:15一起成长！全文共2247个字，建议阅读5分钟数仓主要是围绕着数据使用方与数据开发方诉求进行建设；因此在开始规划数仓建设时，需要先剖析各方需求、痛点与痒点，然后再在这些诉求设计解决方案与确定建设内容。01

数据仓库与Python大数据 -

2021年12月6日

其他

Spark调优 | Spark OOM问题常见解决方式

task的数量。那么此时就会自动启用bypass机制，map-side就不会进行排序了，减少了排序的性能开销。但是这种方式下，依然会产生大量的磁盘文件，因此shuffle

数据仓库与Python大数据 -

2021年12月3日

其他

系统的设计一个指标体系

系统的设计一个指标体系|0x00

数据仓库与Python大数据 -

2021年12月3日

其他

美团外卖实时数仓建设实践

本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是：一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合，同时满足实时和准实时业务场景。两者合理分工，互相补充，形成易开发、易维护且效率高的流水线，兼顾开发效率与生产成本，以较好的投入产出比满足业务的多样性需求。01

数据仓库与Python大数据 -

2021年12月1日

其他

大数据文章干货合集（四）

一、数据仓库二、用户画像三、优化实践四、数据治理五、数据资产六、指标体系七、数据中台八、数据倾斜九、职业规划十、面试经验腾讯—大数据安全体系介绍如何用科学的方法，保障数据准确性用户画像标签体系建设指南高级进阶

数据仓库与Python大数据 -

2021年12月1日

其他

腾讯—大数据安全体系介绍

PPTEND如何用科学的方法，保障数据准确性用户画像标签体系建设指南HiveSQL高级进阶10大技巧回复：TX，领取资料

数据仓库与Python大数据 -

2021年11月30日

其他

如何用科学的方法，保障数据准确性

保障工具，确保每个环节出错率，在一个相当低的水平上，与六西格玛标准相当，那么我们就可以拍着胸脯说，我们的数据，是准确的。完美通常不存在，尽可能低，已经是一种极限了。回复：数据质量，领取资料

数据仓库与Python大数据 -

2021年11月27日

其他

用户画像标签体系建设指南

来源：网络全文共9694个字，建议阅读15分钟01什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。用户画像是对现实世界中用户的建模，用户画像应该包含目标，方式，组织，标准，验证这5个方面。目标：指的是描述人，认识人，了解人，理解人。方式：又分为非形式化手段，如使用文字、语言、图像、视频等方式描述人；形式化手段，即使用数据的方式来刻画人物的画像。组织：指的是结构化、非结构化的组织形式。标准：指的是使用常识、共识、知识体系的渐进过程来刻画人物，认识了解用户。验证：依据侧重说明了用户画像应该来源事实、经得起推理和检验。在产品早期和发展期，会较多地借助用户画像，帮助产品人员理解用户的需求，想象用户使用的场景，产品设计从为所有人做产品变成为三四个人做产品，间接的降低复杂度。用户画像使用的标签是网络标签的一种深化应用方式，是某一种用户特征的符号表示，是我们观察、认识和描述用户的一个角度，用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的，包含了用户的各个维度。而所谓的用户画像就是可以用用户标签的集合来表示的，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。02用户标签的分类1、按照标签的变化频率，可分为静态标签和动态标签。静态标签是指用户与生俱来的属性信息，或者是很少发生变化的信息，比如用户的姓名、性别、出身日期，又例如用户学历、职业等，虽然有可能发生变动，但这个变动频率是相对比较低或者很少发生变化的。动态标签是指非常经常发生变动的、非常不稳定的特征和行为，例如“一段时间内经常去的商场、购买的商品品类”这类的标签的变动可能是按天，甚至是按小时计算的。2、按照标签的指代和评估指标的不同，可分为定性标签和定量标签。定性标签指不能直接量化而需通过其他途径实现量化的标签，其标签的值是用文字来描述的，例如“用户爱好的运动”为“跑步、游泳”，“用户的在职状态”为“未婚”等。定量标签指可以准确数量定义、精确衡量并能设定量化指标的标签，其标签的值是常用数值或数值范围来描述的。定量标签并不能直观的说明用户的某种特性，但是我们可以通过对大量用户的数值进行统计比较后，得到某些信息。例如“用户的年龄结构”为“20-25岁”、“单次购买平均金额”为“300元”，“购买的总金额”为“20万元”……，当我们获得以上信息是否就可以将该用户划分为高价值客户呢？3、按照标签的来源渠道和生成方式不同，可以分为基础标签、业务标签、智能标签。基础标签主要是指对用户基础特征的描述，比如：姓名、性别、年龄、身高、体重等。业务标签是在基础标签之上依据相关业务的业务经验并结合统计方法生成的标签，比如：用户忠诚度、用户购买力等标签就是根据用户的登录次数、在线时间、单位时间活跃次数、购买次数、单次购买金额、总购买金额等指标计算出来的。业务标签可以将经营固化为知识，为更多的人使用。智能标签是利用人工智能技术基于机器学习算法，通过大量的数据计算而实现的自动化、推荐式的进行打标签，比如今日头条的推荐引擎就是通过智能标签体系给用户推送其感兴趣的内容的。4、按照标签体系分级分层的方式，可以分为一级标签、二级标签、三级标签等，每一个层级的标签相当于一个业务维度的切面。在标签应用中按照不同的业务场景进行标签组合，形成相应用户画像。5、按照数据提取和处理的维度，可以将标签分为事实标签，模型标签，预测标签。这种用户标签的分类方式更多是面向技术人员使用，帮助他们设计合理的数据处理单元。事实标签。既定事实，直接从原始数据中提取，描述用户的自然属性、产品属性、消费属性等，事实标签其本身不需要模型与算法，实现简单，但规模需要不断基于业务补充与丰富，比如：姓名、购买的产品品类、所在小区等。模型标签。对用户属性及行为等属性的抽象和聚类，通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数，标签代表用户的兴趣、偏好、需求等，指数代表用户的兴趣程度、需求程度、购买概率等。预测标签。参考已有事实数据，基于用户的属性、行为、位置和特征，通过机器学习、深度学习以及神经网络等算法进行用户行为预测，针对这些行为预测配合营销策略、规则进行打标签，实现营销适时、适机、适景推送给用户。例如试用了某产品A后预测可能还想买产品B并推送购买链接给该用户。03用户画像标签体系的建立1、什么是标签体系用户画像是对现实用户做的一个数学模型，在整个数学模型中，核心是怎么描述业务知识体系，而这个业务知识体系就是本体论，本体论很复杂，我们找到一个特别朴素的实现，就是标签。标签是某一种用户特征的符号表示。是一种内容组织方式，是一种关联性很强的关键字，能方便的帮助我们找到合适的内容及内容分类。（注：简单说，就是你把用户分到多少个类别里面去，这些类是什么，彼此之间有什么关系，就构成了标签体系）标签解决的是描述（或命名）问题，但在实际应用中，还需要解决数据之间的关联，所以通常将标签作为一个体系来设计，以解决数据之间的关联问题。一般来说，将能关联到具体用户数据的标签，称为叶子标签。对叶子标签进行分类汇总的标签，称为父标签。父标签和叶子标签共同构成标签体系，但两者是相对概念。例如：下表中，地市、型号在标签体系中相对于省份、品牌，是叶子标签。用户画像标签体系创建后一般要包含以下几个方面的内容（1）标签分类用户画像标签可以分为基础属性标签和行为属性标签。由于基于一个目标的画像，其标签是在动态扩展的，所以其标签体系也没有统一的模板，在大分类上，与自身的业务特征有很大的关联，在整体思路上可以从横纵两个维度展开思考：横向是产品内数据和产品外数据，纵向是线上数据和线下数据。而正中间则是永恒不变的“人物基础属性”。如果说其他的分类因企业特征而定，那么只有人物特征属性（至于名字叫什么不重要，关键是内涵）是各家企业不能缺失的板块。所谓人物基础属性指的是：用户客观的属性而非用户自我表达的属性，也就是描述用户真实人口属性的标签。所谓非“自我表达”，举例来说，某产品内个人信息有性别一项，用户填写为“女”，而通过用户上传的身份证号，以及用户照片，用户购买的产品，甚至用户打来的客服电话，都发现该用户性别是“男性”。那么在人物基础属性中的性别，应该标识的是“男性”，但是用户信息标签部分，自我描述的性别则可能标注为女性。（2）标签级别（标签的体系结构）分级有两个层面的含义，其一是：指标到最低层级的涵盖的层级；其二是指：指标的运算层级。其一非常好理解，这里重点说运算层级。标签从运算层级角度可以分为三层：事实标签、模型标签、预测标签。事实标签：是通过对于原始数据库的数据进行统计分析而来的，比如用户投诉次数，是基于用户一段时间内实际投诉的行为做的统计。模型标签：模型标签是以事实标签为基础，通过构建事实标签与业务问题之间的模型，进行模型分析得到。比如，结合用户实际投诉次数、用户购买品类、用户支付的金额等，进行用户投诉倾向类型的识别，方便客服进行分类处理。预测标签：则是在模型的基础上做预测，比如针对投诉倾向类型结构的变化，预测平台舆情风险指数。（3）标签命名&赋值我们用一张图来说明一下命名和赋值的差别，只要在构建用户标签的过程种，有意识的区别标签命名和赋值足矣，不再赘述。（4）标签属性标签属性可以理解为针对标签进行的再标注，这一环节的工作主要目的是帮助内部理解标签赋值的来源，进而理解指标的含义。如图所示，可以总结为5种来源：1、固有属性：是指这些指标的赋值体现的是用户生而有之或者事实存在的，不以外界条件或者自身认知的改变而改变的属性。比如：性别、年龄、是否生育等。2、推导属性：由其他属性推导而来的属性，比如星座，我们可以通过用户的生日推导，比如用户的品类偏好，则可以通过日常购买来推导。3、行为属性：产品内外实际发生的行为被记录后形成的赋值，比如用户的登陆时间，页面停留时长等。4、态度属性：用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题，并形成标签，如询问用户：是否愿意结婚，是否喜欢某个品牌等。当然在大数据的需求背景下，利用问卷收集用户标签的方法效率显得过低，更多的是利用产品中相关的模块做了用户态度信息收集。5、测试属性：测试属性是指来自用户的态度表达，但并不是用户直接表达的内容，而是通过分析用户的表达，结构化处理后，得出的测试结论。比如，用户填答了一系列的态度问卷，推导出用户的价值观类型等。值得注意的是，一种标签的属性可以是多重的，比如：个人星座这个标签，既是固有属性，也是推导属性，它首先不以个人的意志为转移，同时可以通过身份证号推导而来。即便你成功了建立用户画像的标签体系，也不意味着你就开启了用户画像的成功之路，因为有很大的可能是这些标签根本无法获得，或者说无法赋值。标签无法赋值的原因有：数据无法采集（没有有效的渠道和方法采集到准确的数据，比如用户身份证号）、数据库不能打通、建模失败（预测指标无法获得赋值）等等。

数据仓库与Python大数据 -

2021年11月26日

其他

高级进阶 | OneData的数据仓库建设

本文目录：一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具。一、指导思想首先，要进行充分的业务调研和需求分析。其次，进行数据总体架构设计，主要是根据数据域对数据进行划分；按照维度建模理论，构建总线矩阵，抽象出业务过程和维度。再次，对报表需求进行抽象整理出相关指标体系，使用OneData工具完成指标规范定义和模型设计。最后，是代码研发和运维。其实施流程主要分为：数据调研、架构设计、规范定义和模型设计。二、数据调研1.

数据仓库与Python大数据 -

2021年11月25日

其他

浅谈数据治理

回复本订阅号“数据治理工具图谱”，转发本文到朋友圈即可下载完整版。

数据仓库与Python大数据 -

2021年11月25日

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

数据仓库与Python大数据