查看原文
其他

干货 | 如何从0开始制订大数据规划

The following article is from 一个数据人的自留地 Author Super超

分享嘉宾:Super超

编辑整理: 柠檬妹

出品平台:数据仓库与Python大数据



正文


01

分析需求


1. 挖掘真实需求


俗话说,良好的开始是成功的一半。很多大数据产品之所以失败,归根到底就是出发点不对,没有找准真需求,无法推动解决实际问题。流于表面的数据产品,是对时间和人力资源的浪费。


那么,如何对问题进行分析,挖掘真实需求呢?


首先,要找到需求提出人。需求的直接发起者,可谓是第一手资料。原始需求一旦经过层层传递,很可能会被损耗、曲解。确保需求完整在实际工作中是非常重要的。然而这不意味着就简单的罗列需求关键点,复述一遍需求,因为真需求往往是隐形的,用户很多时候并不知道自己想要什么。例如客户说”我想要更快的马车”,其根本目的是追求更快的速度,而不是非要局限于马车这种交通工具。本茨发现了人们追求速度的需求,然后发明了汽车。他的高明之处就在于跳出了传统的思维框架,提出了全新的解决方案。很多时候,客户只是给予了一个模糊的需求,没有给出明确的方向,原因是自身认知的局限性。


从模糊的需求中挖掘本质,找出真需求,就是需求分析的内容了。


需求分析的第一步是对客户基本资料和现状的解读,从现状出发了解客户对现状的不满和遇到的困难。除了培养同理心之外,这里提供两种简单有效的方法,第一个是花些时间收集客户内部需求干系人对现状的吐槽,找出其中的共性和最不满的点;第二个是询问客户对现有的各类解决方案的点评和意见,了解其关注点。


“诊”完了客户的现状,下一步就是配”药”了。人们常犯的第一个错误就是功能堆砌,什么都有什么都能做。第二个错误就是抄袭复刻,把别人的解决方案原封不动照搬过来,没有特点。第三个错误是为了让产品显得高端而强行捆绑一些不成熟的前沿技术,没有考虑实用性和性价比。在大数据项目中,原子级能力的强弱大同小异,解决方案的好坏关键在于场景渗透能力、技术整合能力和可持续升级能力。所谓”对症下药”,就是要以点带面,在客户最关注的一点上做深做透,细节上考虑的更多,在完成度上更上一层楼。


2. 减法思维,以点带面


前面提到了我们应该在核心功能上做深做透,用到的是便是减法思维。


减法思维是指合理的减少一些不必要、与现状不匹配的事情来提高效率的一种思维。从概念可以看出来,减法思维的的关键点在于减少不必要、与现状不匹配的事情来实现高效,也就是说,如果你要做减法,你需要先识别出哪些事情是不必要并与现状不匹配的,并能在减掉这些事情之后能够提高效率。


[扩展]为什么减法思维能够让我们变得高效,取得进步?

要介绍减法思维,先要介绍与其相对应的加法思维。在加法思维的指导下,人的行动是怎样的呢?今天学习这个,明天学习那个,周而复始,为了追求均衡发展而疲于填补短板。要知道人的精力是有限的,把精力分成了好几份,再加上转换,结果只会是精疲力尽,毫无效果。长时间辛苦,成效却不大,人的情绪很容易受到打击,从此一蹶不振。

加法思维,其实正是木桶理论的体现。木桶理论是指一只水桶能装多少水,是取决于它最短的那块木板,这就导致人们会想办法去不断的去弥补自身的短板,看自己哪方面不行就去学哪个方面,什么都想补充,什么都想做到。但是在现在我们的社会中,人与人之间交往与合作靠的是长板而不是短板。发展自身长处,把优势展示出来,一件事情做到极致,这样更容易取得成就。

减法思维要求我们设定优先顺序,把最重要的事情摆放在第一位,把时间用在最有生产力的地方。

什么叫最有生产力的地方?自然就是客户最愿意为之付出代价的地方了。可以罗列一个清单,把解决方案分解成一个个模块,从最无关紧要的地方开始砍,客户最后砍的模块便是他最在意的地方。依此方法便能知晓各个功能在客户心目中的价值排行,便于后续进行合理的节奏规划。


02

数据盘点


1. 准备数据需求


传统IT行业的需求点多是固定的业务逻辑,但大数据产品则更多的依赖数据,它的价值上限取决于数据自身的价值上限,正如那句经典的名言,”garbage in garbage out”。正因为如此,设计大数据产品需要尽早准备数据需求。


数据需求文档DRD(Data Raquirements Document)顾名思义同PRD一样,是同研发团队沟通的一种凭据。主要包括了三部分:Source(来源)、Measures(指标)、Dimensions(维度)。


来源:就是指数据从何而来。来自哪个系统?使用何种数据接口?数据更新频率如何?


指标:顾名思义,讲指标的定义和计算逻辑。


维度:是用户用于查看指标的数据元素。描述了数据需要以何种粒度被组织起来。


从产物角度看,DRD需要产出的有数据流图和数据字典,两者相辅相成。没有数据字典准确地描述数据流图中使用的数据,数据流图就不严格。反之,没有数据流图,数据字典也难于发挥作用。


【拓展】数据流图

数据流图也称为数据流程(date flow diagram , DFD),是一种便于用户理解和分析系统数据流程的图形工具,他摆脱了系统和具体内容,精确的在逻辑上描述系统的功能、输入、输出和数据存储等,是系统逻辑模型的重要组成部分。

数据流图的组成成分包括数据流、加工、数据存储、外部实体。

数据流:是由一组固定成分的数据组成,表示数据的流向。值得注意的是,数据流图中描述的是数据流,而不是控制流。除了流向数据存储或从数据存储流出的数据不必命名外,每个数据流必须要有一个合适的名字,以反映该数据流的含义。

加工:加工描述了输入数据流到输出数据之间的变换,也就是输入数据流经过什么处理后变成了输出数据。每个加工都有一个名字和编号。编号能反映该加工位于分层的数据流图的哪个层次和哪张图中,能够看出它是由哪个加工分解出来的子加工。

数据存储:数据存储表示暂时存储的数据。每个数据存储都有一个名字。

外部实体:外部实体是存在于软件系统之外的人员或组织,他指出数据所需要的发源地或系统所产生的数据的归属地。


【拓展】数据字典

任何字典最重要的用途都是供人查询对不了解的条目的解释,在结构化分析中,数据字典的作用是给数据流图上每个成分加以定义和说明。换句话说,数据流图上所有的成分的定义和解释的文字集合就是数据字典。

数据字典还有另一种含义,是在数据库设计时用到的一种工具,用来描述数据库中基本表的设计,主要包括字段名、数据类型、主键、外键等描述表的属性的内容。


2. 收集数据


收集数据主要可以分为外部数据和内部数据两类。


内部数据是由组织内部的业务流程和运营过程中生成的数据。这些业务流程可以生成特定于该组织运营的大量数据,例如客户购买数据、商品物流数据、评价数据等。除了显式反馈数据的收集外,互联网行业的一大特色是拥有大量的隐式反馈数据,例如通过埋点形式收集用户的行为数据。


除了内部数据之外,我们还会接触到很多外部数据,外部数据就是是在组织运营范围之外生成的数据。外部数据一般是企业所处的外部环境相关的数据,包括诸如全球经济指数,人口普查信息和行业价格之类的信息等等。所有这些数据均一直存在,与任何特定组织无关。

一般而言,价值创收目前主要都来自于对内部数据的挖掘,但外部数据的价值也不容小觑。假如一家创业公司刚刚起步,自身并没有还积累数据,怎么办?就算有数据,但拥有的数据无论在“质”和“量”上都很差,怎么办?或者说,从内部数据上发现了某指标的变动,但对于其真实动因无法准确判定,怎么办?这时候就需要外部数据的帮助了。


想要获取外部数据,除了前面提到的可以从公开的数据网站上查询外,另一大方法就是爬虫。这种方法更加灵活,但是需要注意法律风险。


03

数据源管理


1. 数据源分类


完成数据盘点后,我们知道了现在有哪些数据,接下来就是给它们划分业务领域,也就是类别。


对于小规模的业务来说,数据源归类的作用并不明显,但是当数据表多达几百上千个,而且功能有重叠冗余、有新有旧的时候,数据源归类就相当重要了。

业务领域囊括的范围可大可小,完全依托于前期基于业务的梳理结果。


举个例子:身份证号这一类数据,既可以属于个人信息范畴,也可以属于个人基本信息范畴,前者的范围明显大于后者。也许有朋友会发出疑问,需要注意的是分类并不是越细越好,因为很有可能细分之后,最终却发现无数据可进行归类,这是典型分类失败的体现。当然反过来也成立,分类少了,数据归不进去,也是分类失败的体现。


值得一提的是,数据(中台)全景图是一个执行数据归类的很好的工具,便于数据查找。



2. 数据源分级


不同于数据分类,数据源分级更多的是从满足监管要求的角度出发。数据分级属于数据安全领域,或许称呼它为敏感等级更为贴切。有的数据密级程度高,有的低,有的可公开,有的不可公开,不同敏感度等级的数据对外共享开放的程度不同。


如果不对数据资产设置敏感度等级,建立相应的保护策略,便很容易造成数据泄露。



除了一些显而易见的敏感数据外,有的数据单独使用时毫无敏感性可言,但是结合其他数据,却可以组合成为敏感数据,这部分数据可以被称为是隐形敏感数据。识别隐形敏感数据是一项长期的工作,需要主题分析等工作的支持。


04

数据资产管理与数据资产管理平台


1. 数据资产与数据资产管理


数据资产 (Data Asset)就是指由企业拥有或者控制的,能够为企业带来未来经济利益的数据资源。主要把握两个核心内涵,一是“拥有或控制”,二是“预期会给企业带来经济利益”。


“拥有或控制”相对好判断,通常满足法律和形式上的所有权和控制权,如以物理或者电子的方式存放的文件资料、电子数据等,就能满足。


“预期会给企业带来经济利益”相对主观,通常无非两个方面,:一是内部消费,用数据帮助现有产品带来收益,数据本身不产生价值,但通过数据作用于其他产品,使其可以在创造收益、降低成本上有更好的表现,即一般在企业内部发生,将生产经营中产生的数据进行收集、整理、分析,用于服务自身经营决策、业务流程,运营优化和数字化创新,从而提升产品业绩。二是将数据本身变为可带来收益的产品,在合法合规的前提下,让数据以各种形式进行交易,直接将数据赋予价值。


数据资产管理(Data asset management 简称DAM)是规划、控制和提供数据及信息资产,实现控制、保护、交付和提高数据资产的价值。数据资产管理有时可能会叫 “数据管控”。


在国外随着数据管理行业的成熟和发展,数据资产管理作为一门专业管理领域被人们广泛研究和总结,国外一些数据资产领域的专家和学者成立了数据资产管理专业论坛和组织DAMA International ,同时总结出数据资产管理相关理论指导体系 DAMA DMBOK。


2. 数据资产管理平台的作用和价值

数据资产管理平台是对企业数据盘点、数据管控等能力的承载和表现,它可以对全网数据资产进行统计、对数据权限进行细粒度的梳理、对数据使用状况进行分析,大大降低管理人员工作量,同时为数据安全制度的建设提供依据。


3. 数据资产管理平台的主要功能


数据资产总览:

  • 资产总量(数据库、表、字段、数据、敏感数据、各级数据)、资产变化对比信息、资源状态信息(存储容量、内存、CPU)。

数据资产详情:

  • 元数据:

    数据资产描述信息(包括数据库、表、字段)、分类分级信息、自定义类别信息;

  • 数据库详情:

    IP、端口、类型、版本、账户、权限、表量、字段量、敏感数据量;

  • 数据表详情:

    归属库、权限、字段量、敏感数据量;

  • 字段详情:

    归属库、归属表、字段类型、长度。

数据资产状态:

  • 数据资产变更:

    数据资产(数据库、表、字段、原始数据、元数据、加工后数据)创建、更新、销毁的记 录,自动识别数据资产变化,可强制进行数据认责和分类分级操作;

  • 敏感信息分布:

    展现敏感数据在哪些库、哪些表,并统计;

  • 数据资产责任:

    展现数据资产归属,查看责任人和权限;

  • 数据使用状况:

    数据正在被谁使用,使用频度如何;

  • 数据权限:

    展现所辖数据资产的权限情况,哪些用户或角色可以访问哪些数据资产;

  • 访问热度:

    从拥有、增加、修改、访问四个维度进行访问统计分析和展现。


【拓展】数据资产管理与数据库管理关系

数据资产管理通常包括了数据库管理(database administrator)--数据库设计、实施和产品支持,以及数据管理的职能。

数据管理则是除数据库管理以外,针对于数据的其他管理职能。




05

总结



大数据和高级分析带给企业的好处毋庸置疑。有数据表明,一旦大数据和分析技术被深入应用,可为企业带来比竞争对手高出5到6个百分点的生产力和利润。

但是要实现这些目标并不容易。这需要企业扎扎实实地制定大数据规划。据调查,目前大多数公司并没有花应有的时间来创建一个收集数据、分析数据、构建工具和利用数据与员工共同创造商业价值的简单计划。该计划的作用在于提供一种通用语言,让高管、技术专家、数据科学家和部门主管能够一起讨论最大的收益来自哪里,并且选择两到三个领域着手行动起来。这和管理层制定公司战略的历程有着异曲同工之妙。


成功的规划应聚焦于三大核心要素——数据、分析模型和工具。


其中,制定收集和整合数据的策略非常关键。企业忙于收集信息,但是BU横向或职能部门纵向经常出现各自为政的问题。关键的数据可能存在于过去的IT系统中,且涵盖客户服务、定价和供应链等各个领域。关键信息经常以非结构化格式散落于公司外部,例如社交网络的对话,更加剧了问题的复杂性。


要让这些信息成为长期资产,通常需要大力投入建设数据资产管理体系(可借助数据资产管理平台)。规划数据资产管理可以对混乱的数据库进行梳理,提炼数据价值,维护数据安全,并帮助日后实施能够保持准确性的数据治理标准。


往期推荐

漫谈千亿级数据优化实践:数据倾斜

回顾 | 阿里数据中台建模

干货 | Apache Flink 入门技术 PPT 分享

Hive SQL 语法大全,宇宙最强整理(建议收藏)

企业级丨推荐系统架构体系


今天的分享就到这里,谢谢大家。

分享、点赞、在看,人间真爱~


▼ 福利时刻 ▼ 

01. 扫码后台回复「经典」,即可领取大数据数仓经典书籍。

02. 扫码后台回复「中台」,即可领取大厂中台架构高清ppt。

03.扫码后台回复关键词:画像源码、画像ppt、用户画像,都可获取宝贵干货资源与资料

04.更多福利:

关键词
领取资源
ck安装clickhouse安装pdf文档
0808
大厂实时数仓PPT合集
画像源码用户画像项目源码
推荐系统推荐系统教程视频
OneData阿里OneData体系PPT

Q: 关于数据仓库,你还想了解什么?

欢迎关注我们一起进步

觉得不错,请把这篇文章分享给你的朋友哦

投稿请联系小助手:iom1128『紫霞仙子』

  

关注不迷路~ 各种福利、资源定期分享


[在看、收藏、转发],真爱三连!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存