来源:谈数据,作者:石秀峰
全文共 5240 个字,建议阅读 8 分钟
经过了站在业务视角的自上而下的数据梳理,以及站在IT视角的自下而上的数据盘点,一套“热腾腾”的数据资产清单终于新鲜出炉了。
通过数据资产盘点,企业终于知道他们拥有哪些数据、如何使用数据、是否安全以及数据在哪里。 然而,据笔者观察,业内大多数的数据资产盘点工作是通过手工作业的方式进行的,使用Excel工具进行记录。请不要小瞧这种方式,Excel手工盘点数据资产的方式之所以是主流,证明其简单易用、方便灵活、协作敏捷的特点是被广泛认可的。这里要提醒广大的数据产品经理们注意了:如果你能涉及出一款比Excel还灵活、好用的数据盘点工具,一定会大受欢迎!可能有人要问,数据梳理的再好,盘点的再清晰,那输出的也只不过是一堆Excel,对企业没有什么价值啊?是的。这个时候就需要“数据资产目录”来发挥他的作用了!
01 数据资产目录是什么?
我经常将书的目录与数据目录进行类比,翻开一本书的目录,它会告诉你这本书写了啥、内容结构、作者的写作思路等,如果你对某一章节感兴趣,通过目录就可以快速找到这想看的内容。图书目录起到提纲挈领,纲举目张的作用。数据资产目录也一样,它也有都有“字典”的作用,能够帮助企业相关业务和技术人员快速定位数据,解释数据,找到数据,并从中提取业务价值。数据资产目录本质上就是一个元数据的存储库,它提供特定范围内所有数据资产的清单,无论其位置或来源如何。数据目录包括有关数据资产的关键属性信息,例如:名称、业务含义、类型、大小、模式和其他相关属性。数据资产目录支持数据治理,包括:数据的分类分级,数据权限的管理,识别冗余和不一致的数据并为数据血缘分析和影响分析奠定了基础。数据资产目录和数据目录本质上是一样的,都是元数据管理。在项目实践中,数据目录也叫数据资源目录,一般是指通过元数据管理工具,对相关数据源(业务系统数据库、数据仓库、数据湖等)的元数据进行采集,而形成的数据目录。由于直接采集过来的基本都是数据库表结构、数据流、ETL脚本、数据库操作日志等技术元数据,所以数据目录要有一定的技术基础才能看懂,而且它的定位就是给技术人员看的。而数据资产目录是数据目录的子集,更多是站在业务的视角,以利益相关者的数据需求为目标对那些预期能够为企业带来价值的数据进行分类分级,业务元数据定义、打标签,授权等。请参考:《数据资产管理:企业的数据资产怎么盘?》
数据驱动是企业数字化转型的重要手段,而这一目标的需要业务人员能够快速定位、充分理解和有效利用数据。随着企业数据体量的不断增多和数据结构复杂度的增加,数据资产目录在企业数字化转型过程中,将发挥越来越大的作用。通常情况下,说到管理数据、准备数据、分析数据,那都是IT的事,业务用户对 IT 的技术语言和工具感到困惑。然而,只有让业务人员能够随时找到和理解了数据,才能将其转化为有用的信息和有价值的业务洞察力,以便指导业务实施改进。如果跨部门的关键业务决策者不能信任数据,如果他们无法理解数据,如果他们找不到数据,那么他们就无法利用数据来发现他们的业务问题,优化他们的业务。数据资产目录是一个有组织的数据资产清单,他不仅包含了IT人员擅长的数据库表、数据结构、数据流等技术元数据,还包含了数据的数据定义、同义词、使用方式、存储位置、数据所有者、数据管理者、数据上架时间等关键业务属性。数据资产目录为业务人员提供了一个理解数据、集中定位数据、快速访问和评估数据的入口,以便更快、更有效地进行数据洞察和分析。数据资产目录通过识别数据所有者、管理者和主题专家来实现跨部门协作,因此业务人员在遇到紧急的数据问题时知道该去哪里找。数据资产目录屏蔽了底层技术复杂性,提供了数据血缘的查询能力,使业务用户能够了解其数据的来源以及数据流转和加工的全链路,而无需或不必了解底层的数据采集、加工算法和过程。借助数据资产目录,业务用户可以轻松沟通并确保他们使用正确的数据,以便在正确的时间以正确使用获得最大的结果。除了业务人员,数据资产目录的用户还包括数据分析师、数据工程师、数据科学家、数据管理员和CDO等用户,他们无不希望能够轻松访问到可靠的数据。数据分析师可以通过数据资产目录了解和分析现有数据,例如:数据结构、数据安全性和数据质量,极大地增强了数据分析建模能力。数据科学家可以通过数据资产目录进行相关数据的探索,通过利用不同的数据集并构建和评估更复杂的数据模型和算法,从数据中获取更多的洞察力。数据工程师可以通过数据资产目录盘查数据链路中的相关问题,判断某个数据的更改将对整个系统产生哪些影响,分析不同数据集的数据结构,建立业务元数据和物理库表字段的映射等。数据管理员可以通过数据资产目录实时查看数据状态,监控数据的质量,控制数据访问权限,对关键数据定义数据标准,并监测贯标情况等。对于数据所有者,CDO等角色,数据资产目录可以帮助提高运营效率并降低成本。最后,数据资产目录为每个用户提供了授权和访问控制机制,让每个人都在其可访问的级别更轻松地在整个企业中查找和发现数据。
数据资产目录不是一个单独的系统,它是数据资产管理的重要组成功能,数据资产目录需要配合其他数据管理工具使用,才能发挥其重要的价值。根据笔者的实践和观察,一个优秀的数据资产目录,可能与数据管理组件都相关。数据资产目录支持连接多个数据源,从不同结构的数据源中提取元数据,包括:本地部署的数据源,云中的数据源,物联网IoT数据源,非结构化数据源等。自动化元数据采集能够帮助用户了解整个企业的数据结构和关系,使企业能够自动分析和发现不哪些不易发现,但却蕴含价值的数据。数据资产目录应支持分类分级、关联映射,打标签,用户自定义注释,敏感字段识别等形式,对采集的元数据进行管理,以便让用户更容易理解和查找数据。这里的元数据包括了技术元数据和业务元数据。技术元数据描述了数据的详细的存储位置和结构,例如数据库、字段和列信息,使IT人员能够了解数据的物理存储。业务元数据为用户提供清晰的业务上下文,包括数据定义、同义词和业务属性,帮助用户了解数据与其他数据集的关系以及发现数据的流动和依赖关系。数据血缘反义了数据在整个企业中的端到端流动情况,作为数据资产目录的一部分,它在数据整个生命周期中提供跟踪和追溯,以了解数据的来源、转换情况以及谁在使用它。通常,数据血缘是元数据管理的重要功能之一,记录并展示了系统、表、视图、字段等之间的关系,并采用DAG(有向无环图)的模式进行可视化展现。简单地说就是可视化地展示这个数据是怎么来的,经过了哪些过程和阶段。一个数据要从数据资源转化为数据资产必须要对其进行标准化定义,一个典型的实践是“业务术语表”。通过数据资产目录,建立数据标准与技术元数据的关联映射,是实现数据标准贯标的重要手段。数据资产目录支持自助服务,允许用户轻松访问和理解他们的数据,而无需依赖 IT 的支持。通过自动化的数据标记、分类和关系映射,用户可以使用关键字、过滤器、 查询条件等进行数据搜索,以定位、访问和查询数据。数据发现还提供对数据当前状态的实时可见性,例如:数据是如何被采集、整合和使用的,是最新的数据、还是过时的数据。数据资产目录为用户提供了一个基于元数据的数据资产清单,但是并不是所有用户都对这个清单拥有全局权限。每一个数据资产都是需要经过确权认责后才能纳入数据资产目录的,只有权限范围内的用户才能访问相关数据。数据资产目录支持申请/审批功能,为用户提供了一个访问更多数据的机会,以提升数据资产的利用率。用户通过数据资产目录可以找到所需的数据,数据资产目录不仅是告诉你:数据是什么(定义),它在哪里(位置)以及该如何访问它(所有者),一般还会提供一个基于数据目录生成数据服务API的功能,以帮助用户实现数据的集成共享。提供数据资产监控功能,以热力图的形式展示哪些数据应用价值高,通过使用次数、使用对象、使用效果评价等指标对数据资产应用情况进行评估。根据数据资产使用情况,对数据资产目录进行重新组织,最大化释放数据资产价值。
数据资产盘点是使用科学的数据盘点方法,以“摸清家底”为目标,对企业的数据资源进行统筹规划,全面梳理。一方面,从业务视角对数据资源进行梳理和规划,包括:制度文件的解读、流程表单梳理、关键数据的识别等,并定义数据的分类体系和数据资产的业务属性。另一方面,从技术视角对系统数据进行盘点,包括:数据关系、数据结构、数据存量、数据增量、存储方式等,梳理数据资产的技术属性。数据资产盘点的方法和步骤在《数据资产管理:企业的数据资产怎么盘?》有详细的描述,此处不再赘述。根据数据盘点结果,在数据资产目录完成数据资产概要信息的登记。数据资产登记主要包含三个方面信息:第一,业务方面,例如:数据资产名称,所属数据域,所属数据分类、数据资产描述等;第二,技术方面,数据资产位置(哪个系统,那张表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,管理方面,数据资产所有者(归口部门),数据资产管理员,数据资产上架时间,数据资产共享条件等。数据资产登记可以采用人工方式(据笔者观察目前大多数是采用这种方式)或者基于AI的数据资产识别。在登记完数据资产基本信息后,接下来关键一步是采集数据资产的元数据。数据资产目录使用元数据来识别数据表、文件和数据库。元数据采集爬取公司的数据库并将元数据(不是实际数据)带到数据资产目录中。由于数据资产分布在不同的位置,元数据采集的范围包括:关系数据库 - Oracle、SQL Server、MySQL、DB2 等。
数据仓库 - Teradata、Creenplum等。
存储对象的元数据。
云平台 - 阿里云、微软 Azure Data Lake、AWS 的Athena 和 Red Shift。
非关系/NoSQL 数据库 - Cassandra、MongoDB。
Hadoop大数据平台的相关元数据采集。
BI平台,Tableau、Power BI、国产BI软件等。
- ETL工具,Kettle、DataStage、Informatic等。
标记关系是管理数据资产的一个重要步骤,通过这一步,用户可以跨多个数据库发现相关数据。例如,分析师可能需要整合的客户信息。通过数据资产目录,发现五个不同系统中的都有客户数据。有了数据目录的帮助,可以构建一个实验区域,在那里可以连接所有数据,清理数据,然后使用合并的客户数据来实现业务目标。标记关系后,数据目录会构建血缘,。数据血缘的可视化表示有助于跟踪从源到目的地的数据,它解释了数据流中涉及的不同过程。数据分析师能够根据数据血缘追溯分析中错误的根本原因。通常,ETL(Extract、Transfer、Load)工具用于从源数据库中提取数据、转换和清洗数据并将其加载到目标数据库中。一些可以解析血缘关系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。采集过来的元数据以技术格式排列,缺少表、列的中文注释,不利于业务人员理解数据。这时候需要基于这些技术元数据构建语义层,对相关数据表、列进行中文标记,以便业务人员能够发现、访问和理解它们。数据治理定义了数据管理的总体策略,规定了数据管理的组织、制度和流程,明确了数据的权属,定义了数据标准,为数据资产管理指明方向。数据资产目录是数据治理策略的具体执行,以业务友好的方式展示企业的数据资产和位置,帮助用户更好地找到、理解和使用他们的数据。数据资产目录的建设是数据治理中重要的一环,创建可访问的数据资产目录允许非技术人员定位和利用整个企业的数据,并自动发现企业系统中的数据源,包括业务、技术和流程的数据血缘提供了完整的数据透明度,因此用户可以了解数据的来源、流程和依赖关系,以及数据从源头到完成和消费的流向。因此,用户可以快速发现数据的影响,使其适合企业业务流程并做出更明智的数据决策。数据资产目录的构建是实现自助数据准备,自助数据分析的前提。基于数据资产目录,业务数据分析师可以企业有哪些可用数据资源或已更新的数据资产,知道谁是数据所有者,以及这些数据资产位于哪里、如何处理它。最重要的是,基于数据资产目录可以提高定位和查询数据的速度和效率,以推动数据的使用,从数据中获得洞察力,增强企业竞争力。参考文献:
https://www.icode9.com/content-4-960194.html