来源:谈数据,作者:石秀峰
Hi,你们好吗?
有很长时间没有写文章了,不是我变懒了,也不是没得写了,最近实在是太忙了,大家见谅哈。
这个周末好不容易抽出一些时间,写了这篇文章。今天我们继续聊数据资产管理这个话题。上篇文章《数据资产管理:企业的数据资产怎么盘?》中,我们对数据资产梳理和盘点的方法、流程、模板进行了介绍,相信大家对数据资产盘点应该有所了解了。可能有人会问,数据资产盘点都是人工在做,有没有更智能的方法,能够自动盘点数据,让数据更容易查找和使用?
01 数据资产发现,是什么?
数据资产发现是一个可视化、智能化的数据管理工具,它的定位是使业务和技术人员能够在需要时更容易找到、理解和使用他们想要的数据。
这个概念是不是似曾相识?是的,数据资产发现与数据资产目录在定位上很相似,从本质上讲,数据资产发现就是一种更智能的数据资产目录工具。如果我们将大数据比作石油的话,数据发现就是勘探、采集、处理和炼化石油的过程,它能够更加自动化的识别数据资产,对数据进行迁移、清洗、标记、编目和可视化,从而最大化的释放数据价值。
通常来讲,数据资产发现具备如下能力:
1、多数据源连接
数据资产发现可以连接多个数据源,实现数据的可视化、集成和迁移。支持的数据源除了结构化数据,还能够对非结构化数据、半结构化数据的关键元数据进行识别和采集。
2、元数据分析
对元数据信息进行统计分析,可视化展示数据源的元数据,包括数据表的大小、注释、列数量、时间列数量、主键数量等信息,更细一步地,还统计了列级别的元数据,包括列注释、字段类型、列长度、是否主键列等信息。
3、数据分类和编目
数据发现与数据分类密切相关,通过自然语言处理、语义解析,根据数据的有用性、敏感性或安全性要求进行识别、分类和编目,形成业务、技术多个视角能够识别、查询和浏览的数据资产目录。
4、清理和准备数据
有了数据目录,用户就可以轻松找到想要的数据。但是找到了数据,不一定就意味着它能直接使用,因为这些数据往往还存在很多的质量问题,必须要对这些数据作进一步的清理。数据发现工具一般具备自助数据准备和自动进行数据清理功能,提供有关值域范围、异常值、错误值和其他数据属性和问题的检查和处理,为数据共享和分析提供支撑。
5、数据探索
02 数据资产发现,发现什么?
很多企业数据资产管理的最大痛点就是数据分散,企业不知道自己有哪些数据可用。企业数据大部分分散在不同的系统、不同的数据源和不同的设备中,识别、分类、处理和分析数据,并从中获得洞察力对任何企业都至关重要。
那么,数据发现到底能够发现什么?
数据的位置:数据发现通过连接数据源、采集和分析元数据,能够识别企业有哪些数据,并定位这些数据在哪里存放,谁可以访问它。
数据的结构:数据发现可以自动解析数据的结构,包括对结构化、半结构化和非结构化数据的的数据特征提取,通过统计模型对数据进行分类。
数据的传输:数据发现捕获数据的流向,了解传输哪些数据、如何传输以及通过哪些渠道传输。
敏感的数据:数据发现通过内置的数据口径、标准和规则,可以自动识别数据的技术属性和业务属性,可以快速对身份证号码,姓名,地址,手机号、银行账号等敏感信息进行识别、分类和跟踪,方便评估安全或隐私风险并定义缓解策略。
数据的问题:数据发现通过数据质量检核,可以对数据集中的数据值域范围、异常值、错误值、重复数据等数据问题进行稽核,快速发现数据集中的问题数据,并执行数据清理,以提高数据质量。
数据的含义:数据发现通过丰富的图表,通过可视化的方式展示数据资产地图,直观清晰的展现数据富含的意义、用途等,使得用户可以快速的了解数据,并从数据中获得洞察力。
03 数据资产发现,怎么发现?
当下,数据资产发现主要有两种形式:手动发现和智能发现。
1、手动数据发现
在过去 20 年里,在机器学习进步之前,数据相关工作人员对数据的相关作业,如:发现数据、采集数据、处理数据、分析数据等,大部分需要依靠人类的脑力和体力。简单地说,人们通过人为的方式,识别和记忆关于哪些数据可用,存储在哪里,为什么需要,以及为最终用户提供带来什么价值。
后来,企业开始有意识的管理数据,通过监控元数据和数据血缘,发现并了解数据分类和流程。数据管理员,通常是具有复杂技术和知识的人才能胜任,负责企业数据资产的盘点和管理,基于一定业务规则对数据资产进行分类和编目。在这一过程,数据管理员通过手动的方式建立数据目录、绘制数据地图,以理解企业中的数据资产。而这一方式,一直沿用至今。
2、智能数据发现
大数据时代,数据呈爆炸式增长,且数据在企业业务发展的过程中,扮演的角色越来越重要。传统手动发现数据的方式,在应对企业的数据管理和使用需求,以及大规模、多样化的数据增长情况下,显得越来越吃力。因此,企业迫切需要一种更加自动化、智能化的数据发现工具,来帮助企业从数据中获得更深入的洞察力。
随着技术的进步,智能数据发现工具逐步成熟了起来。智能数据发现主要使用增强分析、自然语言处理、机器学习等人工智能技术,对数据进行定位、探查、清理、集成和可视化,来呈现和洞察数据价值。智能数据发现是一个飞跃,通过对可用数据源的整体理解和分析,在黑匣子中进行一些处理并得出合理答案。
有了AI的加持,数据发现有了令人兴奋的创新方向:
AI 技术可用于数据准备,例如:标准化数据、处理缺失数据、字符串模式识别等。 算法可用于识别和关注相关变量组数据中的特定模式或异常值。 时间序列分析对模式识别、异常值检测和表关系发现具有不同的需求和意义。 可以收集、分析专家用户的行为数据,并用于影响推荐的分析操作。
JMP Statistical Discovery
Looker
Microsoft Power BI
Phocas
Qlik Sense
Spirion
Tableau
TIBCO Spotfire
Atlan
数据源连接和元数据采集,包括:结构化、半结构化、非结构化等数据源
元数据管理和数据血缘,识别和解析数据的位置、含义等
全文元数据搜索,帮助用户快速定位和查找数据
敏感信息识别、分类和监控,这对于满足合规性要求非常重要
数据准备和提高数据质量的工具
机器学习能力,包括预测分析
内存分析,实现更快的查询响应时间
数据分析和可视化(图表、地图、表格以及其他形式)
版本控制,确保数据的完整性并防止意外数据丢失
参考文献:https://atlan.com/data-discovery-tools/