查看原文
其他

数据治理体系之六-构建AI数据治理平台

ruby ruby的数据漫谈
2024-09-27


针对AIGC的数据治理体系构建,我们从AIGC的主要应用场景出发进行详细分析。对于AIGC的应用场景目前根据生成的内容主要分成文本生成、音频生成、图像生成、视频生成、跨模态生成。这五类的生产主要使用的数据是文本、图片、视频三类非结构化的数据。图片和视频等内容的生成主要应用在创作类的营销或者运营的场景,文本类型的内容生成应用场景较为广泛,本文专注介绍文本类型的内容生成的应用场景下的数据治理体系。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍文本类型的内容生成技术架构和高频高价值业务场景说明非结构化数据治理体系。主要包含一下几种场景:

一、知识问答
知识问答主要应用在专业知识领域,例如说是医疗、法律、金融等行业的知识问答。
二、智能客服
智能客服主要是应用在某个具体的产品的服务应用场景,聚集回答产品的功能答疑、使用指南,维修指南等应用场景。
三、营销/运营的内容生成‍
营销和运营的内容生成,主要是在营销或者运营应用场景的文案的自动生成。例如金融的营销文案、电子产品的营销文案、汽车营销文案等。‍‍‍‍‍‍‍‍‍‍
四、智能数据分析
智能数据分析应用是结合结构化数据的分析以及增强分析结合的应用场景,将自然语言转化为sql,返回分析结果的应用场景。‍‍‍‍‍‍‍‍
五、预测分析/智能推荐,辅助决策
预测算法和增强分析结合,同时将分析结果以文本语言的方式组合成决策建议输出。‍‍


在满足AIGC应用的数据处理需求方面,我们应该如何构建数据治理体系来整合这五种应用场景呢?前文已经介绍了结构化数据的数据治理体系(一)-(五),那么在本文中,我们将重点结合应用场景来介绍非结构化数据的数据治理体系。非结构化数据的数据治理主要体现在元数据管理、数据标准管理、数据质量管理,特征工程管理、数据安全管理。‍‍‍‍‍‍‍‍‍‍‍在详细说明非结构化数据的数据治理体系之前,需要了解一下非结构化数据的数据处理过程以及数据治理体系的主要内容。‍‍‍‍‍


01

元数据管理


元数据是描述数据的数据,它包含了数据的定义、来源、格式、结构以及数据之间的关系等信息。在AIGC中,元数据的管理对于数据的正确理解和使用至关重要。通过建立完善的元数据管理体系,可以确保数据的准确性、一致性和可靠性,并加强数据的可发现性和可理解性,为AIGC的应用提供强有力的支持

非结构化数据的元数据包括以下内容:

描述元数据:例如文本数据目录信息和同义关键词。

1)数据目录:描述数据的主题信息的目录信息,比如营销语料,则创建营销目录。

结构元数据:例如文本数据语义、数据结构。

1)数据结构:描述数据的组织结构和层次关系,比如表、字段、文档标题等,有助于理解数据的组成和组织方式。

2)数据语义:描述数据的含义和相关概念,比如术语、标签、实体关系等,有助于准确理解数据的含义和语境。

管理元数据:例如数据来源、更新计划、访问权限以及导航信息。

1)数据来源:包括数据的原始来源、采集方式、采集时间等信息,帮助了解数据的来源和采集过程。

2)数据权限:描述数据的访问权限和安全级别,有助于控制数据的访问和保护数据的安全。

检索元数据:例如文本数据检索条目(如名称、格式、属性、来源、版本、 接收日期、存储位置,访问链接等)

1)数据格式:描述数据的存储格式,如文本、图像、视频等,以及相应的编码方式,有助于正确解读数据。

2)数据属性:描述数据的特性和属性,比如大小、长度、分辨率、时长等,有助于对数据进行分析和处理。


记录元数据:例如保留策略,质量评分情况、例如3年无人访问则自动销毁。

1)数据质量:描述数据的质量特征,比如完整性、准确性、一致性等评分,有助于评估和提升数据的质量。

2)保留策略:描述数据存储或者销毁的策略信息。


保存元数据:例如存储、归档条件和保存规则。

这些元数据的存在对于非结构化数据的有效管理至关重要,建立非结构化数据的元数据模型以及元数据自动生成的机制,在数据采集的同时自动创建元数据。


02


数据标准管理


非结构化数据的数据标准主要包含内容分类标准、编码命名标准、格式标准、内容本体标准、版本标准、元数据标准、接口标准。本文重点说明内容分类标准、编码命名标准、内容本体标准、元数据标准。

内容分类标准是对数据的组织和分类进行规范性说明的一种手段。它涵盖了多个方面的内容,主要包括以下几个方面:

1、目录树分类:通过层次结构的方式对数据进行分类,包括主题、领域、功能等方面的分类目录。这种分类方式可以使数据有序地组织起来,方便用户按照不同维度进行查找和访问。

2、标签分类:通过给数据打上标签的方式进行分类,可以根据数据的特点、属性、用途等进行标注,便于用户进行搜索和过滤。这种分类方式可以更加灵活地适应数据的变化和个性化需求。

3、智能分类:利用机器学习和自然语言处理等技术,对数据进行自动分类。通过分析数据的内容、关键词、上下文等特征,将数据自动归类到相应的分类中。这种分类方式可以减轻人工分类的负担,提高分类的准确性和效率。

4、分类编码:使用特定的编码方式对数据进行分类。通过定义一套编码规则,将数据按照不同的编码分类,可以实现对数据的统一管理和跨系统的共享。这种分类方式可以提高数据的一致性和互操作性。

通过以上内容分类标准的规范性说明,可以更好地组织和管理数据,提高数据的可用性、可发现性和可重用性,为数据的进一步应用和价值挖掘提供有力支持。


编码命名标准主要涵盖以下内容:1、编码分类:明确定义编码的类别和层次结构,将数据按照一定的分类规则进行组织和管理,以方便数据的查找、使用和分析。2、代码表:规定了每个编码对应的具体含义和取值范围,确保数据在不同系统之间的一致性和可互操作性。3、手动命名:提供了人工命名时需要遵循的规范和原则,如命名规则、命名约定、命名规范等,以确保命名的一致性和可读性。4、自动命名:定义了自动化命名的方法和规则,通过算法或规则引擎生成符合规范的命名,提高效率和减少人为错误。5、其他规范性说明:还包括了一些其他的规范性说明,如编码长度限制、编码命名的禁用词汇、编码命名的保留字等,以确保编码的唯一性、规范性和合法性。通过制定和遵守编码命名标准,为数据治理和数据分析提供有力支持。

非结构化数据的元数据标准主要包含以下规范性说明:

1、内容属性:描述数据的基本属性,包括数据的名称、描述、创建时间、修改时间等。

2、内容结构:描述数据的组织结构,如文档的章节、段落、标题等。

3、内容标记:标记数据中的特定元素,如标记段落、表格、图片等,以便于后续的处理和分析。

4、内容分类:将数据按照一定的分类标准进行分组,以方便查询和管理,可以采用目录树分类、标签分类、智能分类等方式。

5、元数据格式:定义元数据的格式和表示方式,如XML、JSON等。

6、元数据分类:将元数据按照不同的分类标准进行划分,如按照数据类型、数据来源、数据用途等进行分类。

7、元数据校:对元数据进行合规性检查,包括数据完整性、准确性、一致性等方面的验证。

8、元数据追踪:跟踪记录数据的来源、修改历史、应用场景等信息,以便于数据溯源和追溯。

这些规范性说明可以帮助建立完善的非结构化数据的元数据标准,提高数据的可理解性、可管理性和可重用性。


内容本体标准是指对内容进行分类和标记的规范,主要包括以下方面的规范化要求:

1、内容分类分级:将内容按照不同的分类和级别进行划分,以便于组织和管理。例如,可以按照主题、类型、用途等维度对内容进行分类。

2、内容敏感度:对于敏感信息或需要特别保护的内容,进行标记和分类,以加强对其安全性和保密性的管理。

3、敏感词过滤:制定针对敏感词汇的过滤机制,对可能存在的不当或违规内容进行识别和过滤,以保护用户的合法权益。

4、内容密级:对内容进行密级标记,以标识其保密等级和访问权限,确保内容的合规性和安全性。

5、内容模板:制定内容展示和发布的模板规范,确保内容的一致性和专业性。通过模板的使用,可以提高内容的可读性和用户体验。

6、内容保管格式:规定内容存储和保存的格式要求,包括文件格式、数据格式等方面的规范。这有助于提高内容的可检索性和长期保存的可靠性。

通过遵循内容本体标准,可以提高内容的组织和管理效率,增强内容的一致性和可信度,同时保护用户信息的安全和隐私。建立内容本体标准也是后续执行数据安全操作的基础。




03


数据质量管理


高质量的内容数据是AIGC应用的基础,只有高质量的语料喂给大模型训练,才能提高模型的准确性和提高训练的速度。非结构数据的质量管理,主要包含质量标准,质量检测策略,质量任务监控,以及质量报告等功能,其中质量标准主要包含有效性、一致性、唯一性、时效性、完备性、完整性、合理性、准确性等标准,这些标准可以引用前面定义的数据标准作为校验的基础。






在数据标准不足以支撑内容质量检测策略制定的情况下,需要依赖算法,或者规则进行建立质量监控策略。同时依据这些质量标准,对内容进行质量评分,以及输出质量报告,用于后期的质量优化方案执行。


04


特征工程管理


AIGC应用在创建之初需要进行模型训练,而模型训练的过程如下:1、数据预处理:对数据进行清洗、去重、缺失值处理等,以提高数据的质量和准确性,为后续的模型建立提供更好的数据基础。2、特征工程:对数据进行特征选择、特征提取、特征变换等,以提高特征的表达能力和区分度,为后续的模型训练提供更好的特征基础。3、模型选择:根据实际场景和需求,选择适合的模型类型和参数,以提高模型的准确度和泛化能力。4、模型训练:对模型进行训练时,可以采用一些技巧和方法,如正则化、交叉验证、集成学习等,以提高模型的鲁棒性和泛化能力。5、模型评估:对模型进行评估时,可以采用一些指标和方法,如混淆矩阵、ROC曲线、AUC值等,以评估模型的准确度和性能。如下图所示,按照特征工程的处理过程,形成用于模型训练的语料库。‍‍‍‍‍



一、数据预处理基于数据质量评估结果,需要对数据进行处理以达到特征工程处理的基本要求,例如缺失值补充,异常值处理,重复值处理,数据格式处理。二、特征抽取特征抽取的目的是将原始数据转化为数值型或离散型的特征向量,以便于机器学习模型进行计算和分析。这涉及到对数据进行预处理、转换和选择,并通过特定的方法和技术进行特征提取和降维,以获得更简洁、更有用的特征表示。例如,人的年龄是连续的,特征抽取可以将人的年龄定义为0-1岁,1-10岁,10-18岁,19-35岁,36-60岁,60岁以上,这个过程称之为特征抽取三、特征构造‍‍‍特征构造是指在机器学习任务中,通过对原始数据进行加工和组合,生成新的特征以提升模型性能和预测能力的过程。通过挖掘原始数据中的信息,创造性地构建出更有价值的特征,可以帮助模型更好地理解和解释数据,从而提高模型的准确性和泛化能力。特征构造是一个创新的过程,需要基于领域知识和对数据的理解,将原始数据转化为更能反映问题本质和模式的特征表示形式。这个过程可以包括数值化、编码、分箱、组合、交互等操作,旨在使得数据更具有可解释性和预测能力。特征构造是机器学习中一个非常重要且有挑战性的环节,它的质量和选择对模型的效果具有很大的影响。


四、特征选择


特征选择是从原始特征集中选择出最相关、最具有代表性的特征子集的过程。在机器学习和数据挖掘中,我们通常面临大量的特征,但并不是所有特征都对模型建设和预测有用。过多的特征可能导致模型过拟合,增加计算负担,并降低模型的泛化能力。因此,特征选择的目的是减少特征集规模,提高模型的效果和性能。

特征选择的方法可以分为三大类:过滤式方法、包裹式方法和嵌入式方法。过滤式方法是通过对每个特征进行评估和排序,然后选择得分最高的特征。包裹式方法是将特征选择问题看作是一个优化问题,通过在特征子集上运行机器学习算法进行评估,并选择使算法性能最佳的特征子集。嵌入式方法是在学习算法的训练过程中,将特征选择融入到模型参数估计中。

特征选择的简单化理解,即从特征集中选取一组特征最能表达这段内容特性的标签,然后将标签和内容作为一组数据,输入到AI模型进行训练。‍‍‍‍‍



05


数据安全管理


非结构化数据的数据安全管理,除了前面进行说明的内容,对于非结构化数据的还需要特殊的数据安全处理,主要体现在分类分级、脱敏加密处理、数据血缘分析、数据访问的动态脱敏,业务无侵入。一、数据分类分级提供多种数据识别方式,企业安全人员可以根据不同的资产现状,灵活组合,实现全方位数据资产盘点与分类分级。1、基于血缘识别数据加工链路中产生的衍生敏感资产。2、基于预置或自定规则,通过正则、算法、字典等方式对元数据进行识别。3、通过行业知识库与大模型,对元数据进行语义分析,实现智能化敏感数据识别。
二、数据脱敏加密处理基于分布式技术的高性能静态脱敏平台满足大数据量脱敏场景支持仿真脱敏、随机替换、国密加密等脱敏加密手段。
三、数据血缘分析通过血缘分析识别敏感资产链路传播 , 提高分类分级覆盖率 , 真正做到应分尽分。
四、数据访问的动态脱敏,业务无侵入在 实时数据库查询场景, 基于安全防护策略进行动态脱敏 , 无需业务改造 , 无需对数据预先脱敏。 在 API 数据共享享场景,基于防护策略实现 API 动态脱敏 , 并支持原有 API 接口的平滑迁移。

以上是基于AIGC应用的非结构化数据治理体系所涵盖的功能构建。

欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息




往期历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式





继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存