数据治理体系之六-构建AI数据治理平台
一、知识问答
知识问答主要应用在专业知识领域,例如说是医疗、法律、金融等行业的知识问答。
二、智能客服
智能客服主要是应用在某个具体的产品的服务应用场景,聚集回答产品的功能答疑、使用指南,维修指南等应用场景。
三、营销/运营的内容生成
营销和运营的内容生成,主要是在营销或者运营应用场景的文案的自动生成。例如金融的营销文案、电子产品的营销文案、汽车营销文案等。
四、智能数据分析
智能数据分析应用是结合结构化数据的分析以及增强分析结合的应用场景,将自然语言转化为sql,返回分析结果的应用场景。
五、预测分析/智能推荐,辅助决策
预测算法和增强分析结合,同时将分析结果以文本语言的方式组合成决策建议输出。
01
—
元数据管理
非结构化数据的元数据包括以下内容:
描述元数据:例如文本数据目录信息和同义关键词。
1)数据目录:描述数据的主题信息的目录信息,比如营销语料,则创建营销目录。
结构元数据:例如文本数据语义、数据结构。
1)数据结构:描述数据的组织结构和层次关系,比如表、字段、文档标题等,有助于理解数据的组成和组织方式。
2)数据语义:描述数据的含义和相关概念,比如术语、标签、实体关系等,有助于准确理解数据的含义和语境。
管理元数据:例如数据来源、更新计划、访问权限以及导航信息。
1)数据来源:包括数据的原始来源、采集方式、采集时间等信息,帮助了解数据的来源和采集过程。
2)数据权限:描述数据的访问权限和安全级别,有助于控制数据的访问和保护数据的安全。
检索元数据:例如文本数据检索条目(如名称、格式、属性、来源、版本、 接收日期、存储位置,访问链接等)
1)数据格式:描述数据的存储格式,如文本、图像、视频等,以及相应的编码方式,有助于正确解读数据。
2)数据属性:描述数据的特性和属性,比如大小、长度、分辨率、时长等,有助于对数据进行分析和处理。
记录元数据:例如保留策略,质量评分情况、例如3年无人访问则自动销毁。
1)数据质量:描述数据的质量特征,比如完整性、准确性、一致性等评分,有助于评估和提升数据的质量。
2)保留策略:描述数据存储或者销毁的策略信息。
保存元数据:例如存储、归档条件和保存规则。
这些元数据的存在对于非结构化数据的有效管理至关重要,建立非结构化数据的元数据模型以及元数据自动生成的机制,在数据采集的同时自动创建元数据。
02
—
数据标准管理
内容分类标准是对数据的组织和分类进行规范性说明的一种手段。它涵盖了多个方面的内容,主要包括以下几个方面:
1、目录树分类:通过层次结构的方式对数据进行分类,包括主题、领域、功能等方面的分类目录。这种分类方式可以使数据有序地组织起来,方便用户按照不同维度进行查找和访问。
2、标签分类:通过给数据打上标签的方式进行分类,可以根据数据的特点、属性、用途等进行标注,便于用户进行搜索和过滤。这种分类方式可以更加灵活地适应数据的变化和个性化需求。
3、智能分类:利用机器学习和自然语言处理等技术,对数据进行自动分类。通过分析数据的内容、关键词、上下文等特征,将数据自动归类到相应的分类中。这种分类方式可以减轻人工分类的负担,提高分类的准确性和效率。
4、分类编码:使用特定的编码方式对数据进行分类。通过定义一套编码规则,将数据按照不同的编码分类,可以实现对数据的统一管理和跨系统的共享。这种分类方式可以提高数据的一致性和互操作性。
通过以上内容分类标准的规范性说明,可以更好地组织和管理数据,提高数据的可用性、可发现性和可重用性,为数据的进一步应用和价值挖掘提供有力支持。
非结构化数据的元数据标准主要包含以下规范性说明:
1、内容属性:描述数据的基本属性,包括数据的名称、描述、创建时间、修改时间等。
2、内容结构:描述数据的组织结构,如文档的章节、段落、标题等。
3、内容标记:标记数据中的特定元素,如标记段落、表格、图片等,以便于后续的处理和分析。
4、内容分类:将数据按照一定的分类标准进行分组,以方便查询和管理,可以采用目录树分类、标签分类、智能分类等方式。
5、元数据格式:定义元数据的格式和表示方式,如XML、JSON等。
6、元数据分类:将元数据按照不同的分类标准进行划分,如按照数据类型、数据来源、数据用途等进行分类。
7、元数据校验:对元数据进行合规性检查,包括数据完整性、准确性、一致性等方面的验证。
8、元数据追踪:跟踪记录数据的来源、修改历史、应用场景等信息,以便于数据溯源和追溯。
这些规范性说明可以帮助建立完善的非结构化数据的元数据标准,提高数据的可理解性、可管理性和可重用性。
内容本体标准是指对内容进行分类和标记的规范,主要包括以下方面的规范化要求:
1、内容分类分级:将内容按照不同的分类和级别进行划分,以便于组织和管理。例如,可以按照主题、类型、用途等维度对内容进行分类。
2、内容敏感度:对于敏感信息或需要特别保护的内容,进行标记和分类,以加强对其安全性和保密性的管理。
3、敏感词过滤:制定针对敏感词汇的过滤机制,对可能存在的不当或违规内容进行识别和过滤,以保护用户的合法权益。
4、内容密级:对内容进行密级标记,以标识其保密等级和访问权限,确保内容的合规性和安全性。
5、内容模板:制定内容展示和发布的模板规范,确保内容的一致性和专业性。通过模板的使用,可以提高内容的可读性和用户体验。
6、内容保管格式:规定内容存储和保存的格式要求,包括文件格式、数据格式等方面的规范。这有助于提高内容的可检索性和长期保存的可靠性。
通过遵循内容本体标准,可以提高内容的组织和管理效率,增强内容的一致性和可信度,同时保护用户信息的安全和隐私。建立内容本体标准也是后续执行数据安全操作的基础。
03
—
数据质量管理
04
—
特征工程管理
特征选择是从原始特征集中选择出最相关、最具有代表性的特征子集的过程。在机器学习和数据挖掘中,我们通常面临大量的特征,但并不是所有特征都对模型建设和预测有用。过多的特征可能导致模型过拟合,增加计算负担,并降低模型的泛化能力。因此,特征选择的目的是减少特征集规模,提高模型的效果和性能。
特征选择的方法可以分为三大类:过滤式方法、包裹式方法和嵌入式方法。过滤式方法是通过对每个特征进行评估和排序,然后选择得分最高的特征。包裹式方法是将特征选择问题看作是一个优化问题,通过在特征子集上运行机器学习算法进行评估,并选择使算法性能最佳的特征子集。嵌入式方法是在学习算法的训练过程中,将特征选择融入到模型参数估计中。
特征选择的简单化理解,即从特征集中选取一组特征最能表达这段内容特性的标签,然后将标签和内容作为一组数据,输入到AI模型进行训练。
05
—
数据安全管理
二、数据脱敏加密处理基于分布式技术的高性能静态脱敏平台满足大数据量脱敏场景支持仿真脱敏、随机替换、国密加密等脱敏加密手段。
三、数据血缘分析通过血缘分析识别敏感资产链路传播 , 提高分类分级覆盖率 , 真正做到应分尽分。
四、数据访问的动态脱敏,业务无侵入在 实时数据库查询场景, 基于安全防护策略进行动态脱敏 , 无需业务改造 , 无需对数据预先脱敏。 在 API 数据共享享场景,基于防护策略实现 API 动态脱敏 , 并支持原有 API 接口的平滑迁移。
以上是基于AIGC应用的非结构化数据治理体系所涵盖的功能构建。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息
往期历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化