查看原文
其他

《西部数据交易中心社会数据资产盘点实质审查实施细则(试行)》公开征求意见

为您赋能的 数据要素X工作坊
2024-09-16
8月5日,为充分听取社会公众意见,提高《西部数据交易中心社会数据资产盘点实质审查实施细则》的起草质量,西部数据交易中心发布了《西部数据交易中心社会数据资产盘点实质审查实施细则(试行)(征求意见稿)》,公开征求意见。










意见稿全文

西部数据交易中心社会数据资产盘点实质审查
实施细则(试行)(征求意见稿)


第一章  总则


      第一条 背景
为贯彻实施《重庆市人民政府办公厅关于印发<重庆市数据要素市场化配置改革行动方案>的通知》“先行先试落实数据资源持有权、数据加工使用权、数据产品经营权结构性分置的产权运行机制,保障市场参与主体持有、使用、经营数据的权利”相关要求,根据《西部数据交易中心社会数据资产登记指引》(以下简称“指引”),制定西部数据交易中心社会数据资产盘点实质审查实施细则,以规范第三方盘点报告的实质内容。
第二条 基本要求
被盘点主体应积极主动配合数据资产盘点工作,确保提供全面、真实、准确的数据资料及相关材料,并依据盘点需求,及时准备并开放必要的工作环境与资源,包括但不限于数据访问权限、专用工作场所、技术支持团队等,以保障数据资产盘点工作的顺利进行与数据资产盘点的完整性、安全性。
第三条 适用范围
适用于负责或参与社会数据资产盘点的所有相关主体,包括数据资产的持有者、使用者、经营者以及受委托进行盘点的第三方机构等。这些主体需按照本细则的要求,开展数据资产的识别、分类、评估和报告等工作。
第四条 术语定义
盘点主体:指被授权或有责任进行社会数据资产盘点工作的组织、机构。
被盘点主体:指在数据资产盘点过程中,作为盘点对象的数据资产的所有者、管理者或控制者。
盘点对象:指盘点工作中实际要识别、分类、评估和报告的数据资产本身。
数据应用场景:指企业或组织中出现并需要解决的具体业务问题或需求,在特定背景下发生的业务情景。
业务元数据:主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
技术元数据:提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
操作元数据:描述了处理和访问数据的细节。
公共数据:公共管理和服务机构通过数据共享、数据开放、数据出口等 方式,可被无条件获取的数据,该类数据被非授权操作后无危害
企业数据:泛指所有与企业经营相关的信息、资料,包括公司概况、产品信息、经营数据、研究成果等,其中不乏涉及商业机密。
个人数据:指任何指向一个已识别或可识别的自然人(数据主体)的信息。该可识别的自然人能够被直接或间接地识别,尤其是通过诸如姓名、身份证号码、定位数据、在线身份识别这类标识,或者通过该自然人的物理、生理、遗传、心理、经济、文化或社会身份等一项或多项要素予以识别。
人工数据采集:基础数据采集手段,借助人工手动录入或记录采集数据。
系统业务数据:企业或机构在经营过程中使用信息化系统产生的各种与业务活动相关的数据信息。
数据接口采集:利用开放数据接口采集,即通过调动第三方所设公开发布的API获取所需数据。
爬虫采集:借助计算机代为登录各网站进行信息撷取的方法。此法能够迅速、准确地获取大批量网页中的相关数据,且可定期更新及批量处理信息。
感知设备产生数据:指采用感知设备对环境进行实时监控与数据捕获。如气象感知设备可采集气候信息,运动感知设备则能追踪人体运动情况。
关系型数据库:指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。
键值数据库:是一种非关系数据库(也称为 NoSQL 数据库),它使用简单的键值方法来存储数据。该数据库将数据存储为键值对集合,其中键作为唯一标识符。
列式数据库:是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。
图文数据库:是在数据库系统中能够同时管理文字和图像信息,与传统的数据库一样,图文数据库能够利用数据库信息产生的像直方图、圆饼图一类的图形。
文档数据库:是一种NoSQL数据库,它存储数据为文档的形式,通常是JSON、XML或类似格式。这些文档可以包含多种类型的数据,包括字符串、数字、数组、对象等,并且每个文档可以有不同的结构。
数据安全等级:数据被非授权操作后的影响程度,将公共数据划分为4个等级。可公开的数据(公开数据)定为1级;受限公开的数据(受限数据)定为2级;敏感数据定为3级;涉密数据定为4级。
实时计算:一种处理数据的方式,它能够实时地对数据进行处理和分析,以便快速获得实时结果。
离线计算:在计算开始前已知所有输入数据,输入数据不会产生变化,且在解决一个问题后就要立即得出结果的前提下进行的计算。
流处理:一种大数据处理技术,它允许用户查询连续数据流,并在从接收数据开始很短的时间内快速检测条件。
批处理:对某对象进行批量的处理。
结构化数据:指以明确的格式和规则存储的数据,可以通过表格、数据库或其他可编程的数据模型进行存储和管理。
半结构化数据:结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。如XML,JOSN。
非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如视频、文本文件、图片、音频等。
应用系统:为了解决某个或某类问题而专门组织起来的系统
数据库类型:按照数据结构来组织、存储和管理数据的仓库。常用数据类型包含:Mysql、Oracle、MongoDB、Cassandra、Redis等
数据库名称:是数据库系统中用于标识不同数据库的名称,在创建数据库时指定
数据表:是数据库中用来存储数据的对象,是有结构的数据的集合,是整个数据库系统的基础
数据表中文名:对数据库表进行描述性的备注,可以帮助开发人员和数据库管理员更好地理解表的用途、结构和关键字段等信息
字段:是指在数据库表中定义的列,用于存储特定类型的数据
存储容量:指存储器可以容纳的二进制信息量,用存储器中存储地址寄存器MAR的编址数与存储字位数的乘积表示
数据记录数:是指对应于数据源中一行信息的一组完整的相关信息
数据生命周期:一个多阶段的过程,涵盖了数据从产生到最终被删除或归档的整个过程
数据资产:指由个人或企业拥有或控制的,能够为企业带来未来经济利益的,以物理或电子方式记录的数据资源
数据覆盖地域:指数据内容覆盖地域空间,如省/市/区/县
行业:指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,参考国标GB/T 4754—2017
实时更新数据:指信息或数据的更新是即时或接近即时
更新频率:是数据被更新或刷新的频率,通常以单位时间内发生的次数来衡量
ETL:数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程
系统接口:指两个或多个系统、设备或组件之间实现数据传输和通信的连接点。它定义了数据交换的方式、格式和协议,使得不同系统能够相互沟通和协作
FTP:一种在网络上传输文件的协议,它允许用户通过FTP服务器和FTP客户端进行文件的上传和下载
移动介质复制:利用外部存储设备进行文件传输,如:U盘、光盘、移动硬盘等
数据血缘:指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系

第二章 数据资产盘点

第五条 盘点目的
社会数据资产盘点旨在对被盘点主体选定的数据资产范围进行实质性盘点工作的最终呈现,以了解数据资产的现状,支持其数据资产登记的需求。
(一)初步梳理企业所有数据资源的基本情况
对企业所有数据资源的数据来源、应用场景、成本投入和数据治理情况等方面进行初步了解,初筛出有价值的数据资源,为后续数据资产的甄别和筛选提供分析基础。
(二)从企业数据资源中甄选出优质数据资产
基于对初筛数据资源详细的数据规模、字段和应用价值分析,筛选收能给企业带来经济收益或组织收益的优质数据资产,为数据资产的确权和入表提供有力支撑。
(三)圈定本次数据资产登记的数据范围
结合对数据资源基本情况的了解和应用场景分析,以及未来收益性的评估,圈定本次数据资产登记的数据范围。
(四)摸排数据资产数量与基本情况
通过对前期盘点主体选定的数据资产范围进行盘点,明确各类数据资产的数量;确认数据资产真实存在;确认数据资产受被盘点主体控制;收集数据资产基本情况信息;验证数据的来源和处理过程是否与被盘点主体所述一致。
(五)支撑数据资产登记需求
通过对数据资源的基本情况和经济价值的了解,生成数据资源盘点报告,帮助企业清晰地了解自身数据的类型、数量等,为数据资产的登记、确权、评估等提供有力依据。

第六条 盘点范围
在进行社会数据资产盘点时,为了确保审查工作的全面性和针对性,必须明确界定盘点范围。具体而言,盘点范围应涵盖以下三个方面:
(一)应用场景
明确数据资产所支持或涉及的具体应用场景,帮助识别不同业务场景下产生的数据资产,确保盘点工作的全面性,帮助识别各应用场景中数据资产的重要性、敏感性要求,为后续的登记、确权和合规性审查提供依据。
(二)系统
明确数据资产涉及生成、存储、处理、传输的相关系统,特别是跨系统、跨主体的数据流动与共享情况,确保数据资产盘点无遗漏,以便后续进行深入的审查和分析。
(三)数据周期
明确数据资产的生成和更新周期,明确盘点工作的时间边界,避免数据重复计数或遗漏。对时间敏感的数据资产,如财务报表、交易记录等,确保其准确性和时效性。
(四)数据地理区域
明确数据资产盘点的地理区域范围,明确盘点工作的空间边界,对有地理企业属性的数据资产要明确具体的统计范围,如停车场数据、文旅数据等,确保数据的空间范围更精准。
(五)数据时间范围
明确数据资产盘点的具体时间范围,明确盘点的工作时间边界,对于企业有一定历史累积的历史数据和实时更新的数据要做明确的时间范围圈定,便于明确该范围内的数据量级和未来产生的量级。
(六)数据来源
明确数据资产的来源及归属情况,明确盘点的数据主体边界,对于数据资产权属不清晰的数据,必须明确数据资产的来源和主体归属问题,确保数据资产登记的合规。

第七条 盘点内容
(一)数据资源
根据盘点范围盘点出被盘点主体拥有的各类数据资源,包括数据库、文件、文档、应用程序等。
每个数据资源,需要详细描述其名称、所属部门、数据类型、存储设备、存储位置等信息。(详见附录2)
(二)数据表
根据数据表信息,描述每个数据表其所属应用系统名称、数据库类型、数据库名称/SCHEMA、数据表名称、数据表中文名、存储容量、数据记录数、数据生命周期、数据资产名称、数据覆盖地域、数据类别、数据应用场景、所属行业、产生方式、存储方式、数据结构、数据安全等级、稀疏程度、处理时效性、交换方式、业务归属。(详见附录3)
(三)数据表元数据
(详见附录4)
1.业务元数据
业务元数据重点关注数据内容与条件,以及数据治理相关的详细信息。数据资产盘点业务元数据包括:字段定义与描述、数据标准、有效值约束、数据安全等级等信息。
2.技术元数据
技术元数据提供有关数据的技术细节,存储数据的系统统以及在系统内和系统之间数据流转过程的信息。数据资产盘点技术元数据包括:数据表名称、数据表中文名称、字段名称、字段中文名称、数据类型、数据类型长度、数据类型精度、是否主键、是否非空等信息。
3.操作元数据
操作元数据描述处理和访问数据的细节。数据资产盘点操作元数据包括:创建日期、修改日期。
(四)数据血缘关系
数据血缘有助于跟踪数据的来源、理解数据如何被转换和处理。数据血缘关系涉及上游数据表和下游数据表,对数据表名、数据表中文名、字段名和字段中文名进行映照。(详见附录5)
(五)数据规模
通过统计数据资产的存储容量、数据项数量以及数据记录条数,提供一个全面的数据规模视图,全面了解组织的数据资产状况。(详见附录6)
(六)数据的应用场景
通过对各类数据资源对应的应用场景的全面了解,全面评估数据资产的应用价值,基于应用场景确定该场景下的数据范围。
(七)数据资源入表可行性分析
对数据资源是否可以形成数据资产进行可行性分析,主要基于以下五个方面:
1、数据是否是过去交易或事项形成的
对企业现有数据来源和形成路径做盘点,若是未来才能产生收益的数据则不能成为数据资产。
2、企业是否对该数据合法拥有或控制
盘点企业对该数据资源的权属关系,是否拥有该数据的持有权、加工权或使用权相关证明。
3、该数据是否能为企业带来经济利益
盘点数据有实现价值的场景,包括应用价值、交易价值和使用价值。
4、利益流入企业的可能性
盘点该数据所产生的价值很可能流入企业的比例,很可能标准大于50%时,即满足成为数据资产的标准。
5、数据产生的成本或价值是否能有效计量
盘点数据生成的成本及成本核验证明资料,该成本是否能合理分摊。
(八)数据资产目录
基于数据资产盘点结果,可以形成一个精简、高效的数据资产目录,清晰展示盘点范围内所有数据资产的结构、内容和关系。(详见附录7)

第八条 盘点方法
盘点数据资产时,可采用实操验证、材料验证、书面承诺等方式。
1.材料验证:通过对被盘点主体提供的应用开发方案、设计文件、数据产品说明书、接口规范文档、技术方案文档、数据字典、接口测试文档、系统测试文档、项目验收文档等材料进行查验。掌握盘点对象相关信息。对于数据一些属性(如生产方式、业务归属等)在材料里面没有的,还需要采用访谈的方式,同技术和业务人员进行沟通确定。
2.实操验证:对以上掌握的信息进行真实性论证,主要以远程在线查验的方式,通过与数据资产开发方实施线上实时操作论证,查看具体的数据库中的数据如何存储、如何使用,数据体量等进行核验,确保前述提供材料的真实、可信。
3.书面承诺:被盘点主体需对所提交的全部数据与材料承担真实性保证,确保信息准确无误,数据完整且未经篡改。
第三章 数据资产盘点流程指引
(一)资料收集
盘点资料文件,包括: 合同协议文件、应用开发方案、设计文件、数据产品说明书、接口规范文档、技术方案文档、数据字典、接口测试文档、系统测试文档、项目验收文档等。
(二)承诺函签署
被盘点主体签署相关承诺函,对所提交的全部数据与材料承担真实性保证,确保信息准确无误,数据完整且未经篡改。(详见附录8)
(三)数据资源清单梳理
基于数据来源,梳理数据资源清单,主要从自身系统沉淀、第三方采购、授权获得、公开采集四个来源梳理企业数据资源清单。
(四)数据应用情况调研
基于数据资源清单,调研数据的应用情况,一般通过盘点主体的BI系统或数据可视化系统的摸排、数据治理或应用开发部门的调研、数据使用部门的调研、同类企业数据应用场景的调研来了解数据的应用场景和价值。
(五)确定数据资源范围
基于数据资源应用场景,对数据资源进行分级分类,包括数据名称、数据描述、数据来源、价值盘点等信息。
(六)摸排数据基本信息
基于数据范围,调研并探查数据基本信息。数据集基本情况摸排维度包括:数据类型、数据结构、采集范围、获取方式、数据精度、数据体量、更新方式、时间范围等。
(八)识别数据资产
基于数据范围,评估数据资源认定为数据资产的可行性。主要从确权合规基础、应用场景和创新的价值体现、数据资源入表可行性分析三个维度对数据资源做初步评估。
(九)验证数据流向
通过设计文件、数据产品说明文档相关描述验证数据流向。梳理数据流向图(来源,处理,展示),作为验证数据的真实性一环。
(十)验证数据字典
根据《数据字典》文档和数据库系统进行一一对比验证。如果数据库中存储的表元数据和《数据字典》文档一致,根据《数据字典》文档输出数据资产盘点清单,如果不一致,调整不一致的部分再输出数据资产盘点清单。
(十一)整理盘点清单
对盘点的数据表存储、业务归属、元数据、产生方式、更新频率、血缘关系等进行详细的记录。为数据盘点报告提供资料。
(十二)数据资产盘点建议和总结
基于以上盘点工作的成果,阐述数据资产盘点工作开展情况,数据资产概要情况,数据资产盘点目标完成情况,并对企业提供数据资产登记和数据价值挖掘的建议。
(九)编制报告
编制数据资产盘点报告,输出《数据资产盘点报告》。
(十)提交
提交报告到登记平台。


 来源   西部数据交易中心



数据要素信息参考(7.29-8.4)

数据市场 | 数据要素招标中标项目动态(7月)

数据要素人才招聘 “汇” 7月(下)

素材来源官方媒体/网络新闻
继续滑动看下一个
数据要素X工作坊
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存