专题丨论数据质量的“真实性”与相关融合计算策略
作者简介
符山
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室高级顾问,主要从事数字化转型、数据品平台和治理相关的技术与理论研究、战略规划等工作。
邓正保
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室总经理,主要从事政企数字化平台、治理以及数据应用建设的咨询与实施等工作。
于鹏
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室专家,主要从事企业级数据架构和数据治理规划咨询等工作。
论文引用格式:
符山, 邓正保, 于鹏. 论数据质量的“真实性”与相关融合计算策略[J]. 信息通信技术与政策, 2022,48(2):8-15.
论数据质量的“真实性”与相关融合计算策略
符山 邓正保 于鹏
(北京中软国际信息技术有限公司,北京 100121)
摘要:数据成为数字化时代政府和企业的要素资产,数据质量是数据资产建设的核心工作。对数据质量的概念和传统“六维度”方法论进行了系统性审视,并结合实际案例阐述数字化时代应以“业务真实性”为数据质量工作的主线,并提出建设真实可信数据资产的融合计算策略。
关键词:数据治理;数据资产管理;数据质量;数据处理
中图分类号:TP309.2 文献标志码:A
引用格式:符山, 邓正保, 于鹏. 论数据质量的“真实性”与相关融合计算策略[J]. 信息通信技术与政策, 2022,48(2):8-15.
DOI:10.12267/j.issn.2096-5931.2022.2.002
0 引言
在数字化时代,数据成为生产要素和企业的核心资产。数据质量是政府和企业组织获取、开发、保有和提升数据资产过程中最重要的工作,提升数据质量也是数据治理最主要的目标之一。当前业界大多沿用国际数据管理协会(DAMA)提出的数据质量维度“六性”或其变形版本,但这一传统的数据质量观和质量改进方法在过去的快速普及过程中有技术化、形式化的趋势。而在当今复杂多变的大数据环境中,数字化转型组织打造自身数据要素资产,在数据质量方面应当更重视数据“真实可信”的第一性要求。本文尝试从数据质量概念解读入手,梳理数据质量维度的各种框架,澄清数据质量的内涵,并针对数据的“真实性”提出一种数据质量的提升策略。
1 数字化时代数据质量的“第一性”
1.1 数据质量概念从内涵看具有一定的主观性
“数据质量”一词已经广泛地被接收和使用,但业界实际上并没有一个统一的定义。DAMA的《数据管理知识手册》(DMBOK)中将高质量数据定义为“满足数据消费者预期和需求”的数据[1]。中国信息通信研究院发布的《数据资产管理白皮书》认为[2],数据质量“指在特定的业务环境下,数据满足业务运行、管理与决策的程度”。Gartner在其《数据质量解决方案魔力象限》报告中定义数据质量保证(Data Quality Assurance)为“确保数据‘适用于预期用途’(Fit for Purpose)并在一定业务场景下受到用户的信任”[3]。
尽管上述不同机构对于数据质量有着不同的表述,但显而易见,“适用”和“满足要求”程度是各方对数据质量的共识。这一理解带来了两方面的结果:一是由于存在着繁多的应用场景、目的和主体,在内涵上描述什么是数据质量实际上变得十分困难;二是从外延,也就是质量特征上全面定义数据质量也几乎成为不可能的任务。由于数据使用者往往需要参与数据质量规则的制定,而他们具有不同学科、行业和语言文化背景,采用不同分类方法、术语习惯,数据质量所覆盖的范围可以有非常大的差异。从这一角度而言,数据质量是一种依赖于具体场景和数据使用者的“主观性”概念。
1.2 数据质量的首要条件是客观地反映现实
以使用者为主视角的数据质量观念是由这一概念早期的研究者设定的。在1996年发表的一篇被认为是数据质量的奠基性论文中,WANG等[5]基于“适合使用”这一从消费者出发的产品质量观提出数据质量是“适合数据消费者使用的数据(程度)”。在国际标准ISO9001:2015中[6],定义数据“质量”为“实体的若干固有特性满足要求的程度”,从中可见数据质量对产品质量概念的承袭。
数据业界从“主观”视角发展出了完整性、唯一性、可获得性甚至安全性等诸多质量特征,或称为质量维度。尽管准确性在主流的数据质量理论体系中仅仅是众多特性之一,但事实上保证数据真实性是数据治理的本质目标,数据质量的最基本特征就是数据的准确性。作为数据质量研究的开山之作,文献[4]以“不止是准确性:数据质量对于数据消费者的含义”为标题,表明研究者们的初衷并非弱化数据准确性,而是提出信息技术人员仅从“准确无误”的角度看待数据质量是不够的,并从消费者对于数据质量的不同认知提出一个多维度的特征框架。
由于准确性一词的含义较为宽泛,在通行的数据质量理论体系中已将其分解为多个质量特征,狭义的“准确性”仅是其中之一。为了避免歧义,同时也更贴近于一般性理解,在本文中使用“真实性”一词代替准确性,指数据对业务实际状况的还原程度,即某一业务实体、过程或规则在指定时空的真实状态。
数据质量以真实为第一要求,这也是由数据的要素特殊性决定的。数据是一种特殊的生产要素,是与物理世界平行的电子虚拟物。因此,在质量方面除了和实体产品或服务一样需要满足使用者需求之外,数据本身首先需要准确反映物理物体或事件的真实状态,而这一特征并不存在于产品质量概念的范畴当中。
1.3 打造真实可信的数据资产是数字化转型的基本功
当今,数字化成为政府和企业组织发展的必由之路,数字化转型的底层逻辑更加要求数据的真实性。数字化是以数据为核心赋能业务优化和转型的过程,数字化能够提升业务的基础性、根本性逻辑则在于以数据全面、忠实地还原业务,继而能够应用计算机的强大算力实现更精细化的管理、更自动化的生产,以及跨部门、跨组织的更高水平协同。在上述过程中,“全面”就是要求打破数据孤岛、汇集全量数据,而“忠实”则要求数据能够准确地反映业务的真实状况。如果把“全面”也看作是真实的一部分,可以笼统地说数字化时代对于数据质量的“第一性”要求就是其真实性。高质量数据当然还是要满足数据使用者的需求,但在这之前,数据首先要真实可信。
对数据真实无误的要求并非新内容,但数字化时代复杂多变的大数据环境给这一要求带来了新的挑战。大数据具有3个基础特性(3V),即海量(Volume)、多样(Variety)和高速(Velocity)。这3者都在一定程度上使得把握数据的真实性比传统企业信息化时代更为困难。尤其是由于存在同一实体或同一事件由多个不同系统、以不同视角或方法记录、计算和表示的情况,在多个系统、多个数据源中确定哪一项或哪一些数据更真实地反映了业务实际状况就变得异常复杂。数据由分散各异的状态变为统一高质量的数据资产,数据的打通共享、数据中台的建设等目标的达成,其前提必然是保障数据的真实性,打造真实可信的数据资产是数字化转型的基本功。
经过几十年的发展,业界对于数据质量的认识越来越丰富、相关工具也日益成熟,但也出现了数据质量概念泛化和技术化、形式化的迹象。当前业界的数据质量特征框架和管理方法通常将数据质量划分为若干个可测量的技术维度,但很少从业务真实性的角度统一考量数据的真实性;对于同一数据多个数据源情况下发生冲突的情况,却并不由数据质量这一职能负责,而是划入数据集成的范畴,这显然无助于在整体上更高效地解决数据质量问题。另外,现有的数据真值研究发现,大多集中于互联网上真假信息混杂的场景[7-9]或关于机器数据的动态确认技术[10],对于面向政企业务(to B和to G)的数据真实性问题缺乏有针对性的研究和解决方案。
本文将重新审视当前业界各主流数据质量框架中的问题,并特别讨论其中数据真实性的内涵。
2 传统的数据质量观需要完善和拓展
2.1 传统数据质量观之“六性”
在DAMA的定义中,数据质量即指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。针对组织中存在的数据,如何评价数据质量的高低?在实践中,通常用一系列数据质量评估维度来衡量数据的质量。当前业界比较通行的质量评估维度大多源自DAMA UK 2013年一份白皮书中提到的以下6个核心特征[1],也被称“六性”。
(1)完整性:存储数据量与潜在数据量的百分比。
(2)唯一性:在满足对象识别的基础上,不应存在多个重复的实体实例。
(3)及时性:数据反映所关注时点现实的程度。
(4)有效性:数据符合其定义的语法。
(5)准确性:数据正确描述所描述的“真实世界”对象或事件的程度。
(6)一致性:比较事物多种表述与定义的差异。
以上6种质量评估维度,大致可以分为数据是否“足够”(完整性)、是否“合规”(一致性、有效性、唯一性、准确性)以及是否“真实”(准确性、及时性)。通过这几个方面的评估,可以对组织中的数据质量做出基本的判断,发现普遍存在数据质量问题。通过对有问题的数据进行根因分析,提出解决方案,完成质量问题整改,最终提升数据的使用价值。
2.2 传统数据质量观的误区和问题
2.2.1 数据质量并非仅有“六性”
本文提到的数据质量评估“六性”,由于满足了对数据质量的基本诉求,因此在数据治理的实践中被普遍采用。在不同的“六性”版本中,有的特征被冠以不同的名字,例如以合理性替代有效性;有的会以“相关性”“可获得性”等替换其中某一个或两个特性。但数据质量的评估维度不仅仅只有这6个。事实上,DAMA UK 2013白皮书中也描述了可用性、灵活性、置信度等其他对质量有影响的特性,而在DMBOK和其他国外研究文献中也提及了很多其他的数据质量评估框架。
(1)Strong-Wang框架:侧重于数据消费者对数据的看法,描述了数据质量的内在、场景、表达、访问四大类15个指标。
(2)Thomas Redman框架:基于数据结构、侧重元数据管理,将一个数据项定义为可表示的三元组,在数据模型、数据值和数据表达中,定义了二十多个维度。
(3)Larry English框架:是一套分为固有特征和实用特征两类的综合指标,前者侧重对数据本身的质量评估,和业界普遍采用的评估维度比较相似,而后者主要侧重在数据使用方面的质量评估。
(4)DAMA NL框架:《Dictionary of Dimensions of Data Quality》(DDQ)[11]提出了分为13类、多达60个指标的数据质量评估体系。
(5)中国国标:《GB/T 36344-2018 信息技术 数据质量评价指标》[12]相比DAMA的“六性”增加了对数据可访问性的评估,对数据唯一性的评估则归入准确性评估里面。
事实上,在数据质量方面的评估框架其实远远不止于以上几种,文献[6]总结了四大类、17种国内外的数据质量评估和改进的框架。当前业界普遍传播的“六性”或其变形是一种简化了的数据质量观,对于数据质量工作的快速落地是有帮助的,但同时应该开放思想,认识到在基础六性之外数据质量还有更为丰富的内涵。
2.2.2 数据质量在实践中存在行业差异
尽管存在着上述国家标准和DAMA的“推荐标准”,各行业的数据治理实践中在数据质量评估维度的选择方面仍存在着一定的差异。在金融领域,中国银行保险监督管理委员会在2018年颁布了《银行业金融机构数据治理指引》[13],要求银行建立数据质量控制机制,覆盖数据全生命周期,对数据质量持续监测、分析、反馈和纠正,确保数据的真实性、准确性、连续性、完整性和及时性。虽然这一行业标准中对于数据质量各评估维度没有单独的定义,但可以看出银行和金融机构监管方所要求的数据真实性和准确性可以归入DAMA的准确性,没有明确提及数据一致性、唯一性和有效性,但增加了连续性要求。
电力行业的数据在业务统计、故障检修、发电能力评估、用户体验、生产安全等方面正在发挥越来越重要的作用,国家电网有限公司大数据中心结合电网业务和公司自身情况,从企业标准层面统一设计了数据质量评价体系,并在其企业标准《电网数据质量核查评价》中定义了包括规范性、完整性、准确性、一致性、时效性、可访问性的数据质量评价指标框架,基本沿用了国家标准中对数据质量特征的定义方法。
《数据质量的历史沿革和发展趋势》[14]在对比烟草、气象、军事、医疗、交通等行业数据质量维度的基础上认为各行业对数据质量要求不尽相同,而准确性、完整性、一致性、可获得性和及时性的出现频率较高(见表1)。综合表1对各行业数据质量特征的对比可以看到,国内对企业级数据环境中的数据质量评估尚未形成一个较为统一的认识。对数据质量理解的多样性,有其学术流派和行业差异的合理性,但无疑也在一定程度上会影响数据质量作为一种专业文化的可沟通性,并增加了制定统一普适方法论的难度。
表1 DAMA、GB/T以及各行业数据质量特征的横向对比
2.2.3 传统数据质量观中对“真实性”的定义含混除去上述数据质量在行业实践中的命名差异和维度选择重点不同外,还发现一个容易被忽视的问题:“真实性”这一“第一性”特征在各数据质量框架中并没有一个比较明确和统一的定义。尽管真实性在大多数框架中被归入“准确性”的维度中,但各版本中“准确性”的内涵和评估方法不尽相同。由于该词本身的多义性,“准确性”反而成为各种数据质量特征中“最不准确”的一个,具体表现如下。
(1)DAMA DMBOK:“指数据正确表示真实实体的程度”,依赖与已验证为准确的数据源进行比较。
(2)DAMA-NL DDQ:数据值相比较真实值的接近程度。
(3)国家标准:数据准确表示其所描述的真实实体(实际对象)真实值的程度。
(4)文献[13]:未定义准确性,而是强调了对准确性的保障方法,要求“加强数据源头管理,确保将业务信息全面准确及时录入信息系统”。
(5)文献[15]:提供了准确性的一个量化定义,即“真实值的数量/所有值的数量”,并表明真实是基于“权威性的参考数据”的数据“正确值或者期望值”。
(6)在其他的一些厂商版本中,准确性被解释为精确度,如所需要的数据应被记录和存储为何种计量单位、小数点后几位、或具体到何种颗粒度等。
基于本文之前定义“真实性”是数据对业务实际状况在指定时空的还原程度,除了“准确性”之外,时间也是构成数据“真实性”的一个重要因素。在实践应用中,有相当一部分数据的不一致、不准确、不完整等都是由数据过时失效或时间不一致引起的,企业经常会因为使用了陈旧或具有不正确时间戳的数据而做出错误决策。例如,银行未及时更新客户的地址信息导致的账单无法到达客户,供应商的业绩信息发生变化导致的对供应商评估不准确的问题。对于“真实性”的时间要素,不同的数据质量框架的处理方式不同,有的强调数据本身是否符合时间要求,有的则强调数据更新等操作的及时性。笔者认为,数据“真实性”定义的不明确是上述几个传统数据质量观中最重大的问题,特别是在数字化时代,人们在面向技术和系统的数据质量之外应对数据“真实性”给予更高的重视。
2.3 传统数据质量观需要完善和拓展针对上述三方面问题,笔者认为学术和产业界应当采取行动,通过进一步深入研究和讨论等工作,完善和拓展数据质量观。
(1)需要进一步丰富和拓展数据质量的特征框架。尽管DAMA基于数仓和分布式系统的数据质量评估方法论已被业界广泛采用,但目前的“六性”仅仅是数据质量众多特征中的一个子集,是在以往数据工程落地当中较普遍被量化和实施的质量维度。未来随着技术手段的发展和提升,数据质量评估的框架和方法无疑还有进一步拓展的空间,需要高校、数据治理专业厂商和第三方机构共同合作和探索。
(2)需要更新和完善数据质量的相关标准。尽管大多数情况下采用了DAMA的“六性”或国标的内容,但存在不少“同名异义”或“同义异名”的情况,并且各行业由于业务特性、数据特点和应用方式以及数据治理主要驱动力等差异,也有着各自特别关注的质量特征,如银行的连续性。国内业界有必要通过深入研讨,在术语层面取得统一,以加速数据质量理论的普及和工作的推进。
(3)最后,但也是最重要的,就是需要提升对数据“真实性”的重视程度和评估能力。目前,业界对数据质量的认识主要集中在两个方面,一是通过数据模型解决单一数字应用中的数据不规范、不完整等问题,二是通过数据标准解决跨应用的数据交互问题。整体而言,数据在技术和形式上的规范性是当前业界对于数据质量最关注的内容。笔者认为,上述内容的确是数据质量的重要组成部分,但必须重视“真实性”这一数据质量的本质要求,回归数据的业务属性来把握数据质量的各项评估维度,避免陷入技术化的局部最优;并且应将数据整合过程也纳入数据质量全生命周期之内,切实确保在真实性基础上的数据高质量。
本文聚焦于识别多源场景下的数据“真实性”,而对于数据流通和交易环节中的数据真实性,一般被表述为数据的可溯源和确权问题,业界已对此有数字指纹、区块链等技术解决方案的讨论,本文对此不再赘述。
3 融合计算是数据质量提升的必选动作
3.1 数据的“真实性”判断是一个复杂的问题笔者尝试对多源场景下的数据“真实性”判断提出一套策略,在此之前,先需要花一些时间来进一步理解一下数据“真实性”的复杂内涵。
本文已经阐述过,数据的“准确性”和“实时性”都是关于真实实体或者真实值的反映程度。这些程度本质上是无法从数据自身产生的,而是必须要和某一参照物比对才能获得。然而在实践中,这一参照物的获取是比较困难的。例如,企业在采购过程中,需要录入供应商的基本信息,类似企业名称、统一社会信用代码之类的信息,权威的数据来源应该是国家职能机构、产生数据的机构或个体、有时还需要第三方的背书。但在政府以及全社会数据共享完全实现之前,获取权威可信的数据对企业来说难度较大。
如果说在企业信息化时代,处理单一系统或企业自身范围内的数据整合时对数据权威性还比较容易把握,那么在数字化时代,当跨部门、跨行业的协同工作和数据要素驱动的自动化、智能化作业成为常态时,数据的“真实性”就成为数据质量的一个突出的、基础性的问题。由于现实世界事物之前存在错综复杂的关系,尤其是在企业级场景中,一项业务的处理往往会涉及到多部门的信息交互,政企数字化的基础工作需要整合多来源的基础数据。而在这一数据整合和归集的过程中人们就会经常发现,关于同一主体、同一事项的权威数据源不止一个,这时候判断“真实性”就变得较为复杂,甚至成为影响数据质量的主要因素。
试以政务服务业务中应用“婚姻状况”数据的案例来说明多个权威数据源存在的情况下判定数据“真实性”的具体过程。自然人的婚姻状况是一个高频使用的数据,不动产交易、房屋拆迁、异动落户、子女入学、居民出境等诸多与每个人生活息息相关的事情,都会用到婚姻状况这个关键数据。首先,国家标准GB/T 2261-2-2003[15]规定我国婚姻状况有8种(见表2),比一般的理解要多一些。由于确定婚姻状况涉及多个政府责任实体和不同业务规则,在实际中有着较为复杂的状态和变化,多样的取值和变化无疑给数据真实值的确定带来一定的难度。表2 婚姻状况代码表
婚姻状态数据真实性判定的复杂性根本上是来自于权威数据的多源性。在实际政务服务业务中,涉及婚姻生育事项的办理会涉及民政局、公安局、法院、卫健委、乡镇政府、大使馆等多个部门。上述单位出具的证明文件都是具有法律效力的,来自于这些部门的相关数据被称为“权威数据”(暂时忽略这些数据在其他方面的质量问题)。在现实中,当同一事项可能由不同部门处理时,真实数据的获取就会遇到一些“意料之外”的情况。
例如,公民结婚办理结婚登记业务一般去民政局,由于民政局的派出机构只设置到县级政府,但乡镇政府也可以办理结婚登记。而因为基层单位在信息化投入方面较为欠缺,乡镇办理的结婚登记数据往往不完整,错登率较高,甚至出现基础档案丢失等情况,就可能发生某人的真实婚姻状况是初婚,但在民政局这一权威数据源查询依然是未婚,或者查无此人、无法确定状态的情况。由于法定的业务归口部门不止一个,个人离婚状态的真值确定也有类似的问题。具体而言,只有协议离婚的情况下,民政局数据库中个人婚姻状况才变更为离婚,而诉讼离婚则由法院出具判决准予离婚的判决书,民政局数据并不更新,因此判定某人是否处于离婚状态,就需要考虑时间以及多种业务规则对至少两个权威数据源的数据进行计算。
数据是对现实生活和业务的记录,但能够做到真实可信地还原对应现实,是一个极其复杂的问题。通过对上述案例可以看到,一项数据可能会涉及多个业务处理部门、有多种变更逻辑,经常难以从一个权威的来源就能简单地得到“真实值”。笔者认为,在打破数据孤岛、实现数据要素价值的过程中,打造高质量数据资产的首要任务之一就是回归业务真实性,通过数据的融合计算打造真实可信的基础数据。
3.2 以融合计算提升数据资产真实性的策略融合计算是一个业界被广泛应用、但具有多种含义的概念,基本含义是对多种计算模式、方法、甚至软硬件在同一框架下的综合。本文讲的数据融合计算,是从数据的真实性出发,根据数据特征和业务客观现实情况,对多源数据进行综合计算处理,从而产出能够(尽可能)客观反映现实世界业务状况的真实数据,即更高质量的真实可信数据。如表3所示,根据不同的数据特征和业务场景,本文提出通过以融合计算方式提升数据真实性的一套方法,其中包含针对不同场景的3种计算策略,详细阐述如下。表3 针对不同场景的3种计算策略
3.2.1 覆盖策略
覆盖策略针对的是具有单一真值的多源基础数据,即客观现实只有唯一的状态,反映在数据上不存在多种可能取值,同时此类数据存在多个权威来源,之前所举的婚姻状况就是此类数据的典型情况。对于这类数据,由于各权威数据源之间往往尚未达到标准可整合的水平,因此需要进一步的业务解析,即融合计算的过程才能确定其真实值。在此种情况下,融合计算采用覆盖原则。以诉讼离婚的场景为例,需要将法院判决书中的信息解析成为某人离婚与否的标准数据,并叠加时间维度来覆盖民政局数据,得到一个人的婚姻状态的真实数据。
3.2.2 排序策略对于具有多个真值的多源基础数据需要采用排序的融合计算策略。在现实业务中,有些业务对象或过程在某一时刻存在多种可能的状态,来自于同一或多个数据源的数据都是真值数据,对于特定的业务场景都是有效和可用的,不能简单地进行覆盖或删除处理。因此,对于此类数据的融合计算应对各真值进行基于业务规则的可信度排序,标明第一采信、第二采信数据等。例如,一个人有家庭、工作、暂住、寄递、宾馆等多个地址,在公安部门需要对某犯罪嫌疑人采取措施时,就需要对相关的多个地址采用进行排序,输出在特定时间最可能锁定目标的若干地址值。这一方法已在国内警务大脑的数据治理建设实践中应用。
3.2.3 加权策略对于多源衍生或指标类数据的融合计算,需要应用定制的加权算法,从而形成一个更为逼近客观现实的更高质量的数据。例如,在一个风电场中运行的每台风机设备的健康状态的判定就需要加权法的融合计算。由于每一台风机有200多个测点,而每个测点数据只能反映风机一个侧面的运行状况,因此要判定整台风机的健康状况,就需要建立一个健康诊断模型,进行全部测点数据的融合计算,得到一个相对真实可信的结果。
4 结束语
近代的数据治理理论和实践方法论很多源自国外的学术研究和第三方技术组织,目前国内的主流数据治理技术产品和工程实践也大多沿用诸如“六性”的数据质量框架。伴随着数字化转型和数据治理在政企机构的快速推进,出现了对数据质量理论的简单化理解和对数据治理工作技术化认识的倾向。打造高质量数据要素资产,要不断完善对数据质量内涵和外延的认知,应该回归“真实可信”的数据质量目标,重塑和统一科学的数据质量观。在数字化时代下,面对更高的数据质量要求,国内的学术、产业和第三方机构应该携手努力,在国内广阔丰厚的数字化转型土壤上,借助新的数字化技术丰富数据质量评估的核心维度,提升数据质量评估的标准化水平,形成有中国特色和自主知识产权的创新数据质量框架理论。
参考文献
[1] International D. DAMA-DMBOK: data management body of knowledge(2nd edition)[R]. Technics Publications LLC, 2017.[2] 中国信通院云计算与大数据研究所. 数据资产管理白皮书(5.0版)[R], 2021.[3] Gartner. Magic quadrant for data quality solutions[R], 2021.[4] 袁满, 刘峰, 曾超, 等. 数据质量维度与框架研究综述[J]. 吉林大学学报(信息科学版), 2018,36(4):444-451.[5] WANG R Y, STRONG D. Beyond accuracy: what data quality means to data consumers[J]. Journal of Management Information Systems, 1996,12(4):5-34.[6] International Organization for Standardization. ISO 9001:2015 Quality management systems-requirements[Z], 2015.[7] 陈烈锋. 面向Web的多真值发现算法研究与应用[D]. 广州:广东工业大学, 2019.[8] 杨莎. 多源环境下实体一致性建模与真值发现[D]. 武汉:武汉大学, 2017.[9] 马如霞, 孟小峰. 基于数据源分类可信性的真值发现方法研究[J]. 计算机研究与发展, 2015,52(9):1931-1940.[10] 李天义, 谷峪, 马茜, 等. 一种多源感知数据流上的连续真值发现技术[J]. 软件学报, 2016,27(7):1655-1670.[11] DAMA. Dictionary of dimensions of data quality(3DQ)[R], 2020.[12] 国家市场监督管理总局, 中国国家标准化管理委员会. GB/T 36344-2018 信息技术 数据质量评价指标[S]. 北京:中国质检出版社, 2018.[13] 中国银行保险监督管理委员会. 中国银行保险监督管理委员会关于印发银行业金融机构数据治理指引的通知[Z], 2018.[14] 蔡莉, 梁宇, 朱扬勇, 等. 数据质量的历史沿革和发展趋势[J]. 计算机科学, 2018,45(4):1-10.[15] 中华人民共和国质量监督检验检疫总局, 中国国家标准化管理委员会. GB/T 2261.2-2003 个人基本信息分类与代码 第2部分:婚姻状况代码[S]. 北京:中国标准出版社, 2003.
On “authenticity” of data quality and the related integrated data computing strategies
FU Shan, DENG Zhengbao, YU Peng
(Beijing Chinasoft International Information Technology Co.,Ltd., Beijing 100121, China)
Abstract: Data has become a factor asset for governments and enterprises in the digital era, and data quality is one of the major tasks to build data asset. In this paper, the concept of data quality and the traditional “six dimensions” methodology are systematically reviewed, and a “business-centered authenticity” principle for data quality management is suggested and elaborated with practical cases. The paper also proposes an integrated data computing strategy of building accurate and credible data assets.Keywords:data governance; data asset management; data quality; data processing
本文刊于《信息通信技术与政策》2022年 第2期
主办:中国信息通信研究院
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
你“在看”我吗?