高校数据质量提升五个阶段
如今,随着信息技术的快速发展,数据成为了一种新型生产要素,在社会经济等各领域受到重视。国家相关文件中明确指出,要加快培育数据要素市场、提升社会数据资源价值、加强数据资源整合和安全保护。
高校作为人才培养基地,在信息化浪潮下,正在经历着数据化的变革,面临如何利用数据资产创造价值的难题,而“数据治理”为解决这个难题提供了有效方案。
数据治理的概念最早于2004年被提出[1]。国际数据管理协会(DAMA)[2]认为,数据治理是对数据资产管理行使权利、管理的一系列活动的集合。
国际数据治理研究所(DGI)[3]提出数据治理是由计划、监督、执行等要素构成的对数据资产管理行使权利和控制的活动集合。
本文提到的高校数据治理是指对于高校数据资产涉及的采集、清洗、存储、共享、使用等多个阶段进行有目的的管理,确保管理过程规范、有序、可控,数据资产可用、完整、安全[4]。
当前,很多高校已经陆续开展了不同程度的数据治理工作,如通过搭建数据共享交换平台完成了数据集成共享工作,也基本按照“一数一源”的原则确定了数据源头,“数据孤岛”问题已经得到初步解决。但是对于数据本身而言,仍存在必要的数据字段缺失、数据内容重复、数据值为空、数据更新不及时等,这些给高校数字化转型带来了阻力。
当前高校数据治理的要务应聚焦在如何提升数据质量上,只有高质量的数据,才能发挥巨大的价值。本文在分析高校数据质量面临的问题基础上,根据软件工程理论中“迭代开发模型”的原理,结合高校数据治理的实际工作,提出“迭代式”数据质量提升方案并进行实践,取得了良好的效果,为后续数据的利用奠定了良好的基础。
高校数据质量存在的问题
数据质量是指在业务环境下,数据符合数据消费者的使用目的,满足业务场景需求的程度[5]。数据质量是数据治理能力的一个重要体现。在当前高校信息化环境下,影响数据质量的因素可以归结为管理和技术两个层面[6],具体体现在:
高校决策层对于数据治理的认识仍停留在表层,对数据治理的要求不明确,没有将数据治理落实到管理中,也没有参与到数据治理的过程中,导致具体数据治理工作缺乏方向性。
高校没有建立明确的数据治理体系,组织架构不明确,相关制度也不完善,导致数据相关工作只注重量的累计,从而忽略了质的保障。
数据源头单位对数据的认识不够深刻,习惯以自身业务为出发点考虑问题,并不明确业务数据的重要意义,缺乏数据质量和治理意识。
业务系统建设方缺乏全局意识,只关注业务功能的实现,对于优化业务数据、规范数据采集等方面欠缺考虑,导致数据在采集录入阶段就出现了质量问题。
这些因素交叠在一起,造成了诸多的数据质量问题,主要表现在[4]:
数据标准不统一,各业务系统仍然存在很多非标准化的数据,导致数据无法在各个业务系统之间顺畅地流通,数据清洗工作任务繁重;
数据底数不清晰,每当报送诸如师生人数等相关统计数据时,不同统计口径所得结果往往不同,需要耗费大量的人力和时间进行核实确认;
数据自身问题较多,部分必要的数据未得到有效采集,重要的数据项有缺失,数据空值、重复值情况突出,数据不准确、更新不及时。
对于高校数据管理者而言,可以通过两种方式来解决这些由各种因素导致的数据问题:
一种是数据驱动,是指将数据通过个人数据中心、一站式服务大厅等业务系统展示和使用,在展示或使用过程中,由师生个体发现数据问题,然后再进行数据核查和处理。这种方式重点解决个体数据存在的问题。
另一种是主动检查,是指学校数据管理单位借助系统或人工对数据进行主动排查检验,发现并处理问题。这种排查不单独针对某个个体,发现的是普遍性数据问题,对于数据质量的提升更为明显。下文所提出的“迭代式”数据质量提升方案就是主动检查方式的良好实践。
“迭代式”数据质量提升实践
高校数据质量提升工作必须以“机制”和“技术”相结合的方式来进行。机制是保障,涵盖了数据管理制度、标准和流程。技术是手段,包括了数据集成共享,数据质量检查所对应的工具。
数据质量的提升既不是短暂的一次性的工作,也不是一蹴而就的工作,而是一个持续性迭代的过程,更是一个分阶段不断修正的过程。
“迭代式”数据质量提升方案首先要明确数据质量的维度,给数据质量界定标准,然后才能依据这个标准开展后续质量检验、数据修正等一系列工作。
数据检验工作的开展是分阶段进行的,每一个阶段都有需要完成的工作,完成了本阶段工作才进入到下一个阶段。完成一轮次数据检验、修正工作后,还需要再迭代进入下一轮次,每一次的数据检验都需要在上一次的数据修正基础上进行,直到数据质量达到一定水平,才可以结束数据质量提升工作。方案如下图所示。
△“迭代式”数据质量提升方案
确定数据质量维度
结合相关研究成果以及实际工作中数据所反映出的数据质量问题,本文认为高校数据质量需要从以下几个维度来考虑[7-9]:
完整性。主要检查数据主体是否存在缺失。完整性是数据质量的根基,对所有数据主体都具有普适性。
唯一性。主要检查数据主体是否有重复,重复的数据主体不仅会影响到数据的集成共享,更会影响数据统计工作。
准确性。主要检查数据主体是否与客观实际的特性/标准一致,是否存在异常或者错误的数据值,数据字段长度、取值范围等是否符合客观实际。
正确性。区别于准确性,主要检查数据主体是否正确反映客观实际情况,是否能够与相应代码标准对应。
一致性。主要检查同一数据主体在多个关联数据表中所展示的信息属性是否相同。
及时性。主要指从业务发生或变更开始计算,到结论性数据得到更新的时间间隔。及时更新的数据,才能够更快地发挥出数据价值。
编制数据质量检验规则
在这一阶段,需要根据具体数据字段属性确定对应的数据质量维度,并编制质量检验规则,具体如下:
对于完整性检验而言,是将该字段值与空值进行比对。
对于唯一性检验而言,需要根据对应数据表的不同而进行不同的设定,有根据单个字段进行重复性检验(如人员基础数据可以通过身份证件号是否重复来检测),也有多个字段组合检验(如干部任免表需要结合职工号、任职日期、任职职务三个字段来检验任免数据的重复性)。
对于准确性检验而言,不同字段的检验代码是不一样的。比如居民身份证号码长度检验为18位,日期字段的长度检验为8位。
对于正确性检验而言,重点检验字段值是否能够与相应代码标准对应。数据代码标准是以教育部发布的《教育管理基础代码》为基础,结合学校的实际业务情况修正形成。通过正确性检验,可以快速掌握业务系统中代码标准的变更情况。
对于一致性检验而言,分为表内检验和跨表检验。表内检验如检验同一表内的出生日期应与居民身份证号相对应、参加工作日期应不大于来校日期等。跨表检验如检验人员基础数据表中的学历字段应与学习经历数据表中的最新值一致;人员基础数据表中的专业技术职务字段应与专业技术职务数据表中的最新值一致。下表用教职工基础信息的几个字段为例说明不同的数据主体需要考虑不同的数据质量维度。
▽ 数据主体与质量维度
编写检验代码实现检验规则
检验规则制定之后,就可以编制代码来执行规则了。每一个数据字段都需要进行多个维度的数据检验,我们可以选择在数据库中创建存储过程或者选择其他编程语言来批量实现数据检验规则,并通过代码输出相应检验结果。
本文借助Python实现了规则:先在Excel中梳理列出每个字段的数据检验规则,然后通过Python编写代码连接数据库并读取Excel中的规则,按照设定的检验规则生成SQL语句来检验每一个数据字段,最后将检验结果直接导出至Excel文件中,以供后期进行数据质量展示和分析。
执行检验代码,对问题进行初步排查
执行检验代码后,就可以得到对应的数据检验结果。此时首先要做的是对问题进行初步排查,分析造成这些问题的原因,具体排查步骤如下:
排查检验规则和代码的实现过程,如果有问题要返回到代码实现阶段进行修正,务必确保规则选择合理且代码正确反映规则。
排查数据集成过程。对于代码标准混乱、格式错误、数据格式不规范等问题,可以采用数据清洗手段来解决,并进行问题跟踪,避免此类情况再次出现。涉及到代码标准不一致的情况,还需要分析业务系统制定代码标准是否符合规范,如确属业务需要,数据中心应及时进行代码标准的修订,否则需要反馈至数据源头单位进行修正。
进行数据溯源,从源头解决问题
初步排查并确认中间环节没有问题后,再次执行检验代码就能够得到数据主体的问题。数据管理单位可以将数据问题以《数据质量报告》的形式呈现出来,明确数据问题所在,将该报告交由数据源头单位开展数据溯源,并监督源头单位进行改进。
改进方向可以从以下三方面进行:一是对不合理的数据代码标准进行修正,代码标准要尽可能与教育部发布的《教育管理基础代码》一致;二是根据档案材料或个人提供的材料对缺失的数据信息进行补录;三是根据实际情况对数据存在的错误进行修正。
在这个阶段,也要明确因数据录入导致的数据质量问题,从管理上进行规避。数据管理单位可以撰写《数据管理规范》,告知数据源头单位相关数据对其他业务系统造成的冲击与影响,对系统管理员的系统操作行为给出规范化的指导,并要求相关数据责任人通过管理手段或技术手段改进数据采集过程。
上述的5个阶段是“迭代式”数据质量提升方案的具体体现,在实际执行中,需要对其中的几个阶段进行迭代执行,循环开展修正检验代码、数据集成接口等工作。大部分字段可以在3轮次迭代内得到修正,涉及历史问题、数据无法及时补录等情况,则需要更多轮次的迭代修正。
通过多轮次的迭代,能够将检验出来的数据问题全部解决,整体数据质量才能得到明显提升。高校数据管理者也可以将数据质量提升为工作常态化,如每年进行一次,这样数据质量才能逐年得到稳步提升。
高校数据治理以提升数据质量,发挥数据价值为目的,是一个长期的系统性工作。在高校日常信息化工作中,应该把数据质量提升工作也作为一项常态化的基础性工作来开展。每次的数据质量提升工作都是不断迭代和修正的过程,每次的迭代循环,都是在原有工作基础上的优化和完善。长此以往,高校的数据质量才能呈现螺旋式上升,数据才能发挥其蕴含的巨大价值,将高校人才培养和办学水平推向新的高度。
参考文献(上下滑动查看)
[1] WATSON H,FULLER C,ARIYACHANDRA T . Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina[J]. Decision support systems,2004,38(3):435-450.
[2] DAMA International.The DAMA Guide to the Data Management Body of Knowledge[M].Bradley Beach: Technics Publications,2009.
[3] Nik Thompson,Ravi Ravindran,Salvatore Nicosia.Government data does not mean data governance:Lessons learned from a public sector Application audit[J]. Government Information Quarterly,2015,32(3).
[4] 康军广 , 周静 . 浅谈高校数据治理过程中存在的共性问题及其对策 [J]. 信息系统工程 ,2021(05):39-40.
[5] 巫莉莉 , 张波 . 高校数据治理中提升数据质量的方法研究[J].重庆理工大学学报 (自然科学 ),2019,33(08):149-156.
[6] 陆成松 . 基于PDCA理论的高校数据治理工作质量提升研究[J]. 中国教育信息化 ,2021(09):64-67.
[7] 阿里巴巴数据技术及产品部 . 大数据之路: 阿里巴巴大数据实践[M]. 北京 : 电子工业出版社 ,2017.7.
[8] 陈远,罗琳,沈祥兴. 信息系统中的数据质量问题研究 [J]. 中国图书馆学报 ,2004(1):48-50.
[9] 丁海龙 , 徐宏炳 . 数据质量分析及应用 [J]. 计算机技术与发展 ,2007(3):236-238.
*基金项目:对外经济贸易大学2020年党建研究课题资助项目,项目编号:DJ20200202
作者:杨树春、解博超(对外经济贸易大学网络安全和信息化处)
责编:陈荣
投稿、转载或合作,请联系:eduinfo@cernet.com
往期推荐
欢迎分享、在看与点赞
积极留言,更会有意外惊喜~