当期荐读 2021年第2期 | 基于适应性结构化理论的政务数据质量影响因素研究——以政务12345热线数据为例
ISSN 1003-2797
CN 42-1085/G2
双月刊
同行评审期刊
Photo by Victoria Strukovskaya on Unsplash.
樊博 于元婷
(上海交通大学国际与公共事务学院,上海,200030)
目的/意义
为解决大数据时代中政务数据质量问题以及应对数据质量治理困境提供理论参考和解决思路。
研究设计/方法
基于适应性结构化理论构建政务数据质量影响因素模型,从结构源出发探究政务数据质量的影响因素,利用政务12345热线数据进行影响因素的验证并通过随机森林算法进行重要性评估。
结论/发现
基于分析结果提出应加强治理监管,用制度规范数据管理过程及培育大数据专业队伍,从而提升政务数据质量治理的能力和效果。
创新/价值
从结构层面探究了政务数据质量的影响因素并构建理论模型,解决当前数据治理及应用问题,提升社会治理成效。
关键词
政务数据质量 政务数据治理 数据质量治理
适应性结构化理论 政务热线
1 引言
随着大数据、云计算、人工智能技术的蓬勃发展,数据发展将对产业升级、科学研究、人类认知产生重要影响。“用数据说话、决策、管理、创新”已成为共识[1],数据已经成为了最宝贵的资产之一。在我国,中共中央政治局从2017年12月起开始就实施国家大数据战略进行集体学习,习近平同志更是提出要执行国家大数据战略以促进中国数字化发展,以大数据技术作为加快国家现代化治理速度的基石。国际上也极为重视大数据的运用,如2019年G20日本大阪峰会、金砖国家巴西峰会等国际会议,都将数据流通、数据治理等内容作为重要的讨论议题。
通过分析政府治理实践可以发现,以大数据技术创新政府原有治理结构及模式已成为重要内容。数据作为新变量被嵌入政府治理过程中,打破了旧的权力关系的平衡,虽然政府数据治理有着显著的动机,但强烈的动机容易引发盲目行为[2],从而引发一系列问题,尤其是政务数据质量的问题。政务数据质量是政府利用大数据进行社会治理的重中之重,只有数量而没有质量的政务数据是难以利用和挖掘的,对于社会治理和实现政务目标也支撑不足。政务数据质量的评估和提升一直都是摆在政府面前的重要问题,也是利用大数据提升国家治理水平,建设政务系统成败的关键要素[3]。因此本研究主要探究了政务数据质量的影响因素及其重要性。
随着大数据及“互联网+”的发展,数据质量的相关研究越来越多,学者们在研究时多从质量特性入手进行质量分析,少有将数据质量问题置于结构中进行整体研究,也较少讨论数据应用。政务数据质量的治理涉及政府、社会与市场之间关系的构建,具有多元化特点,应当配备一个更具指导性和多样化的理论结构。若要提升政务数据质量,必须追根溯源,定位数据源头,剖析数据产生机制,从动态视角来分析其影响因素[4],其过程是一个治理结构不断调整和适应的过程。基于其影响因素多元化和过程动态化的特点,本研究引入管理学中的适应性结构化理论进行分析。该理论从活动中不断介入的规则和资源,即结构入手,分析基于信息技术采用后的适应行为。在探究对于政务数据质量的影响因素的过程中,引入该理论中基于结构源的分析框架,同时对于技术的应用进行分析从而给决策者以辅助参考,为政府决策和应对政务数据质量治理的困境提供新的解决思路,具有实践意义,在理论上也打破了适应性结构化理论一直以来在固定领域使用的局限性。
2 文献综述
2.1 政务数据质量治理
数据是评价并记录客观世界的结果,其包含了组织发展的信息资料,是促进组织科学运行的先决条件及重要基础。政务数据是党政部门以及具有公共管理职能的其他企事业单位在履行职能过程中产生或者使用的数据信息,包括与政务部门存在状态相关的数据,政务部门运作过程中产生的数据,政务部门实施管理过程中经过采集、加工或转换而形成的数据等[5]。
质量是满足潜在需求及明确需求的实际能力,数据使用适合性是指数据质量能否满足使用需求[6]。Juran提出来高质量数据要符合其在运行、决策制定和计划中的预期用途[7]。数据质量的属性是数据质量的重要标准,其属性可以从数据的基本要素来进行数据质量的描述,如准确性、完整性等,也可以从数据的处理环境、是否容易获得和理解来衡量,因此,数据质量是一个可以从多维度进行解释的综合概念。学者们常根据数据质量属性去探讨质量评估与质量量化问题,如韩京宇等提出了基于数据准确性和数据完整性的度量方法[8]。
政务数据质量对于制定决策和规划至关重要,但是数据质量却常因业务或技术方面的原因出现问题[9]。数据质量治理是集技术、业务、治理为一体的提升数据质量的方案,通过有效的数据质量治理可以产生高质量的数据,从而符合其预期用途。正因为当前的政务数据质量往往是参差不齐的,数据的标准不一致、数据的准确性较低等问题都会对数据分析结果和决策产生误导,因此政务数据急需进行数据质量治理。
目前对于数据质量治理的模型框架针对数据本身的属性、生命周期管理等提出。对于政务数据而言,其特殊性在于由政府部门产生,要进行后续的分析利用,为社会治理提供建议和参考。在政府产生和管理政务数据的过程中,涉及到不同的组织和业务流程,因此需要更加全面的,从多个纬度进行政务数据质量的治理。
2.2 政务数据质量影响因素
随着数据在政府工作中的渗透性不断增加,只有确保政务数据的的高质量才能帮助政府作出更加合理的决策,大数据的机遇和优势才能得到充分发挥。然而在数据收集、处理等过程中一些微不足道的问题,都可能给数据质量带来灾难性的伤害。一旦数据质量、数据安全、数据隐私等问题被放大,就容易造成政府合法性危机[10]。因此探究影响政务数据质量的因素极为重要。
在大数据背景下分析数据质量影响因素,有学者从流程、技术和管理三个维度系统分析了统计数据质量的影响因素[11]也有专门从流程维度提出了数据收集、数据预处理、数据存储、数据处理与分析、数据可视化及应用等环节对大数据质量的影响[12]。也有学者提出了包括上级领导和基层统计人员的人为影响因素[13]。
关于政务数据质量的影响因素既有在数据层面不同路径的影响,如数据获取路径、数据处理路径、数据监管路径[14],也有相对宏观的评估,包括数据集的数量,政策和法律基础,平台服务,数据使用和效果等影响因素[15]。政务数据质量的影响因素不仅包括数据本身处理流程中的影响,更包括了宏观层面上制度和管理的影响,因此需要一个更加综合的影响因素框架进行分析。
2.3 适应性结构化理论
基于Giddens的结构理论[16],Poole和DeSanctis基于群决策支持系统提出适应性结构化理论(Adaptive Structuration Theory, AST)[17]。该理论用以研究群体和组织与信息技术的相互作用。在该理论中,结构是一个极为重要的概念,Giddens把“结构”看成不断介入社会活动中的资源及规则,从而促进结构规则及资源的形成,以此引导行动发展。
AST认为社会结构中所使用的信息技术会随着外部环境或者目标的改变而改变,如果信息技术可以与其他结构源相适应,就可以实现技术期望,达到任务要求。AST目前已经在诸多领域得到广泛应用,Turner等在人力资源开发方面提出了当新技术与组织变革时AST的重要作用[18]。Sinclaire等基于适应性结构化理论,研究了社交媒体给组织带来变革的过程[19]。
适应性结构化理论的应用少有在宏观层面尤其是运用在政府治理的过程中。大数据时代的来临在一定程度上打破了政府固有的治理模式,大量数据的生成,技术的运用,都在影响着政府进行社会治理的方式和效率,改变了原有的治理结构和模式,与AST中因为信息技术的适用而导致的结构变化过程相匹配。因此在政务数据的质量治理过程中,会出现许多不同的结构,不同类型的资源和规则来影响整个治理过程,从而完善治理,达成治理目标。故本研究基于该理论框架搭设了影响政务数据质量的研究模型,该模型不仅包含了数据处理的流程维度,更包括了内部人为因素和宏观层面的影响,破除了单一的政务数据质量影响层,从更多维度更全面地构建了影响政务数据质量的因素模型。
3 研究设计
3.1 研究模型构建
Orlikowski针对技术结构问题提出结构“二元性”,认为两种结构存在于技术使用之中,这两种结构可以理解为技术结构和组织内部结构[20]。从宏观组织及体制角度对信息系统进行系统分析时,为了更好发挥AST的成效,Schwieger提出了一个修正研究模型,其基本概念分别为外部结构源,内部结构源,信息技术结构源,技术应用以及技术应用成果[21]。本研究将整合该模型中结构源的建构和解释,探究影响政务数据质量的因素,其中因素的具体解释及分类如下:
3.1.1
信息技术结构源
信息技术结构源的原定义中包含信息技术的结构特征,即功能以及技术在应用时的行为规范,因此这一结构源中的因素更偏重于规则和机制的确立,本研究模型中的影响政务数据质量的因素为数据管理机制和政务管理规范。数据管理机制:有研究表明,数据质量治理应构建科学统一的标准及质量管理法,既要遵守国家标准,又要与地方特色相符,文本统一,操作规范,利用数据标准分类分级管理各项数据[22]。只有完整且严格的数据管理机制,才能确保高质量数据的有效性和可利用性。政务管理规范:规范政务信息化的建设可以提升公务人员的管理水平,促进政府管理方式的创新,为提高政务数据质量从数据源提供前提条件。
3.1.2
内部结构源
内部结构源主要由组织内部的结构和文化构成,组织文化包括成员自身受到外界影响形成的个人能力水平,而内部结构更多被管理者的认知所影响。所以在本研究模型中内部结构源中的影响因素为组织管理者的监督及公务人员专业能力。组织管理者的监督:管理者的认知影响着组织结构和组织资源的分配和规划,在社会治理过程中,管理者需要加强监督,科学控制治理系统的发展进度和方向[23],若组织管理者着重于社会治理过程的监管而忽视了数据监管,可能导致数据质量较差。公务人员专业能力:社会要求公务人员必须在管理社会的过程中,在决策时具有公平正义能力、责任能力以及回应民众需求的服务能力等,这是政府职能转变的价值追求[24],因此当前公务人员的专业能力的提升也主要在于回应公众诉求,提升治理成效,但是由于公务人员的精力有限,对于大数据时代对其数据记录和管理能力的要求有所忽视,从而影响政务数据质量。
3.1.3
外部结构源
外部结构源的构成相对复杂多样,有组织之间的关系,高层方面的影响,竞争所导致的结果影响及客户带来的影响。本研究中外部结构源主要考虑客户影响,即客户满意度。公民和企业作为政府提供公共服务的主要客户,他们的反馈和监督深深影响着政府治理过程,更是衡量政府治理水平和能力的一大标准。客户满意度往往反应政府治理的质量,好的治理效果会增加公民对于政府的满意度[25]。基于满意度的重要性,在社会治理的过程中政府部门可能会将更多的时间和资源用于满足客户的实际需求,但由于资源和能力的限制可能会导致政务数据质量较差。
3.1.4
调节因素
在探究政务数据质量的影响因素过程中,从实际层引入调节因素——业务复杂程度。随着行政体制改革的不断深入,政府部门间的“碎片化”问题逐渐显现,其首要表现就是“碎片”之间的结构缝隙,即“施政缝隙”,具体体现为“分段治理”,即将一个规制对象根据流程进行切割分段,由多个部门共同管理,每个部门管理其中一段。分段治理体现了政府治理的难度和复杂程度,即业务流程的复杂程度。政府业务流程的体系庞杂是阻碍行政效率提高的重要原因,而流程规模的大小直接表明一项行政业务是否复杂、是否有效率[26]。在公共管理领域,“碎片化”问题与科层制关系密切[27]。在我国,“中央—省—市—区—街镇”的五级行政区划设置和层层授权的科层制组织设计体系明确了各级政府的治理职责权限,各级政府往往不会“越权限”治理。因此,业务复杂程度所体现的分段治理和清晰层级分化治理模式对于内部和外部结构源和数据质量的调节作用也值得我们去探讨和研究。
结合以上适应性结构化理论框架、文献研究内容及政策现状,搭建影响政务数据质量的因素模型如图1所示。
3.2 研究假设
Castells认为现代通信技术推动了全球流动,提出了“流动空间理论”,“利用流动而形成的空间”就是流动空间[28]。流动空间中包含三个层次,分别对应电子技术,通信网络和社会组织。当运用底层技术来构造特定应用逻辑时,会生成应用系统。应用逻辑是无关于技术原理的业务功能,当数据被赋予某种特定的含义,应用系统的目标就是使这种含义最大化。大数据时代的来临使得数据与政府业务的关联更为紧密[29],数据质量治理中的每一个质量属性都与业务系统相关。在政务数据质量治理中,政府的职责是提供技术标准和规范,这也是信息技术结构源中的主要内容,信息技术结构源中合理的数据管理机制和应用系统中的基本规范可以直接提升数据的质量并最大化其意义和用途,由此提出研究假设:
H1:信息技术结构源的提高对数据质量存在正向影响。
Richards等认为政府之间利用完全的信息交流和互动,可以实施科学协调,提升政策执行力。利用合作实现同一治理目标就是整体性治理[30]。整体性治理强调要满足公众需求,政府内外部信息交流互动,实现有效的协同和整合从而达成治理目标。这一治理过程也体现在内外部结构源中。内部结构源主要是由组织管理者的监督和公务人员的专业能力构成。大数据时代领导者的作用是不可取代的,政府首脑及公共权威必须把公众利益作为领导职责的基本目标,致力于推动社会的良性发展,其对于治理过程的监督影响着治理目标的实现[31],但其对于业务信息化过程的监督作用也是必不可少[32]。大数据时代,在电子政务和数据政府的建设过程中,政府部门常常忽视信息技术使用者的能力和硬件投入同等重要[33]。员工数据能力不足是地方政府大数据发展最需要克服的障碍[34],公务人员的信息技术能力同数字政府建设尚有差距。从制度理论角度而言,这意味着客观的信息技术并没有得到具体的“执行”,这同官僚制和制度环境有很大关系。
外部结构源主要为客户满意度。整体性治理理论主张将公民回应与政府部门层级整合相结合,坚持以人民诉求为导向,公民的回应能够监督并且激励社会治理的过程。政府回应与政府作为旨在吸纳社会公众参与公共治理,提升治理成效,同时巩固自身民意支持,是一种“利我即利他”的行为[35]。结合内外部结构源可见对于政府部门而言,提升自身能力以更好的提供公共服务以满足公众需求是重中之重,也是目前政府在治理过程更为重视的部分。
Teece定义动态能力是企业重构内外部资源的高阶能力[36],动态能力需要对嵌入在不同背景中的资源组合进行持续更新和再配置,以适应动态的外部环境[37]。现代政府正处于一个庞杂的社会系统和建设过程中,基于动态能力理论,政府需要不停的调整改变资源配置,提升多方能力来应对不断变化的环境。大数据时代对于数据质量治理的要求不断提升,政府需要提升对于数据层面的监管和治理,提升数据治理能力。但是基于当前的政府治理过程中无论是组织领导者对于该层面的重视不足导致监管不足,还是公务人员的能力受限,注重于回应公民诉求,提升社会治理能力从而忽视数据治理能力的提升。由于动态能力不足,他们都会忽视对于政务数据质量的治理,在这一过程中提出假设:
H2:内部结构源的增强对数据质量存在负向影响。
H3:外部结构源的提升对数据质量存在负向影响。
现代政府由客观的权责分工体系造成的“分段治理”模式使得政府内部有许多规制领域,政府部门间权责配置上也有明显分工,这导致了政府行政业务流程规模变大,业务流程序列化活动增加。序列化活动是政府行政管理中各类有次序的管理活动的步骤,步骤越多、业务复杂程度越高,这意味着原本的任务被细分,分到各个单位和具体部门承担,行政管理体系及其运转呈现出机械化的特点[38],各个层级单位在一定程度上形成了比较固定的治理模式,未知的外部环境风险和不确定任务减少,对于内部结构源而言,公务人员能力足以完成相应治理任务,组织管理者在进行资源和能力分配时就可以将更多关注放在数据层面,从而提升数据质量。
就外部结构源中的客户满意度而言,公民政治参与意愿的增强容易催生“原子化”个体的政治参与需求,从而增加了政府有效治理社会的难度,带来了不稳定风险[39]。作为国家治理的基本组织形式,科层组织严格的层级设置决定了信息必须经过漫长的行政链条传递,这容易导致政府的回应时效性下降,高速且准确的回应与科层制中漫长的等级链条形成矛盾[40]。在这种情况下,业务复杂程度越高,政府部门将资源和精力都用于应付“碎片化”政府运行机制所带来的问题和提高工作效率满足公众需求,提升公众满意度,在数据质量治理上会有所疏忽,从而降低数据质量。由此提出假设:
H4:业务复杂程度对内部结构源和数据质量存在负向调节效应。
H5:业务复杂程度对外部结构源和数据质量存在正向调节效应。
基于此提出本研究的研究假设如图2所示。
4 实证分析
4.1 数据质量检测
在数据质量治理中,吴善鹏等提出基于规则的质量检测技术,在需要检测的数据的相应数据属性上预制质量约束规则[41]。本研究基于PDCA循环中计划阶段和执行阶段来测量热线信息的数据质量。①计划阶段。计划阶段主要定义了基于热线数据的数据质量评价指标和相应的指标标准,都基于数据质量维度[42]。②执行阶段。首先根据数据标准配置数据质量管理规则库;其次清洗数据使得到的质量评价结果更具可靠性。
在以上两个阶段中,重点便是基于数据集构建数据质量检验指标,然后确定规则后给出数据质量分数。《数据质量评估方法研究》提出了量化数据质量的概念模型,它有六元组结构:M=<D,I,R,W,E,S>[43],基于此进行如下两个阶段内容的构建:D是需要进行评估的数据集,在本研究中为某区的政务12345热线数据集,数据总数为21,350条,数据属性包含案件发现时间、创建时间、完结时间等时间列,案件内容描述,具体地址和方位坐标,案件类型,处理流转单位,案件处理及时程度,公民满意度,案件属实程度,诉求合理程度和解决方式等。I是数据集上需要进行评估的指标,结合12345热线数据在分析挖掘时的数据需求,提出数据质量评估属性。①正确性。无论是数据的值,抑或数据说明必须是真实可靠的,与业务实践相适应的。②一致性。数据内涵相同的值与解释在系统中均表示一个意思,不存在任何歧义之分,加上格式相同,有助于分析。③完整性。重要的数据都不是空值,存在十分重要的意义。④保密性。在数据中没有个人隐私的泄露。大数据隐私在很大程度上决定了数据质量,并直接影响到人们对数据所有者,如政府等主体的信任程度[44]。R是与评估指标I相对应的规则,本研究中基于四个特性,分别提出了可以在数据集中实现模拟检测的七条规则。W是赋予规则R的权值,在这里为每条规则所占的分数。E和S分别为规则R给出的期望值及规则R对应的最终结果,在本研究中统一以数据分数展示。基于以上过程建立的数据质量评估指标、规则及权重如表1所示。每个特性重要性相同,分数占比相等,评估结束后得到的数据最高分为80分,最低分为0分,平均分为71.6分。
4.2 数据分析
4.2.1
自变量的选取
为了验证信息技术结构源,内部结构源和外部结构源以及业务复杂程度有效影响了数据质量,利用SPSS进行回归分析,其中数据质量分数为因变量,自变量为结构源分数,业务复杂程度为调节变量。首先基于数据集内数据及其可用程度,将结构源内的影响因素及业务复杂程度一一对应到数据集中可以指代因素的指标上,并给予每个指标相应的特征取值范围,如表2所示。
具体指标解释如下:①数据管理机制-诉求合理合法性:数据管理机制包含对于数据来源的监督及数据准确性的判断,用热线数据中的诉求合理性代表。合理的诉求出现的越多,就说明该数据的真实性和可利用程度高。②政务管理规范-是否回访:政务工作的执行都有相关的规范和流程,在12345政务热线的工作流程中,回访是一大重要环节。③组织管理者的监督-是否督办:组织管理者的监督和重视程度就体现在对热线案件的督办程度。④公务人员专业能力-及时程度:专业能力以热线数据中处理及时程度项代表,在社会治理方面的专业能力越高,事件处理越高效。⑤客户满意度-满意度:客户满意度由数据集中本身的满意度项来进行直接衡量。⑥业务复杂程度-流转部门数:每一个案件流转部门的数量,即案件处理的复杂程度。因为该原始数据集的缺失值较多,整体数据质量不高,所以为了更好的进行回归分析,将其中每列的缺失值,以均值替代,然后对于每条数据进行基于结构源内指标项的评分,三个结构源总分为60分,每个结构源的分数为20分,其中缺失值无法进行判断,故若某条数据的指标项值缺失则取中间值。具体取值如表3所示,从而得到数据质量量表。
4.2.2
回归结果分析
为了验证H1、H2和H3中三大结构源对因变量数据质量的影响程度,利用SPSS进行显著性水平α=0.05的多元回归,得到P值,探究其相关性,具体结果如表4所示。通过多元回归结果,H1、H2、H3均得到验证,对回归结果进行稳健检验,分别随机抽样30%的样本,50%的样本及70%的样本进行回归分析,得到的显著性水平结果均相同。因此,信息技术结构源,内部结构源,外部结构源均显著影响着数据质量。
在调节效应的检验中,数据质量受到内部结构源(N),外部结构源(Z)的显著负向影响,在这一过程中,业务复杂程度(S)起到调节作用,建立模型:
Y=i+aN+bZ+cS+dNS+eZS+ε
其中i为常数项,a~e为回归系数,ε为随机扰动项。
在验证H4,H5即业务复杂程度是否对内部结构源,外部结构源与数据质量的关系有调节作用时,运用SPSS进行分层回归分析。在数据集中业务复杂程度代表项为流转部门数。在检验时首先将变量进行中心化处理,然后运用分层回归搭设两个模型,R方改变量及交互项显著性均小于0.05,具体分析结果如表5所示,故存在调节效应,且业务复杂程度对内部结构源对数据质量的影响呈负向调节作用,对于外部结构源对数据质量的影响呈正向调节作用,H4和H5得到验证,即业务复杂程度对于内外部结构源和数据质量之间存在调节作用,对分层回归结果进行稳健检验,分别随机抽样30%的样本,50%的样本及70%的样本进行分层回归分析,得到的显著性水平结果均相同。
4.3 结果分析
在影响因素的验证中,H1表明由数据管理机制和政务管理规范的信息技术结构源对于数据质量呈显著的正向影响,即要提升数据质量需要加强数据管理机制,对于数据采集,数据标准等作出明确规定,更要提升政务管理规范,使得每一个业务流程都有明确的规定和高效的治理过程。H2和H3表明由组织管理者的监督和公务人员专业能力组成的内部结构源和由客户满意度构成的外部结构源对于数据质量呈显著的负向影响。为了提升客户满意度,满足公民诉求,组织管理者当前的监督多为对业务流程的监督从而提升案件办理的效率,而忽视了对于数据层面的监督,导致数据质量较差。而公务人员由于自身能力和时间有限,专业能力的提升多为治理方面,且受到数据质量监管和激励不足,没有太多的精力完善数据的记录,导致数据质量较差。因此组织管理者需要进行双向监管,即流程和数据的同步监管,公务人员也要不断提升其专业能力,不仅包括业务处理能力、协同作业能力,更要包括信息处理和集成管理等能力,这决定了数据治理效率和效果。
在调节效应的检验中,H4表明业务复杂程度对于内部结构源对于数据质量的负向影响呈负向调节作用。即业务复杂程度高会降低内部结构源对于数据质量的负向影响,业务复杂程度高意味着业务流程增加,序列化活动增加,原本的任务被细分成小的板块分给各个部门完成,各个部门在治理层面的要求和压力降低且成模式化,放在数据上的精力就会增加,从而一定程度上提升数据质量。
H5表明业务复杂程度对于外部结构源对于数据质量的负向影响呈正向调节作用。即业务复杂程度越高,外部结构源对于数据质量的负向影响越大。客户满意度代表着公民诉求是否得到有效满足,当今社会随着公民诉求的提升,增加了政府有效治理社会的难度,业务复杂程度高,科层组织的层级设置多,信息传递变慢,导致政府的回应时效性下降。因此政府部门需要将全部的精力和资源都用于提升工作效率来满足公众需求,提升客户满意度,对于数据质量的重视程度必然不足,导致数据质量变低。因此政府需要增加协作治理,运用信息技术等手段简化治理流程,提升治理成效。
4.4 影响因素的重要性评估
通过多元回归分析,可以得到提出的研究假设即三大结构源对数据质量存在显著的影响,但是结构源由不同的因素构成,且每个因素都影响着数据质量。为了研究结构源内的各个因素对于数据质量的影响程度,应对其进行重要性评估,在进行这五个因素对于数据质量的重要性程度评估时采取数据质量总分进行测算,具体评估方法采用随机森林算法。特征重要性评估即研究每个特征在随机森林中的每颗树上做了多大的贡献,贡献度用基尼指数作为评价指标来衡量,评估结果如图3所示,其中重要性排名前三的影响因素及其重要性依次为:组织管理者的监督(0.62)、数据管理机制(0.22)和客户满意度(0.01)。对该模型进行评估,可以得到准确率为0.86,故该模型准确率较高。
通过重要性评估可以发现组织管理者的监督对于数据质量的影响最为显著,也是数据质量治理中的重要组成部分,研究表明组织管理者的监督对于数据质量呈负向影响,即组织管理者对于具体的治理模式和过程监管过多,导致业务压力过大,没有时间进行数据的处理从而使得数据质量较低。因此在数据质量治理中,组织管理者应该提供双重监管,即业务的监管和数据的监管同时进行,从而保证数据质量。其次,要加强数据管理机制的设定,其对于数据质量呈显著的正向影响,用制度规范数据管理过程,提升数据质量。
对于政务数据而言,数据质量治理的最终目的是拥有高质量的数据,从而要有助于政府进行深度挖掘和应用后提升社会治理成效和政府服务能力,因此在探究政府数据质量时,更应将其纳入应用的范畴进行考量,诸多学者也指出大数据时代政府应有效利用数据,提升服务效能,政府角色也应从数据收集者转变为数据分析和挖掘者,从海量数据中发现有价值的信息,将数据转化成有组织的知识[45]。运用信息技术实现对政府数据的管理与价值实现,最终实现在合适的实践中运用合适的方法找到可以解决问题的最合适的信息资源与知识资源的目的[46]。
5 结论与讨论
5.1 研究结论
本文尝试提出了基于适应性结构化理论的结构源模型提出了影响政务数据质量的因素模型,从多个层面分析以解决当前数据治理和应用的问题,具体研究结论如下。
基于适应性结构化理论传统的模型框架和研究现状,依据政府在政务数据质量治理中可能的影响因素搭设研究模型,提出假设并解释,其中包括由数据管理机制和政务管理规范构成的外部结构源,组织管理者的监督和公务人员专业能力构成的内部结构源,客户满意度构成的外部结构源对于数据质量的影响以及业务复杂程度对这一影响的调节作用,后进行数据质量的检测及相关分析。
基于PDCA循环,利用规则的设定,根据数据质量的四个特性对于热线数据集中的单条数据进行评分,从数据集中找出指代影响因素的指标,对指标进行评分后以三个结构源作为研究的自变量,业务复杂程度作为调节变量,与因变量数据质量进行回归分析,验证并解释了假设。对于显著影响数据质量的因素,基于随机森林算法进行了重要性评估。
基于回归分析结果及重要性评估可以提出政府在政务数据质量治理中的优化方案,要发挥大数据治理的功效,首先就要在确保数据安全的情况下,提升数据可用性,充分发挥数据应用价值,其次要实现政府、企业与公民的协同互动,在治理的过程中不断接受来自公民和企业的反馈,接受外界的监督,不断提升自身执政能力。最后应加强数据挖掘人才队伍建设,不仅要加强公务人员的业务能力、数据处理能力、创新等能力的培养与提高,还要培养具有采集多源数据能力、遴选优质数据能力、分析与利用数据能力的“数据专家”[47]。
5.2 理论贡献
本研究引入管理学中的适应性结构化理论探究影响政务数据质量的因素,将数据质量纳入预期用途中考量,将政务数据质量治理纳入基于结构和应用的过程进行研究,以更深入,更多元的角度和模式来搭设新的分析框架,为应对数据质量治理的困境提供新的解决思路,也打破了适应性结构化理论一直以来在固定领域使用的局限性,将其引入到宏观政务层面进行研究,具有一定的理论贡献。
5.3 实践贡献
本文基于适应性结构化理论进行了政务数据质量影响因素模型的建构建,通过影响因素重要性评估发现最重要的影响因素是组织管理者的监督,即涉及到各政府和部门领导者对于数据质量治理的重视程度和政策要求。在治理过程中,有限的资源究竟用在何处是一大问题。基于此,若要提升数据质量,从而实现有效的数据治理和数据利用,就需要各级政府引起重视,加强治理监督和管理机制的确立,进一步强化政务数据质量治理。要明确政务数据边界,出台相关政策明确数据归属权,使用权,共享管理权,优化数据共享,划定各部门责任权力范围。最后,还要在利用政务数据创造社会价值的同时,保障个人隐私安全。
5.4 研究局限与未来研究方向
由于时间和资源的受限,本文仍存在一些不足,主要是在进行数据的质量分析时,由于受到12345热线数据现有内容的限制,因此在质量分析时选取的特性有限,在进行质量检测时的规则也只能以原数据集为标准进行。在今后的研究中将收集多种类型政务数据进一步分析,并结合问卷和访谈等方法,深入了解公众对于政务数据的看法及目前政务数据质量的基本治理情况和应用状况,更加有针对性的提出优化建议。
作者贡献说明
樊 博:提出选题与研究框架,撰写论文;
于元婷:收集文献资料,数据分析,撰写和修改论文。
支撑数据
支撑数据由作者自存储,
Email:yytjane@foxmail.com。
1 于元婷. Quality analysis results.质量分析结果.
2 于元婷. Materiality assessment results.重要性评估结果
参考文献
*本文原载于《图书情报知识》2021年第2期13-24页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 卢慧质
--END--
当期荐读 2021年第2期 | 信息素养视域下的虚假信息甄别:国际进展与我国对策(内含视频摘要)
当期荐读 2021年第1期 | 突发事件舆情观点识别与分析研究评述(内含视频摘要)
当期荐读 2021年第2期 | 卷首语 预见学科之美:学科主题预测研究
当期目录 | 2021年第2期
当期荐读 2021年第1期 | 学术代表作时间周期、首发载体及题材类型特征研究 ——以图灵奖为例(内含视频摘要)