王思琦 郭金云 | 公共服务满意度测量的问题顺序效应: 来自一项嵌入性调查实验的证据
公共服务满意度测量的问题顺序效应:
来自一项嵌入性调查实验的证据
王思琦 郭金云
(西南交通大学公共管理与政法学院)
(四川大学公共管理学院)
引文参考:王思琦,郭金云.2020.公共服务满意度测量的问题顺序效应: 来自一项嵌入性调查实验的证据[J].公共管理评论,2(1):92-115
摘要
公共服务满意度是绩效评估的重要工具。然而,研究发现其并不是一个绝对和稳定的数值,容易受到测量方法包括问题措辞和位置等的影响,即心理学上的启动效应或情景效应。研究将调查实验嵌入一项高速公路服务满意度横向项目,通过将高速公路服务“总体满意度”与“特定满意度”问题的先后顺序进行随机分配,发现将“总体满意度”放在“特定满意度”之前的组( n = 619),比将其放在“特定满意度”之后的组(n = 601),有更高的总体满意度均值,证实了问题顺序效应在中国情境下的存在。基于回归分析发现,总体满意度的关键因素的识别,对问题顺序也有高度敏感性。研究发现具有重要的政策意义:任何使用公共服务满意度作为依据的管理决策,必须考虑到这些效应,以便保证决策的合理性。
关键词
公共服务满意度;问题顺序效应;启动效应;调查实验
一、 引言
随着新公共服务理论的兴起,研究者越来越重视对公共服务满意度( public service satisfaction)的研究。对满意度的测量指标、形成机制与影响因素的解释,成了公共管理研究的热点与重点(Van Ryzin et al. ,2004)。
满意度不仅是学术界研究的重要问题,作为绩效评估(performance evaluation)的 一个重要维度,也被广泛用于公共部门以及非公共部门的各种绩效考核(季丹等,2016)。例如,政府部门广泛采用满意度调查来了解公民对公共服务以及政府部门的评价和态度(Stipak,1979)。满意度调查的结果常常被政府部门领导者采纳,作为服务改革、预算调整、机构重组、人员问责等管理决策的依据。
然而,各种对公共服务满意度的研究表明,公共服务满意度是一种高度复杂的主观测量(贾奇凡等,2018),会受到期望、接受服务经验和各种认知偏差( cognitive biases)的影响,因此将满意度得分视为绝对的、稳定的、标准化的分值是有风险的 (Andersen and Hjortskov,2016)。
首先,公众报告的满意程度不能被视为客观服务质量的直接反映,因为满意度可能受到对政府的更广泛态度影响,如政府信任等(Poister and Thomas,2011)。换句话说,较高的服务质量并不一定获得较高的评价,相反的情况也是可能的。其次,在某些满意度调查中,由于调查样本选择问题,某些没有经历过特定服务的人(非使用者)也会对该项服务进行评价,这些评价不是基于真实的个人经验,而更多基于大概印象甚至随意评价(Van de Walle,2018)。此外,满意度调查作为对公共服务的主观评价,还会受到服务质量以外的各种偶然因素例如媒体报道、小道消息、突发公共事件等影响( Van Ryzin et al. ,2004) ,因此其评价的一致性和稳健性可能存在不足。
除此之外,与其他类型的问卷调查一样,满意度调查作为一种心理测量工具,测量方式也会干扰人们的认知与态度,形成测量偏差,这些偏差统称为情景效应 (context effects)①。例如,效应可能是由问题措辞( question wording)导致的,也可能是由问题出现位置( question placement) 导致的(DeMoranville and Bienstock,2003)。这些测量偏差可能影响报告的满意度水平,从而降低使用调查结果进行绩效评估和决策的可靠性。尽管各种情景效应在调查方法的文献中已经得到了广泛的讨论,但是在公共管理尤其是公共服务满意度调查中,尚未得到充分的讨论。
① 心理学研究表明,情景效应在态度测量方面最明显,本文中的情景效应被定义为先前的问题会影响 (启动)对后面调查问题的反应,参见 Lavrakas (2008)和 Hjortskov (2017)。
本文利用一项高速公路服务满意度横向调查项目,嵌入了一项调查实验(survey experiment)设计:改变高速公路服务总体满意度(general 或 overall satisfaction)问题 与特定满意度(specific satisfaction)问题在问卷中的顺序,形成总体满意度在前和在后两个版本问卷,然后将两种问卷随机分配给调查对象(respondents)填答,比较问题顺序改变对总体服务满意度的影响,即问题顺序效应(question order effects)。
研究发现:将总体满意度问题放在特定满意度之前,其均值在统计上显著高于放在特定满意度之后。这种结果说明,要求调查对象先回答一系列特定满意度问题,产生了一种问题顺序导致的启动效应(priming effects),从而降低了调查对象的总体满意度。这个发现与之前大多数研究(McFarland,1981;Benton and Daly,1991) 的结果不同,但与 Van de Walle and Van Ryzin(2011)的研究结论基本一致。
此外,为了保证总体满意度测量的稳健性,我们在高速公路服务总体满意度问题之后增加了一个政府公共服务满意度问题,来评估受访者是否认真回答问题。结果发现,对政府公共服务满意度没有出现显著的顺序效应,或者说高速公路服务满意度对政府公共服务满意度并没有影响。
本文随后的结构安排如下:首先对问卷调查尤其是公共服务满意度调查中的顺序效应的来源与机制进行了文献回顾; 然后介绍研究项目的背景, 随机分配 (randomization)和干预(treatment)设计;接下来在实验结果部分对问题顺序效应进行了统计分析与解释;最后讨论了研究结论的价值与意义,提出了一些对公共服务满意度测量与使用的实践建议。
二、公共服务满意度测量与问题顺序效应
随着新公共管理与新公共服务运动的兴起,世界各国政府普遍采用公民调查 (citizen survey)的方式来衡量政府公共服务的满意度,以便对政府进行绩效评估。因此,公共服务满意度被作为政府服务质量的重要指标,用于国内外政府部门的考核、问责等公共管理实践中。
然而,部分公共管理实践者和研究者却对采用满意度作为衡量标准的有效性产生了怀疑。研究发现,主观的满意度与客观绩效评估指标(服务质量)的水平之间并不完全对应,或者说,公民调查的结果反映的其实是受访者的个人特征和稳定态度, 而不是政府服务的实际质量(Bouckaert and Van de Walle,2003)。换句话说,各种通过测量实际公共服务质量好坏来解释满意度高低的研究可能都存在一定的偏差 (Stipak,1979)。
因此,研究者进而提出了各种新的理论模型与测量方法来解决这些满意度中的偏差问题。一方面,研究者通过在服务质量与满意度水平之间引入一些新的解释变量来完善模型,如近年来很多新的研究基于期望失验模型(expectancy-disconfirmation model)来解释满意度的微观心理形成机制,即引入既有期望这一关键解释变量来解释主观与客观绩效之间的差异(Van Ryzin,2006)。除了在理论模型中引入新的解释因素或变量,以便适应现实世界的复杂性,另一方面,研究者也开始对满意度测量的传统方法—问卷调查进行了反思和批评,发展出各种更为精细的心理学以及实验方法来捕捉满意度测量工具本身的偏差问题。本文的研究设计就是这种思路的具体体现。
社会科学方法论研究发现,问卷调查作为使用最广泛的社会科学调研方法,存在许多困扰研究者的测量效应,即问卷内容与问卷结构的微小变化也可能导致测量结果的显著改变(Ramirez and Straus,2006;Pustejovsky and Spillane,2009;聂旭刚等, 2018)。其中问题的顺序效应尤为明显,即问题在问卷中出现的先后顺序会影响答案分布 ( Bradburn and Mason, 1964; McFarland, 1981; Benton and Daly, 1991, 1993; Bartels,2002;Dietz and Jasinski,2007)。
研究者发现,在各种民意调查中,问题顺序效应是不可忽视的( Sigelman,1981;Price and Tewksbury,1996)。Wang et al. (2014)等发现,在克林顿任美国总统和戈尔任美国副总统期间,盖洛普(Gallup)研究机构调查了大约 1000 名美国民众。随机抽取其中一半民众,先问他们克林顿是否值得信任,再问戈尔是否值得信任(先克林顿,后戈尔)。另一半民众回答问题的内容是相同的,但两个问题的顺序被颠倒了 (先戈尔,后克林顿)。调查发现,当用戈尔—克林顿的顺序提问时,对两者都持肯定态度的答案占 56%;但用克林顿—戈尔的顺序提问时,这个比例下降到了 49%。①
① 这种问题顺序的情景效应揭示了人类决策的量子属性,他们提出了 “量子问题等量”(quantum question equality)来解释这种现象,即比较 AB 问题顺序和 BA 问题顺序,回答“是—是”的人的比例变化,会被回答“否—否”的人的比例变化所抵消;同样地,回答“是—否”的人的比例变化,会被回答“否—是”的人的比例变化所抵消(Wang et al. ,2014)。民意调查中类似现象参见 https: / / www. cbsnews. com/ news/ why-question-order-changes-poll-results/ 。
在满意度调查的背景下,调查往往在一份问卷中同时询问两种不同层次的满意度问题:“对特定服务的满意度”以及“对服务的总体满意度”。特定服务满意度问题通常包括多个满意度概念的构造(construct)或服务经验的具体元素。总体满意度问题则要求在不参考任何具体经验元素的情况下,对满意度水平进行总体评价。例如,关于医疗服务的总体满意度问题可能会要求调查对象报告对一个或多个医院服务质量的总看法,通常为一个题项;而特定满意度问题则会要求进行一系列评价,如对医院挂号难度、门诊服务时间、医疗设施状况等的评价,通常包括多个题项(Kaplan et al. ,2013)。
对于特定服务的评价,由于这些服务往往涉及具体的时间、地点与服务对象,因此信息比较清晰,比较容易基于个人的日常使用经验或周围人群的经验进行评价。而对于评价总体服务,需要整合正面和负面甚至相互矛盾的信息,综合、全面地进行评价。由于评价信息的复杂性,这种评价对个体认知能力的要求较高,因此更容易受到个体对政府的某种内在的稳定倾向如政府信任或刻板印象的影响( Van de Walle and Van Ryzin,2011)。
尽管相对于特定满意度来说,总体满意度评价的模糊性较高,但人们大多认为在服务质量一定的情况下,总体满意度与特定满意度差异不大。然而,令人惊讶的是,一项测量服务质量的研究发现,如果首先询问受访者对特定服务的满意度,再询问总体满意度时,71. 9%的受访者认为总体服务质量“非常好”或“良好”;而如果总体满意度问题先于特定服务问题,只有 63. 8%的人会这样认为(Benton and Daly, 1991)。不过也有相反的研究发现,通过首先询问对公共服务的一系列特定服务满意度问题来启动总体满意度问题,可能导致总体满意度得分降低(Van de Walle,2018)。
之所以出现这种结果,是因为问题顺序导致公共服务评价的心理机制出现了差异,即做出评价所采用的信息与公共服务真实质量缺乏对应关系 (Van de Walle and Van Ryzin,2011)。心理学研究发现,要求人们对复杂和模棱两可的对象进行评价, 会迫使人们寻找使任务变得更容易的方法或线索(Andersen and Hjortskov,2016),即启动一种态度可获得性(attitude accessibility)。
心理学文献中,启动( priming)被定义为“先前的刺激或事件对之后的态度(判断、印象、选择)与行为(公开、可观察)的影响”(Ngoye et al. ,2020)。在一项调查中, 先前出现问题中所包含的信息(是否清楚)与情绪(积极还是消极)可能会启动这种可获得性,换句话说,最容易回忆和理解的态度首先会出现在记忆中,进而影响后续问题的答案,即启动效应①。
① 在调查方法文献中,启动效应被进一步细分为同化( assimilation) 和对比( contrast) 效应,也称为携带 (carryover)和逆火(backfire)效应(Voicu,2015)。在满意度调查背景下,同化效应是指:如果人们在回答特定满意度问题之后再 回 答一个总体满意度问题, 他们会将之前对特定问题的反应总结 (summarize)或吸收(assimilate)到总体问题中。对比效应是指:如果先询问调查对象总体问题,然后再使其对特定问题做出回答,则他们倾向于将每个特定问题与总体问题进行比较后来进行评价 (DeMoranville and Bienstock,2003)。
这种情况下,调查中在前面出现的问题给被调查者提供了回答后面某一项目的情景(context)或背景,因此改变这一情景会对调查结果产生明显影响。研究认为, 如果公众对需要评价的服务了解越少,拥有的评价信息和标准越模糊,情景和目标问题的内容相关性较高时,情景效应或启动效应就越明显。一般来说,那些受教育程度较低、拥有信息较少的公众,更容易受到这种效应的影响( Tourangeau et al. , 2000;Hjortskov,2017)。
综上所述,我们认为,在本研究背景下,如果先询问调查对象对高速公路服务的总体满意度,再询问特定满意度,在没有任何前置信息线索与情景的条件下,调查对象对总体满意度的回答,基本上是基于其对高速公路服务的总体印象来判断的,可能受到对政府的信任水平或态度的影响。而先询问高速公路服务的特定满意度,再询问总体满意度,则对特定满意度的回答可能会被调查对象总结和吸收,影响对总体满意度的评价。
三、嵌入性调查实验设计
1. 调查实验与因果推断
与很多其他态度与认知测量一样,传统上,公共服务满意度研究基本上依靠问卷调查作为工具。在这种传统研究范式下,研究者往往会将一系列满意度的总体与特定问题、人口统计问题以及其他各种变量放在同一份问卷中来测量,通常也不对问题的顺序进行考虑,即选择忽略启动效应等测量效应。此外,按照研究方法分类, 问卷调查是一种观察性研究(observational studies),观察性研究获得的数据与实验研究数据相比, 由于缺乏随机分配与干预, 很难反映变量之间的因果关系 ( causation) ,基本上只能进行相关性( correlation) 分析( James et al. ,2017;格伯和格林,2018)。
因此,近年来越来越多的社会科学研究将实验设计与问卷调查方法结合起来,即采用调查实验方法,即首先通过随机分组给调查对象分配不同版本的问卷,同时在不同版本的问卷中采用不同的干预情景( treatment / vignettes),然后再测量结果变量(Van Ryzin,2013;Charbonneau & van Ryzin,2015)。随机分配保障了各组调查对象在各种可观察与不可观测的特征上高度等价,消除了遗漏变量、样本选择偏误问题,从而建立因果推断的反事实(counterfactual)比较,干预(自变量)通过信息的刺激和传递,对结果变量(因变量)产生了真实的因果影响,而非纯粹的数量相关性(景怀斌,2015)。
调查实验将实验的因果推断优点与问卷调查成本较低、实施方便的优点结合起来,成为研究态度、认知等因果关系的重要工具(Mutz,2011;李晓倩,2018)。此外, 与其他调查实验相比,本研究干预还具有一定的特殊性,即不同的实验干预并非内容本身的变化,而是相同内容出现顺序的变化。因此,为了能够测量到问题顺序改变带来的因果效应,本研究采用了随机分组的调查实验作为数据收集方法。
2. 调查实验嵌入的项目及背景
本研究中的调查实验是一种嵌入性调查实验,之所以称为“嵌入性”,是指本研究数据收集的依托项目并非纯学术性的,数据的各项工作收集巧妙地嵌入了S大学某课题组承担的一项 S 省高速公路管理部门的横向项目,即“S 省高速公路服务质量公众满意度调查”。该横向调查项目的实施时间为2017 年 9 月;调查范围覆盖了 S 省内几乎全部的 56 条高速公路路段;调查开展地点一共包括 112 个服务区,平均每条高速公路 2 个服务区;调查人员一共 70 名,均为 S 大学的学生。
我们之所以将一个具有较强学术研究性的实验嵌入横向项目中进行,主要考虑到横向项目具有下面几个独特优势:第一,横向项目的经费比较充足,因此可以进行较大样本量的调查,从而保证调查对象的代表性和研究结果的统计效力( statistical power);第二,横向项目委托机构除了提供经费保障以外,还将在进入许可、调查实施、人员协作等方面提供各种便利条件,有利于调查高质量地完成,大大降低了学术研究性调查面临的各种困难;第三,还可以充分利用其他研究机构与研究者承担的各种横向项目机会,在某种程度上改变“做项目”与“做研究”相对分割的现状,使横向项目也可以产生学术价值与成果。
同时,该高速公路服务满意度调查的实施地点在高速公路的服务区,对象是司机,这些人对高速公路服务有现场和即时的体验,因此,研究背景信息与调查情景是高度明确的(王劲松等,2003)。此外,与之前很多研究采用的在线(网站或电子邮件)调查相比,面对面的纸质版问卷调查拒访率相对较低①,从而减轻样本自选择偏误的影响。最后,之前的研究采用警察、消防、公园等特定服务领域的满意度与政府总体公共服务满意度比较,在本研究中,将高速公路服务满意度作为总体满意度,而将十几个具体服务项目作为特定满意度,因此测量层次更加微观,可以更加精细地检验调查中的问题顺序效应。
① 在 Van de Walle and Van Ryzin ( 2011) 的研究中,他们通过电子邮件向调查对象发出邀请,答复率 (response rate)只有 45. 6%。
当然,将实验嵌入横向项目中,也具有一定的局限性,即无法大量改变原项目的研究内容。由于该横向项目是为委托机构的内部管理与绩效评估服务的,必须首先符合委托方的原始设计要求,因此为了避免项目委托方的不满,同时降低项目主持人的压力,我们没有对原始问卷的内容和结构进行大的改变,只在部分问卷的最前面或者最后面分别增加了两个关于高速公路总体服务满意度和政府公共服务满意度的题项。我们认为,至少从形式上看,两个题项与项目整体内容是大概一致的,都是关于满意度的测量问题,所以并不会显得突兀,可以较好地与其他题项融为一体。总之,从我们的经验来看,这种嵌入性设计更适合进行一些方法论方面的复制性与验证性研究(Walker et al. ,2017),而不太适合进行一些纯理论导向的实质性研究, 因为后一种研究需要对数据收集内容有高度的控制。
3. 随机分组与干预设计
研究嵌入项目的问卷调查地点均位于高速公路服务区,调查对象是在高速公路服务区停车休息的司机,调查实施的服务区一共涉及 54 条高速公路路段。① 为了保证实验对象在不同组之间具有统计可比性,我们要求访问员在每个服务区中严格采用交替随机化(alternate randomization)的方式进行随机分配,如图 1 所示。交替随机化,即访问员轮流发放两个版本的纸质问卷,从而使得前后两个接受调查的人,填答的是不同排列顺序的问卷。例如,调查对象 1 随机分配到干预组 A,填答前版本问卷,即高速公路服务满意度和政府公共服务满意度在最前面的版本;调查对象 2 随机 分配到干预组 B,填答后版本问卷;调查对象 3 随机分配到干预组 A,填答前版本问卷;以此类推。如图 2 所示。
① 需要说明的是,本研究开始时该横向项目已完成其中 2 个高速公路路段的调查,因此实验只覆盖了其中的 54 个路段,感谢审稿人的提醒。由于数据中这些路段名称都是代码形式,出于简洁性的考虑,样本分布没有报告在论文中。
图 1 实验的随机分组
图 2 嵌入调查实验的设计
我们认为,在交替随机化的条件下,即使不同时间段进入服务区的调查对象有一定系统性差异,但是只要这种差异的排列顺序与我们的交替顺序不一致,就不会对随机分配的可靠性产生影响①,从而保证了研究结果有较高的内在效度( internalvalidity)②。最终,我们成功地将 n = 619 个调查对象分配到了干预组 A,接受前版本问卷调查;将 n = 601 个调查对象分配到了干预组 B,接受后版本问卷调查。③经过统 计效力(0. 8)的计算④,样本量大小可以满足测量到问题顺序的因果效应的要求(王思琦,2018)。
① 即分配到A版本问卷的对象与分配到B版本问卷的对象,在某些内在特征上存在持续的、明显的系统差异。
②当然,进入高速公路服务区并接受我们调查的人能否代表高速公路服务人群总体,可能存在一定的争议。但是从经验和常识来看,司机是否进入服务区、进入什么服务区很大程度上是偶然的。
③需要指出的是,包括实验样本在内,横向项目一共发放问卷 11894 份,其中有效样本量为 10716。本实验的样本量(干预组 A,n = 619;干预组 B,n = 601)占横向项目样本量比例较小,是因为横向项目的原始问卷不能全部改成实验问卷,否则可能会导致项目委托方有意见,因此在每个地点只选择了小部分问卷采用实验版。由于实验在调查程序、地点和人员配置上完全依托横向项目,因此实验样本与原始样本的无效剔除标准是一致的,最终有效回收率均为 90%。
④为了保证效应估计值的统计效力,研究使用 STATA15 软件中估计样本量的 power 命令,在以β = 0. 8 以 及 α= 0. 05 标准下,基于之前相关文献,假设 AB 两组的结果变量(即总体满意度)均值之差为 0. 5、标准差为 2 的情况下,计算的每组所需的最低样本量为 506 / 2 = 253,本实验中两组实际样本量均大于该样本量,因此是有统计效力的。实验研究样本量的计算公式可参见 Gerber and Green(2012)。
由于该横向项目原始版本的问卷只有两个部分即个人基本信息和特定满意度评价,因此,在干预设计上,为了测量总体满意度与特定满意度顺序变化的效应,我们借鉴了 Van de Walle and Van Ryzin(2011)的研究设计。在干预组 A 中,增加了两个总体满意度问题,放在问卷最前面;在干预组 B 中,则将总体满意度问题放在问卷最后。具体问卷结构如图 2 所示。在研究中,对随机分配到干预组 A 的调查对象, 首先会询问两个题项。第一个,您对高速公路服务质量的满意度是什么? 选项包括:(1)非常不满意,(2)不满意,(3)一般,(4)满意,(5)非常满意。① 第二个,您对政府公共服务质量的满意度是什么? 选项同样是从(1)非常不满意到(5)非常满意。对于分配到干预组 B 的调查对象,相同的两个题项则放在问卷最后,需要先回答个人基本信息和特定满意度问题。
① 在 Van de Walle and Van Ryzin(2011)的研究中,没有统一特定满意度和总体满意度问题测量尺度 (分别为 5 点和 7 点李克特量表),因此无法直接比较二者绝对值。我们的研究设计中对二者统一使用了 5 点量表,因此可以直接比较。
个人基本信息在两个版本问卷中均包括如下题项。驾驶车型的选项包括: (1)小轿车,(2)客车,(3)货车。驾龄的选项包括:(1)1~3 年,(2)4~10 年,(3)11 ~ 20 年,(4)21 年以上。平均每月在本高速路段驾驶的次数包括:(1)1 ~ 5 次,(2)6 ~ 10 次,(3)11~15 次,(4)16 ~ 20 次,(5)21 次以上。近一个月内是否遇到过高速公路运营服务质量不满意的情形:(1)是,(2)否。是否对高速公路运营服务质量进行过投诉:(1)是,(2)否。性别:(1)男,(2)女。
特定满意度评价包括 4 个维度:(1)路容路貌,(2)收费站服务,(3)服务区服务, (4)道路日常运行与管理。每个维度有 4~5 个题项,一共 18 题。选项与总体满意度一样,从(1)非常不满意到(5)非常满意。
4. 协变量平衡性检验
由于研究本身的嵌入性,无法通过增加协变量数量来收集更多的调查对象背景特征信息,只能将原始问卷中现成的少量个人基本信息直接作为协变量来检验随机分配的效果,即协变量平衡性(covariates balance)检验。
由于数据中的协变量均为类别变量( categorical variable),因此在进行协变量平衡检验之前,我们首先列出了两个实验组协变量取值的分布(百分比),参见表 1 中的描述性统计。
表 1 协变量的描述性统计(百分比)
注: ①出于简洁性的考虑,表中只列出了变量取值的百分比,未列出对应的具体名称。
②表中数据进行了四舍五入处理,因此各项加总结果与 100%略有偏差。
从表 2 协变量平衡性检验中可以发现,除了“是否投诉”变量之外①,其他协变量的均值在两个组之间没有显著差异(在 P<0. 05 显著性水平下),即两个组的调查对象在驾驶车型、驾龄、平均月驾驶次数、是否不满意、性别等特征方面是高度类似的。换句话说,两个组的被试在统计特征意义上是等价的。
①审稿人提出“是否投诉”可能会影响研究结论的可靠性。我们认为,这种个别协变量的不平衡可能会影响随机分配实验结果的精度( precision),但不太可能引起严重偏误( bias)。研究文献认为,一般来说,除非我们能重复进行大量随机实验,否则在一项实验研究中个别协变量的不平衡是有可能出现的 (Gerber and Green,2012)。我们对协变量进行了回归控制,未发现与均值差( difference in means)估计量的不同。在审稿人建议下,我们还进行了一系列稳健性检验,如删除数据中有投诉经历的样本,只保留无投诉经历样本,各种分析结果仍然与全样本保持一致。
表 2 随机分配的协变量平衡性检验
注: 表格中数字保留到小数点后 3 位。∗p<0. 05,∗∗p<0. 01,∗∗∗p<0. 001。
尽管有个别变量在两组之间不平衡,但是一般来说,在一次随机分配中,协变量出现稍微的不平衡并不会影响随机化的有效性(Gerber and Green,2012)。因此,通过随机分配之后,干预组 A 与干预组 B 的调查对象可以相互交换,得到的实验结果不会有显著差异,即如果对干预组 B 的调查对象采用 A 版本的问卷,也会得到和 A 组相似的结果,反之也成立。这种情况下,数据收集分析之后,干预组 A 和干预组 B 在总体满意度或特定满意度方面出现的任何显著差异,只能归结于改变问题顺序本身,而不是其他某种可能的因素,从而消除了混淆因素( confounder),从而得到问题顺序变化与满意度水平改变之间的因果关系。
四、实验结果
1. 问题顺序效应分析
首先比较问题顺序导致的两组总体满意度的差异。从图 3 可以看到,两个组高速公路服务的总体满意度有显著的(P<0. 05)差异。① 在总体满意度问题先于特定满意度问题(组 A) 时,其水平显著高于在特定满意度问题之后( 组 B) 。换句话说,先询问调查对象的特定满意度,会降低最后的总体满意度水平。尽管这个发现与大多数研究方法文献的结论不同,但与 Van de Walle and Van Ryzin(2011)的研究相似。
①Kelly and Swindell (2003)指出,在满意度测量中,一般使用从“非常不满意”到“非常满意” 5 个点的有序李克特量表(ordinal Likert-type scales),因此是一种类别变量而非连续变量,要采用非参数的 Mann- Whitney U 检验(又称为 Two-sample Wilcoxon rank-sum test),以便体现变量类型与潜在分布(Giventer, 1996)。因此,表 4 在进行顺序效应的统计检验时,没有采用一般连续变量使用的 t 检验。
图 3 组 A 和组 B 的高速公路服务总体满意度
不过,需要指出的是,在 Van de Walle and Van Ryzin(2011)的研究中,在询问总体满意度(或特定满意度)问题前,会先问一些开场问题( opening questions),即调查对象对其居住城市(社区)的评价,他们也承认,这些问题可能会引发调查对象的社区自豪感。因此,较高的总体满意度可能反映了这些问题导致的积极启动( positive priming)而非问题顺序启动效应的影响。同样,特定满意度也可能受到开场问题的影响。在我们的研究中,问卷一开始就直接询问调查对象的总体满意度,从而避免 了这种“干扰效应”,相对来说,实验结果的可靠性更高。
表 3 是各组总体满意度与特定满意度的描述性统计,由于与协变量一样,满意度变量也是类别变量,因此我们报告了取值从(1)非常不满意到(5)非常满意的百分比分布。
表 3 总体满意度与特定满意度的描述性统计(百分比)
续表
续表
注: ①出于简洁性的考虑,表中只列出了变量取值的百分比,未列出对应的具体名称。
②表中数据进行了四舍五入处理,因此各项加总结果与 100%略有偏差。
当然,问题顺序效应除了对总体满意度有影响外,对特定满意度也有一定的影响。从表 4 的均值比较中可以看出,“路面平整舒适”在组 A 的均值(3. 641)显著高于组 B 的均值(3. 549)。这种发现与总体满意度在两组中的结果类似,可能是受到了总体满意度评价的影响,因为该题项紧接着总体满意度问题。
但是,除了特定满意度中的“路面平整舒适”问题以外,其他 17 个问题在两组之间均没有显著的差异。尽管总体来说,特定满意度问题缺乏组间差异,但是如果比较不同特定满意度题项的结果,还是可以发现一些有潜在意义的结果。例如,在这 18 个特定满意度问题中,其他服务的两组得分均在 3 以上,而“服务区商品价格” (2. 804 和2. 886)和“道路清障救援服务” (2. 376 和2. 148)两组得分均低于 3,“道路救援服务收费”(1. 990 和1. 778)和“投诉反馈渠道”(1. 890 和1. 682)甚至均低于2。说明公众在这四个特定高速公路服务上的评价的确非常低,有较大程度的不满 意。之所以组 B 的总体满意度得分显著低于组 A,可能因为其中三个特定问题“道路清障救援服务”“道路救援服务收费”“投诉反馈渠道”恰好位于总体满意度问题之前,调查对象对这些特定服务的不满意,会立刻影响到总体满意度。①
① 尽管这三个题项在两组之间差异的 P 值均在 0. 06 左右,在统计上仅仅是边缘显著,参见表 4。
表 4 总体满意度与特定满意度的均值比较
续表
注:表中数字保留到小数点后 3 位,∗p < 0. 05,∗∗p < 0. 01,∗∗∗ p < 0. 001, z 值与 P 值来自非参数 Mann-Whitney U 检验。
为了给两个干预组问卷的特定满意度提供基准,我们还在表 4 中列出了原始问卷的特定满意度结果。① 从表 4 中可以看到,原始问卷的特定满意度与两个干预组 的关系比较复杂。有些数值位于两个干预组满意度水平之间,如“收费站站容站貌” “服务区安全状况”“道路清障救援服务” “道路救援服务收费” “投诉反馈渠道”;有些高于两个干预组满意度,如“ETC 畅通性”;其余均低于两个干预组。这些均说明实验中问题顺序的变化对特定满意度缺乏统一的效应,存在高度的异质性,有待更加深入的探索。
① 需要指出的是,原始问卷特定满意度计算所使用的数据,并未包括所有横向项目的原始问卷数据,但这些数据均收集于嵌入性实验前后,因此与其有较强的可比性。
如前所述,实验结果基本证实了在高速公路服务满意度调查中问题顺序效应的存在。然而,在我们的研究中,这种顺序效应的方向与之前大多数研究(McFarland, 1981;Benton and Daly,1991)的结果不同。很多研究认为,在问卷中,如果先问特定满意度问题,会提高稍后询问的总体满意度水平。然而,我们发现,先问特定满意度问题,降低了后面总体满意度问题的水平,这一发现与 Van de Walle and Van Ryzin (2011)的研究结论基本一致。
为什么会出现这种情况,可能的解释有两种,一种是微观解释,一种是宏观解释。微观解释需要考虑具体评估的高速公路的真实的服务质量。如前所述,无论在组 A 还是组 B 中,有几项特定满意度得分明显低于其他满意度得分,说明这几种服务的质量的确存在问题,造成了普遍的抱怨和不满。这种情况下,有质量问题的特定服务理所当然地只能启动较低的总体满意度。换句话说,先询问特定满意度对总体满意度的启动效应(组 B)是负面的。
宏观解释涉及制度与文化差异,即公众对政府和总体公共服务的刻板印象和固有态度,如政府信任(Bouckaert et al. ,2005)。国外公众满意度文献发现,相比总体服务或整个公共部门的满意度,公民往往更重视特定公共服务,而且对政府的普遍信任通常比对公共服务的满意度更低(Kampen et al. ,2006;Van de Walle,2018)。换句话说,“特定满意度 > 总体满意度 > 政府信任”(Morgeson and Petrescu,2011)。因此,先问较高的特定服务满意度很容易启动较低的总体满意度,从而提升其水平。然而在中国的制度与文化背景下,这种排序可能会颠倒过来,即“特定满意度<总体 满意度<政府信任”(类似“央强地弱”的差序信任),导致先问特定满意度会降低之后的总体满意度水平。当然,这种宏观解释及其内在机制需要进一步的理论和实证分析。
2. 测量稳健性检验
尽管实验数据显示,改变总体满意度与特定满意度问题的先后顺序,的确存在问题顺序效应。但是,考虑到我们的调查实验是在高速公路服务区进行的,实验对象在调查的过程中会面临各种复杂环境,如调查时间紧张、访问员的暗示、调查造成心理压力、对研究结果的预期等,这些环境心理因素可能会通过某种无法观测的途径对结果变量产生影响。这样的话,实验结果就不再是由干预(问题顺序)唯一导致的,从而违反了因果推断要求的排除限制( exclusive restriction) 假定( Gerber and Green,2012)。
为了使顺序效应的测量结果更加可靠,在进行实验设计时,我们特意在高速公路服务总体满意度问题之后,额外加入一道政府公共服务满意度问题。该问题紧接着高速公路服务总体满意度问题,同样有在前和在后两种版本,从形式上看与总体满意度问题比较相似,但与后面的特定高速公路服务缺乏直接逻辑联系。如前所述,由于调查项目是在高速公路服务区利用较短的停车休息时间进行的,很容易出现时间压力下做出随意选择的可能性。换句话说,如果调查对象没有认真阅读问题、准确理解并区分二者的差异,容易将其视为同样概念的重复测量,从而做出相似的评价,那么二者会产生同样的顺序效应结果。
显著高于政府公共服务满意度(均值差= 0. 071,t = 2. 732,P = 0. 003),说明将二者同 时放在问卷最前并紧随,调查对象仍然可以区分二者,并做出不同的判断。在干预 组 B 问卷中,高速公路服务满意度也高于政府公共服务满意度,尽管差异并不显著 (均值差= 0. 013,t = 0. 648,P = 0. 258)。
图 4 干预组 A 和 B 的高速公路服务满意度与政府公共服务满意度
其次,如表 4 中总体满意度显示,尽管问题顺序效应导致干预组 A 中高速公路服务满意度显著高于干预组 B(P = 0. 035),但是这一效应并没有出现在政府公共服务满意度中,即干预组 A 与干预组 B 相比,政府公共服务满意度并没有显著差异(P = 0. 732)。因此,问题顺序的变化对政府公共服务满意度并没有产生显著效应,或者说总体与特定高速公路服务满意度评价对政府公共服务满意度并没有影响。
3. 回归分析
众所周知,在满意度评价的实践中,研究者经常会将特定满意度作为自变量来预测总体满意度(因变量),以便了解哪些特定因素对总体满意度的影响更大,从而改善或维持这些服务的质量。为了分析哪些特定满意度会影响总体满意度,以及两 个干预组的影响机制是否相同,我们还进一步做了 OLS 回归分析,回归结果如表 5 所示。
表 5 两组总体满意度的 OLS 回归分析
续表
注: 表中数字保留到小数点后 3 位。∗p<0. 05,∗∗p<0. 01,∗∗∗p<0. 001。
表 5 呈现了两个干预组(即 A 和 B 版本问卷)总体满意度的回归结果,我们将 18 个特定服务题项作为自变量,总体满意度作为因变量进行回归。从表 5 中可以看到,两个组样本的回归模型 R2 的差异显著,干预组 B 模型的 R2 = 0. 202,大于干预组 A 模型的 R2 = 0. 159,说明当特定满意度问题放在总体满意度之前,回归模型的拟合程度更好,基本符合问题顺序效应的理论和预期。
此外,不仅两个组回归模型的 R2 不同,两个模型自变量的系数也存在差异。当总体满意度问题放在特定满意度之前(A 版本),“路面平整舒适” “路面通行顺畅” “投诉反馈渠道”三个自变量均在统计上显著(P<0. 05)。当总体满意度问题放在特定满意度之后时(B 版本),统计显著的自变量变成了“路面卫生整洁” “服务区商品 价格”(P<0. 05)。
这些回归结果具有重要的理论启示:回归系数差异说明问题顺序效应不仅是一个方法论意义上的调查问卷才需要考虑的问题。从表 5 看到,问题顺序差异可能导致完全不同的政策含义。例如,某位研究者使用 A 版问卷的回归结果来判断满意度之间的关系,会认为,“路面平整舒适”“路面通行顺畅”“投诉反馈渠道”三项是决定公众对高速公路服务总体满意度的重要因素。然而如果我们使用 B 版本问卷进行调查,就会得出完全不一样的结论,即“路面卫生整洁” “服务区商品价格”才是影响总体满意度的重要因素。然而,两种不同的回归结果都来自体验同样高速公路服务的公众,唯一的区别只是提出问题的顺序。如果采用不同版本问卷的结果进行管理决策,那么会极大地影响资源配置与决策效果。
五、 结论
本文通过一项高速公路服务满意度的嵌入性调查实验,发现总体满意度和特定满意度问题出现的先后顺序会产生显著的启动效应。而且与之前研究文献的结论不同,我们发现先询问特定服务满意度并没有提高总体满意度。相反,先询问特定服务满意度会导致后面的总体满意度下降。① 因此我们认为,在存在问题顺序效应可能性的情况下,传统文献中认为公民对特定公共服务评价高于总体服务评价的结论在中国并不一定成立,这可能源自与西方不同的制度与文化背景,还需要进行更多的复制与验证实验。
① Van de Walle and Van Ryzin(2011)将这种结果归因于满意度问题与问卷中的开场问题的复杂交互作用,即开场问题在总体满意度问题之前就产生了自己的顺序效应。
在进一步推广本研究的结论时,我们还需要考虑高速公路服务与其他类型公共服务的差异。首先,本实验中测量的高速公路服务满意度在服务区进行,针对的是有实时(现场)使用经验的司机,而其他类型服务的对象在接受调查时可能处于不同环境下,对问题顺序变化可能有不同反应。其次,不同公共服务的使用频率、重要性、是否收费等特征都会影响到研究结论的外在效度。
在研究发现的实践意义上,我们认为,由于问题顺序等复杂效应的存在,因此所谓“真实的”或“真正的”满意度并不存在,一项满意度调查的结果是问卷设计、样本选择、调查情景以及各种偶然因素共同决定的。因此研究者和政府部门在进行满意度测评的时候,必须慎重使用满意度的绝对值来进行绩效评估,避免做出错误的决策。
一种更合理的方式,是将满意度测评视为相对意义上的、不稳定的测量工具 (Moore,2002)。任何基于满意度测评的管理决策,都应当同时考虑客观指标与主观态度、总体满意度与特定满意度、一次测评与多次测评之间的关系,以便获得更可靠的证据。例如,研究机构可要求访问员在调查开始时提醒调查对象认真考虑和思考后再填写问卷。此外,按照实验的逻辑,可以将问题的出现顺序随机化,以消除与问题顺序相关的情景与启动效应。相对于传统的纸质版问卷,考虑实施难度与成本, 这种设计在目前流行的电子化或在线调查中其实更容易实现。同时,在设计问卷时就应该考虑可能出现的各种方法效应,对问卷进行预测试(pre-testing),再基于预测试数据分析对调查问题的措辞、格式和顺序进行修改。
那么,在满意度测量的背景下,究竟先应该询问总体满意度问题、再询问特定满意度问题,抑或相反,目前的研究文献仍然没有定论(DeMoranville and Bienstock, 2003)。调查方法文献通常推荐将总体问题放在特定问题之前询问(如本文中的 A 组那样),认为这样可以避免启动效应( unprimed),因为从经验和逻辑上来看,没有经过启动的回应可能才是受访者内心的真实感受。然而这种做法也可能会导致一种风险,即制造一种之前并不存在的总体满意度(Van de Walle and Van Ryzin,2011)。
基于本研究的结果,我们认为,满意度的问题顺序安排取决于数据的使用目的: 如果评估想要了解总体和特定满意度的相对得分,那么顺序效应的影响其实是可控制的;但如果想将特定满意度作为自变量(影响因素)来解释总体满意度的高低,正如本文在最后的回归分析中所做的那样,那么顺序效应可能对分析结果乃至政策选择产生显著影响。这种情况下要非常谨慎,必须进行多种统计检验来保证结果的稳健性。
本研究在方法上的贡献,首先在于调查对象和调查地点的优势。由于我们将实验设计嵌入一项真正的满意度调查项目中,与传统公共管理实验采用学生样本(如本科生或 MPA 学生)或采用付费的在线调查人群(如 MTurk 等)不同①,我们的实验是对真正的服务使用者(高速公路服务区的司机) 进行的,因此实地性( fieldness) 更高。
① 这些调查对象参与调查的主要原因是获取报酬,样本在年龄、性别、学历等方面具有一定的特异性,因此对一般公众尤其是公共服务使用者缺乏代表性。
当然,必须指出,研究也存在一定的不足,尤其是样本数据质量的局限性。这种局限性主要来自研究设计本身,即题目当中的“嵌入性”。正如在研究设计部分中提到的那样,由于本调查实验是嵌入一项高速公路管理部门委托的横向项目中的,尽管可以充分利用横向项目的各种便利来收集数据,但也是这种嵌入性导致我们缺乏对研究内容和研究过程的高度控制。例如,无论是特定满意度测量的具体指标,还是协变量的内容与数量,都是横向项目原始问卷既有的,我们无法像通常的纯学术研究那样,完全按照理论框架来进行增减改。这种嵌入性导致了如协变量平衡性、样本有效性等问题,因此,建议读者在理解和引用本研究结果时一定要注意这些局限性。
此外,研究还可以进一步完善。例如,研究尽管嵌入了实验设计,但仍然采用问卷调查来测量满意度。众所周知,问卷调查是一种自我报告的测量,容易受到社会赞许(social desirability)压力的影响。因此,如果能够结合一些前沿心理学的测量方法和工具,可能加强我们对启动与情景效应的理解。此外,本研究是基于一个 S 省高速公路司机的非代表性概率样本,其结果并不能在统计上用于预测其他更大范围的群体,因此使用概率抽样的公众样本是下一步的研究方向。最后,还应当关注调查对象的内在特征如何影响公共服务满意度。例如,真正接受过某种公共服务的调查对象(使用者)与没有接受过公共服务的调查对象(非使用者),可能会对某种实验干预产生完全不同的反应(Kelly and Swindell,2003),这些问题有待更深入的研究来解决。
参考文献 略
本期目录: