当下实证研究中量表应用存在哪些误区？如何纠正？

Original 骆雷，等上海体育学院学报 2023-03-26

《上海体育学院学报》2021年第11期

论文导读

量表是体育管理实证研究领域开展变量测量的重要工具，量表设计与应用的规范与否直接影响体育管理实证研究的可靠性与科学性。以国内体育管理实证研究文献中的量表应用为研究对象，基于对中文社会科学引文索引（Chinese Social Sciences Citation Index，CSSCI）2019—2020版收录的11本体育类核心期刊，在 2010—2020 年期间发表的348篇体育管理类文献样本的梳理，分析体育管理实证研究领域量表应用中的常见问题并提出改进建议。存在的主要问题：①混淆单维度、多维度量表与问卷的差异；误将量表的信度简单地等同于问卷的信度；误将多维度量表所有题项的内部一致性作为信度报告指标。②不能准确理解组合信度与克朗巴赫α系数在量表信度评价中的作用，没有将两者结合起来共同反映量表的可靠性。③忽视“信度引入”问题。当采用既有成熟量表或修订过的量表时，没有在新的研究情境中再次验证量表的可靠性。④内容效度与结构效度评价的科学性不足。一是仅将专家对量表整体内容效度的评价视为内容效度指标，而忽视每个测量题项与潜在构念之间的相关性；二是对多维度量表结构效度评估指标的报告不完备，缺少聚敛效度与区分效度的必要说明。⑤忽视共同方法变异对量表效度的影响，没有说明共同方法变异的事先控制方法以及事后检验情况。⑥反映性指标与形成性指标的误用。将本该采用形成性指标的测量方法错误地采用了反映性指标的测量方法。⑦混淆量表的观测指标与评价指标，错误地将量表研制应用到了评价指标的研究中去。改进建议：①量表内部一致性检验应综合考虑组合信度与克隆巴赫α系数，多维度量表的可靠性不需报告所有题项的内部一致性水平。②“信度引入”时应重新检验量表的可靠性。③内容效度评价建议选用内容效度指数，应把每个测量题项与潜在构念间的相关性均纳入到内容效度的评价中去。④国外成熟量表的本土化应考量研究情境的适切性，翻译国外量表时应考察和审视测量题项是否具有跨文化概念的对等性。⑤观测指标的选取应考虑反映性指标与形成性指标的差异，应根据研究目的以及潜在构念的特征选择相应的观测指标。⑥应检验和控制共同方法变异情况。⑦不宜运用量表研制的方法开展评价研究。

第一作者简介

骆雷，男，江苏徐州人，上海体育学院经济管理学院副教授，博士，硕士生导师，美国佐治亚大学高级访问学者，2020年入选上海市浦江人才计划。现任上海体育学院经济管理学院教工党支部书记，体育产业管理团队负责人，兼任中国体育科学学会体育产业分会副秘书长。主要从事赛事观众（球迷）消费心理与行为、体育管理实证研究方法以及体育赛事产业政策等领域的研究工作。近年来主持省部级课题3项，作为主要成员参与完成国家级与省部级课题多项，出版专著1部。作为第一作者（或独立作者）在国内外重要学术期刊发表代表性学术成果10余篇。

通信作者简介

刘炜，男，浙江上虞人，上海体育学院经济管理学院教授，硕士生导师。现任上海体育学院图书馆馆长，兼任中国体育科学学会体育统计分会副主任委员。主要从事体育管理与体育定量分析方面的研究。主持或参与各类研究课题10余项，作为第一作者（或独立作者）发表论文10余篇，合作发表论文20余篇。作为主要研究人员参与的“中国体育及相关产业统计系统开发与应用”研究获得上海市科技进步奖三等奖；参与的科研项目获得国家体育总局体育社会科学研究优秀成果二等奖及三等奖、“十一五”国家体育总局体育哲学社会科学优秀成果一等奖、第六届高等学校科学研究优秀成果奖（人文社会科学）三等奖。

本文引用格式

骆雷，刘炜，张孟艳，等.体育管理实证研究中的量表应用：常见问题与改进建议[J].上海体育学院学报, 2021, 45(11):61-70

体育管理实证研究中的量表应用：常见问题与改进建议

量表的设计与应用是体育管理实证研究中的基础性议题。国内外体育管理领域的实证研究显示：赛事观众消费、健身娱乐消费以及各类体育组织行为等领域的研究均涉及认知、态度、情感和行为等变量。这些变量往往难以直接观察或测量，需借助成熟的量表或修改、研制新的量表予以测量。因此，各类量表（如赛事消费领域的观赛动机量表、赛事服务质量量表、观众满意度量表等）的研制、完善和发展成为中外体育管理学者的重要任务。量表设计和应用的科学性直接决定了变量测量的准确性，进而影响所验变量间相关关系或因果关系的可靠性。如果把体育管理领域的实证研究视为修建一座理论的“大厦”，那么量表就是这座“大厦”的基石。科学合理的量表设计是探讨变量间关系、变量的形成或验证有关理论假说的必要前提和基础。如果某项研究所使用的量表本身缺乏信度或效度，即便数据的来源和分析都是可靠、严密的，该研究的结果仍难以让人信服。近年来，随着统计方法与数据处理技术的不断发展，中外体育管理领域的多变量研究随之兴起。然而，通过对国内相关文献的阅读和分析发现，不少研究对测量的基本概念、量表的内涵、量表的信效度评估、量表观测指标的选择等方面存在误解或误用，导致研究结果的可靠性存疑。例如：一些研究无法准确理解量表与问卷的差异，将“量表的科学性”误以为是“问卷的科学性”；一些研究未注意到反映性指标与形成性指标的差异，将本该采用形成性指标的测量方式却选择使用了反映性指标；还有一些研究采用量表研制的思路进行“评价指标体系”研究，忽视了“评价”与“测量”的差异；还有许多研究未报告量表应用中存在的共同方法变异（Common Method Variance， CMV）情况；等等。

体育管理实证研究需借鉴管理学、社会学、心理学等母学科的研究范式。相应地，体育管理实证研究中的量表研制需遵循上述学科关于量表研制的基本方法与技术。不同的是，体育管理实证研究的情境、议题和变量均具有体育领域的特殊性，相关量表的设计与运用需对这些特殊性予以考量。鉴于量表在社会科学研究中的重要性，量表设计和运用的科学性得到了管理学、心理学和体育学等相关领域学者的持续关注。这些研究涵盖测量的信效度评估、问卷调查方法的运用现状与误区、运动心理测量量表的研究进展、体育科学量表编制中的方法优化等问题。虽然上述研究阐明了量表研制的基本方法以及信效度评估中的常见问题，但在体育管理实证研究的实践中，问卷与量表的差异、多维度量表的信效度评估、反映性指标与形成性指标的选取、量表中的刻度以及运用量表开展评价研究等问题仍未受到体育领域学者的充分重视。某些存在明显问题的研究成果经同行评审仍能刊发在一些重要的学术期刊上，这不仅影响了研究的科学性，而且会误导读者，导致学者之间在研究方法上的“以讹传讹”和“错误借鉴”。为尽量避免这类问题的出现，本文以中文社会科学引文索引（Chinese Social Sciences Citation Index，以下简称CSSCI）2019—2020版收录的11本体育类核心期刊在2010—2020年间发表的348篇体育管理类文献为分析对象，阐明我国体育管理实证研究中量表应用方面存在的突出问题，并就相关问题的解决提出有针对性的意见和建议，以提升国内体育管理实证研究的科学性与规范性。

研究对象与方法

1.1　研究对象　

以体育管理实证研究领域中的量表应用情况为研究对象，以CSSCI 2019—2020版收录的11本体育类核心期刊为调查对象和文献分析对象。纳入研究的11本期刊分别为《体育科学》《体育与科学》《体育学刊》《中国体育科技》《北京体育大学学报》《上海体育学院学报》《天津体育学院学报》《西安体育学院学报》《成都体育学院学报》《首都体育学院学报》《武汉体育学院学报》。

1.2　文献筛选依据与处理方法　

以中国知网（CNKI）高级检索程序为工具，以CSSCI 2019—2020版收录的11本体育类核心期刊为文献来源，论文的刊发时间为2010年1月1日—2020年12月31日。在精确论文来源期刊和刊发时间的基础上，通过人工检索，初步将符合条件的1 062篇文献进行下载和编号，基于阅读文献题目、摘要、研究方法和全文等方式进行人工筛选。本文对存在如下情况的相关文献予以筛除：非体育管理领域的文献；非实证研究范式的文献；会议论文、刊讯、题录、通知等。经过筛选，最终纳入研究的文献有348篇。采用SPSS 24.0软件对文献的期刊分布、年份分布以及常见问题等进行描述性统计分析，同时结合研究个案对常见问题分别进行剖析。需要说明的是，除了348篇文献样本运用了量表设计和量表信效度处理方法之外，另有40篇文献运用量表设计的思路和方法开展评价指标体系研究，5篇文献未进行量表设计（仅使用了问卷调查），却使用了量表信度与效度的处理方法对问卷的信效度进行评估。

结果与分析

2.1　文献分布的描述性统计　

从2010—2020年体育管理实证研究文献的分布情况看，刊发使用量表的体育管理领域论文数目最多的是《武汉体育学院学报》（56篇），其次是《北京体育大学学报》（53篇）、《上海体育学院学报》（38篇）和《体育科学》（29篇），《成都体育学院学报》（24篇）、《体育与科学》（24篇）与《体育学刊》（16篇）相对较少（表1）。

2.2　常见问题的分析与讨论　

基于对348篇文献的阅读和分析，本文梳理了关于量表信度与效度、量表的刻度、共同方法变异、反映性指标与形成性指标的选取、量表测量指标与评价指标的关系等问题。为更好地阐明上述问题与提供研究建议，除上述348篇中文文献外，本文还适当选取了若干具有代表性的英文文献予以辅助论证和说明。

2.2.1　量表的信度评估应报告哪些指标

信度是指测量结果的稳定性程度或测量的可靠性程度。信度的评估指标多种多样，如重测信度、复本信度、折半信度、评分者信度与同质性信度等。在体育管理实证研究领域，使用Cronbach's α （以下简称“α系数”）反映量表的信度最为常见。与α系数相比，组合信度（Composite Reliability，CR）更能将各观察题项在潜在变量上的不同因子载荷纳入计算公式，其估计值更加接近量表的内部一致性信度，因而受到更多学者的重视。组合信度的计算程序虽然更为复杂，但借助结构方程模型的一些常用软件，均可直接或间接地得到组合信度值。值得注意的是，即便组合信度值更为可靠，α系数对于信度的考察仍具有相当的参考价值。如果α系数高到可以接受，测验的信度就能得到保证；如果α系数过低，则建议使用组合信度加以判定。

国内体育管理实证研究中的信度报告情况并不乐观。本文文献样本分析发现，共计299篇（85.92%）文献对量表信度评估方式进行了报告，但多达49篇（14.08%）文献对量表的信度评估方式未做任何说明。在报告信度指标的文献中，有278篇（92.98%）文献报告了量表的α系数，仅58篇（19.40%）文献报告了量表的组合信度，仅有53篇文献同时报告了α系数和组合信度。在未报告信度指标的文献中，近5年（2016—2020年）所刊发的文献仍高达14篇（图1），表明当前国内体育管理实证研究领域信度评估的科学性与规范性亟待提升。

2.2.2　量表的信度是否等同问卷的信度　

体育管理实证研究的重要任务是以体育领域纷繁复杂的各类事物和现象为对象：首先通过“概念化”将各类现象进行抽象和界定，选择合适的变量反映概念的基本属性；然后通过对变量的直接观测或复合测量，以样本数据的整理和分析为基础，构建或验证体育管理领域的相关理论。体育管理领域的概念复合测量通常以态度量表最为常见，它是由潜在变量、观察变量和测量标尺等共同构成的一种复合测量。在态度量表方面，运用最为普遍的就是李克特量表和语义差异量表。以Larkin等关于集体自恋倾向在球队认同和球迷攻击行为关系中的调节作用研究为例，作为该研究中的自变量，球队认同量表采用单因素结构，共计包含3个反映性观察变量（表2）。

与量表不同，问卷是一种收集数据的结构化工具，它按照顺序事先设计和呈现反映调查内容的一系列问题及答案，并通过调查对象的填答获取信息。问卷和量表的差异主要体现在：①量表是变量的测量工具，而问卷是数据的收集工具。1份量表只能测量1个单独的属性，而问卷可以包含若干不同的量表。此外，除了可以涵盖不同的量表外，同一份问卷还可以包括调查对象的人口统计学特征、其他属性与特征等内容。例如，有研究比较了电子竞技赛事观众和传统赛事观众之间的动机差异，调查问卷共计包括3部分：观众动机量表、观众消费行为（观赛频次）和观众的人口统计学特征。②量表的编制需要理论依据，而问卷如果不包含量表，则只需符合调查的主题，将所要调查的问题罗列编排即可。③量表是变量的测量工具，存在测量的可靠性问题，即信度评估问题；问卷是一种结构化数据收集工具，不存在信度评估问题。因此，从严格意义上讲，没有问卷的信度之说，量表的信度不是问卷的信度。但在本文所纳入的348篇文献样本之外，仍有5篇体育管理文献并未运用量表，仅采用了问卷调查方法，却使用量表的信度评估方法对所谓“问卷信度”进行了评估。因此，体育管理领域的研究者应仔细辨别量表与问卷的差异，避免因量表和问卷的混淆影响数据分析的科学性。

2.2.3　单维度与多维度量表的内部一致性信度评估是否相同

根据研究实际以及概念内涵的丰富性与复杂性，变量的测量既可选择单维度量表，也可选择多维度量表。如在测量赛事服务满意度时，研究者可选择单维度量表（如整体满意度量表），也可运用多维度量表（如若干子维度反映赛事服务满意度）。在研究F1赛事游客涉入与涉入反应的关系时，有研究将赛事游客的满意度量表设计为5个维度（子量表）：产品满意度、价格满意度、服务满意度、交通满意度和餐饮满意度。每个维度各包含3个观测题项，共计15个题项。如果运用α系数或组合信度反映测验的内部一致性信度，根据内部一致性信度的内涵，多维度量表的信度评估须分别计算和报告每个维度（子量表）的信度系数值。

在通常情况下，随着观测题项数目的增多，α系数会随之增大，很容易就能够达到信度检验的临界水平。因此，在各子量表信度系数均达到可接受水平的情况下，研究者一般不用计算和报告多维度量表的整体α系数。值得注意的是，内部一致性信度是考量量表内部所有题项之间的一致性程度，不同变量之间并不存在内部一致性信度的评估问题，对不同变量的所有题项进行“打包”并报告内部一致性水平并不符合信度指标的内涵。对本文文献样本进行分析发现，在采用多维度量表的文献中，多达81篇体育管理实证研究文献报告了多维度量表的整体α系数值；在包含多个变量且每个变量均采用单维度量表的文献中，仍有6篇文献将所有变量的题项“打包”并报告所有题项的α系数值。

2.2.4　信度引入时能否直接采用原文献的信度估计值

信度引入指使用前人研究的信度估计值作为当前研究的信度估计方法，即把前人研究中的信度估计值视为当前研究中的信度估计值。但信度是测验结果的信度，而不是测验工具的信度。信度引入的前提是样本特征、测验环境以及其他条件等的一致性，但这一前提在实证研究领域通常无法满足。因此，在研究过程中，如果采用前人编制或修订过的量表，应再次进行样本预试以检验测验的信度，因为样本会因受访环境和时间等因素对量表题项产生不同理解。例如，如果采用成熟的国外球队认同量表对中国职业赛事观众的球队认同进行研究，由于研究情境（国内与国外）变化较大，观众特征和测验环境均与国外存在差异，当前测验结果的信度就不能仅凭国外量表的信度估计值加以判定，而需通过样本调查和统计分析再次验证量表的可靠性。然而，本文文献样本分析发现，共计17篇文献直接采用了其他学者的量表信度指标来评估该文研究的信度，却未在该文中再次验证量表的可靠性。

2.2.5　量表的效度评估应报告哪些指标

效度也称测量的有效程度或准确程度，即量表能否准确反映测量概念的真实内涵。体育管理领域的实证研究通常会考察量表的内容效度和结构效度。其中，内容效度是指量表实际测到的内容与所要测量内容之间的吻合程度，一般报告专家效度的评估结果。体育管理领域的研究者往往忽视内容效度的评估，或仅对专家对量表的整体内容效度予以评价。当前使用较为广泛的指数为内容效度指数（Content Validity Index，CVI）。例如，在专家咨询问卷中要求专家就每个题项与所测变量维度的关联性进行选择。选项可包括4个等级：1=“不相关”；2=“弱相关”；3=“较强相关”；4=“非常相关”。每个题项给出等级为3或4的专家人数除以参评专家总数即为相应的CVI指数。建议研究者根据研究实际情况，参考史静琤等关于量表编制中内容效度指数的详细介绍对内容效度进行评估。

量表结构效度的评估主要考察量表结构与理论结构之间的吻合适配程度。如果采用单维度量表，需考察概念属性与观测指标之间的关系。如果采用多维度量表，除了考察概念属性与观测指标之间的关系外，还需考察子维度之间的关系。无论采用单维度量表还是多维度量表，量表结构效度的科学性首先来自于量表得以形成的根本前提——理论建构的合理性与科学性。如果量表形成的理论基础站不住脚，即便运用严密的统计方法对量表的结构效度进行了评估，也无法有效证明量表结构效度的科学性。本文文献样本分析发现，288篇（82.76%）文献对量表效度进行了报告，但多达60篇（17.24%）文献对量表的效度评估指标和评估结果未做任何说明。在内容效度方面，156篇文献报告了内容效度，但报告的均是整体内容效度，未提供针对每个题项是否有效的CVI等评估结果。在结构效度方面，在报告效度指标的288篇文献中，共计254篇文献报告了量表的结构效度。此外，仅有50篇文献同时报告了聚敛效度与区分效度。与信度指标的报告类似，近5年（2016—2020年）仍有18篇文献未对量表效度进行任何说明（图2）。

2.2.6　如何选择量表结构效度的评估方法

量表结构效度的具体评估方法以探索性因子分析（Exploratory Factor Analysis， EFA）和验证性因子分析（Confirmatory Factor Analysis， CFA）最为常见。因子分析是用来简化变量结构、分析变量间群组关系以及寻找变量背后共同潜在因子的统计技术。如果对某个概念的因子结构没有事先的预期和认识，而是借助因子分析方法尝试构建该概念的因子结构，则适合使用EFA。相反，基于现有理论，如果某概念的因子结构已经确定，但要验证该因子结构与新的研究情境或新的研究样本数据是否吻合，则适合运用CFA。近年来，CFA已成为量表结构效度评估中不可或缺的重要方法。即便是运用EFA对量表的因子结构进行探索和构建，通常也需要借助另一批样本对量表的结构效度进行验证。在运用因子分析方法进行量表结构效度评估时，如下2个方面的问题常常困扰体育管理研究者。

（1）初始量表的题项来自哪里。EFA的前提是初始量表的研制，而初始量表中的题项从何而来呢？因为EFA是一种主要依赖数据驱动的因子分析技术，如果初始题项的来源没有可靠的理论依据和相对严谨的筛选过程，一些原本有效的重要题项可能会被随意删除。①对于存在研究基础的变量，初始量表的研制应基于既有的成熟理论或相关文献。例如，在构建中国职业赛事观赛动机量表时，可以基于马斯洛的需求层次理论以及国内外学者在观赛动机量表研究方面的相关文献，然后结合具体研究情境设计初始题项。②对于实证研究中的新变量，注重从经验资料中形成概念模型，进而形成初始量表。作为一种自下而上的研究方式，扎根理论是从资料中建立理论的特殊方法论，即源于质性资料分析的理论建构。在体育管理领域，扎根理论适用于对相关概念模型的探索性研究，从而为量表的设计提供重要基础。例如，在对篮球球迷的球队认同研究中，有研究运用扎根理论，通过开放式编码、主轴编码、选择性编码等程序，提炼出“篮球球迷球队认同概念与维度”这一核心范畴，并得到了包含身份认知、积极区分、情感投入和行为卷入等4个维度的篮球球迷球队认同概念模型，该模型的构建为编制球队认同量表，深入开展与球队认同相关的赛事消费多变量实证研究提供了坚实基础。③初始量表的研制应基于严谨科学的步骤与程序。初始量表的形成应通过专家效度检验和焦点小组访谈等方法进一步完善，完善后的初始量表应进行小范围预调查，评估量表的一致性信度和内容效度，进而形成正式量表。

（2）国外成熟量表如何本土化。有学者认为，在中国情境中开展量表的设计应着重考虑2个问题：①所要测量的概念是具有普适性还是具有情境特殊性；②选择使用国外文献中的成熟量表，还是基于中国情境研制新的量表。如果所要测量的概念具有跨情境的普适性，那就可以通过直接翻译或修改量表等方法设计本土化量表。在量表翻译过程中，研究者需考量和审视这些测量题项在本土研究情境中是否具有跨文化概念的对等性。例如，在赛事观众需求量表中，赛事吸引力（event attractiveness）是常见的观众需求因子，它通常包括主场球队（home team）和客场球队（opposing team）2个子因子。如果将该量表应用于国内职业团队型赛事（team sport），这些因子是完全适用的。但如果将该量表应用于不同性质或不同类型赛事观众需求量表的设计（如标志性赛事或商业表演性赛事），赛事吸引力因子中的主场球队与客场球队就无法适用，需根据赛事特点进行题项的调整或修改（如修改为“明星球员的出席”“明星球员的表现”等）。此外，量表翻译的方法通常推荐使用翻译—回译法（translation-back translation），即由一位翻译者将量表的英文表述翻译成中文，再由另一位翻译者将中文翻译成英文，然后比较回译后的英文与最初的英文是否清晰一致。值得注意的是，如果是首次引入和使用的成熟量表，无论是直接翻译还是对其进行修订，最终量表都需进行CFA；如果不是首次引入和使用的成熟量表，且该量表已被其他学者通过CFA验证了其结构效度，则无须再次进行CFA。本文文献样本的分析结果显示，在348篇文献中，共计72篇文献直接采用成熟量表，276篇文献采取自行设计方法研制量表。在自行设计量表的文献中，参考各类文献资料自主设计量表的有132篇文献，基于成熟量表并做适当修改的有129篇文献，在质性研究（扎根理论、深度访谈与调研等）基础上设计量表15篇（图3）。在采用成熟量表（72篇）的文献中，45篇（62.50%）文献报告了CFA的结果（其中，11篇文献中所使用的量表已由其他学者做过CFA，因此无须再进行CFA）；20篇（27.78%）文献未运用任何因子分析方法评估量表的结构效度；另有7篇（9.72%）文献仅报告了EFA的结果。而在自行设计量表的文献（276篇）中，仅有83篇（30.07%）文献同时报告了EFA和CFA的结果；156篇文献未报告CFA的结果；另有60篇文献甚至未采用任何因子分析方法验证量表的结构效度（表3）。

2.2.7　量表设计中的刻度是否精准

量表中的刻度是在对变量取值进行分类的基础上对每个类别数值的标记。刻度设置的科学性与否直接决定了概念内涵的精确程度，进而深刻影响量表的效度。本文以球队认同为例，说明量表刻度的精准性对量表效度的影响。由于球队认同涉及观众的内在心理感受，难以直接观测，学者们先后研制了各类球队认同量表，如有研究研制了包含7条观测题项的“赛事观众认同度量表”（Sport Spectator Identification Scale，SSIS）（表4），并被许多学者所采纳和使用。

James等指出了上述量表在刻度上存在的问题：混淆了“没有球队认同度”的观众和“低认同度”的观众。上述量表中7个测量题项的刻度均是1~8依次排列，研究者将观众在所有题项的得分进行加总平均：得分在1～3分的观众被界定为“低认同度”的观众；得分在4～5分的观众被界定为“中认同度”的观众；得分在6～8分的观众被界定为“高认同度”的观众。但那些在测量题项目上选择1分的观众本该被界定为“没有球队认同度”的观众，将这些观众与“低认同度”的观众混淆之后，量表本身的效度将大打折扣。为此，该研究进一步修正了赛事观众认同量表：①在正式量表之前，增加了1个球队认同度筛选题项，即“你认为自己是该球队的‘粉丝’吗？即便只是一点点？”如果观众回答“是”，则继续填答量表；如果观众回答“否”，则被界定为“没有球队认同度”的观众。②在正式量表中，对刻度的描述进行了修改：将7个观测题项最左边的刻度（最低球队认同的程度描述）修改为“有点重要”（a little important）、“有一点是”（slightly）、“有一些”（a little）、“有点不喜欢”（dislike a little）、“偶尔”（occasionally）。修改后的量表筛除了“没有球队认同度”的观众，避免使用该量表的研究者将“没有球队认同度”的观众与“低认同度”的观众混淆。需要指出的是，量表在刻度上的修正还需考虑所测变量的内涵和研究目的等因素，对变量内涵的理解与界定不同，量表的刻度设置也会不同。例如，如果研究者认为“没有球队认同”也是球队认同的一种表现形态，即球队认同的外延如果包括“没有球队认同”，甚至还包括“负面球队认同”，那么量表刻度的设置就需要重新考量。

2.2.8　共同方法变异带来的风险如何检验和控制

共同方法变异是指两个概念属性之间变异的重叠是因为使用了同类测量工具而导致，并非概念属性之间的真实关系。共同方法变异问题通常出现在使用自陈式测量量表的设计与验证过程中。这类研究在调查问卷中往往同时包含自变量和因变量，而且以单个问卷向同一群受试者采集数据。共同方法变异的产生主要来自受试者某些认知上的心理因素，诸如对信息诠释的一致性倾向、变量题项在分类上的误导、社会赞许动机、负面情绪、自尊心理等。由于共同方法变异会对量表效度产生严重影响，学界长期关注共同方法变异的问题本质、统计检验与控制方法等，并形成了有效的事前预防和事后补救手段。国内心理学界也以共同方法变异为研究对象，探讨了共同方法变异对心理学研究的影响与控制方法，一些心理学研究也报告了共同方法变异的检验与控制情况。

当前体育管理领域的实证研究大多运用自陈式量表，且在相同的测量环境下进行数据收集，因此同样存在共同方法变异问题。然而，我们很少能在体育管理研究文献中看到对共同方法变异问题的检验与控制报告，甚至有的研究者根本还没意识到这个问题，这在很大程度上影响了体育管理实证研究的科学性。本文文献样本分析结果显示，仅有22篇（6.32%）文献样本关注到了共同方法变异问题，多达326篇（93.68%）文献样本未报告共同方法变异问题（表5）。虽然部分学者在问卷中加入反向题项来提高调查结果的准确性，却未阐明该研究对共同方法变异问题的控制或检验。为此，笔者建议：①首先考虑通过优化研究设计尽量消除共同方法变异的来源，也称为“事先控制”。例如，采用隔离式资料搜集法（受访时间隔离、心理隔离等）或量表题项的特殊处理法（题项意义隐匿法、题项随机配置法、反向题项设置法等）。②如因客观条件限制无法通过优化研究设计实施或消除共同方法变异问题，则应考虑采用统计方法对其进行检验和控制，也称为“事后检验与控制”。

量表的测量指标与评价指标之间的关系

在体育管理领域，经常需要对某类事物或某些方案进行评价。例如：要对体育彩票公益金的资助效益进行评价，了解体育彩票公益金的使用效果究竟如何；要对某项体育发展政策文件的落实情况进行评价，了解该政策的引导效果究竟如何。在通常情况下，这些评价的对象都是较为复杂的，涉及的评价维度并不单一，评价的层级和指标的选取也应遵循一定的原则和科学步骤。评价本身就包含了目的性，即通过评价达到对评价对象的认知。该认知通常包括“好与坏”“优与劣”等价值判断，进而为管理决策的制订提供依据。有研究构建了包括5个二级指标、13个三级指标的新时代体育强省评价指标体系，并通过综合评价对长江经济带11省市体育强省的评价结果由高到低进行排序，从而进行省市之间强与弱的价值判断。另有研究采用德尔菲法构建了基本公共体育服务的评价指标体系。而量表则是一种测量工具，其测量结果旨在近似反映某一概念的内涵，或该概念的属性究竟处于哪一种“状态”。就量表自身而言，即便这一概念属性属于人的认知和心理特质等主观范畴，研制量表也不是为了进行价值判断，而是希望测量指标能客观地反映概念的属性。依据“状态”的性质不同，对测量结果进行排序可能有实际意义（如对赛事服务满意度量表的测量结果进行排序，有高满意度和低满意度之分），也可能没有实际意义，而仅就测量结果进行分类（如对心理测评量表的测量结果进行分类，有多血质、胆汁质、黏液质和抑郁质之分）。

在本文的文献样本（348篇）之外，共计40篇文献运用量表设计的思路和方法开展评价指标体系研究。运用量表形式开展评价研究至少存在如下问题值得商榷：从反映性指标与形成性指标的角度看，绝大多数评价研究所涉及的指标类型均为形成性指标。评价研究的目的是通过对这些形成性指标的量度综合测算被评价对象的综合分值，即评价指标的分值影响被评价对象的分值。绝大多数量表的测量指标都是反映性指标，量表设计的逻辑则是用这些测量指标反映被评价对象，即被评价对象的高低（或优劣）影响各测量指标的分值。如果研究者不仔细辨别量表设计与评价研究之间在逻辑思路上的差异，以及测量指标与评价指标之间在内涵上的差异，可能会导致量表与评价在研究中的混用。例如，有学者在对“城市体育形象”进行评价研究时，运用二阶CFA研制了包括城市社会体育形象、城市竞技体育形象和城市体育产业形象等3个子维度、每个子维度包含若干观测指标的评价量表。以“城市社会体育形象”为例，该因子包含“居民体育参与”“体育场地设施”“体育活动经费”等8个观测指标。从评价的角度看，“居民体育参与”作为“城市社会体育形象”的一个二级评价指标会影响“城市社会体育形象”，即“居民体育参与”是“因”，“城市社会体育形象”是“果”；但从量表的角度看，如果“居民体育参与”是“城市社会体育形象”的一个反映性观测指标，则“城市社会体育形象”会影响“居民体育参与”，即“城市社会体育形象”是“因”，“居民体育参与”是“果”。因此，在评价指标与被评价对象的关系上，“量表”与“评价”的逻辑思路正好相反，使用量表对被评价对象进行测量通常偏离了评价研究的最初目标。因此，本文不建议体育管理研究者运用量表研制的方法开展评价类研究。

结束语

量表的合理应用是体育管理实证研究的重要基础，对多变量实证研究的可靠性与有效性有重要影响。本文以国内体育管理实证研究中的量表应用为研究对象，基于对348篇文献样本的整理、归纳和分析，探讨上述文献在量表应用过程中存在的常见问题，为提升国内体育管理实证研究中量表应用的科学性与规范性提供参考。本文侧重聚焦量表信度与问卷信度的差异、单维度与多维度量表的信度评估差异、量表的信度与效度报告内容、量表中的刻度、共同方法变异、反映性指标与形成性指标、运用量表设计进行评价研究的适用性等常见问题。虽然本文对上述常见问题进行了剖析，但每类问题均有深入探究的必要性，量表研制和应用过程中的上述常见问题仍有待学者进行深层次的分析与讨论。

本文刊于《上海体育学院学报》2021年第11期。为方便阅读，此处删去原文注释，如果其他媒体或机构转载，请标明文章出处。

往期目次：

上海体育学院学报

长按扫码关注我们

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

当下实证研究中量表应用存在哪些误区？如何纠正？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

​当下实证研究中量表应用存在哪些误区？如何纠正？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

当下实证研究中量表应用存在哪些误区？如何纠正？