查看原文
其他

统计分析常见误区系列之— —控制变量

荷兰心理统计联盟 荷兰心理统计联盟 2023-02-03

很多研究在多项回归分析时候加入控制变量,理由往往是发现该变量与结果变量相关,或者是因为之前研究控制了,有的甚至没有交代为什么加控制变量。虽然初衷是能够得到变量之间更“纯粹”的关系,然而很难说盲目加入控制变量会让结果糟糕还是更糟糕。然后,我们就有了四个问题:

·  我们到底要不要加控制变量?

·  在何种情形下才需要加控制变量?

·  控制变量如何控制?

·  控制变量分析结果的报告?

 

1  控制变量要不要加?其背后所谓纯粹原则为什么会导致错误推断?


The Problem With the Purification Principle

控制变量背后的逻辑往往是所谓的“纯粹原则”,这一观点如此普遍,早已为大众熟知接纳,以至于成了所谓“urban legend”, 即一些我们大家熟知并且接纳,而不去质疑其是否正确有效的做法,因其使用太过普遍 (Spectr & Brannick, 2011)。


The implicit belief that statistical controls can yield more accurate estimates of relationships among variables of interest, which we will call the “purification principle”is so widespread, and is so accepted in practice, that we argue it qualifies as a methodological urban legend—something accepted without question because researchers and reviewers of their work have seen it used so often that they do not question the validity of the approach (Spector & Brannick, 2011).

 

但是随着现在越来越多的审稿人要求,研究者去Justify为何使用控制变量。所以,一些好期刊的文章都会进行对控制变量的合理性进行解释。


然而,Atinc和Simmering(2008)对于控制变量相关处理的综述文章中,发现很多研究并未提供证据去支持为何加入控制变量。


2005年Becker的一篇文章提到了20篇文章相关控制变量的使用期刊


(Becker, 2005)


Atinc and Simmering (2008) found thatthe majority of papers in their review of the literature did not provide citations to support the inclusion of one or more control variables. These findings clearly show that in most cases, authors fail to make a compelling case for inclusion of control variables in their analyses, and in many cases they may be relying on the purification principle.


在2008年Atinc和Simmering分析的24篇文章中,有16篇解释了为何纳入控制变量,具体如下:


 

可以看出,绝大多数的这些表述暗示控制变量和研究变量之间存在因果联系,同时也表达了研究者对于控制变量影响的不确定性,比如通常使用一些字眼如"或许、也许、有可能等"……然而,绝大多数情况下,并未有证据表明控制变量确实存在其建议的影响(Spector & Brannick, 2011)。

 

1.1  控制变量对结果变量的影响

控制变量对结果变量的影响存在以下几种可能(见图1):

Contamination. Contamination occurs when a third (control) variable (C) influences the observed measures of interest (X and Y). C does not affect the underlying constructs but only the measures of them. This possibility is illustrated inFigure 1a.


当第三变量C影响了观测变量的测量,这时候C的存在污染了研究结果。


For example, suppose we wish to determine if the relationship between self rported job satisfaction and jobperformance might be contaminated by the personality variable of neuroticism.

还有可能的情形是,C只影响X或者Y,见图1.


Of course, a control variable can contaminate only X or only Y rather than both. This is illustrated in Figure 1b and c, showing that C can contaminate only one variable.



图1 (Spector & Brannick, 2011)

 

2  如何加控制变量?

2.1  控制变量的使用

Meehl (1971),for example, noted that he had little advice to provide to researchers, other than at least to report results with and without controls.


Meehl (1971)指出如果加控制变量,一定要报告加入控制变量前后对于有研究结果的影响。


这一观点,在2011年一篇发表于心理科学(Psychology Science)关于“假阳性”(false-positive psychology) 结果的文章中也有提到, 其中一个可能导致假阳性结果的因素就是使用控制变量(Simmons, Nelson, & Simonsohn, 2011)。


如果你是作者请分析报告是否加入控制变量(covariate)对于结果的影响,如果你是审稿人也应该要求作者进行报告。



一些例子发表在JAP 文章:

 

(Liao, Yam, Johnson, Liu, & Song,2018)

 

2.2   恰当的使用控制变量

我们要提醒的不是是否使用控制变量,而是恰当的使用控制变量。


Spector和Brannick在其2011年的文章提了2个建议:其一是明确说明所有变量之间如何影响,以及提供证据。尤其要基于相关理论(Breaugh, 2008)。其二是关于使用人口学变量作为控制变量。也应该注意。


We make two specific recommendations. First, researchers should be explicit about the hypothesized role for allvariables in an analysis and have evidence upon which to base their suppositions. Second, we echo Meehl’s (1971) concern about the misuse of demographic variables, but go a step farther in suggesting that we rethink theuse of demographics in the first place.

 

在2012年Organizational Research Methods 又发了另外一篇文章解读关于如何恰当使用控制变量:(Carlson & Wu, 2012):The Illusion of Statistical Control: Control Variable Practice in Management Research. 他们提出了七个具体建议:

 


(Carlson & Wu, 2012)


1.建议一:保守地使用控制变量
增加控制变量并不能使研究更加严谨。除非有非常合理的理由要纳入一个特定的控制变量才能实现一个明确而有意义的统计控制目标,否则添加控制变量的研究可能会混淆而不是增强对结果的解释。如有疑问,请将其排除在外。
 
2.建议二:提供一份完整的CV方法报告(Becker,2005)
描述使用控制变量的目的。确定要包括的控制变量,明确解释其理由以及预期的统计控制目标。应避免模棱两可的理由。
 
3.建议三:使方法/分析与目的保持一致
使控制变量的选择,相关的分析以及结果的报告和解释与预定目的相匹配。当控制变量的效果对结果产生有意义的影响时,请报告带有或不带有控制变量的结果(Becker,2005)。

4.建议四:报告研究设计中包含的所有CV的数据(Becker,2005)
报告控制变量的平均值,标准偏差,信度(如果适用)以及与所有其它变量的相关系数。即使这些分析未包括在内。
 
5. 建议五:在进行数据分析之前,先检查控制变量的相关系数
在进行分析之前,请检查所有变量之间的相关性,以突出显示可能影响结果的控制变量相关性,作为对结果中潜在异常的预警,并删除不会产生影响的控制变量。
 
6.建议六:确保统计分析与假设匹配(Spector& Brannick,2011)
如果假设陈述表明变量X和变量Y之间存在关系,但未提及控制变量,则用于检验假设的统计分析是不应该纳入控制变量。


实证例子:


(Mitchell, Baer, Ambrose,Folger, & Palmer, 2018)


Because these demographic variables did not affect our hypothesized relationships, we followed suggested procedures and did not include them in our final analyses (T. Becker, 2005; Carlson &Wu, 2012).

 

7. 建议七:区分多水平模型分析中的理论控制变量和伪造控制变量 
区分提供理论依据的控制变量和伪造控制变量(例如公司规模、性别、行业、公司等)变量,后者可能与结果变量存在相关,但没有提供为何存在关联的解释。从理论上讲,有意义的变量(控制变量和独立变量)应首先获得解释结果差异的机会,因为它们提供了理论解释。其它artifcact 控制变量应最后考虑纳入。

 

参考文献

Becker, T. E. (2005).Potential problems in the statistical control of variables in organizationalresearch: A qualitative analysis with recommendations. OrganizationalResearch Methods8(3), 274–289.https://doi.org/10.1177/1094428105278021
Breaugh, J. A. (2008).Important considerations in using statistical procedures to control fornuisance variables in non-experimental studies. Human Resource ManagementReview18(4), 282–293. https://doi.org/10.1016/j.hrmr.2008.03.001
Carlson, K. D., &Wu, J. (2012). The Illusion of Statistical Control: Control Variable Practicein Management Research. Organizational Research Methods15(3),413–435. https://doi.org/10.1177/1094428111428817
Liao, Z., Yam, K. C.,Johnson, R. E., Liu, W., & Song, Z. (2018). Cleansing My Abuse: AReparative Response Model of Perpetrating Abusive Supervisor Behavior. Journalof Applied Psychology. https://doi.org/10.1037/apl0000319
Mitchell, M. S., Baer,M. D., Ambrose, M. L., Folger, R., & Palmer, N. F. (2018). Cheating underpressure: A self-protection model of workplace cheating behavior. Journal ofApplied Psychology103(1), 54–73.https://doi.org/10.1037/apl0000254
Simmons, J. P.,Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology:Undisclosed flexibility in data collection and analysis allows presentinganything as significant. Psychological Science22(11),1359–1366. https://doi.org/10.1177/0956797611417632
Spector, P. E., &Brannick, M. T. (2011). Methodological urban legends: The misuse of statisticalcontrol variables. Organizational Research Methods14(2),287–305. https://doi.org/10.1177/1094428110369842

 

因为之前有读者建议出一些关于常见统计问题的系列,所以我们考虑逐渐出一些讲解大家常遇到的统计问题,比如:控制变量,样本量,缺失值等等。 


大家如果有不清楚的地方也可以留言,我们会陆续整理推送相关资料。


关于作者
李培凯,就读于荷兰乌特勒支大学,博士生在读,研究兴趣集中于员工对于工作压力的评估,及复杂统计方法在工业组织心理学领域应用。尤其对于Leadership相关的元分析比较感兴趣。如果你有好的idea或主题与Leadership相关的元分析或者实证,欢迎合作。个人邮箱p.li@uu.li。如果是公众号相关事宜请联系uunotebook@163.com


往期推送

重磅|20万字英文学术写作句库笔记正式发布

系统性文献综述&元分析数据分析及报告的29个建议

2019年荷兰心理统计联盟推文合集

用时间创造最大价值 | 张燕老师与她的矛盾型领导研究

博士(僧)的九九八十一难--Burnout基础篇

R语言和Jspsych编写本地和在线心理学实验和问卷教程


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存