查看原文
其他

统计计量 | “控制变量”不显著,是不是要剔除?

数据Seminar 2022-12-31

The following article is from 经管定量笔记 Author 杯中鸟911


本文转载自公众号经管定量笔记

控制变量不显著,要剔除吗?在实证研究中,回归分析模型的建立除了需要关注因变量和自变量之外,我们还得重点关注一下控制变量对因变量的影响关系,有关控制变量的作用和设计思路的重要性,我们在前期的推文中已经有所说明。
但是,在日常的学术工作中,不少学术同仁,尤其是那些处于学术初期阶段的学生,由于注重控制变量的重要性,他们十分关注和重视控制变量对因变量的显著性影响,即控制变量的系数显不显著的问题。由于控制变量作为模型设计中的重要参与者,我们期待控制变量的系数是通过显著性检验的,但如果他们的不显著,这类状况很容易让人揪心!
或者,为什么在别人论文的模型中这个控制变量是显著的,而在我的研究回归模型中却不显著,这是为什么呢?如果显著的话,当然你会很高兴,但如果不显著,这个控制变量需不需要被剔除掉呢?类似地,近期就有粉丝朋友发帖问道:“请问控制变量不显著,需要把控制变量删除吗?”显然,这位粉丝朋友很重视自己的研究,关心自己设计是否有问题,这是非常谨慎的态度。
但是,我们不得不承认一个现实情况:一个正常的实证分析模型不可能让所有的变量都能通过显著性检验的,如果要做到这种程度,你的研究设计可能会丢失一些重要的信息,譬如有些变量很重要,但不能因其不显著而将其剔除,否则审稿人会认为你没有做到位、设计的模型不够全面完美。
为此,一般而言,一个实证回归分析模型中有两三个控制变量不显著,也是正常的现象,不要期待所有的变量都是显著的,也不要因为某个变量不显著而闹心,它只是数据处理过程中的一个常见现象,可能受到样本分布、模型设计等多重因素的影响导致的。
当然,我们也想知道的是,如果控制变量不显著,会不会是什么原因造成的呢?我个人认为,控制变量不显著的原因可能是多样性的,有主观的也有客观,也包括你的操作方法是否正确。一般而言,控制变量不显著的可能性原因,主要体现在两个方面。

一是客观原因,但需要保持目前模型设计的现状。

首先,一个情况是在某个样本分布中,这个控制变量可能真没对因变量造成影响。也就是说,在确定的样本分布范围内,这两个变量之间的确没有显著的影响关系,控制变量并没有对因变量造成很显著的影响,所以在后续的回归分析中未能通过显著性检验。但是,在常规的情景下,考虑到这个变量的确是影响因变量的重要因素,所以这个控制变量即使不显著,也要被保留在模型中,可以说这是模型设计的基本原则。
其次,控制变量不显著,可能是样本分布异质性造成的。换言之,在总样本分布下,由于不同样本(如行业、企业或地区)的异质性问题,控制变量在总样本中对因变量的影响可能被平滑掉了,如果通过分样本进行检验,也许就会发现在某类样本中控制变量的系数是显著的。当然,由此带来的这类分样本检验,也能为深入分析因果关系带来更为精彩的内容或成果。所以,在看待控制变量系数不显著的问题上,以上这点也是我们需要关注的地方。

二是主观原因,因此需要重新斟酌考虑模型设计的合理性及其可能存在的潜在问题。

首先,度量方法设计错误导致的。控制变量不显著,可能是现有控制变量的度量方法错误导致的,即你的控制变量定义界定和度量有误,譬如某个变量用相对或绝对的连续变量来度量的,而你却用哑变量来设计操作;或者用相对数替代了绝对数,从而产生了与别人与众不同的结论。遇到这种情况的误区,需要你重新调整设计思路,并用文献资料加以考证。
其次,数据来源的噪音污染导致的。这个数据噪音污染情况,主要是数据统计摘录有错误,这可能主要存在手工整理或者调研数据中,一般的发型商业数据库不会存在重大数据错误。大家都知道,数据库是实证研究的基础,如果样本数据有误,自然变量的分析结果的可信度就不高,控制变量的系数就难以通过显著性检验。遇到这类情况,需要重审数据库的质量个可信度,保证数据资源的质量后再考察控制变量的显著性。
最后,回归分析方法存在错误导致的。不同的分析方法,适用于不同样本分布情况,从而会导致不同的回归分析结果。譬如,OLS模型和TOBIT模型,在这两种分析模型下变量的分析结果可能会存在不一样的显著性结果。此外,控制变量与因变量之间到底存在什么关系,是简单的线性关系还是倒U或U型关系?这都关系到作者的设计思路正确与否的问题。
当然,在计量分析中,我们还可能需要删除控制变量的情景,如由多重共线性问题情况下进行的逐步回归法。多重共线性问题,在考察模型是否存在多重共线性问题时,由于某些变量的共同存在使得在解释模型信息存在重合的问题,为此在回归分析时需要将他剔除。逐步回归法,需要将那些不显著的变量从模型中剔除掉,即逐步回归分析法是将变量逐个引入模型,每引入一个解释变量后都要进行检验,并对已经选入的解释变量逐个进行检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量的方法。言外之意,逐步回归法是解决多重共线性问题的一个思路。
最后,笔者建议大家在学习实证研究方法时,在阅读和学习别人文章思想的同时,还应该多注意别人文章的研究范式,搞清楚和总结好如何去进行实证分析和操作。




星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


软件应用 | 如何用Stata绘制带指向性箭头标注的图像

统计计量 | 经典计量经济学教材推荐(含链接)

数据资源 | 人文社科开放数据库汇总(含文献链接)

数据可视化 | 造假防忽悠指南

数据治理 | 多人协同处理数据担心不安全?学会这一招,轻松管理你的数据团队

数据资源 | 收藏!数据资源下载网址大全

数据可视化 | 惊艳全球数据行业的15个例子






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存