刘西川: 变量及指标选取应该注意的几个方面
击上方⬆️ “刘西川阅读写作课” 添加关注”
实证分析的核心是对假说的检验,检验假说依靠的工具主要是数据和计量模型。假说是对某种因果机理或机制的概括,它一般由两个变量组成,一个是因变量,另一个是自变量。从时间顺序来看,两个变量组成的关系是单向因果关系。实证分析就是,针对某个由自变量和因变量组成的假说,选取能表征这两个变量的具体指标并利用合适的数据和计量模型对这两个变量的因果关系进行估计和推断(当然,在实际操作中,研究者还会选择一些控制变量及其表征指标)。由此来看,能否选出合适和有效的指标来表征所要考察的因变量、自变量就至关重要了。
通常,文章中的变量及指标选取部分至少要做到:(1)依次交代因变量、自变量和控制变量的具体名称及含义,其中最重要的是因变量,这个常常被忽视了。(2)交代与因变量、自变量及控制变量相对应的指标,这些指标在所使用的数据中都是可观察的、可量化的。无论是变量还是指标,都需要给出其选择的依据,比如引用已有研究文献来做支撑。(3)要写出一种设计感,即为了检验因变量与自变量的因果关系,借助控制变量、计量模型和相关数据来做“实验”,检验所提出的假说。(4)要写出挑选感,即变量和指标都是选出来的,是在众多方案中挑选了与本研究最匹配的变量及指标。
除了上述经验性要求之外,在变量及指标选取方面还应该注意以下方面。
第一、指标与变量在含义上是否一致。如果选择表征变量的指标与变量的含义相去甚远,那么用这样的指标及其信息“拟合”出来的“估计图景”就很难揭示数据的真实状况,自然也就难以作为推断因果关系的经验证据了。
举例1a:以农户正规信贷需求行为实证研究为例,因变量是农户正规信贷需求。在考察某样本农户某年的正规信贷需求行为时,如果选择的指标是该年期间样本农户获得的正规信贷金额,则该指标存在的问题是:正规信贷金额不等于正规信贷需求。在市场失灵的情况下,有一部分农户的正规信贷需求因为受到抑制或隐藏而未能表现为“实际贷款额”;而且,即使有些农户获得了贷款额,仍有可能存在其正规信贷需求只得到部分满足的情形。
举例1b:以供应链金融缓解中小企业信贷约束研究为例,两个变量:自变量为供应链金融,因变量为中小企业信贷约束。暂且不考虑因变量以及自变量的内生性问题等,这里重点讨论表征自变量的指标选取问题。有人用样本中小企业的应收账款、应付账款作为指标来表征供应链金融,这显然与供应链金融不是一个意思。能表征供应链金融的指标至少应该是中小企业通过供应链金融模式实际获得的贷款金额等。
第二、变量要有“变化性”。计量实证分析是从变量以及变量之间关系的变化中探寻和揭示规律。倘若表征某个自变量的指标没有变化,或者说,针对全部样本观察对象或一部分样本观察对象而言,该指标都是一样的。在这种情况下,则无法利用计量模型捕捉、估计该自变量对因变量的影响或冲击。
举例2a:以农业供给侧改革对农户生产经营行为的影响研究为例,其中自变量是“农业供给侧改革”,表征它的指标是是否实施了农业供给侧改革,比如用政策实施年份为时间哑变量,那么针对样本农户而言,这个指标对所有样本户都是一样的,没有区别。甚至可以这样讲,这样的选题一开始就是错误的。
第三、分析层次一致性。这种分析层次一致性主要是针对所考察的因变量和自变量而言,要求表征它们的指标在同一个层次。如果一个指标是加总的,而另一个指标是个体层次的。则从本质上讲,这两个指标所代表的变量不是针对同一个对象的。
举例3a:以互联网金融发展水平对农户贫困状态的影响研究为例,其中自变量是农户的互联网金融发展水平,因变量是农户的贫困状态。针对每个样本农户而言,其贫困状态可以测量,但是其互联网金融发展水平却难以测量,通常都是用样本地区的互联网金融发展指数做代理指标。显然,这个指数是加总之后的,并不能完全有效地表征单个样本农户的互联网金融发展水平。
第四、主观性与客观性。通常,微观计量分析关注的对象主要是人的经济行为,估计和识别的也是人的经济行为。一般情况下,假设中的自变量是与因变量相关联的某种行为变量或态度变量,而不是人口学变量(也称为个人背景变量,如性别、年龄、文化程度、婚姻状况等)或环境变量。也就是说,研究者一般不太关注人口学变量或环境变量对因变量的影响或冲击,因为这些并不是所考察的当事人所能改变得了的。从这个角度来讲,在实证分析中对控制变量估计结果的解读不宜作为考察和讨论的重点。
/ 文心雕龙 /
———