空间计量经济学最新进展和理论框架,comprehensive track
空间计量经济学自20世纪70年代产生以来,在经济学理论和应用研究方面产生的作用越来越为重要。国内现有文献综述集中于对空间计量经济学基本体系的总结和评价,显著缺乏相关领域的最新进展动态追踪。本文试图在这一方面展开深度研究,以弥补国内已有相关研究的不足。在充分收集文献资料的基础上,本文对空间计量经济学模型设定理论及其新进展进行了较为系统的挖掘分析,总结和评价了空间计量经济学近年来理论上所取得的新成果,展望了其前景方向。
(作者周建,高静,周杨雯倩,上海财经大学经济学院)
1974年5月,在荷兰统计协会年度会议上,Paelinck提出建立一个计量经济学的分支。作为区域和城市计量经济学模型的方法论基础,Paelinck和Kaassen在1979年提出了空间计量经济学(spatial econometrics),但是并没有给出明确的定义,而是给出了空间计量模型未来形成和发展的五个准则,包括:空间依赖性、空间关系非对称性、空间距离解释变量、对事前和事后的交互作用进行区分、空间模型中在显示模型中包含空间(拓扑)因素。这些规则表明了在空间模型中变量实际表示的重要性,如距离衰减函数、空间布局等;同时也说明了空间序列和时间序列的区别主要是由于空间交互效应引起的相互影响和同时作用效应。
近年来我国已有学者开始关注空间计量经济学领域,有一些基本的文献综述。就从文献综述的研究内容来看,相关文献综述已对空间计量经济学的基本体系进行了一定程度的总结,如王立平等(2007)、杨开忠等(2009)、陈建先等(2011)、向永辉(2014)、孙久文和姚鹏(2014)均对空间线性模型的基本形式进行了介绍,主要包括空间滞后模型(SLM)和空间误差模型(SEM),其中王立平等(2007)、杨开忠等(2009)、向永辉(2014)还对空间权重及其设定做了说明,同时在估计方法中阐述了最大似然法成为主流方法的必然性,以及未来GMM估计法的重要性;姜磊和柏玲(2014)对空间面板模型的发展进行了描述;现有文献中还对空间相关性检验方面介绍了一些基本的Moran's I检验以及LM检验统计量等。目前我国对于空间计量经济学的研究还远不够,已有文献集中于空间计量经济学的基本体系介绍,显著缺乏相关领域的最新前瞻性进展动态追踪。本文试图在这一方面展开深度研究,弥补国内已有研究的不足,同时为进一步提升国内空间计量经济学的研究水平等提供新的依据和方向。
本文下面的结构安排为:第1部分总结已有计量模型的基本体系及其架构,从模型背景、模型设定以及横向比较等方面来分别介绍现有基本体系中五种常见的空间模型;第2部分,在第1部分基本模型体系基础上,从样本数据、因变量特征、模型形式、计算技术等方面总结了空间计量经济学模型设定理论的新近发展;第3部分在第2部分的基础上进一步对空间计量经济学新发展中所面临的问题及其挑战进行了一定程度的归纳和总结,并对其发展前景和方向进行了适度展望。
1 空间计量模型基本体系及其架构
空间分析是为了研究“空间问题”。由于现实世界的各种现象事实上是由典型的内在规律或相依模式而形成,并非仅仅满足理想状态的完全独立随机性,从而导致了所有事物都普遍具有关联性特征。在空间计量经济学的基本模型体系中,涉及两大重要因素:空间关联和模型设定。由于空间关联,导致了经典传统计量经济学模型样本点不再满足独立同分布的古典假设,因此,如何分析和研究空间关联就成为空间计量经济学的起点和初衷。在空间计量表达中,空间关联具体是通过空间矩阵来体现的。
1.1 空间邻居和空间权重矩阵
空间数据样本表示与点或区域相关的观测值,并且这些观测值在所设定的参照系下有确定的坐标值。通常有四种类型的数据样本,分别是点样本、线样本、面样本或多边形样本,以及网格样本。通常关注第三种数据,假定空间数据在每个区域、每个时间点内有一个观测值,由此形成了空间横截面。样本数据在区位上的量化是研究中首先要考虑的问题。除空间距离外,区位信息也可以反映相邻关系,对相邻关系的测量是基于观测值在地图上的大小和形状来进行的,通常相邻的单元相对于距离远的空间单元会表现出更强的空间依赖性。
为了度量区域之间的空间距离,空间计量模型中首先引入空间权重矩阵(spatial weighting matrix)。空间权重矩阵可以被看作是空间计量经济学的核心。现有一般性空间模型通过空间权重矩阵定义了空间单元的交互关系的强度,用作度量空间单元彼此间的相邻关系,现有文献中大多假设空间权重矩阵是外生的。在实际应用中,通常对空间权重矩阵
1.2 空间计量模型基本体系及其架构
总体上看,现有空间计量经济学体系中最基本的模型为
(1)空间自回归模型(spatial auto regression,SAR)
空间计量经济学中最常见的是由Cliff and Ord(1973)提出的SAR模型。在现实经济问题中为什么会出现SAR模型?这是由于现代经济模型中考虑了代理人的策略行为。一般而言,代理人在他们的行为选择中往往具有较强的相互依赖性,比如厂商在定价时是会考虑到邻居的策略行为的。因此从微观博弈机制角度来看,若某一微观个体观测值是其他微观个体观测值的反应函数或者反应变量时,那么空间相关性就必然存在。空间自回归模型正是基本地反映了这种微观个体的相关性特征从而得到了发展。
SAR过程表示为:
(2)混合回归—空间自回归模型(mixed regressive spatial autoregressive,MRSAR)
在SAR模型的基础上扩展加入外生变量时,模型称为混合回归-空间自回归模型,也可被简单地称为SAR模型,模型设定形式如下:
(3)空间误差模型(spatial error model,SEM)
空间误差模型主要目的是为了解决包含遗漏变量所带来的偏误。空间依赖性不仅可以通过因变量和外生解释变量来反映,也可以通过随机扰动项来体现,即用扰动项来刻画空间关系。SEM表示为:
(4)空间杜宾模型(spatial durbin model,SDM)
在时间序列模型中,解释变量通常存在滞后形式,同样解释变量在空间上也可以滞后形式体现,即空间依赖性不仅可以用被解释变量表示,也可以体现在解释变量上,它的经济学含义是空间单元不仅受到自身相关解释变量的影响,也受到邻居相关解释变量的影响。例如,考虑从相邻地区对本地区通勤时间的影响来决定影响通勤时间的各项因素(即解释变量
(5)带有SAR扰动项的MRSAR模型
将MRSAR和SEM模型结合,即在空间扰动项的设定中考虑一阶自回归的形式,则可得到带有SAR空间扰动项的SAR模型,即SAC模型,其设定形式为:
针对上述普通的模型,Anselin(1986,1988)提出了空间计量模型的最大似然估计法。除此之外,Kelejian and Prucha(1999,2002,2004)将Amemiya(1974)讨论的非线性2SLS方法应用到空间模型中,提出了空间计量经济学模型的2SLS估计量,并证明了它是渐进正态一致估计量。相比于ML估计量,2SLS估计量的最大优势是其性质不受样本数量和误差分布假设的限制。Lee(2007a,2007b)和Liu等(2010)扩展了MOM估计量,提出了GMM估计量,最优GMM估计量是一个渐进正态一致估计量,且有着与最大似然估计法或拟最大似然估计法估计量相同的极限分布。
2 空间基本计量模型的延伸和拓展:新进展
此节着重讨论空间计量模型的新近发展。21世纪以来,在基本体系及其框架基础上,空间计量经济学模型设论出现了若干新动向,从样本数据、因变量特征、模型形式以及估计技术方法等方面产生了一些具有标志性的研究成果。为了较为清晰地描述空间计量经济学的基本体系和新进展,本文构建了图1进行分析。下面依据图1的发展脉络详细阐述说明。
2.1 拓展Ⅰ:样本形式由截面数据扩展到面板数据形成空间面板数据模型
现阶段空间计量经济学对于数据的研究不再局限于传统的截面数据和时序数据,面板数据在其中有了很大的发展空间和研究价值,使得相关研究在数据方面有了更多的自由性,在模型的设定方面相比传统单一的截面数据等更为有效。从经济政策的惯性机制来讲,面板数据还可以比截面数据更好地研究经济个体行为理论的动态调整,从而对研究经济状态的持续性具有更大的优势,更好地识别和测量各种经济效应,并且构造和测试更加复杂的行为模型。
作为空间面板数据模型而言,其不足之处也是存在的:一方面,有时对于某些现实计量经济学的微观面板数据收集比较困难,虽有理论上的优势,但现实中却无法实行;另一方面,面板数据可能存在测量误差以及选择性问题,就会引入内生性问题或其他偏差。在样本数据拓展过程中,距离以及区位的影响可能在很大程度上造成数据和特定的地理位置有依赖性和关联性,使得模型设定出现复杂性;其次,由于地理空间的差异可能会导致模型参数也随之发生改变而引入系统性检验。虽然对于面板数据模型而言,可以通过随机变系数模型来研究类似问题,但是对于空间面板数据模型,由于涉及空间矩阵等相关变量,那么如何更加有效地研究这些问题,目前尚未看到权威性的系统研究成果。这些问题的存在,对于空间面板数据模型的理论和应用研究也带来了一定的障碍。
空间面板模型相对于传统面板数据模型最大的特征即是考虑了空间交互效应。Elhorst(2014)将空间面板的三种不同的空间交互效应阐述为因变量之间的内生性交互效应、自变量与因变量之间的外生性交互效应、误差项之间的交互效应,分别对应为经典空间模型中空间自回归模型(SAR)、空间杜宾模型(SDM)、空间误差模型(SEM)。若两两结合,则均可以在空间计量模型的基本模型体系中找到与之相对应的形式。对于空间面板数据,在模型形式上可以划分为静态空间面板数据模型和动态面板数据模型。
(1)静态空间面板数据模型
对于模型具体形式的选择,可以从样本的形式和统计检验两方面来进行判断。若样本几乎是全部总体,那么通常以样本自身为条件进行推断,往往设定为固定效应模型;从统计检验判断方面,Elhorst(2014)依据面板模型的Hausman检验发展了空间的Hausman检验,原假设为空间面板固定效应模型估计的参数等于随机效应模型估计的参数,由此构建服从卡方分布的统计量,若拒绝原假设,则采用固定效应。此外,相关效应检验的文献中,Beenstock and Felsenstein(2007)还曾经指出过原则上应该默认设定为随机效应模型,因为通常感兴趣的是有关总体的无条件推断,并且固定效应模型会导致损失大量的自由度。但是在实际应用中,空间面板的随机效应设定往往和现实不一致。由于所研究的样本是完整区域里的相邻空间单元的时空数据,这包括了几乎所有的样本,因此,固定效应模型更为合适。虽然在实际应用中通常建立固定效应模型,但是固定效应模型也有相应的问题,主要表现在它会受到样本容量的限制,其只有在时间长度T很大时,才能得到一致性参数估计量,但是在实际应用中这个条件并不容易满足。
a.模型的固定效应设定
当直接对固定效应进行估计时,采用最大似然(ML)估计方法联合估计所有参数,但是当时间长度是有限时,方差的估计值是非一致的,对个体效应的估计也是如此。为了克服这一缺陷,文献中也采用模型变换的方法来进行相关参数估计。其基本思路是在进行最大似然估计前先消除个体效应,即对每个方程去掉时间均值,此变换过程类似于一般固定效应面板模型中消除组间差异的过程。基于扰动项的正态性假设,Lee and Yu(2010b)证明了当n或者T具有大样本性质时,变化后通过似然函数最大化得到的所有估计量都是一致的。和直接对固定效应进行估计的方法相比,两者对参数的估计都是一致的,但是所使用的样本量有差异,直接估计所使用的时间长度为T,但是差分变换后时间长度为T-1。
以上是个体之间不相关的估计情况。现实中,在模型设定时,个体之间的独立性并不总是成立。由于各种经济变量中溢出效应或者竞争关系广泛存在,截面个体不相关的假设过于严格,尽管截面相关性不会对变量估计的一致性有太大的影响,但是它会使区间估计以及假设检验失效。为了在模型中包含相关效应,Robinson and Rossi(2015)又进一步针对固定效应模型中的横界面相关情形进行了扩展,将埃奇沃斯扩展(edgewoth expansion)用于空间自回归系数的最大似然估计,推导了渐近性质,发现对于系数的区间估计量更准确。
b.模型的随机效应设定
除了最大似然估计外,文献中还出现了其他对于以上模型进行估计的方法,例如Kapoor et al.(2007)基于误差项的线性和非线性条件提出了矩估计。同时,在估计过程中还应注意到,在时间长度T很大时,时间效应不能作为回归元处理;虽然当n和T都具有大样本性质时,个体效应和时间效应可以得到一致的估计量,但是参数的渐近性质不一定会趋于真实的分布。因此,面对这些问题时,在估计前要进行模型变换,将时间效应和个体效应消除。由以上静态空间面板模型的设定理论发展进程可以看出,其主要问题集中在满足优良性质参数估计的方法计算上,如何更加简化可行地估计其模型参数是相关方向关注的重要问题。
(2)动态空间面板数据模型
相比较于静态空间面板数据模型,空间面板数据模型可以进一步包含空间动态效应来描绘空间依赖性和序列相关性,对于空间面板模型和一般的面板模型存在着差异。在一般性的面板数据模型中,动态效应是指个体的时间滞后,而空间面板由于包含了空间相关,其动态效应并不仅指个体时间滞后的概念,它还包括空间的滞后概念。从文献来看,Anselin et al.(2008)将动态空间面板数据模型划分为四类:纯粹的空间递归效应——只包含了空间的滞后项,时间—空间递归效应——包含了个体和空间的滞后项,时间—空间同时效应——被指定的个体滞后项和同期的空间项,以及时间—空间动态效应——所有形式的滞后项都存在。
在参数估计上,对于一般性的固定效应的动态空间面板模型,当时间长度T固定且样本个数n是有限的情况下,空间参数的最大似然估计是有偏且非一致的。当样本容量n和时间长度T都趋于无限时,固定效应模型在最大似然估计中可以得到一致估计。但是,Hahn and Kuersteiner(2002)和Alvarez and Arellano(2003)指出,在最大似然估计中,当n和T以同样的速度趋于无穷大,估计量的渐近偏误是O(1/T)阶的;Yu et al.(2008),Lee and Yu(2009,2010a)针对n和T不同的增长速度提出拟最大似然估计并得到了相应的性质。同样Alvarez and Arellano(2003)发现由于矩条件的存在,Arellano and Bond(1991)所提出的工具变量(Ⅳ)估计量和最大似然估计量有相似的渐近偏误。为了对偏误进行修正,Kiviet(1995)、Hahn and Kuersteiner(2002)以及Bun and Carree(2005)等针对空间动态面板模型提出了偏误修正的估计量,其中Hahn and Kuersteiner(2002)还提出了较为严密的渐近理论。此外,针对于组内估计(within estimator)和当n和T趋于无穷大且速度相同时的偏误修正估计量,Hahn and Newey(2004)还提出了刀切偏误缩减法。
从现有文献来看,总体上,一般性的动态空间面板数据基本模型设定为:
其中,
根据不同的效应特征,也可将空间面板数据模型划分为固定效应、随机效应模型。在随机效应和固定效应模型中,截距项可以随空间单元的变动而变动;此外,还可以根据参数的性质将其划分为固定参数和随机参数模型,在固定参数和随机参数模型中,截距和斜率系数都是可变的。这些分类类似于一般的面板数据模型分类,并没有过于特别的地方。若再紧密结合空间模型的具体特征,那么在空间模型分类中还可进一步考虑空间误差自回归和空间滞后依赖变量,并将传统的空间计量基本模型扩展为多种形式。进一步还可考虑允许空间加权矩阵随时间变化的情形,Lee and Yu(2012)对此给出了拟最大似然估计。
2.2 拓展Ⅱ:计算技术方面为了简化参数估计的复杂性形成空间矩阵指数模型(MESS)
空间模型不同于一般性的计量模型,最大的区别就是其参数估计计算过程十分复杂,相当多的情况无法求解。因此,在计算技术方面如何改进空间计量模型的估计难度是十分重要的拓展方向之一。
就空间计量基本模型来讲,由于空间计量模型允许数据之间是相关的,所以传统的SAR模型采用几何衰变的形式,在估计中引入了相对复杂的理论以及大样本性质。Chiu et al.(1996)提出在协方差矩阵模型中使用矩阵指数,并阐述了矩阵指数的优势,其优势在于:一,矩阵指数的引入可以保证估计的协方差矩阵是正定的,这就无需在优化过程中设置参数空间或检验正定性;二,矩阵指数的逆矩阵具有较好的性质,使得结果具有理论和数值上的优势。
LeSage and Pace(2007)使用了空间矩阵指数模型(MESS)的方法,通过指数衰变的形式代替传统SAR模型中几何衰变的形式,相对于传统的SAR模型既在理论上进行了简化,也提高了数值计算上的表现。LeSage and Pace(2007)证明了MESS方法相对于传统的SAR模型极大地简化了最大似然估计、贝叶斯估计以及统计推断。具体来说,MESS方法可以得到最大似然估计的解析解,并且还可以在贝叶斯估计中使用标量的多项式形式进行单变量积分,能得到最大似然估计与贝叶斯估计的简化形式。此外,它还能在不同空间权重矩阵和解释变量下实现贝叶斯空间矩阵指数模型。由于面板数据模型的发展,模型在样本形式上可扩展为相应的面板数据模型。Figueiredo and Silva(2014)提出了空间面板指数矩阵模型(matrix exponential spatial panel specification,MESPS),针对固定效应的面板数据模型给出了似然函数的估计方法,其模型设定和估计均和LeSage and Pace(2007)提出的一致。
相对于传统的SAR模型来说,MESS模型具有以下几个优点:第一,由于最大似然函数或准最大似然函数中并不包含雅克比行列式,可以将准最大似然估计法转变成非线性最小二乘估计,极大地简化了准最大似然估计过程;第二,由于MESS模型不存在发散的问题,因此在考察观测值之间相互影响的关系时,并不需要对参数进行限制;第三,由于雅克比行列式并未出现在准最大似然函数中,也不需要针对雅克比行列式再进行参数的约束性限制。
传统的SAR模型以及LeSage and Pace(2007)提出的MESS模型中都假设扰动项是同方差的。但是,在未知异方差的情况下,Lin and Lee(2010)指出在传统SAR模型的准最大似然(QML)估计是不一致的,并利用二阶矩条件构造了最优广义矩(GMM)估计,在未知异方差情况下仍然是一致的;而Debarsy et al.(2015)指出MESS模型的QML估计在未知异方差的情况下仍然是一致的,并且也利用二阶矩条件构造了最优GMM估计,最优GMM估计在未知异方差情况下是一致的,并且比QML估计更有效。在同方差情况下,如果扰动项服从正态分布,那么最优GMM估计与ML估计具有相同的有效性;如果扰动项不服从正态分布,那么最优GMM估计比QML估计更有效。
Debarsy et al.(2015)将MESS模型拓展成MESS(1,1)模型,将带有SAR扰动项的MRSAR模型转变成空间指数矩阵形式的MESS(1,1)模型,具体的表达形式为:
从空间矩阵指数模型相关文献的发展脉络来看,LeSage and Pace(2007)虽然提出了对MESS模型的最大似然估计以及贝叶斯估计,但是并未给出渐近理论。Debarsy et al.(2015)针对扩展的MESS(1,1)模型分别给出了同方差和异方差情况下QMLE以及GMM估计的大样本性质。在同方差的情况下,QML估计与最优GMM估计都是一致的。若扰动项服从正态分布或者两个空间加权矩阵为可换矩阵时,最优GMM估计与QML估计具有相同的有效性,否则,最优GMM估计比QML估计更有效;在未知异方差的情况下,只有当MESS(1,1)模型中两个空间加权矩阵为可换矩阵时,QML估计是一致的,并且此时QML估计也没有最优GMM估计有效,而最优GMM估计在异方差情况下都是一致的。
LeSage and Pace(2007)将MESS模型作为SAR模型的替代形式,但是两个模型的简化式有所不同,因此两个模型并不能完全地替代彼此,那么究竟在何种情况下才能用MESS模型呢?对于非嵌套模型的选择,既可以使用经典方法也可以使用贝叶斯方法。贝叶斯方法是对比和计算两个比较模型的后验概率概率分布(Zellner,1971),根据LeSage and Pace(2007)得出MESS模型的对数边际似然函数,即可以得到比较SAR模型与MESS模型哪一个更为合适的方法。对于经典方法,在非空间模型中,使用著名的J检验来比较两个非嵌套模型,Atkinson(1970)提出非嵌套的一元线性模型和非线性模型的模型选择,在此基础上Davidson and MacKinnon(1981)进行了拓展,提出了著名的J检验来检验线性与非线性模型。这些方法为判断采用MESS模型是否合适提供了一定的借鉴。在此基础上,Han and Lee(2013)分别将SAR模型和MESS模型作为原假设,提出J检验对SAR模型与MESS模型进行选择判断,其检验思想是通过对SAR模型和MESS模型两种模型下估计各自参数并进行比较差异来构建检验统计量。
由以上文献发展可以看出,作为近年来空间计量模型在计算技术上改进的MESS模型产生了一些代表性的标志性成果,但是就成果的数量来讲,还不十分丰富。在研究对象上,目前研究的主题是针对SAR模型来进行参照分析的,由于空间计量模型多种多样,而且差异较大,不同模型的计算复杂性和难度也都存在着显著差别。因此,作为MESS模型是否能够对其他更加复杂的空间计量模型进行计算上的改进和简化,还需要进一步探索。
2.3 拓展Ⅲ:因变量由连续型扩展到离散型形成空间离散模型
如果因变量是离散的,则可发展为离散选择模型,离散选择模型最初是由生物统计学家在研究流行病、病毒以及发病率时发展起来的。作为空间计量经济学模型而言,目前已经能够将连续型因变量的基本模型体系部分拓展到离散型因变量的模型中,同时再结合数据形式拓展,相关理论方法还可进一步形成空间面板离散模型。在空间离散模型的发展过程中,由于在考虑因变量存在空间相关时,常常伴随着异方差、内生性等问题,这些问题对参数的估计和检验也都会产生重要的影响。
2.3.1 空间Probit模型
若将空间相关性引入Probit模型中,与序列相关的时间序列模型类似,根据Poirier and Ruud(1988)在序列相关的时间序列中所得到的结论,如果忽略空间相关性,将扰动项看成独立的来构造伪似然函数,在一定的假设条件下,混组最大似然(pooled ML)估计是一致和渐近正态的。此方法的缺点是当存在序列相关时,混组最大似然估计将损失一定的效率。Robinson(1982)建立联合最大似然函数(joint ML)来估计序列相关的时间序列,但是该方法的计算十分复杂。Poirier and Ruud(1998)采用以上两种方法的折中,采用广义条件矩(GCM)估计,此估计量大大降低了联合最大似然估计的计算量并且提高了伪似然函数估计的效率。更普遍的、具有相关性的非线性模型可以采用GMM估计,GMM估计比混组最大似然估计更有效,但是由于构造矩条件仍然忽略了序列相关,因此还是比联合最大似然(joint ML)估计缺少效率。虽然空间相关和时间序列相关在一定程度上存在着类似可比性,但是时间序列模型和空间相关性也存在明显的差异:首先,时间是一维的而空间却是多维的;其次,时间是单向的而空间并没有自然方向;第三,时间序列的观测值经常在时间上是均匀分布的,但是空间相关的观测值很少位于常规的网格上;最后,时间序列的观测值经常是从一个连续的过程中得出的,而空间相关的观测值则并非如此。
对于参数估计,Pinkse and Slade(1998)根据最大化对数似然函数的一阶条件构造了GMM估计。该估计方法虽然比联合似然估计损失了一定程度的效率,但是在估计上却比较容易;和混合似然估计相比,GMM估计相对也更为精确。Pinkse et al.(2006)在时空依赖的条件下,为了克服异质性、内生性以及测量误差等问题,进一步提出了一步(one-step)GMM估计。为了使估计效果能够近似达到用联合似然估计时的效率,同时能够相对在计算上又简化可行。近来,Wang et al.(2013)采取了折中的方法,将观测值分成多个集群,集群由相邻的观测值组成,在集群内构造联合最大似然函数,在集群间降低计算量,该方法被称作部分最大似然(PML)估计法。以2个观测值一组为例,假设存在2n个观测值,将观测值两两分成一组,共n组,并假设组内的两个观测值的影响远远大于组外的影响。分组不同,将使得渐近方差有所不同,实际操作中建议采用不同类型的分组来检验在不同分组下方差估计是否会产生显著性的变化。
2.3.2 空间Tobit模型
近些年来,陆续有一些文献对空间Tobit模型进行了专题理论研究。他们都集中于将Tobit形式引入到空间计量经济学中,再结合一些其他的计量模型或数据特征展开讨论。这些成果大致包括:
最近,Xu and Lee(2015)提出了联立SAR Tobit模型(simultaneous SAR Tobit):
从上述对空间二元选择模型的估计中可以看出,空间离散选择模型与普通的一般离散选择模型有显著的重要区别:首先,当存在空间相关时,常常伴随着异方差,异方差会导致很多的传统离散选择模型的估计量不一致;其次,当离散选择模型存在内生性和测量误差时,标准的工具变量法并不能直接应用。如果当样本形式扩展为面板模型时,对于普通的线性面板模型,可以通过差分法去掉截面的固定效应;而在离散选择模型中,差分常常是行不通的,通常采用最大似然法进行估计,但是目前关于空间离散面板模型的相关理论仍有待研究。
由现有空间离散模型所取得的论文发表成果来看,目前大致只能看到空间Probit和空间Tobit模型的理论研究成果;对于Logit模型,则很少能够看到有专门来讨论其空间理论的文献。同时对于空间Probit而言,其模型理论也主要集中于二元选择,对于更加一般的情况,例如多元离散选择、具有排序顺序的离散选择等几乎找不到相关的研究成果。因此,整体上对于空间离散模型的研究,研究方向还较为单一,相关领域还需要进一步开拓;对于普通的一般离散选择模型,往往采用最大似然方法进行参数估计,而在空间离散选择模型中,由于当存在空间相关时,常常伴随着异方差、内生性等问题,这些问题往往会导致一般的离散选择模型的估计量不一致。因此,在空间离散模型估计方法中面临着比一般离散选择模型更复杂的理论问题。从研究对象上来看,如果进一步将因变量的范围从连续性扩展到离散型,再更广泛地扩展到非经典因变量的其他形式,如截断(truncation)(以上Tobit模型也是其中的一种)、归并(censor)、计数(count)等,并研究它们在空间计量模型中的理论性质,可能是未来在相关领域取得更加丰富成果的选题素材来源。
2.4 拓展Ⅳ:模型形式由线性化扩展到非线性化形成空间半参数模型
为了将潜在的非线性关系刻画出来,并且将某些组成部分中的线性性质等先验信息包含在模型中,现有文献中有时采用非参数的方法来进行刻画。尽管非参数方法在过去几十年中得到了充分的发展,但是在空间计量领域,这一方法在近10年才得以应用,其原因主要是由于非参数方法在估计过程中会导致待估计参数过多从而维数过大。
对于为什么会在空间计量模型中引入半参数理论,已有文献也进行过论证,它们认为在空间计量模型中引入半参数是必要的,而且是可行的。例如,很早以前,Paelinck and Klaassen(1979)就指出空间计量关系多半是呈现非线性关系,很多经济变量表现出非线性特征,例如经济不平等和经济增长之间呈现倒U型关系,在考虑了空间效应时也是如此。若忽略了空间模型中潜在的非线性关系会导致模型参数估计的不一致,得到错误的结论。近年来,随着非线性估计方法的不断发展,使得非参数模型的应用价值得到显著提高。例如,Gress(2004)在对房屋价格的研究中,发现空间半参数模型可以有更准确和更稳定的回归参数,以及更强的预测能力;Basile and Gress(2005)针对欧洲经济提出了空间半参数的增长模型,最终发现尽管空间依赖性已经得到控制,非线性性质是欧洲区域增长的重要特征,因此假设普通的线性关系会对经济增长和产出之间的关系进行错误设定。无论是在理论研究,或者还是实证研究,空间半参数模型近些年来得到了一定程度的发展。
从空间模型半参数估计的可行性来看,也有文献对此进行过深入研究。例如,Gao et al.(2006)提出的半参数回归方法避免了非参数维数过大的问题。Tran(1990)与Tran and Yakowitz(1993)在空间混合条件下提出了相邻核密度估计,对于边际密度估计方法来说,估计参数维度就不再成为问题;Carbon et al.(1996)建立了L1理论,随后Hallin等(2004a)在空间稳定性条件下对其进行了发展(空间稳定性条件是指不含不可验证的空间混合条件的空间线性和非线性过程)。此外,Hallin et al.(2001)提出了核估计的渐近正态性质,Hallin et al.(2004b)提出了NW核估计方法和局部线性空间条件回归。这些成果为空间半参数模型的创新提供了前提保障,也为全面发展空间模型中的半参数估计方法奠定了坚实的理论基础。
2.4.1 半参数空间自回归模型(Semi parametric SAR model)
Gao et al.(2006)提出了两步估计的半参数估计量,基于条件均值方程,假设参数已知,由核估计方法估计非参数部分,核心在于用半参数方法近似空间数据的条件均值方程。这一方法为后续各种空间非线性模型的估计提供了大量的发展方向,它也可用于条件方差方程的估计。随后Robinson(2010)提出了非随机解释变量和非正态扰动项的半参数有效估计量,对于模型的似然函数,引入了对扰动项密度函数的平滑非参数估计。
Su and Jin(2010)针对上述空间半参数模型提出了剖面(profile)拟最大似然估计,是对Lee(2004)研究工作的扩展。参数的估计性质和Lee(2004)的研究类似,有限维参数的收敛速度取决于模型空间权重矩阵的特性,空间参数估计量的收敛速度为
Su(2012)基于两步估计法对一维的空间参数和外生变量的非参数部分进行分析,在第一步估计中,将一维的空间参数视为已知给定的,用局部工具变量将非参数部分作为空间参数的局部函数,在第二步用全局工具变量对非参数部分重新进行估计调整,最终估计空间参数。相较于Su and Jin(2010)针对空间半参数模型提出的拟最大似然估计方法来说,Su(2012)采用矩估计在实际应用中较容易操作,而且参数的收敛速度不用依赖于空间权重矩阵,同时也考虑了误差项的异质性和空间依赖性,允许未知形式的异方差和一定形式的空间依赖关系,也允许模型中出现连续或者离散的外生变量。从应用范围看,以上方法限于一维的空间参数,对于多维的参数目前暂时无法处理。同时,该方法还可以拓展到空间面板数据模型和空间离散选择模型,只是目前在实际研究中可拓展类型的空间模型还没有得到广泛应用。
在Su and Jin(2010)和Su(2012)的基础上,Hu et al.(2014)对相关模型进行了扩展,提出了部分线性的空间面板固定效应模型,文中结合样条多项式级数近似(polynomial spline series approximation)、半参数最小二乘法以及差分法,构造了空间项的GMM估计,并且证明了该估计量的一致性以及渐近正态性。近来,Zhang and Sun(2015)又提出了部分线性的空间动态面板固定效应模型,并对其相关参数估计进行了理论性质分析。
2.4.2 含有空间内生变量的半参数模型
含有空间内生变量的半参数模型研究历史不长,Jenish(2014)在空间半参数模型中考虑了空间内生变量,并且给出了GMM估计量,代表性模型为:
2.4.3 空间变系数模型
在非线性部分,变量除了一般的影响因素外,还可以考虑不同位置、地理坐标的影响。为此,通常针对不同的空间单元以不同的模型系数或者变系数的方法来进行刻画。另外,由特殊空间单元引起的测量误差也很可能不是同质的,并且也会随空间单元的位置、区域或者其他特征变化而变化。将前一种形式的异质性引入模型往往会造成偶发数据问题,参数个数会随着观测值的个数增加而相应增加,由此对估计造成困难,因此在此条件下往往采用变系数或随机系数表达异质性。对于包含异质性的空间模型,通常可以根据不同的研究问题在空间区域结构寻找异质性的特征。如果由于模型设定错误或者测量误差等原因而产生的异质性的话,那么扰动项往往会有异方差,因此,通常对扰动项进行空间相关性检验来加以诊断。
2.4.4 地理加权模型及相关半参数模型
在之前的空间模型中,大多都是针对某一被解释变量建模,得到单一的回归方程,其思路是寻找整个空间的平均依赖性,此时所观测的空间关系处于平稳状态。但实际中空间的非平稳性会使得所估计的参数平均意义出现问题,为此,Fotheringham et al.(1998)提出了地理加权回归模型和扩展的EM算法,用于检验空间非平稳关系的存在以及模型估计。
以上空间模型就是在地理加权回归模型的基础上考虑了空间异质性和空间依赖性,用以描述空间相关的非平稳性。
3 空间计量模型面临的挑战及展望
经过了近40多年的发展,空间计量经济学日趋成熟,尤其是近10余年以来,空间计量经济学模型设定理论又有了一些的创新和发展。从相关文献线索来看,新的拓展方向多种多样,学术成果也比较分散。但是总体来看,离不开两点核心内容:空间理论和技术理论。所谓“空间理论”是指空间计量模型在设定过程中考虑的空间相关关系以及空间形式。虽然现有空间计量经济学模型基本体系及其扩展的形式有很多,但是其出发点和落脚点都是如何对模型中不同的变量来设定空间关联性。并且空间权重矩阵作为空间模型建立的重要前提和基础,其根本实质也是人为外生设定不同个体之间的空间关系。如若没有空间理论,那么就没有空间计量经济学,此时空间模型就是一般的计量模型,它们没有任何区别;如若没有空间理论的发展,那么也就没有空间计量经济学的发展。所谓“技术理论”是指包括空间计量模型的参数估计技术、检验技术、矩阵技术以及模型非线性形式的设定技术等。空间计量模型与一般计量模型的显著区别之一,就是其技术理论十分复杂。由于空间计量模型既有空间相关性,又有变量的内生性,还有空间矩阵的复杂运算等多种特征,这些特征综合交织在一起,导致其模型参数估计和检验等相比一般的计量经济学模型要复杂和困难得多。如果没有技术理论的支撑和发展,即使能够建立起良好的空间计量经济学模型,那么它也不会产生实质性的理论和应用价值。综合文献发展的相关线索来看,在空间计量经济学模型设定理论中,可以说空间理论是模型的方向灵魂,而技术理论则是模型的骨干支撑。现有领域拓展正是朝着这样的方向来渐进推动空间计量模型发展的。
在上述推动空间计量经济学发展的要素中,目前依然存在大量的问题没有得到有效解决,这些问题对于空间计量经济学的理论发展和现实应用,都是较大的挑战,它们包括:
3.1 空间理论中关于空间权重矩阵的挑战
空间计量经济学处理空间效应的主要方法是通过空间权重矩阵来描述。不合适的空间矩阵可能导致模型的错误设定,参数估计偏离真实值严重。尽管权重矩阵和理论上的设定没有差别,但在实际运用中仍会发觉结果对矩阵的设定非常敏感,因此,适当的、能准确捕捉到空间效应的空间矩阵显得格外重要。然而,在已有文献中,空间权重矩阵的设定几乎都是基于作者的主观判断,且没有一种固定的评判标准。这就可能造成相同的区域、相同的样本,不同空间矩阵的设定存在着不同的结果,这种结果甚至完全相反。空间计量经济学虽然能够从经济现象中观测到经济个体之间存在空间相关性,但是在目前所取得的研究成果中却没有足够的科学手段和方法来设定和研究空间权重矩阵,就空间矩阵的现实分析要求来看,至少应当有两个方面需要着重解决:
(1)现实问题中空间关联既不是单一的经济关联,也不是单一的地理距离或者位置关联,真实的关联应当是综合关联,既有经济关联、又有地理距离或者位置关联,还有历史文化等隐形关联,综合关联导致了经济个体之间的真实空间相关。而现有空间计量经济学在设定空间矩阵时,普遍基于经济、地理距离、位置相关等单一要素的矩阵来进行分析,并不能有效地反映经济个体之间真实存在而未知的空间关联性。虽然,现有空间计量经济学往往通过取不同空间矩阵来进行对比分析,以验证实证结果的可靠性和稳健性,但是,从科学性来讲,无论这些不同矩阵下所得实证结果是否相近或相异,都不能说明实证结果的正确性。因为单一要素的空间矩阵从理论上没有反映真实而未知的多种要素空间关联性。
(2)现实问题中空间关联的内在机制是变化的,而不是固定不变的。现实中,虽然经济个体关联是存在的,但是这并不意味着这种关联是稳定不变的,它完全可能会随着经济、地理距离等要素不同的数值变化而发生变化,既可能出现非线性特征,也可能出现阈值效应,甚至出现变相关特征。而现有空间计量经济学的研究都是普遍设定不变的空间矩阵来进行相关问题的实证分析,因此,实证结果是否能够客观地反映现实经济问题里面的真实规律,还有待进一步深入研究。已有文献中,LeSage and Pace(2014)在理论上初步探索了模型对空间权重的敏感性,Kuersteiner and Prucha(2015)以及Zhou(2015)在模型中考虑了权重矩阵内生的情形,但总体上显著缺乏对于空间权重矩阵的系统理论研究,这不仅包括如何设定满足空间计量经济学模型理论要求的权重矩阵,而且对于挑选更加合适的空间矩阵以及如何检验空间矩阵是否合理与可靠等这一重要问题,还需要从空间计量经济学模型发展的理论出发来进行更高层次的系统研究,不断提出科学合理的程序化检验步骤和方法,这样才能使得空间计量经济学的实证结果更加具有说服力。对于此问题的研究,不能够仅仅只停留在依靠经济学直觉判断等水平上来进行简单粗糙分析。
未来对将空间权重矩阵视为内生,加强对权重的系统研究应当成为空间计量经济学新的重要问题之一。对此问题的研究,不仅是在社会经济实际问题中需要考虑的重要问题,也应当是空间计量经济学理论方法本身所应当研究的重要问题。同时,在与这个问题的相关研究中,现有文献中已经有比较多的方法来判断是否存在各种交互效应,但这些交互效应的形成机制还未能得到验证。因此,如何较为准确地设定空间权重矩阵、检验空间权重矩阵的有效性是空间计量经济学未来需要解决的问题。只有这些问题得到了显著性和根本性的解决,空间计量经济学才能更加科学,空间计量经济学也才能更加从理论研究走向现实政策分析。
3.2 技术理论中关于模型技术的挑战
现有计量经济学中的模型大多可以扩展到空间模型中,随着发展的日趋成熟,计量经济学和空间领域的交集越来越多,但是受到估计等技术的约束,仍存在许多还未涉及的新领域。
(1)就空间面板数据模型来看,模型的多种扩展及其估计方法已是目前空间计量经济学的热点,近10年引起了大量学者对该领域进行探索。随着空间面板数据模型逐渐发展,更为复杂的模型和更为精确的估计方法是未来发展的方向。空间面板数据模型逐渐由静态过渡到动态再到随时间变化的空间权重矩阵的空间面板数据模型,模型设定的宽度和广度日益和传统计量模型类似,而且相对于传统面板数据模型的各种形式,空间面板数据模型还可以有多种的变化形式,例如动态空间面板的设定可以引入多个空间权重矩阵、多个时间滞后项等,同时还可发展模型的非线性形式,在非线性部分包含不同区域或个体的不同特征,从而解决实际问题中出现的异质性问题;也可将面板模型的因变量离散化,在空间离散选择模型中考虑面板数据形式,但这方面的研究现在几乎没有涉及。空间面板数据模型的估计相较于传统计量模型的估计更为困难,对其新发展模型的估计和性质的推断则是未来新的挑战。
(2)就矩阵指数模型来说,在2007年由LeSage和Pace将其引入空间模型才得以运用,但是对于模型的性质当时并未给出,直到最近,Debarsy et al.(2015)才对模型的渐近性质有了具体的结论。目前针对从经典的空间模型在矩阵指数方法上的扩展只有SAR模型和带SAR扰动项的MRSAR模型,因此在对于空间杜宾模型等其他基本模型还没有明确的讨论,在离散选择模型等扩展形式的空间模型的研究更为缺乏。随着理论方法的推进,这是未来的发展方向之一。在面板数据模型上,Figueiredo and Silva(2014)提出了针对固定效应的空间面板指数矩阵模型,这一扩展仅是在LeSage and Pace(2007)的方法上对样本形式进行替换。但是空间参数的计算较为复杂,若是在较差的空间依赖性设定下,估计参数的表现并不令人满意;若使其有较好的性质,那么就需要在计算上付出更多的代价。这主要是由于目前对空间面板指数矩阵模型的估计都是基于似然估计,Kapoor et al.(2007)GMM估计在大样本下对面板数据虽然可行,但是针对面板模型的GMM估计量的性质是否比似然估计量更好、两种估计量差异的比较以及针对同方差和异方差情形下估计量性质的讨论,现有理论研究都比较欠缺,这也是目前亟待发展的方向。
(3)对于半参数模型来说,目前在空间面板模型中有了初步的扩展,这也是基于Su and Jin(2010)和Su(2012)的方法上对样本形式进行的延伸,针对非参数维数较多的估计难以实现。但是目前半参数空间面板数据模型中没有考虑到解释变量的内生性,而且目前还未将半参数离散选择模型运用到空间模型中。就变系数模型来说,目前种类单一,成果数量较少,虽有一些标志性论文发表,但是缺乏系统性的研究体系。
(4)对于模型内生性的问题,最为重要的是数据缺失问题,这仍然是待完善的研究问题。这个问题不仅包括对于更为复杂模型的数据缺失,而且也包括内生性的数据缺失,比如由于存在不愿公开的信息而导致的数据缺失,这一问题如何处理是未来研究的重要方向。还有位置选择问题,这是最难解决也是最容易被忽视的问题,同时它也是造成模型内生性最重要的因素,许多大样本将在不同地理位置选择下的观测值看作是外生的,这在空间计量经济学中是毫无意义的。Jenish和Prucha(2009)允许了地理位置特征随样本而发生变化,Sun et al.(2014)也发展了随地理位置而变化的随机系数模型。由于除了地理位置特征之外,还有时间效应的影响等其他因素,目前相关研究仍不完善,需要进一步发展。除此之外,就模型的设定形式来说,目前大多空间模型处理的几乎都是单一方程,很少有研究者分析结构性空间变量的内生性问题。Rey(2004)给出了空间联立方程模型的一个系统框架模型的设定形式,联立方程的形式可以作为今后发展的一个分支。
(5)关于模型弱识别(weak identification)的问题,即识别强度会随着样本大小而发生变化并且减弱,从而使得模型的一致估计受到影响。Anselin(2010)指出模型的弱识别不是一个单纯的理论问题,经常在实际应用中出现,但是在这方面,空间计量模型中关于此方面的研究仍然较少。同时还有模型的部分识别,Rosen(2008)阐述了待估计的参数向量中不是每一个参数都有相应的估计值,但是其中可识别的部分仍然可以作为一个集合而得到估计结果,对此种模型的估计是有一定难度的,而且对其估计进行证明也较为繁杂。因此,将部分识别理论应用于实际问题分析中就是非常有效的,因为很多博弈行为的空间模型正是表现出矩的不均等性。
(6)除以上之外,还有关于更为有效的检验统计量、更为复杂的模型设定以及更有效的估计等。比如在空间计量模型中,对空间效应和加权矩阵有一定的限制(加权矩阵是行标准化为1的零对角矩阵,并且空间效应的参数不能大于或等于1(Ord,1975))。如果真实的空间效应接近1(称为“近似单位根”),空间依赖关系则变得非常强,就算假设加权矩阵是行和列都是一致有界的,因变量的方差也会非常大。Lee and Yu(2013)提出了当“近似单位根”存在时空间自回归模型的估计方法,首先将DGP分解成稳定和非稳定的两个部分,再用QMLE的方法进行估计,并且证明了该估计量是一致和渐近正态的,但是空间效应的参数收敛速度比其他参数的收敛速度
总之,从文献资料来看,空间计量经济学在其发展的初期形成了基本模型框架体系,进入21世纪以来,空间计量模型在样本数据、因变量特征、模型形式、计算技术等方面产生了新的动向,取得了一些具有影响力的学术成果。就这些新动向和学术成果来看,空间计量经济学模型设定理论创新方面,呈现出多方向特征。近10余年来相关领域前沿成果的取得,既有研究样本数据方向的新成果,也有研究模型形式方向的新成果,还有研究计算技术方向的新成果等等;同时,从每一个方向上相关学术成果的取得特点来看,特别是有影响力的学术论文的发表,呈现出零星式、离散式的规律,没有出现连续式和批量式的成果创新。因此,空间计量经济学的模型设定理论拓展表现为多方向推进,目前尚未在相关前沿拓展领域形成具有权威性和集成性的新体系,创新性特征体现为探索性趋势。虽然在空间计量经济学基本模型理论研究方面,已经形成了较为成熟的框架体系,已有相关国际权威性专著和书籍出版,但是就现有文献资料调研来看,目前尚未看到包含近10余年来新近发展的空间计量经济学模型设定理论和前沿性成果的权威性著作出现。因此,就空间计量经济学的未来发展来看,还需要在上述前沿领域开展长期的不懈研究,在分散探索性方向演变为集中稳定的前沿科学方向后,不断丰富和完善现有拓展领域的新成果,逐渐促使其前沿理论成果更加系统化和集成化,并最终为空间计量经济学的理论创新和现实社会经济问题研究提供更加有力的科学指导。
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群信息。
提议
为了更好地促进计量经济圈成员学习因果推断计量方法,我们决定组建“causal effect”文献学习小组。里面主要是通过学习使用因果推断计量方法的经典文献,那让群里每个成员逐渐理解并掌握因果推断计量方法:treatment effects, RD, DID, DDID, Synthetic control等。