研究领域:数理经济与计量经济学
Bootstrap方法在空间经济计量模型检验中的应用
林光平龙志和吴梅
[内容提要]:本文采用Bootstrap方法对空间经济计量模型的残差分布进行Moran’s指数I模拟检验,可用于空间计量模型的(事先)确定及(事后)验证。通过两个实例表明,在回归误差服从独立分布的假设之下,有别于依据大样本理论分布的经典检定法,Bootstrap 方法能有效的解决空间经济计量模型残差分布不确定时,模型中变量间空间相关性的检验问题。
关键词: Bootstrap  Moran’s指数空间相关性
Abstract: We apply a method of residual bootstrapping for testing spatial correlation in a linear regression model. Based on the Moran’s index I, the bootstrap procedure can be used for model identification (pre-test) and diagnostic checking (post-test) of a spatial econometric model. With two empirical examples, under the assumption of independent distribution of the model errors, the bootstrap method is proven to be an effective alternative to the theoretical asymptotic approach when the classical distributional assumption is violated.
Keyword: Bootstrap, Moran’s index, spatial correlation.
一、引言
空间经济计量学是经济计量研究近十来年发展起来的一个重要分支。空间经济计量侧重研究如何在横截面数据(Cross-section Data)和面板数据(Panel Data)模型中处理空间相互作用(空间自相关)和空间结构(空间异质性)等问题。近年来,随着人们对于空间及空间交互影响作用认识的加深、与地理对应的社会经济大型数据库的逐步应用,以及地理信息系统(GIS)和空间数据分析软件处理空间观测技术的发展等因素作用(Anselin和Florax,1995),空间经济计量学的理论与应用研究呈快速发展态势。
空间经济计量学的基本思想是将经济单位间(如地区或企业)的相互关系引入模型,对基本线性回归模型(1)通过一个空间权重矩阵W进行修正:
y X βε=+    (1)
根据模型设定时对“空间”的体现方法不同,空间经济计量模型主要分成两种类型:一种是空间滞后模型,主要用于研究相邻机构或地区的行为对整个系统内其他机构或地区的行为都有影响的情形:
y Wy X λβε=++  (2) 其式中,W 是n n ⨯阶的空间权重矩阵,即n 个机构或地区之间相互关系网络结构矩阵,Wy  为空间滞后因变量,λ是空间自回归系数,其它变量意义与原来相同。
另一种是空间误差模型,模型中机构或地区间的相互关系通过其误差项体现。当机构或地区之间的相互作用因所处的相对位置不同而存在差异时,则采用这种模型。具体而言,对于误差项的空间相关形式又存在两种基本的表达方式,模型形式如下:
空间误差自相关模型:
1()y X W u
y X I W u βε
ερεβρ-=+=+=+-      (3)
空间误差移动平均模型:
(1)y X u Wu
y X W u
βε
εθβθ=+=-=+-          (4) 其中,ρ是空间误差自相关系数,θ是空间误差移动平均系数,W ε 和Wu 都是
空间滞后误差项。
总结以上多种空间模型,可以写成
***y X βε=+    (5)
其中,*y y =,*X X =,*εε=为模型(1);*()y I W y λ=-,*X X =,*εε=为
模型(2);*()y I W y ρ=-,*()X I W X ρ=-,*u ε=为模型(3);*1()y I W y θ-=-,
*1()X I W X θ-=-,*u ε=为模型(4);*1()()y I W I W y θρ-=--,
*1()()X I W I W X θρ-=--,*u ε=为(3)(4)混合A RMA 模型。
无论采用哪一种空间经济计量模型,其模型建立及相关统计特性都必须以检验为基础,因而有关空间经济计量模型检验问题的研究尤为重要。到目前为止,判断变量间的空间相关
存在与否,及空间相关性的检验主要有Moran's I检验、最大似然LM-Error 检验及最大似然LM-Lag检验等(Anselin 1988)。限于篇幅,本文仅限对于Moran’s I检验提出Bootstrap 模拟方法的应用。
Moran's I检验(参考Moran, 1950)是最常用的变量空间相关性检验的方法。Cliff & Ord (1973,1981)最早
bootstrap 软件将其发展到线性模型中对变量空间相关性的检验。在假定各变量之间独立同分布的假设下,Cliff & Ord推导了大样本下Moran's I统计量的分布,并给出了Moran's I的检验。针对一般模型(5),y* = X*β + ε*, Moran's I 的表达式为:
I=e*'We*/ e*'e* ,其中e*表示回归方程的残差估计值。
在e*独立同分布的假定下,Moran's I值近似服从期望值为E(I)和方差为V(I) 的正态分布,相关计算方程如下:
E(I) = trace(MW)/(N-K), 其中M = I-X* (X*'X*)-1X*'
V(I) = {trace(MWMW')+trace[(MW)2]+[trace(MW)]2}/((N-K)(N-K+2)) - E(I)2
进而,可以将Moran's I转化为服从标准正态分布的形式:
Z=(I-E(I))/V(I)1/2~N(0,1)
Moran's I检验可以直接简单的检验回归残差变量之间是否存在有空间相关性。在理论上,Moran'sI检验是以回归残差服从正态分布的假定为前提。
然而,在实际应用中,在对模型或变量进行空间相关性检验时,Cliff & Ord原来所假设的条件并不一定成立,例如,变量并不一定独立同分布、存在内生变量等。这些检验严格地说都只能作为进行空间经济计量分析前的判断,即用于判明未考虑空间相互作用的模型中变量之间是否存在有空间相关性,以及空间相关形式如何,而并不能用于事后空间经济计量模型有效性的判断。若根据一般模型(5),从事估计后模型检验,y*及X*均为使用参数估计值转换的变量,更进一步复杂且改变了模型的型态及初始假设。尽管目前不少空间经济计量实证研究沿用事前检验同样的方法来做空间经济计量模型事后的诊断。但从上述分析可知,这些常用的空间检验都是以原始模型中残差独立同分布的假设为前提,在引入空间权重矩阵,对空间经济计量模型做出估计后,我们并不能确定所估计模型残差的具体分布,采用上述任何一种方法所进行的检验都可能是不恰当的。在残差的具体分布未知条件下,如何对空间经济计量模型进行有效诊断检验是本研究的出发点。
文献中,个别学者就残差分布未知条件下,空间经济计量模型中变量空间相关性检验问题进行了探讨,其基本思路是用一定方法到残差的具体分布,然后再采用相应的工具进行模型的空间相关性检验。例如,Anselin & Kelejian(1997)研究了当模型中存在内生变量,
对模型采用工具变量法进行回归之后,残差Moran's I 值所表现出的新特点,在对空间权重矩阵及自变量进行了相关假定之后,理论上推导了其正态分布的假定要求;进而,对Moran's I 检验进行修正,随后用蒙地卡罗(Monte-carlo )的方法,将修正的Moran's I 检验与经典的Moran's I 检验进行了比较,并从实
证上进一步说明了内生自变量存在时,新的Moran's I 检验要优于其他传统方法。再如,Kelejian & Prucha (2001)探讨了不同模型形式下的 Moran's I 统计量的不同分布,特别地讨论了ARAR(1,1)模型形式和受限解释变量模型,例如Tobit 模型、dichotomous 模型、样本选择模型及多项式模型等情况下的Moran's I 分布,并在不同的模型假定条件下推导出新了相应的Moran's I 分布,进而修正了传统的Moran's I 检验。这两篇文献都对原Moran's I 检验法进行了很好地修正与补充,可用于特定残差分布的空间经济计量模型的空间相关性检验。但在实际经济研究中,文献中所提检验方法受很多假设条件的限制,应用范围十分有限。由此,本研究提出采用Bootstrap 方法对Moran's I 计算进行空间经济计量模型估计后的空间相关性检验,以期通过模拟方法来解决这一难题。
本文结构安排如下:第一部分是引言,说明本研究的背景及意义;第二部分介绍Bootstrap 方法;第三部分论述Bootstrap 方法在空间经济计量模型中具体实现的步骤;第四部分为Bootstrap 方法在空间经济计量模型检验中的应用实证案例;第五部分结论。
二、Bootstrap 方法介绍
统计中“Bootstrap ”法是指用原样本自身的数据抽样得出新的样本及统计量,中文尚未有统一译名,常见的一些译名包括“靴攀法”,“自助法”、“自助法回归”等。Bootstrap 方法是Efron (1979)首先提出来的一种统计方法,它根据给定的子样观测信息,不需要对其他进行分布假设和增加新的样本信息就可对总体的
分布特性进行统计推断,属于非参数统计方法。在过去20多年的时间里,该方法在理论和应用上都得到发展,尤其是在金融、医学、心理学及军事等领域广泛应用。文献中,Efron &Tibshirani (1993)、Davison &Hinkley(1997)都较为系统地介绍了Bootstrap 方法理论成果,并给出了一些应用实例。
Bootstrap 方法的核心是利用自助样本(或称为再生样本)来估计未知概率测度的某种统计量的统计特性。其中心思想为:假设我们希望估计某一分布(;)F x β的某一统计量θ为:()(;)g x dF x θβ=⎰。由于总体分布经常是未知的,Bootstrap 估计就通过由样本获得的经验分布来对总体分布进行估计得到:()(;)g x d F x θβ∧∧=⎰。其中,(;)F x β∧
为样本的经验分布。有了这样的方法,即使我们对总体分布不确定,也可以近似估计一些统计量(例如均数,
中位数等)。
Bootstrap估计的具体步骤如下:首先有一个实际观测到的数据集(称之为原始数据集),它含有n个观测,然后根据分析的需要确定计算某个统计量R的公式。从这个数据集中有放回地随机抽取n个观测组成一个样本,称之为Bootstrap样本。在这个随机抽样中,原始数据集中的观测有的只被抽到1次,有的超过1次,也有的没有被抽到。利用这个被抽到的样本,按照事先确定的公式,计算出所需要的统计量。如此反复抽样和估计(称之为复制,replication),最后由估计出的统计量的值组成一个数据集,利用这个
数据集来反映该统计量的抽样分布。
实际上,Bootstrap的应用在很大程度上取决于经验分布的选取和样本数的大小。Bootstrap方法的一个重要环节就是计算自助统计量R的分布。对此,B.Efron在文献中提出了3种方法:①理论分析与计算的方法;②Monte-carlo仿真作直方图的方法;③利用Taylor 级数展开法获得R的自助分布的均值和方差。
需要指出的是,Bootstrap方法与Monte-Carlo模拟不同。首先,Monte-Carlo方法需要提供测量数据方差的分布形式,且只估计随机误差;Bootstrap方法不需要提供测量数据方差的分布形式,可以估计随机误差和系统误差,但要求在数据获取过程中保留每一个频率相应函数FRF (Frequency Response Function)。但是,如果在FRF估计过程中带入的偏差,两种方法均无法解决。其次,Monte-Carlo模拟常常是人为地选取一些总体,通过模拟抽样来验证某些统计量的性质、检验方法的优劣等,其结论常带有普遍性。而Bootstrap是在(参数的或非参数的)样本(经验分布)的基础上作有放回的再抽样,其结果是针对现有资料作出统计推断,所得结论不具一般性。
Bootstrap方法用于时间序列或空间相关模型时不能忽略了有关数据的结构及特性。如处理时间序列自相关可用Block Bootstrap方法。用于空间相关的Bootstrap方法,比较少见也无定论(见Cressie, 1980)。本文采用对回归误差项Bootstrap,进而保留了数据的空间结构。此法是对独立分布的回归误差项,从事再抽样(Resampling),根据解释变量X*不变及固定空间权重矩阵W的假定下,通过回归方程还原而取
得变量y*的样本。如此虽然保留了数据的空间结构,但最大问题是误差项独立分布的假设,这也是一般Bootstrap方法的一个弱点。如果能进一步假设误差项服从独立正态分布,有参数型式的Bootstrap也是可行的方法。
三、空间经济计量模型检验的Bootstrap方法
前述,在估计出空间经济计量模型之后,需要对一般模型(5)的残差进行空间相关性