门槛回归模型的估计思想
一、模型设置
Hansen(2000) 将“门槛回归”模型的基本形式定义为:
,qi≤γ                                (1)
,qi>γ                                  (2)
其中,作为解释变量的xi是一个m维的列向量。qi被称为“门槛变量”,Hansen(2000)认为门槛变量既可以是解释变量xi中的一个回归元 ,也可以作为一个独立的门槛变量。根据其相应的“门槛值”γ,可将样本分成“两类”(two regimes)。
将模型 (1) (2) 的形式改写成单一方程形式时,首先需要定义一个虚拟变量bootstrap 5di(γ)={qi≤γ} ,此处{g}是一个指示函数( indicator function),令集合xi(γ ) =xidi(γ)。因此,模型(1) (2)可写成:
(3)
通过这种添加虚拟变量的方式,可知θ=θ2n21。将式(3)进一步改写成矩阵形式:
(4)
此时模型中的回归参数为 (θ,δn,γ) 。在γ给定的前提下,式(4)中的θ和δn是线性关系。因此,根据条件最小二乘估计方法,用Xγ*= [X Xr]对Y回归,得到相应的残差平方和函数如下:
估计得到的门槛值就是使Sn(γ)最小的。被定义为:
(5)
其中,Γn=Γ∩{q1,…,qn}。Hansen(2000) 将门槛变量中的每一观测值均作为了可能的门槛值,将满足式(5)的观测值确定为门槛值。当门槛估计值确定之后,那么其他参数值也就能够相应地确定。
二、显著性检验
门槛回归模型显著性检验的目的是,检验以门槛值划分的两组样本其模型估计参数是否显著不同。因此,不存在门槛值的零假设为: H0:θ12。同时构造LM统计量:
(6)
其中,S0是在零假设下的残差平方和。由于LM 统计量并不服从标准的分布。因此,Hansen(2000)提出了通过“自举法”(Bootstrap )来获得渐进分布的想法,进而得出相应的概率p值,也称为Bootstrap P值。这种方法的基本思想是:在解释变量和门槛值给定的前提下,模拟(Simulate) 产生一组因变量序列,并使其满足N (0 ,),其中是式(4)的残差项。每得到一个自抽样样本,就可以计算出一个模拟的LM统计量。将这一过程重复1000次,Hansen(1996)认为模拟产生的LM统计量大于式(6)的次数占总模拟次数的百分比就是“自举法”估计得到的P值。这里的Bootstrap P值类似于普通计量方法得出的相伴概率P值。例如,当 Bootstrap P值小于0.01时,表示在1 %的显著性水平下通过了LM检验,以此类推。
三、置信区间
当确定某一变量存在“门槛效应”时,还需要进一步确定其门槛值的置信区间。即对零假设 H0 :进行检验,“似然比统计量”( Likelihood Ratio Statistic)可表示为:
(7)
Hansen (2000)认为,当LRn(γ)≤c (α) = - 2ln(1 -α)时,不能拒绝零假设(α表示显著性水平)。其中,在 95 %的置信水平下,c (α) 等于7.35。
以上的检验过程为只有一个门槛值的检验过程,为了能确定是否存在两个门槛值或者 是更多的门槛值,我们应当检验是否存在两个门槛值,拒绝L意味着至少存在一个门槛值。我们可以假设己经估计,然后开始寻第二个门槛值。在确定有两个门槛值后,再寻第三个门槛值,方法都和前面的一样,直至我们不能拒绝零假设。