面板数据
数据的类型分为时间序列数据、横截面数据和面板数据(综列数据)。在时间序列数据中,观测到的是一段时期内一个或多个变量的值;在横截面数据中,一个或多个变量的值是在同一个时点上几个样本单元或实体的数据组成。而面板数据是指调查经历一段时间的同样的横截面数据。简言之,面板数据本质上包含了横截面单元在一段时期的活动,具有时间和空间两种特性。
一、为什么使用面板数据
通过时间序列和横截面数据的混合,面板数据提供了更加有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。
二、一个解释性的例子
利用通用电气(GE)、通用汽车(GM)、美国钢铁(US)以及西屋(WEST)四个公司的数据研究企业的实际价值()和实际的资本存量()如何决定实际总投资()。每个公司变量的数据来自于1935—1954年。这样就用了4个横截面单元以及20个时间时期,总共有80个观测值。(数据见excel表)
原则上我们能够进行4个时间序列回归,每个公司一个,或者进行20个横截面回归,每年一次回归,后一种情况不得不担心自由度的问题。
合并所有80次观测值,模型可写成:
    *
其中表示第个横截面单元,表示第年。作为一种习惯,用表示横截面标识符,用表示时间标识符。假设N个横截面单元和T个时期均有一个最大值,如果每个横截面单元都有相同数目的时间序列观测,这样的数据称为平衡面板,否则称为非平衡面板。以后的学习我们主要考虑平衡面板数据。
首先假设是非随机的,而且误差项遵从经典假设,即
怎样估计(*)式呢?
三、面板数据回归模型的估计
对于(*)式的估计取决于我们对截距、斜率和误差项的假定。有以下几种可能:
假定通过时间和空间的截距和斜率是不变的,误差项在时间和个体上存在差异;
斜率不变而截距随个体而变化;
斜率不变但截距随时间和个体而变化;
截距和斜率均随个体而变化;
截距和斜率均随个体和时间而变化。
以上的每种情形将越来越多的复杂性引入对面板数据回归模型的估计中。作为入门,我们在后面的学习中只讲一些基本的知识。
1、所有系数都不随时间和个体而变化
估计(*)式最简单的方法就是不考虑空间和时间的混合数据,只是将80个数据堆砌在一起进行OLS估计,结果如下:
              1
    -2.14 8.02  6.15       
这样估计的所有系数都具有独立的统计显著性,斜率系数具有预期的正号,而且的值相当高。但美中不足的是:估计值十分低,这表明数据里可能存在自相关。而前面我们学过,这有可能归咎于设定误差。能够把80个数据堆砌在一起进行OLS估计的前提是假设GE、GM、US、WEST的截距值是相同的,两个X变量的斜率系数对于四个公司是完全一样的。这些假定相当严格,尽管使得估计简单,但很可能扭曲了这四个公司Y和X之间关系的真实情况。我们需要做的就是出一些办法将四个公司的特性分别考虑进来。
2、斜率系数不变而截距随个体而变化:固定效应模型(FEM
将每个横截面单元(即每个公司)的个体性考虑进来的一种方法是假定截距随每个公司变化但斜率系数仍然不变,为了达到这个目的,*)式应设成:
  (固定效应模型)    2
注意到截距下标的变化,这就表明四个公司的截距是不同的。这种差异可能是由于每个公司的特性所引起的,比如管理者的风格、公司所处的地理位置等。
注:固定效应这个词归因于个体的截距不随时间变化(即非时间变异),尽管截距可能随个体的不同而变化。
固定效应模型应如何估计呢?我们的做法是引进虚拟变量。(2)式可以写成:
    3
其中,如果观测值属于GM,则=1,否则为0;如果观测值属于US,则=1,否则为0;如果观测值属于WEST,则=1,否则为0。由于用的是四个公司,因此只需用3个虚拟变量。表示GE的截距。
基于(3)式的估计结果如下:
    4
    -6.86  3.48  14.16    5.92    6.17  12.98
思考:(1)式和(4)式哪个模型更好呢?
即可以直观比较,也可以利用受约束F检验来检验。(1)式是一个受约束的模型。
时间效应。正如用虚拟变量来考虑个体(公司)的影响,在一定意义上我们也可以考虑投资函数随时间变化而引起的时间效应。而投资函数的变化是由诸如技术变迁、政府法规或税收政策变化这些因素以及诸如战争或其他冲突这样的外部效应所引起的。如果每年引入一个时间虚拟变量,时间效应很容易被考虑进来。我们的数据是从1935年到1954年的,那么就应该引入19个虚拟变量(为什么)。(*)式可写成:
    5
如果观测值来自1935年,的值为1,否则为0。基底年为1954年,它的截距值为(为什么)。
回归结果中,所有的时间虚拟变量在统计上都不显著。这说明年份或时间效应不显著,也可能表明投资函数并未随时间发生很大的变化。
3、斜率系数不变而截距随个体和时间而变化
为了考虑这种可能性,把(3)式和(5)式合并,如下所示:
    4、所有系数都随个体而变化
这种情形假定所有个体单元或横截面单元的截距和斜率系数是不同的。即GE、GM、US、WEST的投资函数都不相同。估计的模型如下:
   
回归结果如下:
变量
系数
t
p
截距
-9.96
-0.13
0.90
-139.51
-1.28
0.21
-40.12
-0.31
0.76
9.38
0.10
0.92
0.09
2.18
0.03
0.15
2.43
0.02
0.09
2.18
0.03
0.22
3.22
0.002
0.14
2.24
0.03
0.26
2.13
0.04
0.03
0.24
0.81
-0.06
-0.16
0.87
使用固定效应模型时的注意事项:
1)如果引入过多的虚拟变量,面临自由度的问题;
2)模型中有如此多的变量,因而总会存在多重共线性的可能性;
3)必须小心考虑误差项。到目前为止,我们所得到的结果都是建立在这个假定上。这个假定意味着对于不同时间和不同个体的误差都服从相同的分布。这显然和事实不太相符,因此有必要对的经典假定做出修正。(比如可以假定对于所有横截面单元误差项的方差是相同的,或假定误差项的方差是异方差的。这些更深的理解留待有兴趣的同学自己学习。)
5、随机效应方法(REM
尽管可以直接应用固定效应模型估计面板数据模型,但是由于自由度的原因,这样建立模型的代价是高昂的。而且包含虚拟变量其实是因为我们对真实模型知识的一种缺乏,此时就提出了一个新的思路:通过干扰项来表达这种无知。支持这种方法的人称这种模型为误差组成模型(ECM)或随机效应模型(REM)。
基本思想:
                              6
假定是一个均值为的随机变量,而不再将其看成一个固定值。那么单个公司的截距值可以表示为:。其中。  (7)
实际上,这种做法的实证是认为例题中的四个公司是从更大的这种公司集合中提取出来的,而这些公司的截距都有一个相同的均值(),并且每个公司截距值的个别差异都反映在误差项中。
把(7)代入(6)式,得到:
,其中
合并的误差项包含两个部分:。前者是横截面或特定个体误差部分,后者则是时间序列和横截面混合误差部分。
误差组成模型(ECM)正是因为合并的误差项由两个或多个误差部分组成而得名。
js的基本数据类型ECM模型通常的假定是:
即个体之间的误差部分是不相关的,并且兼考虑横截面和时间序列单元的误差部分也没有自相关。
我们可以证明:
这说明:
(1)误差项是同方差性的;
(2)对于给定的横截面单元(不变),两个不同时间上的误差项的相关系数值保持不变。即一个给定的横截面单元的误差项在不同的时点上是相关的。
因此,的最合适的方法是广义最小二乘法。
思考:在这种思路下如何扩展模型以考虑时间误差部分?
新的误差项应该设为:
其中假定
进一步假定:
6、固定效应与随机效应模型的比较
注意区分FEM和ECM之间的不同:
在FEM中,每个横截面单元都有自己固定的截距值,N个横截面单元就有N个这样的值;另一方面,ECM中截距代表所有横截面截距的平均值,而误差部分则表示单个截距对这个平均值的随机偏离。
现在面临的挑战是:FEM和ECM,哪个模型更好?
若假定与X不相关,那么ECM可能合适一些;若与X相关,FEM则可能更适用。