试验4:方差分析
一、试验目标与要求
1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理2.掌握方差分析的过程。
3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。
二、试验原理
在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。为此引入方差分析的方法。
方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显著的。
方差分析有3个基本的概念:观测变量、因素和水平。观测变量是进行方差分析所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别或不通取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中,因素常常是某一个或多个离散型的分类变量。
根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;根据因素个数,可分为单因素方差分析和多因素方差分析。在SPSS中,有One-way ANOVA(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析);GLM Multivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。本节仅练习最为常用的单因素单变量方差分析。
三、试验演示内容与步骤
单因素方差分析也称一维方差分析,对两组以上的均值加以比较。检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用One-way ANOVA过程。
采用One-way ANOVA过程要求:因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。若对被观测对象的试验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。
假设某汽车经销商为了研究东部、西部和中部地区市场上汽车的销量是否存在显著差异,在每个地区随机抽取几个城市进行调查统计,调查数据放置于数据文件“汽车销量调查.sav”中。在SPSS中试验该检验的步骤如下:
步骤1:选择菜单Analyze→Compare means→One-Way ANOVA,打开One-Way ANOVA
对话框。依次将观测变量sales移入Dependent list列表框,将因素变量region移入Factor 列表框。
图4.1 One-Way ANOV A对话框
comparisons♦单击post Hoc按钮,弹出Post Hoc Multiple Comparisons对话框,如图,该对话框用于进行多重比较检验,即各因素水平下观测变量均值的两两比较。
方差分析的原假设是各个因素水平下的观测变量均值都相等,备择假设是各均值不完全相等。假如一次方差分析的结果是拒绝原假设,我们只能判断各观测变量均值不完全相等,却不能得出各均值完全不相等的结论。各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。
图4.2 Post Hoc Multiple Comparisons对话框
Equal Variances Assumed选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下的多种检验方法。这里选择最常用的LSD检验法;Equal Variances Not Assumed选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法。这里选择Tamhane’s T2检验法;Significance level输入框中用于输入多重比较检验的显示性水平,默认为5%。
♦单击Options按钮,弹出options子对话框,如图所示。在对话框中选中Descriptive 复选框,输出不同因素水平下观测变量的描述统计量;选择Homogeneity of variance复选
框,输出方差齐性检验结果;选中Means plot 复选框,输出不同因素水平下观测变量的均值直线图。
图4.3 Options 子对话框
在主对话框中点击ok 按钮,可以得到单因素分析的结果。试验结果分析:表4.1给
出了不同地区汽车销量的基本描述统计量以及95%的置信区间。
表4.1 各个地区汽车销量描述统计量
Descriptives
销量
N Mean Std. Deviation
Std. Error
95% Confidence Interval for
Mean
Minimum
Maximum
Lower Bound
Upper Bound
西 10 157.90 22.278 7.045 141.96 173.84 120 194 中 9 176.44 19.717    6.572 161.29 191.60 135 198 东 7 196.14 30.927 11.689 167.54 224.75 145 224 Total
26
174.62
27.845
5.461
163.37
185.86
120
224
表4.2给出了Levene 方差齐性检验结果。从表中可以看到,Levene 统计量对应的p 值大于0.05,所以得到不同地区汽车销量满足方差齐性的结论。
表4.2 各地区汽车销量方差齐性检验表 Test of Homogeneity of Variances
Levene Statistic
df1
df2
Sig. 1.262
2
23
.302
表4.3是单因素方差分析,输出的方差分析表解释如下:总离差SST =19384.154,组间平方和SSR =6068.174,组内平方和或残差平方和SSE =13315.979,相应的自由度分别为25,2,23;组间均方差MSR =3034.087,组内均方差578.956,F =5.241,由于p =0.013<0.05说明在α=0.05显著性水平下,F 检验是显著的。即认为各个地区的汽车销量并不完全相同。
Levene 统计量对应的p 值大于0.05,所以得到不同
地区汽车销量满足方差齐性的结论。
表4.3 单因素方差分析结果
ANOVA
销量
Sum of
Squares df Mean Square    F Sig. Between Groups 6068.174    2 3034.087    5.241 .013 Within Groups 13315.979 23 578.956
Total 19384.154 25
表4.4 多重比较检验结果
Multiple Comparisons
Dependent Variable: 销量
(I) 地区(J) 地区
Mean
Difference
(I-J) Std. Error Sig.
95% Confidence Interval
Lower Bound Upper Bound
LSD 西中-18.544 11.055 .107 -41.41    4.33 东-38.243(*) 11.858 .004 -62.77 -13.71 中西18.544 11.055 .107 -4.33 41.41 东-19.698 12.126 .118 -44.78    5.39 东西38.243(*) 11.858 .004 13.71 62.77 中19.698 12.126 .118 -5.39 44.78 Tamhane 西中-18.544 9.635 .199 -44.05    6.96 东-38.243 13.648 .
054 -77.10 .61 中西18.544 9.635 .199 -6.96 44.05 东-19.698 13.410 .436 -58.31 18.91 东西38.243 13.648 .054 -.61 77.10 中19.698 13.410 .436 -18.91 58.31 * The mean difference is significant at the .05 level.
如前所述,拒绝单因素方差分析原假设并不能得出各地区汽车销量均值完全不等的结论。各
地区销量均值的两两比较要看表4.4所示的多重比较检验结果。表中上半部分为LSD检验结
果,下半部分为Tamhane检验结果。由于方差满足齐性,所以这里应该看LSD检验结果。表中
的Mean difference列给出了不同地区汽车销量的平均值之差。其中后面带“﹡”号的表示
销量有显著差异,没有带“﹡”号的表示没有显著差异。可以看出,东部和西部汽车销量存
在显著差异,而中部与东部、中部与西部汽车销量并没有什么显著差异。这一结论也可以从
表中Sig列给出的p值大小得到印证。
四、备择试验
1. 用SPSS进行单因素方差分析。某个年级有三个小班,他们进行了一次数据考试,现从各
班随机地抽取了一些学生,记录其成绩如表。原始数据文件保存为“数学考试成绩.sav”。
试在显著性水平0.05下检验各班级的平均分数有无显著差异。
数学考试成绩表
ⅠⅡⅢ
73 66 88 77 68 41
89 60 78 31 79 59
82 45 48 78 56 68
43 93 91 62 91 53
80 36 51 76 71 79
73 77 85 96 71 15
78 79 74 80 87 75
76 87 56 85 97 89
2.某学校给3组学生以3种不同方式辅导学习,一个学期后,学生独立思考水平提高的成绩如表所示。
学生独立思考水平提高的成绩
方式1 37 42 42 43 41 42 45 46 41 40 方式2 49 48 48 48 47 45 46 47 48 49 方式3 33 33 35 32 31 35 34 32 32 33 问:该数据中的因变量是什么?因素又是什么?如何建立数据文件?对该数据进行方差分析,检验3种方式的影响是否存在显著差异?