定量数据分析效应值:意义、计算与解释
蒲显伟
【摘 要】由于零假设显著性检验存在的问题,近年来国外许多研究者、期刊编辑和研究学会建议或要求定量研究结果报告效应值作为对显著性检验结果的补充,然而国内心理学、教育学等社会科学领域还很少有学者对效应值进行专门研究.文章将讨论显著性检验存在的问题,效应值的定义及其重要性,效应值的分类、效应值的计算方法和效应值的解释标准.
【期刊名称】《心理学探新》
【年(卷),期】2016(036)001
【总页数】6页(P64-69)
【关键词】效应值;意义;计算;解释
【作 者】蒲显伟
【作者单位】南京理工大学外国语学院,南京210094
【正文语种】中 文
【中图分类】B841.2
近几十年来,零假设显著性检验(又被称为零假设检验、显著性检验、统计检验或统计显著性检验,以下简称显著性检验)被广泛地应用于心理学、教育学等社会科学的定量研究中。然而,显著性检验从出现开始,就有学者指出了其存在的问题。Joseph Berkson于1938年在美国统计学会期刊上发表了一篇文章,对显著性检验的内在逻辑和检验效力提出了挑战(Cohen,1994;Kirk,1996)。近年来,研究者对显著性检验的批评更加猛烈(Cohen,1994;Ferguson,2009;Kirk,1996;Schimidt,1996;Sun et al.,2010)。鉴于此,许多研究者建议在定量研究中报告效应值(effect size)作为对显著性检验结果的补充,因为显著性检验只表明研究的统计显著性,而效应值代表研究的实际显著性;同时,国外的一些期刊,也在其编辑方针中明确要求定量研究必须报告效应值;美国心理学会于2010年出版的格式手册第6版(APA 2010,p.33)也明确要求研究者汇报定量研究结果的效应值。受这些建议和要求的影响,国外社会科学领域的一些学者开始在其发表的文章中报告效应值,国内一些心理学期刊,如《心理学探新》,也于2014年开始对效应值的报告作出了明确要求。然而,
国内社会科学领域仅有几位学者对效应值的意义和计算方法进行了简单介绍(胡竹菁,2010;胡竹菁,戴海琦,2011;卢谢峰,唐源鸿,曾凡梅,2011;蒲显伟,2014;权朝鲁,2003,等)。因此,本文将对显著性检验存在的问题,效应值的重要性,效应值的分类、效应值的计算方法和效应值的解释标准作一介绍和讨论。
显著性检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的推断统计方法。具体作法是:根据问题的需要对所研究的总体作某种假设,称为零假设,如控制组和接受某种实验处理的试验组没有显著性差异;然后选取合适的统计量,然后根据实测的样本,计算出统计量的值,并根据预先设定的显著性水平进行检验,做出拒绝或接受零假设的判断。通常的判断规则是:当被检验的统计量随机发生的概率等于或小于0.05或0.001时,拒绝零假设;反之就接受零假设。
国外的研究者对显著性检验的批评主要有以下几点。第一、显著性检验的结果与我们所想要知道的研究结果背道而驰(Cohen,1994;Kirk,1996;Larson-Hall,2010)。研究者真正想要知道的是P(H0|D),即在给定样本的情况下零假设成立的概率。而显著性检验告诉研究者的是P(D|H0),即在零假设成立的情况下样本发生的概率。第二、显著性检验受样本容量的
影响较大(Ellis,2010;Ferguson,2009;Grissom & Kim,2005)。第三、以点为界的二分决策容易让研究者产生误解(Cohen,1994;Kirk,1996;Rosnow & Rosenthal,2003)。统计结果判断的临界点(p=0.05或0.001)是人为设定的,但许多研究者把这一临界点当着判断是非的客观标准,甚至把临界点神圣化了。第四、研究者对显著性检验还有其他方面的错误理解。其中最为普遍的是把统计显著性与实际显著性等同,以及把显著性水平当着是能够成功复制该研究的概率(Cohen,1994;Ferguson,2009;Kirk,1996;Larson-Hall,2010;Volker,2006)。然而,显著性水平只表示在零假设成立的情况下样本发生的概率,效应值才能表明研究结果的实际重要性,检验功效才表示成功复制的概率。
odds由于显著性检验存在的问题以及人们对显著性检验结果的错误理解和运用,国外好几位学者(如Schmidt,1996)建议禁止使用显著性检验,他们认为显著性检验不仅没有促进,反而严重阻碍了心理科学的发展。然而更多的研究者认为,虽然显著性检验有其内在的缺陷,但大多数问题是由于研究者对其错误的理解和运用而产生的。显著性检验并非完全无用,至少它能证明某一个试验结果是否是由于抽样误差而产生的。因此,这些研究者建议在定量研究结果中增加效应值的报告作为对显著性检验结果的补充(Kirk,1996;Vacha-Haase & Thompson,2004;Volker,2006)。
效应值(又被译为效应量、效果量、效应大小或效应幅度)是指用来量化样本结果与零假设预期偏离程度的统计量(Alhija & Levy,2009;Cohen,1988,1994;Sun et al.,2010),是独立于测量尺度的统计量,能非常直观地表明组间差异的大小或变量之间关系的强弱,代表的是研究结果的实际显著性,即研究结果在实际生活中的有效性(Ellis,2010)。
效应值的报告不仅是许多研究者的建议,而且是一些学会和期刊编辑方针的要求。早在1994年,美国心理学会出版手册第4版就“鼓励”研究者提供效应值的信息。随着关于显著性检验的争论日趋激烈,美国心理学会又成立了一个推断统计小组(TFSI:the Task Force on Statistical Inference)以研究和解决包括显著性检验在内的关于统计应用的一些有争议的问题(Wilkinson & TFSI,1999)。该小组由各方面的专家组成,包括统计学家、统计学教师、期刊编辑、统计书籍作者、计算机专家和其他特邀的资深专家学者。专门小组的研究结果于1999年在American Psychologist期刊上发表,同时小组建议对出版手册第4版关于统计的章节进行修改。2001年出版手册第5版进一步“建议”研究者在报告显著性检验结果的同时报告效应值。而到了2010年,出版手册第6版则“要求”研究者报告效应值(APA 2010,p.33)。2006年美国教育研究学会(the American Educational Research Association)也发表文章,要求其旗下期刊所刊登的文
章必须报告效应值(AREA,2006)。到目前为止,国外社会科学领域共有不同学会的近30种期刊对效应值的报告做出了要求(Sun et al.,2010)。
除了专家学者的建议和要求,效应值在实际运用方面也具有极为重要的作用(Ellis,2010;Grissom & Kim,2005;Larson-Hall,2010;Volker,2006)。首先、效应值能直观地表明组间差异的大小或变量之间关系的强弱,它代表的是研究结果的实际显著性。第二、效应值可以帮助研究者在实验前估计出要使得研究具有统计上的显著性所需要的样本容量。第三、效应值也是功效分析不可或缺的参数。此外、效应值也是元分析者不可或缺的参数。效应值的报告不仅能节省元分析者处理数据的时间,而且能提高元分析的准确性。
到目前为止,研究中所使用的效应值超过70多个(Ellis,2010)。这些数目众多的效应值大体可被分为两类:组间差异类(d类)和相关关系类(r类)。d类效应值以Cohen’s d为代表,以标准分的形式量化组间均值差异。例如d=0.5时,表示组间均值差为0.5个标准分。其他常用的组间差异类效应值还包括Hedges’ g和Glass’s Δ。r类效应值以皮尔森相关系数r为代表,表示两个或多个变量之间的相关关系。两个变量之间的关系越紧密,相关系数就越大。除r之外,这类效应值还包括各类平方形式的统计量,如等。值得注意的是d和r这两类效应值是可以互相转换的(Rosenthal & DiMatteo,2001)。
5.1 参数检验效应值
表1是常用的参数检验效应值的计算方法(Ellis 2010;Ferguson,2009;Field,2005;Grissom & Kim,2005;Larson-Hall,2010;Levine & Hullett,2002;Volker,2006)。参数检验是在总体分布已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。参数检验的数据必须满足一定的前提条件,如数据呈正态分布、方差齐性、样本独立等(Field,2005;Leech & Onwuegbuzie,2002)。
在t检验中,最为常用的效应值是Cohen’s  d,计算方法如表1中公式(1),即用两组均值差除以两组的平均方差(SDpooled)。其实在Cohen(1988)最初提出的公式中,分母是用总体的方差(σ)而非样本的方差(s),然而总体的方差难以知晓,因此在实际研究中,一般用样本方差来代替总体方差。当两个组样本容量和方差相似时,可用公式(1)来计算效应值。当两组样本容量相似但方差有较大差异时,用公式(2),即分母为控制组的方差,因为该组没有接受实验处理,因此其方差更接近总体方差,此效应值被称为Glass’s △。当两组样本容量差异较大时,使用公式(3)来计算效应值,其中分母也是两个组的平均方差。但与公式(1)所不同的是,公式(3)中平均方差是通过对各组的样本方差按样本容量进行加权处理(Ellis,2010,p.10)。
相关分析是研究两个变量之间的相关程度以及相关方向,相关系数为Pearson’s r,也即是分析结果的效应值。统计软件SPSS可以直接输出r值。此外为了便于理解也可以用r2作为效应值。例如,考试焦虑和考试成绩之间的相关系数r为-0.32,那么r2=0.10,该值表示考试焦虑能解释考试成绩10%的变异。平方类的效应值虽然更好理解,但丢失了相关方向(正相关还是负相关)的信息。
回归分析研究一个或多个自变量(其中至少一个是分类变量)与一个因变量之间的关系,尤其是其中一个自变量发生变化对因变量产生的影响。回归分析结果的效应值通常用R2或△R2(adjusted R2)来表示,其含义与r2相同。△R2是对R2所做的校正。统计软件SPSS可以直接输出R2和△R2值。
方差分析研究一个或多个自变量(通常是分类变量)与一个因变量之间的关系。单因素方差分析(One-Way ANOVA)结果可用η2(eta squared)来表示效应值,但统计软件SPSS并不直接输出这一结果。η2值可以用表1中的公式(4)来计算,即用组间平方和(SSbetween)除以总平方和(SStotal)。η2值与相关分析的值r2含义相同。然而,相比总体效应值(omnibus effect size),组间效应值(pairwise effect size)更有意义。这时可以用t检验中所列
的公式来计算。多因素方差分析结果的效应值可用η2 或来表示,但SPSS输出结果中只提供了值,其计算方法见公式(5)。有研究者指出(Levine & Hullett,2002),多因素方差中的值比η2值偏大,自变量越多,两者之间差异越大,值甚至能达到η2值一倍左右。因此在解释值需要谨慎。此外,方差分析结果的效应值也可以用f2,ω2(omega squared)或ε2(epsilon squared)等来表示(Ferguson,2009;Grissom & Kim,2005;Larson-Hall,2010)。