类别变量的中介效应分析 
*方  杰**1    温忠麟2    张敏强2
(1广东财经大学人文与传播学院, 广州 510320)(2华南师范大学心理学院/心理应用研究中心, 广州 510631)
摘   要   在心理学和其他社科研究领域,研究者能熟练地进行连续变量的中介效应分析,但面对自变量、中介变量或(和)因变量为类别变量的中介效应分析,研究者往往束手无策。在阐述类别自变量中介分析方法的基础上,我们建议使用整体和相对中介相结合的类别自变量中介分析方法,并给出了分析流程。以二分因变量为例,讨论了中介变量或(和)因变量为类别变量的中介分析方法的发展过程(即尺度统一的过程),建议通过检验Za×Z b 的显著性来判断中介效应的显著性。用二个实际例子演示如何进行类别变量的中介效应分析。最后展望了类别变量的中介效应分析研究的拓展方向。关键词    类别变量    中介效应    相对中介    整体中介
*本研究得到国家自然科学基金项目(31271116,31400909)、教育部人文社会科学研究青年基金项目(
14YJC190003)、广东省哲学社会科学“十二五”规划项目(GD13CXL01)和大学生的执行功能发展与心理健康关系研究(08BS18001)的资助。
**通讯作者:方杰。E-mail: fangj@gdufe.edu DOI:10.16719/jki.1671-6981.20170233
1    前言
中介(mediation)是社会科学研究中重要的方法学概念。如果自变量X 通过某一变量M 对因变量
Y 产生一定影响,则称M 在X 和Y 之间起中介作
用,此时称M 为中介变量(见图1(a))。中介研究可以帮助我们解释自变量和因变量关系的作用机制,整合已有的多个变量之间的关系,近三十年来备受关注,分析方法和实际应用都得到长足发展(温忠麟, 叶宝娟, 2014)。然而以往的中介研究几乎都假设X 、M 和Y 都是连续变量的情况,当X 、M 或(和)Y 是类别变量时,如何进行中介分析呢?目前这方面的研究还比较少,国内仅查到一篇方法文章和一篇应用文章讨论因变量为类别变量的简单中介分析(刘红云, 骆方, 张玉, 张丹慧, 2013;杨雪等, 2013)。Iacobucci (2012)甚至将类别变量的中介分析称为中介分析的最后一个难题。本文探讨如何正确地进行类别变量的中介分析。首先,讨论如何使用回归分析进行多类别自变量的中介分析,并给出了分析流程。接着,以二分因变量为例,详述了中介变量或因变量为类别变量的中介分析方法的发展过程,并
给出了分析建议。随后用二个实际例子演示如何进行类别变量的中介效应分析。最后对相关问题进行了讨论和拓展。
2    自变量为类别变量的中介分析
自变量为类别变量、中介变量和因变量为连续变量的中介分析(以下简称类别自变量的中介分析),如果自变量为二分类别变量,可利用回归分析按照逐步法(温忠麟, 叶宝娟, 2014)进行中介分析(Mackinnon, Warsi, & Dwyer, 1995);如果自变量为k 个类别(k ≥3)建议使用相对中介和整体中介分析方法。
2.1    相对中介分析
Hayes 和Preacher (2014)使用相对中介效应(relative mediation effect)、相对直接效应(relative direct effect)和相对总效应(relative total effect)来阐述和理解多类别自变量(k ≥3)的中介分析过程:
第一,根据研究目的选择自变量的某个水平为参照水平。因为自变量的其它k -1个水平都要与参照水平进行对照,从而得到相对于参照水平的中介效应、直接效应和总效应。由此可知,随着参照水平选择的不同,中介效应、直接效应和总效应的大小和显著性都会发生相应的变化。因此,在报告中介分析的结果时,必须说明是基于哪个参照水平的中介分析结果。
第二,对自变量进行编码,常用的编码方法是虚拟编码(dummy coding)。由于自变量存在k 个水平,
472心    理    科    学
因此需要k-1个虚拟变量(D1,D1,…,D k-1)。
第三,依次进行下面的回归分析(见图1(b)),
得到k-1个相对总效应c1,c2,…,c k-1;k-1个相对直接效应c'1,c'2,…,c'k-1;k-1个相对中介效应,,…,。相对总效应的大小等于相对直接效应和相对中介效应的大小之和:
(4)
鉴于以往常用的逐步法存在诸多不足(参见方杰, 邱皓政, 张敏强, 2012),Hayes和Preacher(2014)建议使用Bootstrap法进行相对中介效应的显著性判断,判断方法是求出的Bootstrap置信区间,如果置信区间不包含0,就表示相对中介效应显著。需要说明的是,类别自变量的水平数越多,需要检验的相对中介效应、直接效应和总效应就越多,这可能会导致检验的第一类错误率增大,Hayes和Preacher建议增加Bootstrap置信区间的置信度(用1–α/(k-1)代替通常的1–α)来控制检验的第一类错误率。
2.2整体中介分析
相对中介分析检验的是多类别自变量的某一个水平相对于参照水平而言是否存在显著的中介效应,整
体中介分析检验的是k-1个相对中介效应是否全部为0。整体中介分析相比相对中介分析存在至少三个优势。第一,整体中介分析的结果不受参照水平的影响。第二,整体中介分析的统计功效高于相对中介分析。第三,整体中介分析得到的某些模糊结论(存在若干显著的相对中介效应)要比相对中介分析的某些结论(自变量的某一个水平相对于参照水平的中介效应不显著)更有意义。整体中介分析包括整体中介效应、整体直接效应和整体总效应三部分(Hayes & Preacher, 2011)。
2.2.1整体中介效应检验
整体中介效应(omnibus mediation effect)检验的原假设是k-1个相对中介效应全部为0,检验的统计量为,表示回归方程(2)的校正后的测定系数,b表示方程(3)的回归系数。检验的逻辑是,如果回归方程(2)的系数中,只要有一个回归系数显著不为0,则就不为0;同时,如果方程(3)中的回归系数b显著不为0,则就显著不为0,据此可以推翻原假设,得出k-1个相对中介效应不全为0的结论。由于检验统计量在绝大多数情况下都不是正态分布,建议使用Bootstrap 法对统计量进行检验,如果Bootstrap置信区间不包含0,就表示检验统计量显著不为0,得出k-1
个相对中介效应不全为0的结论(Hayes & Preacher, 2011)。
2.2.2整体直接效应和整体总效应检验
整体直接效应(omnibus direct effect)检验的原假设是k-1个相对直接效应全部为0,检验统计量为(n-k-1)△R2/(k-1)(1-R2),检验统计量服从F(k-1, n-k-1)分布,R2是回归方程(3)的测定系数,△R2是回归方程(3)与回归方程Y=i4+bM+ε4的测定系数之差,n表示样本容量。如果检验统计量显著不为0,则k-1
个相对直接效应不全为0 (Hayes & Preacher, 2011)。
整体总效应(omnibus total effect)检验的原假设是k-1个相对总效应全部为0,检验统计量为(n-k) R2/k(1-R2),检验统计量服从F(k-1, n-k)分布,R2是回归方程(1)的测定系数,如果检验统计量显著不为0,则k-1个相对总效应不全为0 (Hayes & Preacher, 2011)。
2.3多类别自变量的中介分析流程
面对一个多类别自变量的中介分析任务,研究者应当如何进行呢?根据前面的讨论,我们总结出一套多类别自变量的中介流程(见图2)如下:
1.整体中介分析。如果整体中介效应不显著,
就表示k-1个相对中介效应全部为0,则分析结束;
否则进入步骤2。
2.相对中介分析,弄清具体哪一个或哪一些相
对中介效应显著。如果相对中介效应不显著,则分
析结束;否则进入步骤3。
3.报告相应的相对直接效应检验的显著性结
果。即使直接效应不显著,也避免使用完全中介的
概念(温忠麟, 叶宝娟, 2014; Zhao, Lynch, & Chen, 2010)。
2.4示例
接下来用一个例子演示如何进行多类别自变量
的中介效应检验。本例要研究的是负性情绪(negative emotion)在公正感(injustice perception)与员工偏离行为(workplace deviance)关系中的中介作用。本例的所有数据(815人)均来自Hayes (2013)的研究。自变量(X)为公正感(分为低、中、高三水平),是三类别自变量(K=3)。中介变量(M)为负性情绪,因变量(Y)为员工偏离行为,中介变量和因变量都
(1)
(2)
(3)
473方   杰等 :类别变量的中介效应分
为连续变量。使用SPSS宏(PROCESS version2.16 is written by Andrew F. Hayes, www.afhayes)执行基于Bootstrap的多类别自变量的中介效应检验。以下呈现的是笔者利用Hayes (2013)的数据所做的
分析结果。
图2   多类别自变量的中介分析
整体中介分析的结果是,整体总效应检验的F(2, 812)=61.24,p<.001,表明2个相对总效应不全为0;整体直接效应检验的F(2, 811)=21.47,p<.001,表明2个相对直接效应不全为0。整体中介效应检验的95%的Bootstrap置信区间为[.03, .07],不包括0,表明2个相对中介效应不全为0,因此有必要做进一步的相对中介分析。
相对中介分析的结果是,以公正感低为参照水平,公正感中等相对公正感低的相对中介的95%的Bootstrap置信区间为[-.29, -.05],不包括0,表明相对中介效应显著(=-.37,b=.46,=-.17),即公正感中等的员工体验到的负性情绪要比公正感低的员工要少.37(=-.37),所以公正感中等的员工的偏离行为也相应减少(b=.46)。相对直接效应显著(c'1=-.29,p=.003),表明排除中介作用后,公正感中等的员工的偏离行为还要比公正感低的员工少.29;相对总效应显著(c1=-.46,p<.001),相对中介效应
的效果量为37%(.17/.46)。同理,以公正感低为参照水平,公正感高相对公正感低的相对中介的95%的Bootstrap置信区间为[-.67, -.40],不包括0,表明相对中介效应显著(=-1.16,b=.46,=-.53),即公正感高的员工体验到的负性情绪要比公正感低的员工要少1.16(=-1.16),所以公正感高的员工的偏离行为也相应减少(b=.46)。相对直接效应显著(c'2=-.61,p<.001),表明排除中介作用后,公正感高的员工
的偏离行为还要比公正感低的员工少.61;相对总效应显著(c2=-1.14,p<.001),相对中介效应的效果量为46.5%(.53/1.14)。
3    中介变量或因变量为类别变量的中介分析
在中介变量或因变量为类别变量的中介分析中,应当用Logistic 回归取代通常的线性回归(刘红云等, 2013; 温忠麟, 叶宝娟, 2014; Pregibon, 1981)。Iacobucci(2012)指出中介变量或因变量为类别变量的中介模型共有6种,本文选择目前研究最多的自变量和中介变量为连续变量,因变量为二分类别变量的中介模型(见图1(a),以下简称二分因变量中介模型)进行中介分析,方程如下:
(5)
(6)
(7)
由于因变量是类别变量,因此方程(5)和(7)采用了Logistic 回归;由于中介变量是连续变量,因此方程(6)采用了线性回归(刘红云等, 2013; MacKinnon & Dwyer, 1993; MacKinnon et al., 2007; MacKinnon, 2008)。二分因变量中介模型的中介分析
方法大致经历了三个发展阶段,目的是如何更好地
474心    理    科    学
实现效应的尺度统一。
3.1检验阶段
由于在线性回归中,连续因变量的方差是可观察的,且在回归方程(1)和(3)中是恒定的,因此回归方程(1)和(3)具有相同的尺度。在Logistic 回归中,二分因变量的方差是无法直接观察的,为了确定因变量的方差,研究者将Logistic回归方程(5)和(7)的残差方差固定为π2/3,所以Logistic回归方程(5)和(7)的因变量的方差不同,即Logistic回归方程(5)和(7)的尺度不同,因此c和c'是无法比较的,如果用c - c'的大小来估计中介效应大小就会产生较大的偏差(MacKinnon & Dwyer, 1993; MacKinnon, 2008; MacKinnon & Cox, 2012)。MacKinnon等(2007)的模拟结果发现,二分因变量的中介分析中,的大小不等于c - c'的大小,更接近中介效应真值,且具有很好的稳健性,能更好的代表中介效应。至此,研究者一致同意二分因变量中介模型的中介效应大小为方程(6)得到的回归系数与方程(7)得到的回归系数b的乘积,中介效应的显著性检验也就是检验的显著性,由于此时的中介效应并不等于方程(5)得到的回归系数c与方程(7)得到的回归系数c'的差,因此不能用c - c'来计算中介效应大小和检验中介效应的显著性。
3.2    检验阶段
为了解决Logistic回归方程(5)和(7)的尺度不同问题,研究者提出了一些解决办法(刘红云等, 2013; MacKinnon & Dwyer, 1993; Iacobucci, 2012),其中使用最多的是MacKinnon和Dwyer (1993)提出的方法,即先将回归系数标准化,使得Logistic 回归方程(5)和(7)的尺度相同,然后再进行中介分析。回归系数标准化的公式是,
,,其中上标std表示标准化系数,SD(Y'')和SD(Y')由下面公式计算。
MacKinnon等人的实例说明,当Logistic回归系数标准化后,与的大小已经很相近(MacKinnon & Dwyer, 1993; MacKinnon, 2008)。但刘红云等(2013)的模拟研究表明,与的
大小仍然存在差异,并且更接近中介效应真值,能更好的代表中介效应,因此二分因变量中介模型的中介效应大小为,中介效应的显著性检验也就是检验的显著性。
3.3检验阶段
Iacobucci (2012)对二分因变量中介模型的中介分析就是检验显著性的方法提出了批评,理由是回归系数来自连续变量M对X的回归(连续变量的量尺),而回归系数来自二分因变量Y对M、X的回归(Logit量尺),这两个回归系数不在相同的尺度上,因此不具有可比性。那么,如何使得两个回归系数具有相同的尺度呢?Iacobucci(2012)指出,在线性回归中,回归系数的显著性检验用t检验,检验的统计量为,当样本容量增大到自由度超过30时,t检验可以看成是Z检验,可以写成;在Logistic回归中,回归系数b的显著性检验用Wald的χ2检验,检验的统计量为,检验统计量的平方根是
bootstrap检验方法
,这是一个t检验统计量,当样本容量增大到自由度超过30时,可以写成;所以将回归系数和b转换为和后,和是相同尺度的,因此二分因变量中介模型的中介效应大小为,中介效应的显著性检验也就是检验的显著性。Iacobucci建议使用Sobel法检验的显著性,检验统计量为:
还用模拟研究证明,检验
的显著性来判断中介效应显著性的方法不仅适用于二分因变量中介模型,还可以推广到中介模型(见图1(a))至少包含一个类别变量的7种模型、甚至变量都是连续变量的中介模型也可以使用。
值得注意的是,Iacobucci使用的Sobel法是以
为正态分布,且需要大样本为前提条件的,而实际上通常都不是正态分布,所以Sobel 法的局限是显而易见的。MacKinnon和Cox(2012)建议使用乘积分布法(distribution of the product)检验的显著性,乘积分布法无需正态性假设,适用于中小样本,有效克服了Sobel法的不足,且可用R软件的RMediation软件包(Tofighi & MacKinnon, 2011)自动运行,得到的不对称置信区间,如果置信区间不包括0,就表明中介效应显著。
Feinberg (2012)还建议使用Bootstrap法或贝叶斯法来检验的显著性。Huang, Sivaganesan,
475方   杰等 :类别变量的中介效应分
Succop和Goodman(2004)用模拟研究比较了所有变量都是二分类别变量的简单中介分析中,Sobel法、Bootstrap法和无先验信息的贝叶斯法的表现,结果发现无先验信息的贝叶斯方法最优(尤其在小样本时),主要体现在均方根误差(root mean square error, RMSE)最小;Bootstrap法表现其次,最差是Sobel法。但Huang等人(2004)的研究仍然存在不足,Huang 等人研究的所有变量都是二分类别变量,因此中介分析都使用Logistic回归,不存在尺度统一的问题,那么对需要统一尺度的二分因变量中介模型的中介分析而言,Sobel法、Bootstrap法和无先验信息的贝叶斯法的表现如何呢?还需进一步深入研究。另一个不足在于,目前的常用统计软件还无法直接得到的Bootstrap法或贝叶斯法的置信区间。
3.4示例
接下来用一个实际例子演示如何对二分因变量的中介模型进行中介效应分析。本例要研究的是血脂(blood fats)对吃烤肉(eating grilled meat)与患胰腺癌(pancreatic cancer)关系的中介作用。本例的所有变量及其数据(200人)均来自Mackinnon(2008)的研究。自变量(X)为一周内的日均吃烤肉数,中介变量(M)为血脂(血液中的脂肪酸)指数,自变量和中介变量都为连续变量。因变量(Y)为是否患胰腺癌,1表示患胰腺癌,0表示没有患胰腺癌,因变量是二分类别变量。使用SPSS软件进行数据分析。以下呈现的是笔者利用Mackinnon(2008)的数据所做的分析结果。
第一,做因变量为M,自变量为X的线性回归,得到= .215,= .074,=2.906。第二,做因变量Y对自
变量X和M的Logistic回归,得到b = 1.737,SE(b)= .276,=6.294。第三,由R 软件的RMediation软件包使用乘积分布法检验得到的95%的置信区间是[.115, .676],不包含0,因此,血脂对吃烤肉与患胰腺癌关系的中介效应显著。另外,根据公式(12)计算得Z=2.611>1.96,也得出和乘积分布法相同的检验结果。由此可知,检验显著性的方法的计算量远小于检验显著性的方法,这也是方法的优势之一。
需要指出的是,示例所示的中介分析的方法,不仅适用于二分因变量的中介分析,同样也适用于因变量是多类别变量的情况,只需在步骤二中使用累积logistic回归即可(刘红云等, 2013)。示例所示的方法也适用于中介变量是类别变量的中介分析,如果示例中的中介变量是类别变量,则前两个步骤都使用logistic回归即可。Iacobucci(2012)用模拟研究证明,示例所示的方法适用于中介变量或因变量为类别变量的各种(6种)情况的中介分析。另外,如果因变量的类别数较多(5及以上)时,步骤二可考虑使用线性回归,因为刘红云等(2013)的模拟研究表明,随着因变量的类别数增多,logistic回归和线性回归的差别越来越小。
4    讨论与拓展
在阐述类别自变量中介分析方法的基础上,我们建议使用整体中介和相对中介分析相结合的方法进行多类别自变量的中介分析。以二分因变量为例,讨论了中介变量或(和)因变量为类别变量的中介分析方法的发展过程——即尺度统一的过程,建议通过检验的显著性来判断中介效应的显著性。但是,有关类别变量的中介分析,尚需进一步深入研究和拓展。
第一,在多类别自变量的中介分析中,对自变量的编码除了使用虚拟编码(dummy coding)外,实际上还可以使用其他编码系统。例如,当类别自变量的多个类别之间可以排序时(公正感分为高、中、低三个类别),就可以使用顺序编码(sequential coding)。Hayes和Preacher (2014)用实例说明,使用不同的编码系统,会导致回归系数的大小变化,以及对相对中介效应、直接效应和总效应的理解不同,但都可以采用相同的分析步骤和方法。
第二,本文阐述的多类别自类量的中介分析不仅适用于简单中介模型(见图1),还适用于其他更为复杂的模型。例如,有m个中介的并行多重中介模型中,只需用下面方程(13)-(15)替换方程(2)-(4),即可完成多类别自变量的并行多重中介分析(Hayes & Preacher, 2014):
(13)
(14)
(15)
第三,本文涉及的类别变量的中介分析都设定所有变量为外显变量(manifest variable),外显变量的中介效应研究由于忽略了测量误差(measurement error)会低估中介效应值。如果使用结构方程模型(structural equation model, SEM)进行类别变量的中介