Play with R 第14期:混合设计方差分析
14.1本章主旨
Mixed ANOVA和快速约会一样:)
14.2 什么是混合设计(mixed design)
分组和多次重复测量变量的混合物。
14.3 本章案例介绍
3分钟快速约会。外貌(有吸引力,平均水平,无吸引力)和个性(有魅力,平均水平,无魅力)都分为3个层级。如此就有了9种不同组合。此外评分者的性别也是一个变量。
评分者本身并不会被按照上面的9种类型被分类。但评分的10个男人和10个女人都会和上述9种类型在3分钟快速约会后对她(他)们进行评分。100%意味着我愿意出大价钱得到她(他)的电话号码。0%意味着我愿意出大价钱买张机票赶快跑。
每个评分者都会给9位外貌和个性不同的约会对象评分。所以有两种重复测量的变量-即外貌和个性。同时,评分者的性别是不同的。所以性别是分组(between-group)变量。
14.4 输入和探索你的数据
我们可以使用之前章节中介绍过的四种方法中任意一种。此处我们使用ezANOVA() 和lme(),还会使用到的工作包还有ez,ggplot2,nlme,pastecs,reshape 和WRS。
14.4.2混合设计的基本数据处理流程
1 输入数据,因为是重复测量,所以数据输入有点麻烦
2 探索数据,看图表,看描述性数据,检验sphericity 如果你使用ANOVA (boo, hiss)而是不是多层次模型。
3 建立或是选择对比。你要选择使用哪些对比并规定数据分析中的独立变量
4 运行主模型:你可以稍后运行主要分析,根据你之前的步骤得到的结果,选择一个更可靠的测试。
5 运行对比或post hoc测试。运行完主模型后,你可以继续post hoc测试或看对比结果。
14.4.3 9种排列组合外貌和个性,以及评分者和评分者 性别
如何修改整理数据格式以及相关代码
14.4.4
现在我们用ggplot2 中的箱型图来看看这些数据告诉我们些什么。
(请参看611页的图,并把你对该图的理解和610页最后一段比较。)
我们还有其它方式来分组查看描述性数据
(请阅读611-613页中的分组描述性数据)
14.4.5
正交对比(orthogonal contrast)
设置对比:外貌和个性都可以用同样的方式设置对比,首先以最低的层级作为对照组设置对比,然后再把最高层级和平均层级设置对比。设置思路和具体代码参见(613页-615页)
代码运行结果(615页-616页)
(请详细阅读615页和616页代码运行结果解释,这对下面几章的理解非常重要)
Sam的总结:
●混合设计就是当你比较不止一组平均数并有两个或多于两个的变量,并且至少有一个变量由相同的参与者测量而另一个变量由不同的参与者测量。
●你可以使用传统的ANOVA框架,或是作为一个多层模型分析这些设计
●如果你计划看Type III sums of squares结果,你必须在建立模型前给所有predictors设计正交对比。
●如果你使用ANOVA,先用Mauchly’s测试对重复测量的变量(包括或超过3种情况)一一测试球型假设(assumption of sphericity)。如果p 栏里的值小于0.05时,假设不成立。这种情况下需要对所有的效应(effect)测试该假设(如果有两个或两个以上变量,这就意味着你要把所有的变量和相关interaction都测试一遍该假设。)
●ANOVA中的每一种效应(effect),如果满足球型假设(assumption of sphericity)则使用p值。如果假设不满足,则使用Greenhouse–Geisser (p[GG]) 或者 Huynh–Feldt (p[HF]) estimate of sphericity修正后的p值,如果p小于0.05则不同组别的平均数有显著性差异。
●看平均数和图表,能帮助你理解这些对比
14.6. Mixed designs as a GLM
14.6.1. Setting contrasts
虽然我们可以像前文提到的用ezANOVA做一些简单的正交对比,但是在重复测量数据中,用多层模型来分析数据更灵活。
首先我们来看第一个变量:looks。它下面有三个条件:attractive, average 和 ugly。通常我们会想将attractive 和 ugly的数据与average对比,因为average代表常模。但是在正交对比中,这是没有意义的,因为正交对比会把attractive 和 ugly的数据结合起来与average比较。因此,要比较三组之间的差异,我们需要用非正交对比(见下表14.4)。
在非正交比较中,关键就是设置所有对比的基线。在R中,通常0表示基线。所以在这里,average attractiveness编码为0,对于其中一组对比,我们用1 代表attractive;另一组对比我们用1代表ugly。然后让R进行两组对比(attractive与average,ugly与average)。以下是对应的R代码:
那么同理,第二个变量personality也是如此设置:
第三个变量是gender,我们不需要设置对比,因为它只有两个水平。但如果你的第三个变量有两个以上水平,请记得向上面那样编码并设置对比。
我们可以通过下面的代码来查看设置的对比是否正确:
14.6.2. Building the model
在前面的章节中提到过,如果我们想看整体主效应和交互作用的话,我们应该一次比较一个观测值。我们可以像前面的章节那样明确基线模型:
这个基线模型表明有两个重复测量的观测值,
random=~1|participant/looks/personality,looks和personality这两个变量都被嵌套在每个participant的数据中。想看每个变量的主效应和交互作用我们需要把它们一个个依次加入模型。如果你想把looks加到模型中,可执行以下命令:
或者使用这个比较简单的命令:
同样地,我们可以把personality和gender加入模型:
我们也需要把两两之间的交互和三个变量之间的交互加入到模型中,从三个主效应中我们需要关注三个交互作用:looks × personality, looks × gender和personality × gender。在R中,交互作用用冒号的形式表现,所以写成looks:personality。
最后得到的模型叫speedDateModel,它包含了所有的主效应和交互作用。
我们可以用如下命令来比较以上几个模型,结果见下图14.3:
首先我们来看加入looks后的第二个模型。加入looks后,自由度(df)增加了2(因为looks有两个水平),并且显著地改善了模型:约会的吸引力对于评分有显著影响:χ2 (2)=68.30, p<.0001。将personality加入模型后,自由度也增加了2,模型的拟合度也提高了:约会中的性格对态度有显著影响:χ2 (2)=138.76, p<.0001。下一个模型我们加入了性别,结果性别对于整体评分没有显著影响:χ2(1)=0.002, p=.966,而且仅增加了一个自由度(因为性别只有一个水平)。下一个模型表明looks和gender的交互作用是显著的:χ2 (2)=39.54, p<.0001,这个模型增加了2个自由度(因为looks有两个水平,gender只有一个,df=2×1=2)。这个显著的交互作用意味着,attractiveness对评分的影响在不同性别中是不一样的。下面的交互模型同理类推。
这些结果证实了ANOVA的结果,但是多重模型方法有以下几个好处:(1)we don’t need to concern ourselves with sphericity, and (2) we can now break down these very complicated effects by looking at the model parameters (which reflect the contrasts that we used to code the predictor variables)。
我们可以用如下命令来看模型参数(model parameters):
结果如下:
14.6.3. The main effect of gender
从Output 14.3中我们可以看到,gender的主效应不显著,也就是说,如果我们忽略其他变量,男性的评分和女性的评分基本上没有什么不同。
下表14.5是性别主效应的均值和标准误,上图是对应的图表。从图上可以很清楚地看到忽略其他变量后,男女的评分均值基本没有差异。
14.6.4. The main effect of looks
从Output 14.3中我们可以看到,looks的主效应显著,也就是说,如果我们忽略其他变量,有吸引力的人、吸引力平均的人和丑的人的评分和是有显著区别的。
上表14.6是looks主效应的均值和标准误,上图是对应的图表。从图上可以很清楚地看到随着外表吸引力的降低,约会评分也在降低。这表明评分者更愿意和外表比较有吸引力的人出去约会。表14.4的数据更直观:有吸引力的人的评分显著高于吸引力平均的人,b=18.2, t(36)=7.58, p<.001;吸引力平均的人的评分显著高于丑的人,b=−17.7, t(36)=−7.37, p<.001。请记住,因为Look的交互作用显著,我们不能仅仅解释主效应。
14.6.5. The main effect of personality
从Output 14.3中我们可以看到,personality的主效应显著,也就是说,如果我们忽略其他变量,有魅力的人、魅力平均的人和无聊的人的评分和是有显著区别的。
上表14.7和图都表明,随着魅力值的下降,平均打分也会下降。所以主效应反映了评分者可能更愿意和更有魅力的人出去约会。交互作用的分析(表14.4)也表明:魅力值高的人的得分显著高于魅力值一般的人,b = 19.5, t(108) = 8.12, p < .001;魅力值一般的人的得分显著高于无聊的人,b =−21.9, t(108) = −9.12, p < .001。同样地,因为personality的交互作用显著,我们不能仅仅解释主效应。
14.6.6. The interaction between gender and looks
从Output 14.3中我们可以看到,gender和looks的交互效应显著,接下来我们可以用图表具体来看。
从上表14.8和上图来看,男性和女性在吸引力平均上的打分没什么区别,但是对于吸引力高的约会对象,男性打分显著高于女性;对于比较丑的约会对象,女性打分显著高于男性。也就是说,该交互作用表明,相较于女性,男性对于约会对象的兴趣更容易受到外貌吸引力的影响。该交互作用在表14.4也有具体对比说明。但是同样地,我们不能仅仅只解释交互作用,因为还有显著的三重交互作用处于更高优先级。
14.6.6.1. Looks×gender interaction 1: attractive vs. average, male vs. female
第一组looks × gender的对比是男女对吸引力较高和吸引力一般的打分情况,对比不显著,b = −1.5, t(36) = −0.44, p = .661,说明相较于吸引力一般的约会对象,男性相较于女性,对吸引力高的没有表现明显的兴趣增加。所以在上图中,在吸引力一般到吸引力高的这段中,蓝色线(男性)的斜率并没有比黑色线(女性)更陡。也就是说,相较于吸引力一般的对象,男女对于吸引力高的对象的偏好没有区别。
14.6.6.2. Looks×gender interaction 2: ugly vs. average, male vs. female
第二组looks × gender的对比是男女对吸引力一般和较丑的打分情况,对比不显著,b=−5.8, t(36)=−1.71, p=.096。说明相较于吸引力一般的约会对象,男性相较于女性,对于较丑的对象没有表现出明显的兴趣减少。所以在上图中,在吸引力一般到较丑的这段中,蓝色线(男性)的斜率并没有比黑色线(女性)更陡。也就是说,相较于吸引力一般的对象,男女对于吸引力丑的对象的偏好没有区别。
14.6.7 性别与性格的交互作用
性别与性格交互作用显著,χ2 (2)=57.96,p<.0001,这表示不同水平的魅力下男女对自我报告的约会意愿评分差异不一样,如图14.7所示,平均水平下男性和女性评分很接近,但是在对方是愚笨性格时,男性自我报告的约会意愿评分显著高于女性,对方非常有人格魅力时,女性自我报告的约会意愿评分稍微高于男性。这可能是因为女性考虑约会对象时比男性更在意人格魅力。但是,由于有更高水平(三因素)的交互作用,这两个因素的交互作用意义不大。
14.6.7.1 性格性别交互作用1:高vs有点魅力,男性vs女性
差异显著,b=−8.5, t(108)=−2.50, p=.014.这表明随着魅力的增加约会意愿增加的这种趋势,在女性中比男性更明显。可以认为很有魅力和有点魅力比较时,女性对很有魅力异性的偏爱显著高于男性。
14.6.7.2性格性别交互作用1:愚笨vs有点魅力,男性vs女性
差异不显著,b=−2.1, t(108)=−0.62, p=.538.当人格魅力从平均水平向无魅力变化时,男性和女性的约会兴趣变化趋势没有显著差别。
14.6.8 外貌与性格交互作用
交互作用显著χ2 (4)=77.14, p<.0001,这表明不同性格下,约会意愿评分因魅力而变化的趋势不一样
首先看看很有魅力的情况下,约会意愿的n评分在有吸引力和平均水平两组差异不大,但是从平均水平到丑陋呈现下降趋势。所以如果你很有魅力的话,即使长相处于平均水平,仍然有很多异性希望跟你约会。当对方没有人格魅力的时候,外貌丑陋和平均水平两组之间没有明显区别,所以如果一个人性格不吸引人,那可能要长相很出众才有人愿意跟他(她)约会。不过,因为更高水平的交互作用也显著,这里的交互作用同样不会被正眼看待。
14.6.8.1 外貌性格交互作用1:有吸引力vs平均水平,很有魅力vs有点魅力
差异显著,b=−17.0, t(108)=−5.01, p<.001,与很有魅力条件相比,平均水平的魅力下约会意愿随着吸引力下降而下降的趋势更加明显。
14.6.8.2外貌性格交互作用2:丑陋vs平均水平,很有魅力vs有点魅力
差异显著,b=16.0, t(108)=4.71, p<.001,与高人格魅力相比,平均水平的人格魅力下约会兴趣随着外貌从丑陋到平均水平而下降得更多。
14.6.8.3外貌性格交互作用3:有吸引力vs平均水平,愚笨vs有点魅力
差异显著,b=−13.4, t(108)=−3.95, p<.001,当对方的吸引力下降时,约会兴趣的下降趋势在有点魅力和无魅力两种情况下有所不同。
14.6.8.4 外貌性格交互作用4:丑陋vs平均水平,愚笨vs有点魅力
差异显著,b=16.8, t(108)=4.95, p<.001。表明随着吸引力下降约会意愿评分下降的这种趋势,在有点魅力条件下比没有魅力愚笨条件下更明显。
14.6.9 外貌,性格,性别的交互作用
交互作用显著,χ2 (4)=79.59,p<.0001.这是最高水平的交互作用,我们将会详细解释这一效应。
如图14.13所示,外貌与性格的交互作用在存在男女差异,具体为男性条件下,对方外貌具有吸引力时,无论性格怎么样都很有兴趣与对方进行约会,当对方长相丑陋时,无论性格怎么样,男性都表现出很低的约会兴趣。唯一一种情况下,对方性格能够影响男性的约会兴趣,那就是对方长相处于平均水平,表现为约会的兴趣随着性格魅力增大而增加。一句话总结就是男性非常看脸。
在女性条件下,情况非常不一样。如果对方很有人格魅力,不管长相如何,女性都表现出很高的约会兴趣。对方没有人格魅力很愚笨时,无论长相如何,女性都不会产生约会兴趣。唯有一种情况下,吸引力能够影响女性的约会兴趣那就是对方人格魅力处于平均水平时。也就是说,相比对方外貌,女性更看重人格魅力。
14.6.9.1外貌性格性别交互作用1:有吸引力vs平均水平,高人格魅力vs有点魅力,男性vs女性
男女之间差异不显著,b=5.8, t(108)=1.21, p=.230。如图14.14所示,不管人格魅力怎么样,有吸引力的外貌对约会兴趣的影响是一样的。但是长相处于平均水平时,人们对有人格魅力的对象的兴趣比魅力处于平均水平的对象。更重要的是,男性和女性都表现出上述规律。
14.6.9.2外貌性格性别交互作用2:丑陋vs平均水平,高人格魅力vs有点魅力,男性vs女性
男女差异显著,b=−18.5, t(108)=−3.85, p<.001。如图14.15所示,男性条件下,高人格魅力和平均水平的人格魅力两组都表现出随着对方吸引力的下降,与对方约会的兴趣也下降。有人格魅力和平均水平两条线平行,这表示不管那种水平的人格魅力,随着吸引力的下降,约会的兴趣也下降。对于女性来说,变化趋势非常不一样。很高魅力的条件下,吸引力的下降不会导致约会兴趣的下降。但是魅力处于平均水平时,吸引力会有影响,具体为与平均水平吸引力相比,丑陋的条件下约会的兴趣显著降低。
也可以从另一个角度来解释结果,以拥有平均水平的魅力为前提,男性和女性都表现出类似的变化趋势:随着吸引力的下降,约会的兴趣也下降。但是当对方人格魅力很高时,随着吸引力从平均水平到丑陋的下降,约会兴趣的降低在男性中显著高于女性。
14.6.9.3 外貌性格性别交互作用3:有吸引力vs平均水平,无人格魅力、愚笨vs有点魅力,男性vs女性
男女差异显著,b=36.2,t(108)=7.54, p<.001.如图14.16所示,对方是平均水平的外貌时,男女之间差异不显著,均表现为相比无人格魅力愚笨的对象,更有兴趣与有点魅力的人约会。当对方长得有吸引力时,男性不管对方人格魅力如何都有约会的兴趣,而女性不同,当对方长得有吸引力但没有人格魅力时约会的兴趣显著降低。
从另一个角度来看,以拥有平均水平的魅力为前提时,男性和女性变化趋势相似:随着吸引力的下降约会的兴趣下降。但是对方愚笨无人格魅力时,男性在有吸引力和平均水平之间约会兴趣的下降显著大于女性的下降。
14.6.9.4 外貌性格性别交互作用4:丑陋vs平均水平,无人格魅力、愚笨vs有点魅力,男性vs女性
男女差异不显著,b=4.7,t(108)=0.98, p=.330.如图14.17所示。
14.6.10结论
从这些比较结果中我们不能得到任何关于吸引力与丑陋的区别,高人格魅力与无人格魅力的区别,因为上面的分析没有比较这些。但是我们能清楚的是女性和男性之间存在差异。男性似乎只要对方长得好看就有约会的兴趣,不管性格怎么样。女性完全相反:她们对有人格魅力的人有着约会的热情不管对方长相怎么样。唯一共通点在于,对方的人格魅力处于平均水平时,男性和女性对约会的兴趣都受到吸引力影响。
另一点需要说明的是,当自变量个数多余2时,交互作用的解释需要非常的谨慎和认真,最好是能有一个系统的解释过程。另外,各水平之间的比较也需要根据研究者要探讨的问题来决定,需要选择能够回答研究者假设的比较方式。
14.7 如何求效应量
在这里,我们使用T检验求取了各个比较(contrast)的t值结果,因此,我们可以借鉴之前在重复测量方差分析中使用的计算效应量(effective size)的计算公式:
作者指出,如果你使用的是ezANOVA()函数计算的话,也可以使用求取出的eta方来表示效应量,但同时他也指出,这种方法他有所质疑其准确性,主要针对其如何估计多于两组和交互效应的效应量。
在R语言中,我们可以使用rcontrast()这个函数来计算效应量。这个函数是根据上述公式进行计算的,我们只需要给出t值和自由度(df)即可。函数表达式如下:
rcontraste(t,df)
作者的例子中计算了三交互检验的结果的效应量,因为这是作者感兴趣的比较,比较结果如下图:
以上这四个比较分别对应四种三交互效应的结果:
可以看出,第二和第三个三交互得出了较大的效应量(0.35和0.59),其他两个的效应量小。
14.8 汇报混合效应方差分析的结果
在报道自己的统计结果方面,作者指出你应当详尽的展示自己的统计结果,但是他也指出,在论文中写的结果展示太过长容易被编辑和审稿人嫌弃,所以作者的结果汇报这里,用足够精简的语言给出了报道结果的模板范文,由于大家基本都是用英文发表论文,因此,不再翻译。但是总结一下,可以看出是这样的逻辑:
第一段,报道自己的主效应结果,然后在每一个主效应结果报告时给出详细的具有统计意义的F值,自由度,p值阈值以及效应量。
第二段,报道统计的两两交互效应,同样也给出相应的统计值。
第三段,报道三交互的结果,给出统计值,然后高度概括的陈述该结果表达的实际意义。
首先来看方差分析的结果汇报:
第一段:All effects are reported as significant at p<.05. There were significant main effectsof the attractiveness of the date, F(2,36)=423.73, and the amount of charisma thedate possessed, F(2,36)=328.25 on interest expressed by the participant. However,the ratings from male and female participants were, in general, the same, F(1,18)<1, r=.02.
第二段:There were significant interaction effects of the attractiveness of the date and the gender of the participant, F(2,36)=80.43, the level of charisma of the date and the gender of the participant, F(2,36)=62.45, and the level of charisma of the date and the attractiveness of the date, F(4,72)=36.63.
第三段:
Most important,the looks× personality ×gender interaction was significant, F(4,72)=24.12.This indicates that the looks×personality interaction described previously was different in male and female participants.
如果你使用的是多层线性模型(或者叫混合线性模型),那么应该如下报告:
第一段:There were significant main effects of the attractiveness of the date, χ2(2)=68.30, p<.0001, and the amount of charisma the date possessed, χ2(2)=138.76, p<.0001, on interest expressed by the participant. However, the ratings from male and female participants were, in general, the same, χ2(1)=0.002, p=.966.
第二段:There were significant interaction effects of the attractiveness of the date and the gender of the participant, χ2(2)=39.54,p<.0001, the level of charisma of the date and the gender of the participant, χ2(2)=57.96,p<.0001, and the level of charisma of the date and the attractiveness of the date, χ2(4)=77.14,p< .0001。
14.9 更鲁棒的混合设计分析
在这一节,作者介绍了一种由大神Wilcox给出的非参数的进行混合设计的方差分析的方法,并且给出了R代码。我们需要使用WRS package,然后使用这个包里的四个函数,分别是:
tsplit()
sppba()
sppbb()
sppbi()
在这个四个函数中,第一个使用切尾均值的方法计算两因素混合设计的主效应和交互效应,第二个计算两因素中A的主效应,并使用bootstrap方法。第三个计算B的主效应,同样使用bootstrap检验,第三个计算两因素交互,同样使用bootstrap。
这里没有计算三因素的,因此作者换了个两因素的例子。作者使用一个很有趣的例子,在这里例子中有两个因素,第一个组间变量,是女性的社交关系状态(单身狗还是恩爱狗),第二个组内变量头像类型,作为重复测量的因素,都是两个水平。就是2*2设计,共四个调节。
我们使用的是ProfilePicture.dat这个数据,我们先设置下工作路径,然后导入数据,赋值给pictureData:
pictureData<-read.delim("ProfilePicture.dat", header = TRUE);
这个数据是一个长数据,我们需要整理成宽数据,像下面这张图:
首先使用:
pictureData$row<-c(1:17, 1:23)
然后使用melt()函数生成一个新的数据框(这个函数我们之前的章节已经使用过了),这个数据框包含了两个因素不同水平组合而成所对应的value,
然后,使用names()函数,对列进行命名:
接着,使用cast()函数对数据框格式进行整理:
接下来,清除行变量:
得到最终的格式:
由于恩爱狗比单身狗人数少,所以会有NA值,但这不影响后续的计算。
首先看上文的第一个函数tsplit(),格式如下:
tsplit(levels of factor A, levels of factor B, data, tr = .2)
使用时,写法如下:
tsplit(2, 2, profileData)
这种写法就要求我们将数据整理成上述的宽数据。
接着,使用sppba(), sppbb(), sppbi()这三个函数,实现同样的功能,三个函数写法一样,如下,最后一个参数是放回置换的次数:
sppba(levels of factor A, levels of factor B, data, est = mom, nboot = 2000)
本例子中,写法如下:
sppba(2, 2, profileData, est = mom, nboot = 2000)
sppbb(2, 2, profileData, est = mom, nboot = 2000)
sppbi(2, 2, profileData, est = mom, nboot = 2000)
两个检验的结果:
可以从结果表中看出,虽然两种方法检验出的具体的p值是存在一点差异的,但是都不影响结果的阳性。数据的关系主效应、头像主效应和交互效应均显著。
作者信息
p604-p616 杨敏,荷兰乌特勒支大学, 研究兴趣:人类农药暴露,野生动物生态毒理
p617-p629 李维莹,中国人民大学,研究兴趣:社会心理学
p628-p640 刘青兰,湖北大学, 研究兴趣:计量心理学
P604-P616 吴国伟,江苏师范大学,研究兴趣:计算语言学,神经语言学
本期排版
秦雅慧
~~~~~~~~~~~~
往期回顾
Play with R 第1期:为什么要学习统计Play with R 第2期:关于统计学你所想要知道的一切(嗯,部分内容吧)Play with R 第3期:R基本知识
Play with R 第4期:以图探索数据
Play with R 第5期Play with R 第六期:Correlation
Play with R 第7期:回归分析Play with R 第8期:逻辑回归Play with R 第九期:Comparing two means
Play with R 第10期:方差分析
Play with R 第11期:协方差分析Play with R 第12期:多因子方差分析
Play with R 第13期:重复测量设计(GLM 4)