查看原文
其他

有趣: 老师何时会对学生的反馈意见做出回应?实证设计也出彩!

计量经济圈 计量经济圈 2022-05-11

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

摘要:

We ran a field experiment at a large Dutch school for intermediate vocational education to examine whether the response of teachers to student feedback depends on the content of the feedback. Students evaluated all teachers, but only a randomly selected group of teachers received feedback. Additionally, we asked all teachers before as well as a year after the experiment to assess their own performance on the same items. We find a precisely estimated zero average treatment effect of receiving student feedback on student evaluation scores a year later. However, teachers whose self-assessment before the experiment is much more positive than their students’ evaluations do improve significantly in response to receiving feedback. We also find that provision of feedback reduces the gap between teachers’ self-assessment and students’ assessment, but only to a limited extent. All of these results are driven by the female teachers in our sample; male teachers appear to be unresponsive to student feedback.

正文

关于下方文字内容,作者:张宸,中国人民大学劳动人事学院,通信邮箱:chenz19@ruc.edu.cn

1.introduction
Passage1
在许多组织中定期给予雇员意见反馈是常见的。意见反馈可以帮助雇员意识到哪里做的好并且改进不好之处。一些研究表明意见反馈对于绩效表现有积极影响,还有一些研究得出的结论则相反。
Passage2-3
这种意见反馈的制度在教育领域也有应用。许多学校利用学生给予教师的意见反馈来促使教师提高教学水平,此外意见反馈在教师评定终身教职、奖金,晋升职位中也有重要作用。本文的研究重点就是在什么情况下老师才会对学生的反馈做出反应,特别感兴趣的是教师的反馈如何依赖于反馈的内容。
Passage4 (研究思路)
我们研究了一大批在学校工作的老师,他们目前还没有使用任何正式的学生反馈系统。我们收集学生对所有教师的评价以及教师的自我评价。我们假设,如果一个教师收到的学生评估分数与他或她的自我评估非常相似,那么他就没有理由调整教学实践模式,所以一年后他很可能收到类似的学生评估。相反,如果学生表达的观点比老师的自我评价差得多,老师可能会努力提高教学水平,一年后取得更好的成绩。接受学生评价比自我评价更积极的教师可能会懈怠,因为他们可能会推断,为了得到较好的评价不需要那么多的努力。
Passage5 (实验实施)
Passage6-13 (研究结果)
Passage14(研究局限)
2 Experimental design
2.1 Background
该实地实验于2011年9月至2013年2月在荷兰一所中等职业教育学校进行。这所学校为青少年(通常在16到20岁之间)和(年轻的)成年人提供教育。所提供的课程为大量的职业做准备,包括技术职业、行政职业、海事职业、信息技术、卫生保健和酒店业的职业。在所有领域中,都有多个学习项目,它们的级别和持续时间各不相同。项目的期限在1年到4年之间。
所有的老师都被分配到由经理管理的小组。这些团队是围绕教育领域组织的。每个小组大约由10到20名教师组成。老师给不同班级的学生讲授一门或几门课程。一般学科(如语言或数学)的教师通常在多个领域授课,而大多数特定领域课程(如烹饪或内陆航运)的教师只在自己的领域内授课。根据不同的教育领域,班级的平均规模是10到30名学生。学生可以在不同的课程中选择同一位老师。
2011年,该校有近8000名学生和大约470名教师,分成了27个小组。2012年,学校与另一所中等职业教育学校合并,学生人数增至约9500人,教师人数增至约550人。2013年,该校有9000名学生和520名教师。合并于2012年3月正式宣布,并于2012年8月1日正式进行。这次合并并没有影响到我们的实验,因为实验中的组织结构和团队组成基本保持不变。然而,合并确实导致了更高的教师流失,我们将在下一节深入分析。
参与实验的教师在过去没有收到来自该校学生评价的个人反馈。在实验过程中,没有向教师提供其他基于学生评价的个人反馈。该校确实参与了一项关于学生满意度的全国性调查,该调查提供了学生对学校和教育领域的评价信息。此外,大多数教师每年都会与他们的经理进行绩效面谈。最后,在2011年,教师参与了一项360度评估,其中包括来自他们的经理、同事和外部客户(如提供实习机会的公司)的反馈,但不包括来自学生的反馈。在我们的实验中,处理组和对照组的教师之间没有任何不同的反馈类型。
这所学校的教师的工资是固定的。该校原本打算在反馈实验之后,再进行另一项由政府资助的实验,目的是测试教师个人激励性薪酬的效果,部分依据是学生的评估分数。然而,由于中央政府削减预算,该计划在2012年5月被放弃。实验结束后,学校继续每年对学生进行评估。
2.2 The questionnaire
在我们与学校合作的前一年,6个小组作为试点实施了学生评估调查。这项由19个项目组成的调查旨在为教师提供有价值的反馈,帮助他们提高教学质量。它得到了教师代表和学校管理层的支持。在分析了这次试点调查的结果后,我们同意在我们的研究中使用同样的问题,只是对措辞做了一些细微的调整。这6个试点小组不是我们实验的一部分,我们的实验是在剩下的21个小组中进行的。问卷的最终版本可以在附录中找到。它由19个陈述组成,学生们可以用5分制从不同意到同意进行回答,并提供评论和建议的空间。
问卷项目可分为4类:教学技能(项目1 - 6)、教学技能(项目7 - 11)、组织能力(项目12 - 15)和人际交往技能(项目16 - 19)。学校的管理层和老师们认为这些是学校教学中最相关的方面。
由学生完成的调查是在上课时间进行的,在一个(最好是)没有被那个班的学生评价的人的监督下进行的。学生们去了一个单独的教室,每个人都可以使用电脑来完成调查。决定由学生最多评价三名教师。要求学生评价更多的老师被认为是不可取的,因为学生可能会在填写几份问卷后失去兴趣。团队经理决定由特定班级的学生来评估哪些老师。在这些数据中,学生评估的教师数量从1到5不等。21个小组的几乎所有老师都是由学生评估的。
2.3 Set-up of the experiment
该实验基于两波学生对教师的评价。在2011年和2012年,学生们被要求评估教师在学年的第一个教学阶段的表现。这一时期从9月持续到11月中旬。调查问卷的发放时间为11月中旬至12月中旬。在这两年中,在进行学生评估的同一时期,所有教师都被要求完成一份与学生评估问卷相同的自我评估问卷。
在2011学年开始之前,教师们通过一个信息公告得知,将有学生对其进行评估。该信息通报还指出,随机抽取一半的教师收到其评价分数,以便对提供反馈的效果进行评价。在学生评估和教师自我评估之后,通过下面描述的随机化过程,确定哪些教师将收到他们的分数。在2012学年开始之前,老师们被告知将进行新一轮的学生评估,这次所有的老师都将收到他们的分数。在第一波评估之后,我们随机分配教师到实验组和控制组。在每个小组中,我们通过学生平均评价分数和教师平均自我评价分数与学生平均评价分数之间的差异对作业进行分层,具体方法如下:在每个小组中,除了表述14和15外,我们根据教师在所有19个表述中的平均分(在所有评价教师的学生中)对教师进行排名。基于这个排名,我们创造了三个同样大的阶层。在这些层次中,我们根据教师的平均自我评价分数和学生平均评价分数之间的差异对所有教师进行了排名,这两者都基于相同的17个项目。利用这一排名,我们将教师分成实验组和对照组,使用随机装置来确定处于奇数位的教师和处于偶数位的教师是否属于实验组。这个过程有助于在处理组和对照组之间建立平衡,在学生平均评价分数方面,以及在学生评价分数和自我评价分数之间的差距方面。这种分层增加了我们分析的力量(List et al. 2011),并具有额外的好处,可靠地表明反馈的效果是否依赖于自我评估和学生评估分数之间的差异的假设是外生的。
2012年2月,实验组的教师通过电子邮件收到了他们的反馈。它包含了19个项目中每个项目的平均学生评价分数,包括所有的评价以及按班级划分的评价。它还包含了所有项目的平均评估分数,同样也包含了所有评估的平均分数以及按类别的平均分数。此外,它还包括了老师在所有项目上的自我评估分数,以及总体平均分。最后,它包含了教师团队中所有教师在19个项目上的学生评价平均分,以及整体平均分。注意,在小组分数中,学生对对照组教师的评价也包括在内。小组经理也收到了处理组教师的反馈(但没有收到对照组教师的反馈)。对照组的老师没有收到学生的个人评估分数,但是他们收到了学生的自我评估分数和团队的分数。
为了研究教师是否以及何时对反馈做出反应,我们主要的结果衡量标准是一年后学生的平均评价。不幸的是,没有客观的绩效评估方法。在我们实验期间,这所学校没有标准化考试。此外,由于学生有一半的老师收到了反馈,另一半的老师没有收到反馈,所以我们不能用通过率、辍学率或平均成绩来衡量学生的表现。
2012年11月中旬至12月中旬,我们使用相同的问卷和相同的程序进行了第二轮学生评估。和前一年一样,学生们被要求根据第一学年的教学经验来评价他们的老师。此外,所有的教师都被要求再次完成自我评估问卷。这使得我们可以研究教师的自我评价是否对学生的反馈有反应。所有教师在2013年2月收到了学生评价分数。
最后,为了检验反馈对教师工作满意度的影响,我们使用了2012年11月独立进行的员工满意度调查的数据。我们通过教师对以下陈述的回答来衡量教师的工作满意度:我对在[学校名称]工作感到满意。受访者可以在5分的范围内回答问题,范围从“一点也不满意”到“完全满意”。
注:基本的实验设计中的设计因子很简单,仅仅是实验组收到了评价结果反馈,控制组没有收到结果反馈。其余的实验设计主要是为了进一步做异质性分析而进行的,需要注意的是教师工作满意度的数据是经验收集数据而非实验数据。
3 Data description
在第一波学生评估中,有323名教师被评估。按照上一节所述的方式,这些教师被随机分配到实验组或对照组。在第二轮学生评估中,323名教师中有242名再次接受评估。因此,81名教师在第一轮和第二轮学生评估中退出了我们的样本。我们的估算是基于剩下的242名教师,其中116名被分配到处理组,剩下的126名被分配到对照组。在这两次评估中,我们总共有15194名学生对这些老师的评价分数,2011年有7951名学生,2012年有7243学生。每位教师的评估次数可能因班级规模的不同或班级之间的反应率的不同而不同。每年只有不到10名教师得到的学生评价少于8次,最多有7名教师得到的学生评价超过60次。我们最终的样本包含了5761名学生的评价。下面,我们首先对分析中的242名教师进行描述性统计,然后讨论教师流失问题。
表1为我们分析中教师的描述性统计。在第一波评估中,教师平均由33名学生评估。2011年教师的平均评价分数为4.12分(满分5分)。教师的自我评价平均得分为4.60,明显高于学生的评价。表1第1列和第2列显示,2011年实验组教师和对照组教师的平均评价分数相差不大。差异0.05,差异无统计学意义。实验组组与对照组教师自我评价也无显著性差异。在可观察到的特征上,两组教师也具有可比性。与对照组相比,实验组教师的女性比例略低,更年轻,任期更短,平均工作时间更短。只有工作时间和任期的差异在10%的水平上有轻微的显著性。

附录中的表A.1给出了每个问卷项目的平均评估分数和自我评估分数。该表格显示,学生对几乎所有方面的满意度都很高,但教师对自己的满意度始终高于学生。表A.1第5列中教师自我评价得分与学生平均评价得分的相关性较低。因此,教师的自我评价与学生的平均评价分数之间存在很大的差异。
注:手机横过来看。

如表A.2所示,学生评估的项目间相关性显著高于教师的自我评估。

图1显示了实验组和对照组这两年的学生评价平均分。两组学生第一年的平均分都略高于第二年的平均分。实验组教师的评估分数下降幅度略小。

图2和图3分别显示了第一年和第二年学生评价分数在处理组和对照组中的分布情况。图2显示,我们的分层随机化成功地平衡了处理组和对照组之间的教师2011年平均学生评价分数。2012年平均评价分数的分布与2011年没有显著差异。

表2比较了我们样本中的教师和在第一波学生评估后退出样本的81名教师。处理组和对照组之间的磨耗是平衡的:38名教师(24.7%)退出实验组,43名教师(25.4%)退出对照组。与留在样本中的教师相比,退出样本的教师在第一波评估中获得的学生评价较低。差异为0.11分,无统计学意义。与我们的样本教师相比,退出教师的自我评估的平均分数明显较低。此外,离开样本的教师年龄要大得多,任期也更长,这表明退休是造成教师流失的部分原因。表2中的最后两列将推出样本的教师分为实验组和对照组。与对照组相比,被分配到实验组的教师得到的学生评价分数略低,对自己的评价更高,任期更长。然而,这些差异在统计学上都不显著。

在我们的样本中,并不是所有的教师都完成了自我评估问卷。在我们分析的242名教师中,第一年有166名教师进行了自我评价,第二年有132名教师进行了自我评价。表3比较了两次完成自我评价调查的教师与只完成一次或从不完成的教师。最重要的是,在教师完成自我评价的次数上,实验组和对照组没有显著差异。此外,我们发现第一次自我评价的得分与没有完成第二次自我评价的教师之间没有差异。我们确实发现,在第一轮评估中,没有完成任何自我评估的教师获得的学生评估分数明显较低。根据观察结果,男性相对而言倾向于避免完成第一次自我评估。

注:以上作者所做的努力均是要通过均衡性检验,在实地试验中均衡性检验很重要。
4 Empirical strategy & 5 Results
文章的检验过程与结果主要分为两部分,一是对比实验组和对照组之间的接受反馈的效果即研究学生给予教师反馈是否会促进教师的绩效表现。二是根据反馈内容的不同研究反馈效果的异质性。
(1)第一部分
所用的计量方法是最小二乘法加入了时间的固定效应和教师的固定效应。计量模型如下:

yit表示教师获得的学生评估平均分。(This is given by the average score on the 19 items on the evaluation questionnaire averaged over all students who evaluate the teacher in a given year.)感兴趣的关键变量是Tit,这是一个虚拟变量,当在实验组中的教师i在第二年中获得评价得分其值为1,否则则为0。i表示教师的固定效应。Et表示时间的固定效应,当实验发生在第二年时其值为1,反之为0。我们所重点关注的是在Tit前的系数。以上模型是从教师层面所做的估计,研究还从学生层面做了估计(Here the dependent variable is the average evaluation score of a teacher by individual students.)。(标准误在教师层面上聚类)回归结果如下表。

第一列反映的是在教师层面上的回归结果,系数为0.043,在统计上并不显著。这表明对教师反馈学生评价并不会对其绩效表现有影响,这一结果与之前的研究得出来不一致的结论。可能的解释有二,一是这种影响的时间可能较短,时间延长之后这种影响就会衰减。之前的研究均是考察一个学期的时间,本次研究则考察了一年;二是天花板效应,学生一开始给予教师的分数就已经很高了,再有提升也不会很显著。本表的第二列在学生层面进行的估计也得出了不显著的结果。
(2)第二部分
所用计量模型如下:

表示教师i在第一年自我评估的平均分与教师i在第一年使获得的学生评估的平均分之差。

由于反馈的内容与教师之后的绩效表现不一定是线性的,故进行模型三的估计。其中当大于零时,=;当小于等于零时,等于零。相应的负值。
A.教师自我评估与学生评估之间的差异如何影响教师对反馈的反应
we investigate whether the effect of feedback depends on the gap between teachers’ self-assessment scores and the evaluation scores they receive from their students (). 回归的结果如下表5,其中第一列给出了模型二的估计结果,当等于零时,反馈效果为0.014,这表示当教师自身评价与学生评价一致时,教师对反馈的几乎没有反应。表5的第二列展示了模型三的回归结果,为了更好理解这些数字,图4进一步展示了反馈的效果。结果显示那些教师自我评价与学生的评价相一致的教师对收到的反馈没有反应。当教师得知学生评价分数与自我评价有很大差异时,其估计的反馈效果为正。
B.学生评估分数与所在小组的平均分之间的差异如何影响教师对反馈的反应
we examine whether the effect of feedback depends on the gap between a teacher’s first-period student evaluation score and the average score in his team. 所用模型就是将替换成,其表示表示教师的平均表现比同事好或比同事差的程度,用学生评估分数来衡量。回归结果在表5中的第三列和第四列中得以展示。我们发现,交互项的估计结果是负向的,在统计上是不显著的。如果教师了解到他们的表现和他们的团队一样好(平均),反馈效果为0.062。对于那些知道自己的学生评估分数比同事平均高1分的老师来说,这种影响会减少0.090分。

在表5的第四列,我们回报了模型三的估计结果。图5显示对于那些知道自己的表现比团队平均水平差的老师来说,对于反馈的回应是积极的,但只有当对于那些知道自己的成绩比同事略差(比团队平均水平低0.5分)的老师来说,这种效果才有意义。

我们已经看到,一般来说,教师的自我评价比学生的评价要好得多。因此,对学生评价分数的反馈可以帮助教师对自己的表现做出更现实的评估。由于教师被要求完成两个阶段的自我评估,我们可以检查教师是否使用反馈来更新他们的绩效自我评估。表6报告了收到反馈对教师自我评价的影响。

表6的第一列显示平均而言,收到反馈的教师相较于没有收到反馈的教师在第二轮自我评估中的分数要低一些,但是统计上并不显著。第二列和第三列加入交互项之后,正如图6展示的那样,当教师得知他们的学生评估分数高于他们的自我评估分数时,他们并没有受到显著的影响。相比之下,那些知道学生评价不如自己评价积极的教师,在第二轮评估中对自己的评价明显低于没有得到反馈的同类教师。尽管如此,这种调整的幅度还是相当有限的。

C.教师接受的反馈是否会影响教师的工作满意度
we examine whether receiving feedback affects teachers’ job satisfaction. 回归结果如表7和图7图8所示。表7的的第一列到第三列逐渐增加了的交互项,但均不显著;后两列增加了的交互项也不显著。图7和图8所示教师受到绩效反馈对工作满意度影响很小甚至几乎没有影响。

6 Gender differences in response to feedback
在这一部分中,我们分析了男性和女性教师在接受反馈时的反应是否不同。对性别差异的分析并不是预先计划的,而是在听取会议和讨论会的听众提出上一节所示结果时提出的问题之后开始的。因此,这是一个事后的,探索性的分析。在最后的样本中,我们有123名男性和112名女性。表1男女教师特征比较。平均而言,女教师比男教师年轻3岁,任期少3年,合同规模也小得多。在进行第一次自我评价的教师中,男性和女性教师对自己的评价是一样高的。在第一次对学生的调查中,女教师的平均评价分数略高于男教师(4.17比4.06),但差异没有统计学意义。
为了研究在对待反馈时的性别差异,分别对男性和女性再次估计了模型一到模型三。结果如表8和图9—11所示。

从表8的第一列和第二列来看,女性教师比男性教师对反馈的反应更强烈,尽管差异没有统计学意义。第三列和第四列显示(图9),教师确实会对收到的“坏消息”做出反应,这完全可以归因于女教师。男教师对学生评价分数低于自我评价分数的学习没有反应,而女教师随后的学生评价分数显著增加。当考察小组内评估时,第五列和第六列显示(图10)女性确实会对收到低于团队平均水平的学生评估分数做出反应。相比之下,男性的反应则不受到他们的得分与直接同事的得分之间的差异的影响。同样在性别基础上也研究了反馈对教师自我评价的影响,如第七列和第八列所示,男性在收到低于自我评价分数的学生评价分数时,自我评价完全不受影响。女性在获得相对较低的学生评价分数后,自我评价确实出现了向下的调整,但是统计上并不显著。总之,我们没有发现在工作满意度和接受反馈之间存在任何性别差异。
7 Conclusion
本文通过在职业教育中进行大规模的实地实验,研究了教师对学生反馈的反应和反应时间。我们发现,一般来说,老师对学生的反馈没有反应。这一结果与最近关于绩效反馈的研究形成了对比,后者倾向于在短期内(通常在一个学期内)发现积极的影响。造成结果差异的一个原因可能是反馈的效果是短暂的。解决这个问题的一个可能的方法是更频繁地提供反馈。在未来的实地实验中,研究教师如何对更频繁的反馈做出反应,并了解这种反应的动态变化,将是一件有趣的事情。在我们的研究中,也可能有其他的原因导致平均处理效果的缺乏,例如,因为老师和学生的匹配在变化,或者因为在我们的环境中,老师没有动力去提高他们的学生评估分数。
此外,我们还检验了反馈的响应是否取决于反馈的内容。我们发现,当老师得知学生的评价远不如自己的评价时,他们会在收到反馈后提高学生的评价分数。这些教师也会调节他们的自我评估,尽管是在有限的范围内。老师们了解到,与团队的平均分数相比,他们的评价更差,尽管程度有限。我们没有发现教师工作满意度受反馈内容影响的证据。这些依赖于内容的反馈似乎完全是由女教师驱动的,而男教师几乎不响应任何反馈。由于后一个发现是基于探索性事后分析,需要进一步的研究来验证这个结果。

拓展性阅读:

关于各种因果识别方法的120份经典实证文献汇总”,②哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,③因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,⑥看完顶级期刊文章后, 整理了内生性处理小册子,⑤工具变量精辟解释, 保证你一辈子都忘不了,⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,⑧关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,⑪MIT广为流传的政策"处理效应"读本,⑫DID的研究动态和政策评估中应用的文献综述,⑬最新政策效应评估的四种方法,⑭政策效应评估的基本问题

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存