美国著名管理学家Richard Daft 在1995年的文章“为什么我拒了你的文章,你又能把我怎么样”成为一时经典。沿着这个思路,美国管理学者William L. Gardner 对收到R&R (修改和重新提交),但是最后还是被拒的文章进行了研究,希望能发现那些当学者们重新提交论文给杂志评审时范的错误。此文发表于最新一期Journal of Management Inquiry 上,本公号特别重磅推荐。想提升论文质量的老师和同学,想提升办刊质量的编辑们,值得再三研读和思考。
结合本号另外一篇文章,定量研究被滥用了吗?一起阅读,更加酸爽。
为何我拒掉你R&R(修改和重新提交)的文章,你本来应该做些啥呢?
WilliamL. Gardner 著
TexasTech University
于文轩 丁怡舟译
原文请见:https://journals.sagepub.com/doi/abs/10.1177/1056492619889683?journalCode=jmia
引言
Lester 教授向那些需要R&R的学者提供了一系列很有价值的“最佳实践”的建议,以求帮助他们提高稿件最终被录用的概率。但是“最糟糕的实践”呢?除了最终被拒稿外,我们又能从进行了R&R但是最终还是被拒掉的学者那学到什么呢?为了回答此问题,我受到了Richard Daft教授(1995)经典文章“为何我会拒掉你的文章而你本来应该做些什么呢?”的启发。在那篇文章中,Daft通过对111篇ASQ和AMJ拒掉的稿件的内容分析,发现了这些文章被拒绝的原因。顺着他的例子,我对GOM(Group & Organization Management)杂志给出R&R,但是还是最终被拒掉的文章进行了内容分析。
首先让我谈谈进行这个文本分析的背景。现今,我是GOM的主编。我头三年的任期是2014年7月开始的,我选择的第二次聘期将于2020年12月31号结束。为了这个分析,我将精力集中在我当执行主编这段时间中我发出的R&R但是最后还是被拒掉的稿件上。研究时间跨度从我履职以来一直到2018年。在这段时间内,GOM收到了1374份稿件。作为编辑,我决定哪些文章被直接拒掉,哪些文章被送去匿名评审。在这段时间里,我个人拒掉了647份新稿件(占比47%),并将727份稿件送出去评审。执行编辑们对杂志最终的决定有决定权。根据我自己的研究专长,我给自己分配了123篇。在这123篇文章中,60篇被拒,63篇则是需要R&R。最终,在这63篇稿件中,46篇被最终录用,17篇仍然被拒。11篇文章修改了一次就被拒了,5篇修改了两次被拒了,1篇文章修改了四次还是被拒了。我的内容分析集中在这17篇悲催的文章上,分析哪里出了问题,并识别出导致最终被拒的“最糟糕实践”。为此目的,我研究了我的编辑回信和所有的评审意见,来识别其他评审人和我所关注的问题的类型。
在我呈现这项内容分析的结果之前,了解一下我是如何根据审稿人意见,最后做出拒稿决定的背景很有用。请注意,虽然递交给GOM杂志的稿件默认评审人是3个,但随着审稿过程的推进,前期第一轮评审周期内,一些稿件的评审人数量会变化(比如,未提交审稿意见的)或直接签字确认(比如,建议录稿),这就造成了评审人数量的降低。对于修改与重新递交后被拒的稿件,这里是评审人不同评审意见的特定组合的频数:(a)2项拒稿意见和1项修改意见(有5篇稿件如此);(b)2项修改意见和1项拒稿意见(有3篇稿件如此);(c)2项拒稿意见(有2篇稿件如此);(d)1项拒稿意见和1项修改意见(有2篇稿件如此);(e)1项拒稿意见和1项录用意见(有1篇稿件如此);(f)2项修改意见(有1篇稿件如此);(g)1项拒稿意见(有1篇稿件如此);(h)1项修改意见(有1篇稿件如此);(i)3个录用建议,但是方法论编辑拒稿(有1篇稿件如此)。
这些分析给我们一些信息。其一,审稿人内部评审意见一致的情况是很少的,正如Lester提及的那样。确实,对于接受至少2次评审的的稿件来说,仅有2份反映出完全的一致性,其中一个建议是拒稿而另一个建议修改。其二,最常见的组合包括2项拒稿意见和1项修改意见,这和我最终的拒稿意见是一致的。其三,接下来最常见的有两个评审意见的组合,一种是包含两项拒稿意见,或者1项拒稿意见加1项修改意见。其四,有两篇稿件,在最后一轮只有一个评审意见,一个是拒绝,一个是修改。最后,一篇稿件三个评审都接受了,但是当稿件被送到方法论编辑做最后研究方法审核的时候,由于方法上的致命缺陷的发现,被拒。
尽管这项分析信息量很大,但是请注意我作为编辑的任务不是去数评审人的“投票”数,而是基于评审人的意见和我个人对文章是否严谨和对现存文献能否做出贡献的评估做出是否用稿的决定。同时,认识到并非所有评审人的意见的质量都一样也很重要。比方说,一个或多个评审人可能给出录稿建议或修改建议,然而另一些则详细地指出严重的实质性和方法问题,这些问题作者修改起来可能是极度困难的。在此情况下,我会给拒稿意见更多的权重(并附带我对稿件质量的评估意见),因为由于终审意见都满意的概率很低,这对于要求再进行一论评审的审稿人是不公平的。而由于方法问题导致审稿被拒的稿件,我个人会跟作者沟通表达我的歉意,因为关键性错误在评审过程的早期就被发现。但是,我也同样注意到方法审议有它自身的作用,因为它可以避免那些由于方法的局限导致错误结果的文章进入文献。作者回应说他们明白拒稿决议的原因,并感谢稿件未能发表,因为这能避免潜在的撤稿。
不成功的R&R 哪里出了问题
表一呈现了Daft(1995)的内容分析和我自己的内容分析。为了对比,我将Daft的问题类型放在了前面和把他的结果放在了表的前三列,我自己的结果放在了最后三列。对Daft 的问题类型中的两个——理论问题和不充分的研究设计——我在我的分析结果中进行了细分以提供更精细的分析。最后,我通过我研究中新出现的7种额外的问题,扩大了Daft的拒稿问题类型。
接下来,首先我对Daft的结果和我根据他的问题类型而进行的内容分析进行比较和讨论,然后我对我发现的其他问题类型进行讨论。但有一点需要注意,那就是我的17篇R&R后被拒稿的文章样本相较Daft 的111篇稿件的样本要小得多,所以结果并不必然代表更为全面的R&R后被拒稿的情况。不过,这对我们如何识别“最糟糕的实践”并竭力避免之,仍然提供很多信息,并给寻求将R&R变成被接受的学者们提供意见。
理论问题
Daft认为最常见的拒稿问题是理论匮乏,这可在超过一半以上的稿件中发现。这里,当Daft提到理论时,非常有必要回顾一下Bacharach(1989,498页)对理论做出的定义:
理论是对在经验世界中被观察到的或被近似的单位间关系的陈述。被近似的单位意味着构建,这是由于本质上他们不能被直接观察(比如,中心化、满意度或文化)。可被观察的单位意味着变量,他们可以被量表经验地可操作化。一个理论的主要目标是回答“如何”、“何时”、“为什么”的问题。这是和描述的目标是不一样的,描述旨在回答是“什么”的问题。
在我的分析中,理论问题甚至比它们在达夫特的分析中更加普遍,因为稿件中有88.2%存在这样的理论问题。如Daft(1995,166页)解释的那样,“理论给出让数据有意义的故事。”所以,对于大部分R&R后还是被拒稿的论文而言,作者们显然都缺乏较具说服力的故事,去反映正确的潜在的理论。在我的内容分析中我发现了一系列更具体的理论问题,这里以降序方式将之排列并进行说明:(a)不足够的界定和/或者解释研究问题/假设;(b)研究模型中的问题,比如缺乏焦点、精确性、过度简化、以及遗漏变量;(c)遗漏并且/或者错误呈现相关文献;(d)混淆中介和/或者调节过程;(e)分析层次的问题(比如,不能令人信服的尝试将个人等级提升到更高的分析水平;不恰当地假设多层级关系的理论关系);(f)缺乏一个大的理论框架。
表-1
概念和对概念的操作化不一致
由Daft(1995)提出的第二常见的拒稿问题类型,在分析的稿件中占比31.5%的是作者提出的核心概念和这些对这些概念的可操作化之间的不一致。这类问题在我的分析中更为常见,在这些修改与重新递交被拒稿的论文中有64.7%如此。更常见的是,这样的不一致包括了分析层级的问题。在小组或更高层级构建的概念由个人层面的测量来可操作化,但是又没有提供足够的论证。然而也存在作者没有对焦点构建进行可操作化时使用的方法的有效性进行有说服力的论证的情况。
不充分的界定:理论
下一个由Daft(1995,168页)发现的最常见问题,四分之一的稿件出现了这样的问题,“作者对他们的一些变量并未提供定义、解释或是论证”正如Bacharach所给出的对理论的定义揭示的,建构(比如概念)是理论的基本有要素。不充分的界定违反了Bacharach对于评估理论的关键指标之一的可证伪性,因为当这些概念本身界定的很糟糕以致都无法操作化的时候,如何拒绝一个理论呢?这里,这样的问题在那些修改与重新递交仍然被拒的文章中更加常见,近一半的这些文章有这个问题。虽然缺乏概念定义在我直接拒绝的文章中相当普遍,但是我依然为其在R&R的文章中频繁出现感到惊讶。在过去的几年里,为解决这个问题,我让作者去读Podsakoff,MacKenzie和 Podsakoff(2016)的文章。他们的文章对界定一个新概念或修改一个已有的概念提出了建议。为此目的,他们在两项基本概念结构类型间做了明确地区分:(1)必要与充分;(2)族群相似性。就前者中,定义细化了在一个案例中必须呈现的属性,如果这个案例要成为焦点建构的一个例子。就后者而论,反映了大多数而不是全部和概念相关的属性的案例却有可能成为合格的案例。所以,我要求作者首先要明确他们的核心概念的关键要素,然后决定是否这些要素反应了必要和充分的标准,如果已经这样的话,那还要请作者们详细给出他们是如何达成这个结论的。换言之,他们是否得出结论说这些要素会出现,但是不必然会出现呢?因此,当我发现在初稿中概念定义的不好的话,我会鼓励回答这些问题,然后沿着Podsakoff和他同事描述的步骤去提升对概念的界定。不幸的是,当修改了一遍以后,核心概念的界定还是有问题的时候,文章经常就会被拒了。
不充分的设计:论证
由Daft(1995)所提的下一项常见问题在所分析的稿件中也占了近四分之一,这还包含了对研究过程的不充分解释。正如Daft解释的那样,这包括了“一些很简单的事情,比如描述样本,描述是谁完成了这些问卷,提供问卷中的问题样本,以及报告均值和标准误差”(1995,169页)。这同样是个修改与重新递交论文被拒稿的一大常见病,有超过40%的论文都未能达到评审人对研究解释基本要素的需求。另外,Daft也注明,缺乏透明性常常引起理论与方法之间的不一致,这样编辑们没有办法决定被使用的方法是否可以对研究问题和假设进行充分检验。这样的透明性很关键是由于,若没有它,研究者们无法复制研究——这恰是科学前进所必备的基础(Kerlinger & Lee,2000)。
宏观结构:组织与流程
“宏观结构意味着论文的各项部分是否完全融入整体篇章结构。而微观结构则指的是个别句子与段落,这在大部分文章中都较为令人满意。”(Daft,1995,169页)这项问题在Daft检验的论文样本中占到23.4%,在修改与重新递交被拒的文章中占到64.7%。这个问题的主要例子有:(a)理论部分谈及的关系与文章最后得出的结论间不一致;(b)结论很有趣但是假设无关;(c)在讨论部分中对图标的突然介绍(当其隶属于结果部分时);(d)结论中理论与变量的讨论之前没有被提及到;(e)没有足够数量的章节标题帮助读者跟进作者的讨论;(f)频繁干扰性的带括号的陈述或脚注;(g)过多地超过页数限制。这样章节之间缺乏内部一致性是评审人和编辑向作者亮的主要红牌。这经常是头一轮评审反馈回来的焦点。那些成功改正不一致问题的作者更有可能获得编辑的青睐,而那些继续不一致的作者往往即使做了R&R也被拒于门外。这里再一次,达夫特(1995)向作者提供了有价值的建议,并指出“学者们必须要做出特别的努力去视觉化论文全文——尤其是文章各部分之间的内部联系——并要对他们自己在投稿前已有效建立这样的联系充满信心。”(169页)
“业余样式和语气”/写作质量
Daft(1995)给这个问题加了个标签,业余样式与语气”,他所分析的稿件中有20.7%出现过类似问题。他提到“样式与语气能反映出作者不知道他们自己在做什么和他们是业余的”(170页)。在我的内容分析中,这个问题出现的更加频繁(47.1%);这个问题通过写作质量在一个更基本的水平上被反映出来。投稿人们经常的抱怨包括各种拼写、语法错误到阅读困难,包括参考文献的缺失和没有遵从APA(美国心理学会,2009)所要求的写作风格指南。虽然缺乏这样的专业性本身并非致命,但这却导致评审人对阅读论文的挫败感,并引发评审人怀疑作者能否有能力完成研究其他部分。在此,“最优实践”中对关注最后细节的建议非常有价值,这样的错误虽然相对微小,但是如此恼人的错误会让举棋不定的评审人倾向拒稿。
不足够的研究设计
研究设计问题在达夫特(1995)的分析样本中占到20%,但是GOM杂志中被拒的修改过稿件却占到88.2%。在达夫特的文章中,他观察到因理论问题被拒稿的情况要比因为研究设计被拒稿更加可能。相比之下,在我的研究中,理论与设计问题在拒稿方面差不多是同样的高比例。这或许并不奇怪,鉴于论文收到修改与重新递交通知的作者(许多是“高风险修改”),几乎总是面临解决理论与方法的问题的挑战。此外,当设计问题变得明显时,它们常常非常致命,尤其是头一轮的审阅。但是,当进行R&R时,评审人可能已对他们最初观察到的研究设计的问题的严重性不太确定了,由于看到了文章的潜力,他们要求进行修改。不幸的是,在我拒的那些R&R的文章,当对研究设计指导的更多,并且看到作者做出的修改的努力时,评审人和我也常常会得出结论,认为论文设计缺陷可能不能,或者还没有被足够地改善,因此这稿子不可救药了。
在我的内容分析中,我比Daft(1995)更进一步提炼出更加具体的研究设计的问题,这包括如下内容:(a)从测量的问题引发的对有效性和可信效度得顾虑(比如,没有准确指出测量得来源;没有说明为什么要对已经有的量表进行修改;和报告探索性和肯定性要素分析中出现的问题;(b)统计分析对于研究问题来说不合适或没有得到充分解释;(c)分析层级的问题(比如,个人层面的数据汇总到集体层面,但是没有正确的进行所需要得检验;也没有说明在多层次分析中对嵌套数据得使用);(d)控制变量得问题: 包括变量缺失,缺乏解释,或选择了错误或不完整的控制变量集;(e)源于对已有建构引入新测量指标带来的建构冗余得顾虑;(f)因果性与时间问题(比如,从截面数据中得出的因果推理;把有两波数据收集得时间之后研究当成面板数据);(g)源于对共同问题方差导致的研究结果进行解释产生的问题;(h)抽样问题(比如,潜在非回应偏见;和统计里的缺乏)。这是典型的具有代表性的但非完全的源于设计和分析问题的“最糟糕实践”清单。重要的教训是:如果评审人和执行编辑识别出这样的问题,那作者就有必要做出巨大的努力去解决这些问题。不这么做的话会极大增加失望的风险,因为一个很有潜力的R&R最终变成了一个相当让人沮丧的拒稿。
结论不一致
达夫特(1995,172页)提及此“问题发生的太频繁了,所以要被提及。”虽然这个问题在他所分析的论文中仅占5.4%,但在修改过还是被拒的论文比例中却上升到58.8%。该类问题有各种各样的表现,包括超出样本母体的过度一般化,引进没有包括在研究模型里的新理论或新建构,未能充分认识研究局限性,以及对发现的应用价值关注的不够。虽然对将来研究方向考虑很重要,但讨论部分不应该过度远离Daft(1995)所描述的论文的“操作基础”——底层的理论与假设及用于检测他们的研究方法。太多时候,论文这部分是发展不善的,似乎作者常常急于写完论文,而将这部分留给读者自行思考。如Daft所说,这种错误是源于“结论部分需要耗费跟理论、方法和结果部分一样多的精力,因为结论部分要解释整个论文意味这什么”(173页)。
缺乏相关性,用力过猛,剪切数据
由达夫特(1995)发现的最后一个问题类型——“于研究领域不相关”(18%),“用力过猛”(9.9%)及“数据剪切”(4.5%)——这在他的分析中和我的相比出现的更多。在我碰到的修订与重新递交以后被拒的论文中只有一例,其他问题没有出现。这当然也说得通,因为我在直接拒稿前就明确地筛选前者与后者。但是,我仍然对有“用力过猛”问题的文章数量不多而感到惊讶,因为作者常常使用复杂分析技术以给评审人深刻的印象,直到“方法论自身变为论文的目的”(Daft,1995,172页)。可能“用力过猛”在首轮评审就被拒了,而当审稿人提供指导意见和我在修改阶段明确告诉作者这样做不好时,该类情况就会避免。无论如何,Daft建议作者不要用力过猛的建议,还是很应景的,因为这是组成“糟糕做法”的一部分,这只会令审稿人大感疑惑,而不是印象更深。
其他问题类型
在Daft(1995)分析的问题之外,我的内容分析中还有一些额外的问题类型。这也无需惊讶,70.6%的文章都有一个共同的问题,就是评审人认为作者对他们的修改意见没有反应,或者无法成功地解决他们所提问题。很清楚,这是R&R论文独有的问题,因为评审人的反馈在最初投稿阶段是不存在的。评审人这样一个看法是很难被改变的,因为如果没有改进的话,评审人就会认为这篇文章不可救药。的确,作为一个极端的例子,我就碰见过一起作者决定不递交修改说明信的情况。这个作者转而在提交修改的论文的首页简要的列出他们做了哪些修改。毋庸置疑,此类作法没办法被评审人认同。评审人会感到困惑并被激怒,全体一致地给出拒稿的意见。这样的例子和较大的缺乏回应的问题很清楚的告诉我们,作者遵守Lester提出的“最优实践”的相关建议(“吸收批评”、“赞美评论”和“积极修改”)是有多么重要。要对写一封深入的对审稿人和编辑的反馈进行修改的回应信保持高度重视。不这么做,几乎可以确保被拒。
另外两个额外问题包括不充分的文献贡献,以及研究目的和贡献介绍的不清楚。这两项在修改与重新递交后被拒的论文中分别占52.9%及47.1%。在最初的评审过程中,审稿人和编辑若表达出对这两个问题的关注是很通常的。但是,当编辑给出R&R的时候,这意味着部分基于评审的意见,这个稿子是由潜力的,因此作者应该被给个机会去进一步说明这篇文章的贡献。对于许多R&R 后被拒的文章,作者就是因为没有成功地做到这个而悲剧了。鉴于此问题在不成功的R&R文章中超过了一半,,那作者自然需要对这样的评论额外注意,尽可能地有说服力地说明文章多么重要,应该成为现存文章的一部分。
另外一类担忧和在审稿阶段产生了新的问题有关。的确,有41.4%的修订与重新递交被拒稿的论文有过这样的情况,评审人和或我都明确地指出,被拒绝部分原因是有些问题在论文初次递交审核的过程中并没有出现。这样的问题并不奇怪,因为作者努力解决原初递交论文产生问题的时候,会有一些风险,这是因为他的修改不可避免地会让人产生新的一样严重或更加严重的疑虑。在此,“最优实践”建议积极修改论文,并同时写回应信解释修改的原因并期待新问题的重要性再次凸显出来。很多时候,这样的期待可能会缓和评审人的担忧,至少可以在下一轮修改中给予作者回应新问题的可能。
最后,有一个稿件被拒是因为作者被要求收集额外数据去规避原有递交稿件的缺陷,但作者拒绝这么做。这里,再一次,“最优实践”建议去尽可能收集额外数据的智慧得到体现。这样的建议的基础是希望给予作者一个机会解决一个重要的缺陷。这个重要的缺陷是审稿人和编辑们认为没有额外数据是不可以解决的。豪不奇怪,浪费这样的机会一般会带来编辑团队的反制和可以预期的拒稿。
结论
我的内容分析揭示了Daft(1995)年提出的大部分问题都是存在的,大多数情况下,这样的情况在GOM 杂志给出修改与重新递交通知以后又被拒的论文中更为普遍。同时,一些被拒稿的额外原因被识别出来了,这包括缺乏对评审人问题的回应,缺乏对现在文献或描述的贡献,缺乏对审稿过程产生的新问题的回应,还有缺乏对收集额外数据的要求。总之,这些内容分析揭示了被最终拒稿的“最糟糕的做法”,其中包括了那些起初被认为很有潜力和值得再次修改的论文。希望,意识到在R&R过程中哪些事不能做会帮助足够幸运收到R&R的作者避免这个过程里的陷阱并达成最终目的——论文被收录且在个人学科领域内做出价值积累性贡献。
此文翻译极为不易,如果觉得有帮助,请给作者点赞 ;-}
参考文献:
AmericanPsychological Association. (2009). Publication Manual of the American PsychologicalAssociation (6th ed.) Washington, D.C.: American Psychological Association.
Bacharach,S. B. (1989). Organizational theories: Some criteria for evaluation. Academy ofManagement Review, 14, 496–515.
Daft, R.L. (1995). Why I recommended that your manuscript be rejected and what you cando about it. In L. L. Cummings & P.J. Frost (Eds.), Publishing in theorganizational sciences (pp.164–182). Thousand Oaks, CA: SAGE Publications.
Kerlinger,F. N., & Lee, H. B. (2000). Foundations of behavioral research (4th ed.):Wadsworth-Thomson Learning.
Lester,G. (in press). R & R dialog: Congratulations, you got a revise andresubmit! Now what? The impetus behind and lessons learned from a successfulyears-long PDW focused on the peer review revision process. Journal ofManagement Inquiry. doi:10.1177/1056492619882508.
Podsakoff,P. M., MacKenzie, S. B., & Podsakoff, N. P. (2016). Recommendations forcreating better concept definitions in the organizational, behavioral, andsocial sciences. Organizational
ResearchMethods, 19, 159–203.