北大社会学刊 | 李代:社会科学定量研究中的“复现危机”与重复研究——提高研究可复现性的创新实践经验及其对中国社会学的启发
社会科学定量研究中的“复现危机”与重复研究
——提高研究可复现性的创新实践经验及其对中国社会学的启发
李代
(中国政法大学社会学院副教授)
提要:近年来,科学界出现“重复危机”。为了解决这一问题,学界提出众包研究、元分析、预注册与重复市场等创新性实践方案,探索提高研究成果可复现性的可行路径。社会学的定量研究范式与此较为相近,亦可从中获得启发。本文梳理重复研究的关键概念与实践经验,探讨中国社会学定量研究发展重复研究的方向。
关键词:众包研究;元分析;预注册;重复市场
文件抽屉问题。图片来源:Bing。
对自然科学而言,应从事具备“可重复性”的研究已是共识。社会科学中的定量研究范式与自然科学较为相近,对“可重复性”亦持肯定态度。但在实践上,科学界面临一场“复现危机”:一系列研究发现,在国际顶级期刊上发表的研究成果可被成功重复的比例低于预期,这导致现行科学研究与出版实践的可靠性遭到质疑。
“复现危机”从何而来?不符合学术规范的操作会导致某一具体研究的结果不易得到重复,如研究记录严重不完整、数据造假、“图片误用”等等。但是,不应将“重复危机”简单地归因于个别研究者的道德不端,制度性的因素恐怕发挥着更大的作用。例如,“文件抽屉问题”指出,定量研究中普遍地以p值为尊评判研究的价值,期刊只发表统计显著的结果,这会导致大量同类研究中的假阳性结果得到发表。假阳性结果是统计随机的巧合造成的,当然不可重复。
“重复研究”对科学研究的方法论并未提出颠覆性的挑战,但对学术与出版实践提出了质疑。因此,关心科学健康发展的研究者也从实践入手,开展了众包研究、元分析、预注册与预测市场等实践,探索能够提高科学研究可重复性的新路径。目前这些实践还处于探索阶段,尚未成为科学研究的惯例。但提高科学研究的可重复性,不但意味着研究结论更可能趋近真知,还意味着更易将其转化为应用成果,为国计民生直接创造价值。因此,学界提倡重复研究的努力与探索值得我们借鉴与反思。
下面,本文首先对“重复研究”以及相关关键概念进行辨析。在此基础上,本文继续梳理对“可重复性”的类型学划分,辨析“重复”失败的原因,探讨提倡“重复研究”的意义。最后,本文介绍四种提高科学研究可重复性的探索性方案:众包研究、元分析、预注册与预测市场,以期对中国社会学界有所启发。
中国学术界不乏关心重复研究的学者。社会学、经济学、心理学、政治学等领域的学者相继就重复研究议题展开讨论,为各自学科建设建言献策。本文主要着眼于中国社会学的发展,因此主要从社会学定量研究的范式出发进行探讨。
首先对“重复”(replicate)及其相关的关键概念作界定。“重复”一词在中英学术语境下均被用来表示两种不同的含义。其所指可以是进行“重复研究”的“行为”,即是以与某研究发表出来的研究过程相同或类似的过程,对原数据或相近的数据进行分析,期待得到一致的结果。其所指亦可是某研究成果得到复现的“结果”,如重复公开发表的实验,发现结果与原研究的结果一致。
这导致“可重复”也具备双重含义,既可以指在行为的维度上原研究容易得到第三方的重复,也可以指原研究的结果在若干重复研究中得到复现。这二者并不总是统一的,原研究可能对研究过程记录清晰、容易重复,但结果不易得到复现。在此,本文建议以“重复”指行为上的重复,以“复现”指结果上的重复,从而避免歧义。
由此,可以澄清本文探讨“重复研究”的目的。提倡对发表研究进行不同程度的“重复”,以检验其结果是否较大概率得到“复现”。正向而言,这一过程有利于知识的不断检验、积累与整合,有助于改善目前定量研究碎片化的现状;逆向而言,这倒逼研究者遵守学术规范、提高研究的透明性,从而有利于筛选出可靠的研究成果。
这里我们指出,“重复”处于不同程度构成的谱系上,而不是取值只有“是”或“否”的二元变量。如何理解重复研究的不同类型?弗里斯和彼得森对重复研究类型学的探讨值得社会学界参考。
Jeremy Freese。图片来源:Stanford University。
(一)重复研究的类型学
到底哪些研究行动属于重复研究、重复研究如何进行分类,观点繁多且因学科而异。克莱门斯列举了不同学科中几十种重复研究的术语,提供了较为全面的图景。具体到社会学中,弗里斯和彼得森从研究过程和研究数据两个维度把重复研究分成四类。
研究过程 “人不能两次踏进同一条河流”,重复研究也不可能在时空上与原研究一模一样,这一点所有人都赞同。在此前提之下,研究者们还是可以比较重复研究与原研究在变量操作化、研究设计、数据采集、实施步骤、数据分析等环节的相似程度,并承认有些复制研究是对原研究的忠实再现,而另一些复制研究则存在一定变化——尽管变化的幅度还没有达到全新研究的程度。
研究数据 对于规范的定量研究来说,数据收集完成之后,所有可能从此次研究中获得的信息也就确定了;除非收集新的数据,否则无法得到额外信息。因此,在重复研究中是否采用新数据,直接影响到对重复结果意义的阐释。
通过这两个维度的交叉,弗里斯和彼得森把重复研究分为四类。
检验“可验证性”(verifiability) 对原有数据进行过程相同的重复研究,检验原研究是否在分析过程中出错。弗里斯和彼得森指出,原作者若提供足够的信息让第三方可以完全重复其研究过程,有可能在重复时识别出原研究在数据或代码中存在的错误,或者甄别不合学术规范的行为。检验“可验证性”是狭义的“重复研究”,理论上来说应是学术研究最基本的底线,但在实践中仍然面对很多挑战。
检验“稳健性”(robustness) 对原有数据进行有一定变化的重复研究,检验的主要是原研究结果的稳健性。稳健性的概念读者都不陌生,在同行评议的过程中审稿人往往会提出很多稳健性检验的要求,以判断研究结果不是巧合或者研究者精挑细选出来最有利于自己的结果。如果研究结果对研究者的一些主观决定或外部条件高度敏感,其可靠性不免引人质疑。
检验“可再现性”(repeatability) 对新数据进行过程相同的重复研究,检验的主要是原研究的结果对另一个样本是否成立。这里弗里斯和彼得森强调新数据应与原数据对应同一个总体,因而检验“可再现性”指的主要适用于实验方法。在实验方法中,可以在短周期内重新招募被试、重复原研究的实验设计,观察结果是否有变,因而说总体发生了变化不大容易令人信服。但对于采用观察数据的研究来说,由于收集数据的周期较长、成本较高,要做到总体未变更困难。
例如,每五年对全国人口进行抽样调查,如果对新一轮数据重复上一轮的分析过程而结果不能复现,到底说明的是原研究存在问题,还是新研究捕捉到了时空的变化?不同学科在这一点上观念有差异,心理学可能倾向于认为重新招募被试仍然反映同一个总体的情况,而社会学对总体的变化更加敏感,可能更倾向于将其归因到总体的变化上。
检验“可推广性”(generalizability) 对新数据进行有一定变化的重复研究,检验的主要是原研究的结果是否能够推广。不言自明的是,如果严格按照科学方法进行抽样,样本反映的也只是其对应的总体情况。但是有些研究者为了彰显自己的贡献,希望把抽样数据反映的情况推广到更大范围的总体上去。例如,对某几个省人口的抽样调查只反映这几个省的情况,但研究者可能会声称由于自己选取的省份较有“典型性”,因而调查结果有“全国代表性”——尽管这并不符合统计学的要求。研究结论到底能不能进行推广,需要由重复研究加以检验。
弗里斯和彼得森的分类尽管看上去逻辑清晰,但也存在问题,这集中反映在其对纵贯数据研究的讨论上。在“可再现性”中新增“同一总体”的条件,实际上是在“过程—数据”之外建立了一个新的维度。如果纵贯调查数据的测量确实可以保持一致——如邓肯所说的:“如要测量变化,不要变化测量”(If you want to measure change,don’t change the measure);如果研究过程也尽可能保持不变,此时依照“过程—数据”的框架,检验的应是“可再现性”,而非社会学更习惯的“可推广性”。这说明弗里斯和彼得森的分类中隐含的社会科学研究方法中的时空观念还值得后续研究进行更深入的讨论。
根据前文对“重复”与“复现”的区分和对重复研究的分类,可以归纳一些可能导致重复研究失败的因素。当然这里列举的原因不可能穷尽所有的可能性。
(一) 可验证性
表面来看,可验证性应该是科学研究最基本的要求。如果数据和分析过程保持不变,却在不同人手中得出迥异的结果,这令人难以接受。然而,即便排除原作者犯错或作弊的情况,在很多例子中要很好地还原原研究也相当困难。随着社会科学方法的复杂性不断增强、计算机软件介入程度的不断加深,即便同样的数据和代码在不同人甚至同一个作者那里都有可能得到不同的结果。在犯错和作弊之外,还有哪些情况会导致可验证性的失败?
原研究没有完善地记录、发表自己的研究过程。例如,原作者对原始数据进行了手工修改,但这一修改过程既没有被准确、完整地记录下来,也没有留痕于代码当中。或者原作者进行了详尽的记录,但期刊编辑认为这些技术细节占用了过多版面,因此要求原作者删改。这样作为读者要想还原这一研究,即便能够获取其使用的数据、能够得到其数据分析的代码,也可能遇到麻烦。
原研究使用的数据或分析软件版本迭代。例如,原作者使用的数据来自第三方,而第三方在自己的工作中对数据进行了进一步清理,导致即便使用同样的数据也无法得到原研究的结果。又如,原作者使用某一版本的数据分析软件进行数据分析,而该软件包版本升级的过程中优化了自身的功能,却导致后人使用最新版本无法得到和原作者相同的结果。对于线性回归之类复杂性较低的方法而言,因软件升级导致结果变化似乎是难以想象的。但目前有大量的计算方法采用“梯度下降”等方法逼近最优解,每一次运行都可能得出不同的结果。对于求解时不一定寻找全局最优的算法——例如主题模型,这类问题尤其严重。
目前社会学的定量训练几乎没有针对上述问题的内容。数据分析的最佳实践如何,被很多学者视为技术上的细枝末节而不大关心,但是这些问题会导致某一次分析的结果无法再度复现,可验证性不能得到保证。不论中外,定量研究的训练都已落后于时代发展的需要,只能靠研究者自己去摸索或向其他学科取经。提升研究共同体的技术素养刻不容缓。
(二) 稳健性
由于社会具备复杂性,即便原研究尽心竭力,结果也可能不够稳健,社会科学应该能容忍一定程度的不稳健性。此外,为了让文章通过编辑审阅或同行评议,还有一些处于灰色地带的做法会带来看似漂亮但不一定稳健的结果。
例如,“黑p值”(p-hacking)。研究者为了得到有统计显著性的结果(一般情况下指p值小于0.05),故意删减数据、调整变量或者重复实验,直到得出满意的结果为止。
又如,“根据结果提出假设”(Hypothesizing after the Results are Known,HARKing)。例如,研究者进行多番尝试之后根据有显著性的结果提出研究假设,再把显著性的结果报告出来当作证据。是不是没有提前假设就不能作研究这一点值得商榷,但上述做法的问题在于误导读者。如果能坦诚其先有结果后得到洞察,或许在学术规范上就不存在太大的问题。
“黑p值”和“根据结果提出假设”的出现都有制度性的因素。现行出版实践中,期刊编辑和评议人片面重视所谓的“显著性”、蔑视“描述性”或“探索性”研究,这倒逼作者扭曲自己的研究结果;而与此同时又缺乏有效的手段监督作者规避上述两种做法,导致作者作弊的成本极低。当然,这并不是在给作者开脱,不规范的学术研究最终责任人还是作者。
(三) 可再现性
前面罗列的行为也会导致可再现性方面的失败。此外,还有一些因素可能导致用新的数据重复研究过程,结果不能复现。
首先,对于一切通过抽样获得的数据,由于存在随机性,即便研究者一切都做得严谨,仍可能出现假阳性的情况。因此,重新抽样之后结果不可再现,也不一定是科学方法出了问题,而只是概率的结果。如果原研究的样本太小,换用足够大的样本重复研究就可能得出更稳妥的结论。
其次,重复研究时抽样的总体与原研究可能存在较大差异。统计方法只能保证抽样数据对其对应总体的代表性,因此抽样数据的总体是谁并不取决于作者的认识,而是其抽样的具体实施过程。以美国公民为总体设计抽样方案得到数据,代表不了中国公民的情况;2020年对中国公民进行抽样的结果,代表不了2010年中国公民的情况。重复研究无法再现原研究的结果,可能是因为总体发生变化。
美国选举民调。图片来源:Bing。
最后,制度性因素同样会造成可再现性方面的失败。“文件抽屉问题”指出,假如学术期刊只发表统计显著的结果,一种极端的情况是同时有20个研究者进行同样的实验,其中19个得到不显著的结果没能得到发表,而1个研究者得到假阳性的结果却被期刊发表。呈现在不知情的读者面前,假阳性的结果看上去是领域中独一份的贡献,但实际上它当然难以复现。
(四) 可推广性
前述种种因素都可能会导致研究的可推广性存在问题。此外,如果研究实施的过程与原研究有较大差别,把原因归结其上也有道理。在“过程—数据”框架中,数据在多大程度上可相对比、研究过程在多大程度上彼此相似,这两个问题判断起来相当主观。同样的两个研究,如果秉持一个较为严格的标准认为其相似程度不足以建立双方互相推广的关系,则结果不一致也无可厚非;而如果秉持一个较为宽松的态度认为其相似程度足以建立相互推广的关系,则结果不一致就成了问题。在这一点上每一位称职的研究者都有其自己的判断,恐怕没有客观的准绳。但是每一位研究者自身至少应该保持自洽,不能一边认为自己的研究结果与其他结果相左只是因为其与众不同,一边声称自己的研究有较大的贡献因为它可以推广到广泛的时空和人群。这容易陷入不可证伪的误区,阻碍科学的积累与进步。
综上,重复研究可分为四种类型:检验可验证性、稳健性、可再现性、可推广性的研究。随着层次递进,重复研究复现结果所需要克服的困难递增,主观阐释的空间也变得越来越大。对于同样的结果,到底是复现成功还是失败,不同学者可能有不同的看法。例如,布兰德和谢宇采用两个大规模调查数据进行重复研究,认为在两个数据上模型的表现相似,互相可以作为对方的佐证;而瓦茨观察到两性的表现在两个数据中并不一致:在一个数据中男性表现明显符合预期而女性虽然趋势符合预期但幅度太小,而在另一个数据中则反过来,女性表现明显符合预期而男性虽然趋势符合预期但幅度太小,这说明原研究的结论过于夸张。孰是孰非,只能留待学术共同体在进一步的重复研究中加以验证。
对于定量研究而言,研究结果可以“复现”的理念几乎是没有争议的。朴素而言,科学家相信科学研究应该揭示有一定普遍性的规律。这意味着原研究能够得到的结果也应可以被称职的同行在充分的努力后复现。否则,就不免令人怀疑原作者是否犯了错或不守学术规范。近年来发生的影响较大学术风波,如2011年心理学家达里尔·贝姆(Daryl Bem)、2014年生物学家小保方晴子、2016年生物学家韩春雨、2018年医学家皮艾罗·安维萨(Piero Anversa)等被质疑造假的事件,起因都在于他们的研究结果不能得到其他学者复现。由此,可以说“可复现”的理念符合“为了知识而知识”的学术追求。
Piero Anversa。图片来源:Bing。
此外,“可复现”也有非常直接的现实价值。如果科学研究的成果不能在合理的现实条件下得到复现,就不具备指导实践的价值。不重视这点,有可能造成巨大的经济损失。例如,贝格利和埃利斯指出某医药公司的实验室投入大量资源也只能复现53个关键肿瘤研究中的6个。这类不可复现的情况仅在美国就带来每年280亿美元的损失。
尽管对“可复现”有共识,但实际上目前科学界正在经历一场“复现危机”。约阿尼迪斯认为在现行的学术出版实践下,大多数得到发表的研究结果可能都不可复现。心理学研究者进行了大量的重复研究,发现心理学的经典成果中可以得到复现的比例大大低于预期,对此国内学者已有介绍。不过也有学者认为问题没有那么严重,如法内利认为“危机”二字言过其实。
科学界出现“复现危机”,并不意味着社会科学表现优于自然科学,而是因为社会科学极少做重复研究,不可复现的成果不易得到揭示。在社会科学中,定量研究的结果应具备可复现性这一理念似乎没有太大争议,但在实践上却进步缓慢。有社会科学的学者站出来提倡重复研究,如金倡导政治学期刊和学者在学术生产的实践中采取更加规范、透明的措施,公开研究步骤的具体事实情况,从而确保第三方研究者能按照公开的信息独立重复发表的研究,这促使一些政治学期刊出台鼓励复制性研究的政策。
又如,麦卡洛和维诺德发现《美国经济学评论》上的一些研究无法复制,促使该刊及其他一些经济学的重要期刊出台明确的关于鼓励重复研究的政策。弗里斯和彼得森认为,在社会科学中,社会学最早提倡重复研究、对理解重复研究在实践中怎么运行做出最大的贡献,但在目前“复现危机”的背景下却不为所动。弗里斯重启这一讨论,提出读者以个人身份向原作者索取重复研究所需的信息已不能满足需要,建议社会学共同体建立支持复制研究开展的政策;弗里斯和金再度提出在社会学推动重复研究,成效如何尚未可知。
中国社会学也有人注意到重复研究的价值。例如,陈云松和吴晓刚提出要建设“开源的社会学”,效仿英美学术界,鼓励研究者公开原始数据和代码、详细说明研究步骤,从而让第三方研究者有条件进行复制研究。这一倡议的效果尚不明显,除了《社会》杂志有所举措外,其他专业期刊并未有明显改革。可以说,重复研究并未成为社会学研究实践的主流。
有若干制度性因素影响重复研究的实践。首先,学术界更重视开创性的研究,评价标准趋同。从事原创研究不但更易得到发表,也更易在学术界建立声望,研究者在求职与晋升方面占据优势。这本无可厚非,但学术界评价标准过于趋同、重复研究不能得到恰当的评价。在以“不下蛋就滚蛋”为准绳的学术生产体系之下,花费大量精力进行重复研究不一定符合学者的个人利益。近年来科学界标杆性的《科学》《自然》等期刊发表一系列社论鼓励重复研究,《自然》的子刊《自然人类行为》则刊发重复研究特刊,以行动表示对重复研究的支持,可能有助于改良目前学术评价标准趋同的风气。
Nature Human Behaviour杂志2023年第7期。图片来源:Bing。
其次,现行的出版制度不完全适应大量重复研究的需要。随着计算方法日益复杂,技术问题层出不穷,而纸刊的篇幅难以承载如此大量的信息。例如,前文提到的软件版本信息、代码,等等,如登记在纸刊上不免令读者觉得烦琐,但对重复研究却又必不可少。过去,期刊的一个解决之道是让读者与作者直接取得联系、索取必要的信息。例如,截至2021年底,《社会学研究》上有25篇、《社会》上有26篇定量研究的论文提到读者可以通过电子邮件索要额外的信息。但由于原作者的技术素养参差不齐,如无期刊给出权威指导,不能保证其留存的数据或代码足以帮助读者完成重复研究。
最后,学术共同体中不乏人情世故。重复研究若能成功复现原研究成功,则读者觉得该研究意义不大;如若不能,则原作者可能会因自己遭到质疑而感觉不快,重复者则担心遭到报复,影响到自己的职业发展。由此来看,需要通过“匿名”或其他机制保护重复研究者,而这在现行的制度下并无实施的空间。
综上所述,重复研究遇到的最大挑战来自学术出版的实践,解决之道也就在改革学术出版实践之中。下面本文将介绍四类创新实践以为借鉴:众包研究、元分析、预注册与预测市场。
(一)众包研究
前文谈到重复研究较少得到发表,因而许多重要的研究成果是否可以复现不得而知。为了解决这个问题,有学者提议通过对一系列重要研究进行系统性的重复,从而形成对一个领域的整体评估。这一工作技术门槛不高但工作量较大,由单一团队实现较为困难,需要多个团队协作完成。借助目前广泛流行的互联网工具,可以通过“众包”方式将整个工作拆解成若干具体的任务,由全球范围内的学术团队认领完成。
在这一方面最具代表性的例子应属“开放科学中心”及其开发的“开放科学框架”。“开放科学框架”为有意参与重复研究的学者提供了一个在线协作平台,方便研究者按照平台建议的流程发起项目、管理流程、协同写作。平台整合了一些较为流行的学术生产工具,如谷歌学术搜索、研究者身份识别码(ORCID)、文献管理平台Mendeley和Zotero、云存储服务Dropbox和Google Drive等。这些工具本来就被研究者广泛使用,因此可以方便研究者不大幅度地改变其习惯的工作流程就适应该平台的操作。
Center for Open Science官网首页。图片来源:www.cos.io
在此平台上承载了一系列系统性的重复研究项目。影响最大的当属“可复现性项目:心理学”(RPP)。该项目对100个经典心理学研究进行重复,结果成功复现的比例只有39%。类似的项目还有:“实验经济学重复研究项目”,对2011—2014年间发表在《美国经济评论》和《经济学季刊》上的18项研究进行重复,结果成功复现的仅11个;“社会科学重复研究项目”对2010—2015年间发表在《自然》与《科学》上的21项社会科学研究进行重复,结果成功复现的仅为14个;等等。
“多实验室项目”(Many Labs Project)是该平台上以众包形式实现的系列重复研究项目。它首发于2014年,对13个经典的心理学研究进行重复,11个得到复现。第二阶段,该项目对28个经典研究进行预注册后展开重复,15个得到复现。第三阶段,研究在学期的不同时间点招募本科生参与实验,重复10个经典研究,以探讨被试招募时间点会不会干扰研究结果。第四阶段研究成果尚未正式发表,根据其公布的预印本来看,是由多个实验室共同重复一个经典研究,以探究原作者参与的是否能帮助提高结果复现的机率,结果21个实验室无一能够成功。
利用互联网平台,世界各国的研究者以众包的形式分工协作,成功地实施了对一系列经典研究的重复研究。如果没有在线平台的支持,这么大规模的跨国合作想必难以顺利实施。但是另一方面,复制研究项目也面临着流量稀缺的窘境。例如,“多实验室项目”就建议有意参与众包复制研究的学者到其他地方寻找项目和伙伴。由此来看,复制研究的阵地应如何建设,还需探讨。
另一个具备众包性质的重复研究平台是“重复维基”(Replication Wiki)。利用开源的Media Wiki系统,该网站搭建了一个发布社会科学尤其是经济学重复研究的维基平台。用户可以在该平台上提名需要被重复的已发表研究以待学者进行重复,也可以发布在学术期刊上发表的重复研究的信息,包括其重复的原研究是哪一篇、重复研究的类型是哪一种、重复的结果如何等等。该平台是由新经济思维研究所(Institute for New Economic Thinking)资助的“经济学中的重复研究”项目的一部分,项目负责人来自哥廷根大学,合作者来自世界各地。遗憾的是目前该平台活跃度并不高,自2012年建立起,截至目前仅有300余位活跃用户贡献了词条,其中包括不到800个重复研究的词条。
Replication Wiki官网首页。图片来源:replication.uni-goettingen.de/wiki/index.php/Main_Page
(二)元分析
限于经费、时间、人力以及其他偶然条件,单次实验或抽样调查的数据可能面临样本量较小、结果不可靠的问题。为了缓解这一问题,研究者可以对大量的、同质性的研究所得的结果进行收集、处理、二次分析,从而对研究问题得出更可靠的结论,这便是元分析。
尽管元分析并不就是重复研究,但其研究过程可以达到类似重复研究的效果。元分析需要搜集大量的、回答类似问题的研究进行分析。进行元分析时,研究者往往要先定义一组搜索关键词,在可供选择的文献范围内穷尽符合条件的文献。由于社会科学中对同一概念的表述可能大相径庭,可以分批次进行搜索,每次搜索都根据上一批次的文献结果调整关键词的构成,从而尽量穷尽重要的研究文献。
元分析搜寻、整合文献的过程与重复研究有相似之处。明确的重复研究往往会声明其重复的对象,但目前世界各国产出的学术成果浩如烟海,研究者很有可能在不知情的情况下彼此独立地进行了相似程度相当强的研究,可以被看成是彼此的重复研究。通过元分析可以识别这些研究,并比较他们的结果。元分析还能进一步将其数据加以整合,提高结果的可靠程度。例如,两个彼此独立的研究实验设计完全一样,但样本均较小,得到的结果也不可靠。在其数据公开的条件下,元分析可将其实验数据整合,相当于扩大了样本量,使结果更有说服力。
目前,高效的元分析的价值日益凸显。随着全球学术生产规模日益扩大,每年出现的学术研究数量巨大,要全部靠专家人脑掌握已经比较困难。与此同时,由于学术分工日益专业化、碎片化,有可能彼此相关的研究成果分散在不同细分领域,要将其过滤出来相当困难。这时,利用信息技术将元分析常态化、自动化,从而快速整合学科发展的进展并报告给研究者,将成为减轻研究者负担、加强跨学科对话的有力工具。
近年来随着人工智能技术的发展,计算机对自然语言处理的能力得到革命性的增强,由人工智能工具对学术成果进行高度整合的可行性越来越高。例如,由OpenAI公司开发的ChatGPT大语言模型,已经可以帮助研究者寻找文献甚至回答专业问题。能否利用这类工具对重要的研究议题做自动化的元分析,从而帮助学者把握学术发展的脉络?新技术的前景令人振奋。
ChatGPT。图片来源:Bing。
(三)预注册革命
作为一种出版制度创新的尝试,钱伯斯提出在其所在期刊原有的投稿渠道外,增设“注册报告”(Registered Reports)一项,以鼓励更加严谨、诚实、可重复的科学研究。简单而言,研究者必须在开展研究之前提供自己研究的简介、假设、实验设计、分析步骤、对统计功效的分析等信息。根据这些信息,期刊编辑决定是否将研究计划送入同行评议的管道。如果通过首轮评议,研究者须严格按照自己之前提出的研究计划实施研究,并提供终稿、原始数据和实验记录。不论实验结果如何,期刊都将予以发表。
“注册报告”制度希望缓解学术出版机制导致的不规范行为。例如,如果审稿人更偏好结果显著的研究,研究者就有动力想方设法操纵数据或者只报告部分结果,让结果看上去更显著;如果审稿人更偏好验证性研究,研究者就有动力从结果中逆推假设,然后装作假设得到了验证,而不是先提出假设后加以验证。即便抛开评审机制中这些容易导致动作变形的激励不谈,人类固有的认知偏差也容易驱使研究者得出不可靠的结论。即便每个研究者个体都诚实地对待研究过程,同行评议的系统如果存在选择偏误,也会扭曲得到发表的结果总体上的分布。通过把研究计划和研究实施分割、把出版与否的决定与具体研究结果分割,“注册报告”制度试图缓解上述问题。
Registered Reports。图片来源:Center for Open Science官网。
诺塞克、埃贝索莱、德黑文和梅勒进一步提出“预注册革命”的口号,对预注册的理论基础、实践经验和面临挑战进行了系统的总结。所谓预注册,就是在正式开展研究之前,先把研究的具体实施方案注册在案,甚至公开。在看到任何研究结果之前先把研究方案注册在案,可以避免研究者的认知偏差或不良动机扭曲科学的研究过程,从而提升研究结果的可靠性。诺塞克等认为,预注册已经得到不少组织与规章制度的支持,将引领科学研究实践的变革。
例如,按照美国法律临床试验必须进行预注册;超过5000家期刊与学术组织签署声明,提倡包括预注册在内的透明、开放的科学研究实践;总部位于美国的开放科学中心(Center for Open Science)成为提倡预注册的大本营,不但提供在网上预注册的服务,还给研究者提供1000美元的奖金激励;世界卫生组织为临床试验、美国经济学会为随机控制实验、一些国际组织为政治学与经济学研究提供预注册服务。预注册的倡导者们希望,科学研究的实践将在预注册的日渐流行中变得更加规范。在国内,胡传鹏等、王阳和肖昆等也已经注意到国际上提倡预注册的动态。
尽管预注册的提倡者显然认为预注册也应适用于社会科学,但实际上社会学并不以实验方法为主流,而抽样调查、参与式观察等研究方法与预注册的设想有不小的距离。诺塞克等提出在实践中预注册面临九大挑战,其中“使用预先存在的数据”“使用纵贯研究和大样本、多变量数据”等两个挑战对于经常使用社会调查数据的社会学研究来说尤为切近。尽管作者畅想了一些妥协性的解决方案,但要在实践中贯彻这些方案会带来不小的成本。何况,妥协性的方案给“阳奉阴违”带来了操作空间,预注册可能变得“防君子不防小人”。
例如,诺塞克等认为研究者对数据的使用经验会损害客观性,但实际上某一领域的资深研究者往往对其领域屈指可数的社会调查数据了如指掌,甚至基于同一个数据进行若干相关研究,不可能严格满足预注册的条件。按照诺塞克等建议,此时可以通过让研究者陈述研究计划,澄清此前对该数据的了解情况来帮助读者评估研究的可信程度,但谁又能保证研究者不会在主观性如此之大的环节采取最有利于自己的表述方式呢?预注册是否能革社会科学的命还有待观察。
(四)重复市场
预测市场通过市场机制集散信息进行预测,效果有时比传统的预测方法还要准确。例如,在预测市场里出售合约,合约规定X候选人赢得当年美国总统选举时持有合约的人可以获得1美元。如果该合约可以自由交易,而自由交易形成的市场价格为0.53美元,就可以把这个结果理解成市场“相信”X有53%的概率获胜。
把预测市场用于预测学术成果能否被成功复现,就得到了“重复市场”。与前面的例子类似,重复市场里的合约规定如果研究X的结果能够被复现,那么合约的持有人可以得到一定金额的奖励。通过合约的交易后形成的价格,就能推算学术共同体对一些研究成果能否得到复现的信念。结果发现,重复市场确实可以一定程度上预测心理学、经济学等社会科学中实验结果复现的可能性。
在美国国防部高级研究计划局(DARPA)“公开研究与证据信心系统化”项目(Systematizing Confidence in Open Research and Evidence,SCORE)的资助下,已经有团队于2019年设立“重复市场”网站,邀请全世界的研究者预测顶级期刊上发表的研究成果被成功复现的可能性。到2021年11月,SCORE项目结束,共计66个研究的结果被用于给学者预测其能否复现。2020年11月,该网站开设了“新冠预印本”预测市场,提供399个跟新冠有关的研究预印本给参与者进行预测,预测其最终是否能在一年内得到发表,如果是的话是否发表在高影响因子的期刊上、引用量如何。该项目到此结束。
SCORE。图片来源:Center for Open Science官网。
另一个可供对比的平台是“社会科学预测平台”(Social Science Prediction Platform)。该平台定期提供社会科学研究给用户进行预测,首先简短地陈述研究的过程,再指定研究中涉及的一些内容由用户进行预测。例如,某实验研究可以邀请用户预测实验组跟控制组相比表现提高了几个百分比。平台还会询问用户对该研究相关问题的个人看法和研究经历。该平台并不提供合约交易,因此并不属于“重复市场”。重复市场用市场交易机制来整合信息,获知研究者认为什么样研究的结果可复现的信念。该平台则通过调查用户的观点来收集类似的信息。
不论是重复市场还是用户调查,一时一地的预测成败并非其唯一目的。通过不同手段收集的参加预测者的行为数据可以用来帮助建立自动化的预测模型。如果这一思路能够成功,模型可以用于自动评估学术研究成果的可复现性、不需要每次都费时费力地实施重复研究。这将大大降低评估与甄别科学研究成果的成本、优化学术资源的分配、巩固实施者的优势。
本文首先澄清了与重复研究相关的关键概念,在此基础上介绍了弗里斯和彼得森归纳的社会学定量研究中重复研究的四种类型。以此为线索,本文列举了在不同类型的重复研究中导致结果不可复现的因素,这些因素既包括研究者个人的问题,也包括当前学术生产过程中存在的制度性问题。最后,本文介绍了众包研究、元分析、预注册与重复市场等四种改革学术生产实践的方案,希望对中国社会学的定量研究有所启发。
社会学对知识的生产有着相当敏锐的洞察力,若能由此反思提出改革方案、推动知识生产机制的进步,可能会有助于社会学探索一条社会科学前进的新路。从“复现危机”到四种改革实践,本文介绍了目前定量研究面临的困境,其源于知识生产机制的制度性原因以及破局的探索与努力。尽管这些实践可能还没有彻底动摇社会科学知识生产的根基,但其经验值得中国社会学反思。定量研究是否接受上述探索底层的“重复—复现”观念?如何将其和现有的学术评估标准结合,形成制度性的或非制度性的研究评估框架?观念上的转变需要哪些实践改革的支撑?
本文介绍的案例还说明,有必要思考如何将新技术运用于学术研究与发表过程。当前,定量研究的方法复杂度有了较大的提高,仅仅依靠“写文章”来传递信息恐怕已经不是最有效的手段。在数据清理与分析中有大量不适合刊登的技术细节可能会对结果产生影响,而且其输出结果也可能并不适合呈现在纸刊的版面上。在这方面,国际上已有本文介绍的若干案例可供参考。客观来说,中国社会科学的出版在技术运用上仍与国际先进水平有较大的差距,这可能会妨碍新方法在定量研究中的应用与推广,值得继续探讨改进的方向。
文字编辑:曾晨妤、罗影、许方毅
推送编辑:苟钟月、陈立采
审核:田耕
往期推荐
(点击“阅读原文”可跳转社会学系官网“北大社会学刊”页面)