查看原文
其他

AER史上最严关于论文数据和代码可得性政策,应对实证论文的复制性危机!

计量经济圈 计量经济圈 2022-05-11

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

必看:计量经济圈公众号搜索功能及操作流程演示

上一日,我们引荐了有趣: 老师何时会对学生的反馈意见做出回应?实证设计也出彩!作为一篇实地实验(field experiment),是各位开展此类实验研究的范文。今天,我们将围绕如下主题展开:社会科学空前大危机,可复制性危机
研究表明,许多已发表论文的结果都无法从原始作者提供的代码和数据中复制出来(有理由相信,中文期刊存在类似情况)AEA的新数据和代码可得性政策旨在通过对编码和文档制定专业标准来改善这种情况。

数据和代码可得性政策

美国经济学会对发表论文的政策,是需要明确且精确地记录了分析中使用的数据和代码,并对数据和代码的访问得到明确且精确的记录,还需对其他人的查看不具有排他性条件
那些被接受的论文,若包含实证工作,模拟或实验工作,作者必须在论文被接受之前提供有关数据,程序的信息,以及足以允许复制的其他计算细节,和有关访问数据和程序的信息。
数据和程序应存储在AEA数据和代码存储库中。如果需要,作者可以在接受之前向编辑和审稿人提供对数据和程序的访问权限。如果对论文中使用的数据的访问受到限制,或由于某些其他原因不能满足上述要求,则应在提交时通知编辑。AEA数据编辑将评估对本政策的遵守情况,并将在期刊编辑接受文章之前验证信息的准确性。

说明

在文章评审过程中当编辑提出要求时,作者应提供其数据,程序和复制说明的位置和访问详细信息。最终文件可以存放在AEA数据和代码存储库中(https://www.openicpsr.org/openicpsr/aea)。
AEA数据编辑将在文章编辑接受手稿之前验证所有信息。

内容和范围

对于计量,模拟和实验论文,复制材料应包括(a)数据集,(b)用于从原始数据创建任何最终和分析数据集的程序,(c)用于运行最终模型,以及(d)足以允许所有程序运行的描述。

数据

对于数据,应提供足够的信息(a)准确地描述数据,以便不了解数据的人可以理解其主要(和显著)特征(信息);(b)能够获取数据(无论是通过下载,通过合同,通过申请过程等)(可访问性);(c)向读者保证数据可以在足够长的时间内使用(PERSISTENCE)。
可以以与任何常用统计软件包或软件兼容的任何格式提供数据文件。鼓励作者以开放的非专有格式提供数据文件。

程序

作者应提供所有代码的清晰文档(在代码/脚本文件内部以及通过README)。特别是:(a)应从代码(和/或README)中清楚地找到在哪里可以找到每个表格,图形和文本编号中包含的信息;(b)应指明所有先决条件(数据,代码,程序,软件,可能还有操作系统)(包括版本号);(c)适当时,应固定随机种子(set seed)。
可以以与常用统计软件包或软件兼容的任何格式提供程序。如果需要非常规或昂贵的软件,则要求作者通知AEA数据编辑。
强烈建议您使用master script。

元数据

作为档案的一部分,作者必须提供一个README文件,列出所有包含的文件,并记录每个文件的目的,格式和出处,并指导用户如何进行复制。
常见格式为txt,PDF和Markdown。自述文件不应要求专有软件来查看。它应该指导用户文件的类型以及如何使用它们进行复制。
作者应确保提供的数据集中的每个变量都可以使用有意义的名称或描述(标签)。codebooks或类似的元数据应描述每个变量的允许值及其含义。可以参考这些项目的公开可用文档。

限制访问数据的流程

如果数据受制于阻止作者将文件存放在可公开访问的数据存储库中的任何访问限制,则需要其他信息。作者应提供有关独立研究人员如何,在何处以及在什么条件下可以访问数据的详细信息。这些信息应在提交后提供给编辑,并应成为README的一部分。如上所述,仍将提供所有程序。
AEA数据编辑器将验证信息,并可以联系作者确定的数据提供者。

实验论文的特殊规定

对于实验论文,适用其他规则。我们通常希望实验文章的作者提供以下补充材料(在提交时应要求对此政策有任何例外):
原始说明
原始说明应在提交的手稿中作为实验设计讨论的一部分进行总结,并在提交时作为附录完整提供。这些说明应以与设计摘要一起清晰地传达协议的方式呈现,以使设计合理的实验人员可以复制该设计。例如,如果不同的会话使用了不同的指令,则应指出对应关系。
学科选择
有关受试者资格或选拔的信息,例如基于过去参与实验,大学专业等的排除情况。应在提交的稿件中将其总结为实验设计讨论的一部分。
软件和脚本
必须提供用于运行实验的任何计算机程序,配置文件或脚本。这些内容应在提交的手稿中适当总结,并保存在AEA数据和代码存储库中。上面提到的所有程序要求均适用。
原始数据
来自实验的原始数据应适当地汇总在提交的手稿中,并存放在AEA数据和代码存储库中。
我们强烈建议作者将原始数据和说明与其他复制材料分开存放,以使作者的工作更具可见性。
分析程序
上面概述的最终和中间数据文件以及清理和分析程序的所有要求都将继续适用。(请参见上面的“数据”部分。)
注册
AEA制定了有关随机对照试验注册的政策。请参阅https://www.aeaweb.org/journals/policies/rct-registry上的政策。

数据和代码资料的传输

在openICPSR说明(https://www.openicpsr.org/openicpsr/aea/deposit-instructions)提供了有关如何存放在AEA数据和代码存储库的材料,可用的附加说明这里(https://aeadataeditor.github.io/aea-de-guidance/data-deposit-aea-guidance.html)。
上传到AEA数据和代码存储库的文件应保留最初执行或使用的文件名,其原始文件格式以及它们在目录方面的原始“分组”。
AEA数据和代码存储库可以处理最大2GB的文件。如果您需要上传较大的文件或遇到任何问题,请与存储库工作人员联系。
其他存储库和档案库也可以接受,只要它们被认为是“受信任的”档案或存储库(请参阅指南)。AEA数据编辑将评估任何此类存储库和档案的适用性。
新政策从 2019年7月10日执行 

附加参考:

1.Unofficial guidance on various topics by the AEA Data Editorhttps://aeadataeditor.github.io/aea-de-guidance/

2. Unofficial guidance on various topics by Social Science Data Editors: https://social-science-data-editors.github.io/guidance/

拓展性阅读:

关于各种因果识别方法的120份经典实证文献汇总”,②哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,③因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,⑥看完顶级期刊文章后, 整理了内生性处理小册子,⑤工具变量精辟解释, 保证你一辈子都忘不了,⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,⑧关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,⑪MIT广为流传的政策"处理效应"读本,⑫DID的研究动态和政策评估中应用的文献综述,⑬最新政策效应评估的四种方法,⑭政策效应评估的基本问题

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存