学术活动|讲座纪要 王洋 因果推断之断点回归:早期失败对科研人员学术生涯有什么影响?
供稿|倪珍妮 司湘云
在社会科学中,例如公共政策、社会学、经济学、金融学、图情档等领域,因果推断的方法可以支持研究政策效应,继而提出政策建议。随机对照实验、断点回归、匹配等方法的因果推断效应的强度依次降低。此次,面向图情档研究问题的研究方法系列讲座(第一期)第四讲特邀王洋教授开展题为“因果推断之断点回归:早期失败对科研人员学术生涯有什么影响?”的讲座,详细介绍断点回归方法及其应用。本讲座分为断点回归的基本理论、断点回归的应用实例两部分。
01
断点回归的基本理论
1.1
因果推断
因果推断指推断一项干预(treatment)或政策等产生的直接后果,即推断该干预的因果影响。
1.2
因果推断的方法
1.3
断点回归的基本思想和假设
断点回归方法的三个假设:(1)数据/实例中必须存在一个断点(即阈值),在阈值邻域两侧样本受到干预的概率不同;(2)连续性假设,即阈值邻域中样本的回归函数在阈值处是连续的;(3)局部随机化实验,即样本无法事先得知阈值,进而无法操控其行为而造成偏差。
1.4
断点回归的分类和估计
(1)精确断点回归的估计
如下图,在阈值左右两侧分别选择非常小的邻域范围Δ,因果效应即为Δ趋于0时,阈值右侧Δ范围内样本因变量的期望值与阈值左侧Δ范围内样本因变量的期望值之差。由于要求邻域(Δ)的设定应足够小,因此该方法存在样本量缺失、样本均值与拟合值之间存在偏差的问题。那么如何解决这些问题?
假设样本中驱动变量与因变量呈线性关系。如下图,阈值左侧的样本(控制组)因变量与驱动变量呈线性关系
在线性回归的基础上进一步推广,假设样本因变量与驱动变量呈非线性关系。如下图,回归方程展开为多项式的形式是
然而非线性回归方法可能会放大因果影响的估计效果。如何解决该问题?可能的解决方法有:阈值邻域设定为相对较小的值、使用低阶的多项式函数拟合样本数据等。
(2)模糊断点回归
模糊断点回归中样本在阈值两侧接受干预的概率不同,如下图,概率函数为
回归方程是
通过图形对断点回归进行初步探究,例如判断驱动变量是否在断点处连续、观察样本数据服从何种函数形式等。
稳健性检验,例如调整阈值邻域(Δ)范围或多项式回归阶数(p)并进行结果对比、回归分析中加入协变量等。
02
断点回归的应用实例
2.1
研究背景
本研究关注科研人员的早期职业失败(near miss)对其长期的职业影响。究竟是“马太效应”使得强者愈强,还是“失败是成功之母”或者失败的“筛选效应”(screening mechanism)使得失败者变得更强?
2.2
研究数据
经过多方求证和数值模拟,发现项目立项在简单的规则之后存在强大的人为因素,例如某些评审部门偏好某些类研究,但是诸多人为因素缺乏系统性,因此本研究采用模糊断点回归方法进行分析。
1.4
断点回归的分类和估计
(1)初步检验
① 比较项目立项前,2组(成功组和失败组)样本特征是否存在显著差异,包括人口统计学特征、研究人员的科研产出和科研合作等特征。分析结果表明并无显著差异。
② 比较2组样本项目立项成功/失败后10年内发表高水平文章的概率,其中高水平文章指同领域内Top 5%最高引用的文章。发现失败组发表高水平论文的概率显著高于成功组。此外还进行了9种稳健性检验,包括平均引用量、高水平文章的划分、研究领域和时间因素、科学家重名因素等。结论并无差异。
③ 比较2组样本的资金支持差异,发现成功组资金支持显著高于失败组,即成功组在项目立项后更容易获得更多的资金支持。在其他基金资助机构(例如美国自然科学基金会)中该结论也依然成立。
综上,失败组获得较少的资金支持,但是发表了更多的高学术影响力论文。
(2)断点回归分析
上述检验表明资金支持(Di)与科研产出(Yi)具有相关关系。可能存在很多因素影响两者之间的关系,例如科学家个人特质、热点主题、新颖性偏差等。如下图,Ti(工具变量)指在Pay line之上或者之下(对应的资金支持概率Di不同),该值对于样本(项目申请者)而言无法预先得知,只与Di相关。因此使用Ti预测Di,进而预测Yi。断点回归分析和稳健性分析结果表明,失败显著影响了科研人员后续的发展,且显著提高科研人员发表高水平文章的概率和文章平均引用量。
2.4
结果分析
如何消除筛选效应造成的影响?究竟是“幸存者偏差”还是“杀不死你的使你更强大”?本研究删除成功组的部分样本,使得2组样本在项目立项成功/失败后继续从事科学研究的人员比例保持一致。成功组样本删除的标准是项目立项后10年内发表了最多的论文但无高影响力论文。
结果表明成功组发表高水平论文的概率和论文平均被引量均有所提升,但是仍显著低于失败组。因此“幸存者偏差”可能解释了一部分原因,而无法解释全部。“杀不死你的”可能会让你变得更强。
由于在医学领域,论文是否为临床实验论文或者被临床试验引用等因素也是衡量科研人员研究成果质量的重要指标,因此本研究还将因变量分别设置为:论文是否为临床试验论文、论文是否被临床试验引用、论文是否属于转化型研究(translational research),进行断点回归分析。结果与上述一致。
此外, 本研究进行了更多的稳健性检验,例如失败组在立项失败后,是否更倾向于做新颖性强的工作、是否更倾向于寻找更有名望的人合作、是否选择更为热门的研究方向、是否更换了研究单位等?结果表明,失败组的科研人员确实倾向于研究热门领域,但控制该变量后,结果与上述一致。
2.5
研究结论
最后,参与讲座直播活动的3300余名师生踊跃提问,包括:样本中立项失败的研究人员是否获得了其他资金的资助、阈值的发现与设定、早期失败的定义,对断点回归方法、双重差分方法和匹配方法的理解,地理断点回归等问题。王洋教授一一解答,并推荐了适合初学者学习的书籍。
讲座回放入口:
讲座版权归主办方所有,仅供个人学习,严禁任何形式的录制、传播。一经发现将依法保留追究权。
制版编辑 姚志臻
END
学术活动 | 第六十五期 姜婷婷 关键事件日记法:视觉刺激物特征如何触发信息偶遇行为?
学术活动 | 第六十四期 李月琳 案例研究:战略规划人员如何搜寻信息?
学术活动|第六十三期 讲座纪要 李江 因果推断之倾向值匹配与双重差分:回国后,科研人员的业绩更好吗?