老姚专栏丨因果识别的困境与突围:以心脏搭桥术为例
推荐语
读研究生的时候,我对统计学在自然科学、社会科学各领域应用的理解是,尽管都采用某一统计分析框架(如回归分析),但各个学科的技术侧重点有所不同。例如,我印象当中,当年其他社会科学领域的实证研究并不太侧重于处理内生性问题,这与以劳动经济学为典型应用场景的微观计量经济学所侧重的技术有很大的差异。回想起来,其实我当时一直关注的是各种具体的统计方法或者统计模型,始终没有注意到一点,它所应用的各个学科都被称为是“科学”!既然都被称为是科学,他们不应该有一个统一的方法论基础吗?各个领域的实证研究,不应该有一个大体上一致的范式,而各种统计方法都以服务于科学研究目标的实现,在相同的范式下被使用吗?耀军兄说我应该补课科学哲学,我深以为然,作为回应,会买一堆书来“镇宅”,然后继续通过阅读他的科普文章来积累知识,提高认知。经过一段时间的学习(肯定不是通过读科学哲学的书),我逐渐对科学研究形成了这样两点认识:(1)科学研究的范式是:经验观察——提出理论——设定假说——实证检验——证伪理论——提出新的理论——(循环前面的步骤);(2)实证检验部分应采用各类因果识别的分析框架,经验观察阶段的描述性统计不能认为是实证检验。以上两点,但凡冠以“科学”二字的学科,都应遵循。从同为科学这个角度来说,无论是本文提到的心脏搭桥手术还是扶贫政策效应的因果识别,其基本的研究范式应该是一样的。本文以检验心脏搭桥手术疗效为例,阐述了其在疗效因果识别方面的困境和相应的“突围”策略。同学们在领略别的学科在因果关系识别方面的不易和各种尝试的同时,也可以体会到,我们还可以从科学方法论的角度来看待计量经济学当中的各类模型和统计方法。在更一般的科学属性上,我们跟医学研究在做同一类型的工作。——杨奇明小贴士
心脏搭桥术亦称冠状动脉旁路移植术,是指当冠状动脉发生阻塞导致心脏供血不足时,外科医生将一条心血管移植到动脉阻塞处,以让血液能够绕过阻塞重新循环起来。医学界公认心脏搭桥术是目前治疗冠心病最有效的方法,能够延长患者的寿命。
不少外科医生对于上述那些统计调查结果深感困惑。因为他们基于实践经验认为,心脏搭桥术确实具有很好的疗效。但问题是,为何这种来自实践的认知却无法获得统计结果的支持呢?
一、样本选择偏差
针对外科医生们的困惑,有研究者决定对此展开深入研究。谜底很快就揭晓了——原因很简单,选择实施手术的患者病情一般都很严重,而选择不实施手术的患者病情一般都比较轻。这表明,实施手术的患者与未实施手术的患者是具有不同特征从而缺乏可比性的两类群体。显然,对于手术的疗效,通过简单比较这两类群体,根本无法提供有效的证据。
从统计学上看,问题根源于样本选择偏差。就本文案例而言,更具体地说是样本自选择问题——
具有不同特征的个体主动选择接受不同的处理,结果导致最后的处理效应混杂了个体特征的影响。
”基于上述分析,我们不难理解,对心脏搭桥术进行效应分析,需要一个更加严谨的因果分析框架。就医学领域而言,通常的选择是可控实验。
二、可控实验的伦理困境
在可控实验中,研究者招募病情轻重不一的患者作为被试,并将他们随机分成两组,其中一组作为实验组实施手术,另一组作为对照组不实施手术。最后,研究者通过比较两组的生存率来检验手术的疗效。
由于随机分配被试,在被试较多亦即样本容量比较大的条件下,根据概率理论,我们有理由认为,平均来看,实验组与控制组在病情严重程度等方面是基本无差异的,这就保证了如果两组随后具有不同的生存率,则可归因于手术的效果。
但不幸的是,上述可控实验很可能会因存在伦理问题而不可行——例如,若手术真的有效果但也存在一些风险,则将那些病情较轻因而勿需手术的的患者送上手术台,或者不为那些病情较重因而更需要手术的患者实施手术,从伦理上看可能是不可接受的。
面对伦理困境,我们很容易想到的一种替代性解决方案是动物试验。但是,动物实验毕竟不是人体试验,故相关证据仅具有参考性。
如此看来,可控实验这一通常的分析框架在此处并不可行,试图研究心脏搭桥术疗效的研究者又陷入困境中。
三、遗漏变量偏差
有聪明的研究者发现了一个新的似乎可以走出困境的方案。原来,虽然一般只有病情较重的患者才会选择实施手术,但由于某些原因,这些患者选择在具有不同水平的医院接受手术。研究者发现,平均来看,医院手术水平越高,患者的生存率越高。如果我们将低水平手术视同为安慰剂,那么这表明,一旦手术水平得到保证,心脏搭桥术将有明显疗效。
不可否认,这确实是一个很好的想法,相关统计学证据看起来也比较可信,但其是决定性证据吗?要回答这个问题并不容易,因为我们必须具体分析,究竟哪些原因导致患者选择在具有不同水平的医院接受手术,而这些原因是否会影响患者的生存率。
例如,假设只有经济实力较强的患者才会选择那些手术水平高因而收费昂贵的医院,则这样的识别策略很可能导致我们高估手术的真实疗效。其中的道理是,经济实力较强的患者或许手术后营养水平更高、其他物质保障也更好。
从计量经济学原理上看,我们在这里遭遇了遗漏变量偏差——如果某一潜变量既影响因变量,又与我们感兴趣的核心自变量相关,那么潜变量在统计模型中被遗漏,将造成估计结果产生偏差。问题的解决之道看起来很明显,那就是我们只需要把那些潜变量纳入统计模型即可。但其实,事情并没有想象的那么简单,其原因在于:
第一,我们需要确定潜变量的“身份”,因为把那些本不属于潜变量的变量纳入模型,会让模型变得不必要的复杂,结果导致估计结果很可能因多重共线问题而缺乏应有的精度。然而,这个确定“身份”的过程往往需要较强的理论分析能力或者洞察力。
第二,潜变量经常缺乏数据,甚至根本不可直接观测。因此,我们既可能需要拓展数据的维度,还可能需要寻找恰当的代理变量——注意,不恰当的代理变量将带来测量误差问题。
第三,潜变量可能与我们感兴趣的核心自变量高度相关,以致将它们纳入模型加以控制会产生严重的多重共线问题。例如,若只有经济实力较强的患者才会选择那些手术水平高因而收费昂贵的医院,则患者的经济实力就可能与医院选择结果严重共线。
我们不妨设想,在“患者经济实力较强越会选择水平更高的医院”这个规律之外,还存在一些不满足此规律的观测值,亦即某些富人去了差医院、某些穷人去了好医院。如果能将这些观测值纳入样本,那么会有效地缓解多重共线问题。但基于常识不难判断,这些特别有价值的观测值也许十分稀少。
四、工具变量方法
设想一个比较“理想”的情况:患者主要是从距离医院远近角度而非基于医疗费用高低来选择医院。在此种情况下,我们就不再被有关患者经济条件的变量遗漏与否的问题所困扰。然而真正令人振奋的是,此种情况还隐含了一种识别手术疗效的新方案,那就是所谓的工具变量方法。
为了揭示工具变量方法的基本逻辑,我们不妨考虑这样一种情形:某个地区有一家水平最高的医院,而某研究者无意中发现,如果以这家医院为圆心,那么居住地越处于其外围的患者一般具有更差的术后生存率。从逻辑上看,患者居住地与水平最高医院的距离应该不会直接影响患者的术后生存率。那么,这种现象缘何发生呢?
一种颇具说服力的解释是,患者的居住地越处于外围,就越可能选择不在这家水平最高的医院动手术,而是选择那些与居住地更邻近但水平更低的医院。因此,上述现象其实派生于“高水平手术会提高患者生存率”这种因果关系。这反过来表明,上述现象就是有力支持这种因果关系存在的经验证据。通过工具变量方法识别因果关系的要旨,很好地体现于此种推理方式中。
用计量经济学术语讲,患者居住地与水平最高医院的距离就是一个工具变量。那么,它到底是谁的工具变量呢?我们不妨定义一个关于医院选择的虚拟变量——若选择到那家水平最高的医院动手术,则取值为1,否则取值为0。那么,与医院的距离就是这个虚拟变量的工具变量,而这个虚拟变量可称为被工具变量,或者说内生变量。
工具变量方法逻辑清晰而富有直觉,是用于因果识别的一大经典方法。值得指出的是,工具变量必须满足三个性质:第一,与被工具变量相关;第二,其取值由模型外因素决定,亦即具有外生性;第三,对因变量无直接影响。如果不满足上述性质,那么工具变量方法无效,甚至很可能从解决问题的方法沦为问题本身。然而不幸的是,寻找到一个完全满足上述三个性质的工具变量,并不那么容易。
例如,潜在的工具变量可能与被工具变量仅具有较弱的相关性,从而产生弱工具变量问题;再如,潜在的工具变量可能不具有外生性。就本文案例而言,患者居住地与水平最高医院的距离或许就存在这种问题——此变量从直觉上看应与患者经济实力相关,因为“医区房”更可能由富人居住。然而,经济实力很难说是一个模型外因素。
有一句戏言说——
找到一个很好的工具变量,就足以让你直接从MIT获得经济学博士学位。
”五、结语
行文结束之际,我们只能不无遗憾地承认,为心脏搭桥术的疗效提供严谨的科学证据,仍是一个开放性问题。换言之,关于因果识别的困境,我们最多能说已经撕开了一些缺口,迎来了希望的曙光,但还谈不上真正的完全突围。
不过仍有一个好消息:通过元分析这种统计学分析技术,有研究发现,实施心脏搭桥术的患者一般情况下能够增加10年的寿命。所谓元分析,就是对分析的分析。更具体地说,就是对现有实证文献的众多研究结论进行再次统计分析,从而获得一个综合性结论。不同实证文献的研究结论固然具有不同的证据质量,但只要支持性的统计学证据积累得越来越多,那么我们对手术效果就愈加有信心。
END
►一周热文
软件应用 | 秘籍:10个Python字符串处理技巧(附代码)
数据资源丨python爬虫资源汇总:书单、网站博客、框架、工具、项目(附资源)
软件应用丨10个Python图像处理工具,入门必看,提效大法
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
作者:姚耀军推荐:杨奇明编辑:青酱
欢迎扫描👇二维码添加关注