绝大部分医学科普文章,其实都没有把因果关系讲清楚,大部分读者关注的,也仅仅是结论部分,而医学专业出身的人,因为缺少必要的数学基础,真要较真因果关系的算法,往往也是一头雾水,我经常看到不少医学作者在文章中说,相关不等于因果,那么如果我们在此基础上追问一句,有因果关系的两个变量,它就一定相关么?这并不奇怪,因果关系虽然非常重要,但它的复杂程度,确实远远超出一般人的想象,不但定义困难,更重要的是,找出因果关系的方法也没有任何一种是放之四海而皆准的,往往是适用于解决一个问题的方法,换个问题它就立刻失灵了。举一个极端一点的例子,我们在评价药物疗效的时候,经常会使用随机对照的方法,这个方法换到降落伞测试领域就肯定行不通,试问,如果想证明降落伞是不是对从飞机上跳下来的人有保护作用,谁想去当那个不用降落伞的对照组去?我曾经也低估了这个问题的复杂程度,妄想通过一篇短文就能讲清楚,实在是少年轻狂无知无畏,现在碰了壁了,只敢说带大家看看因果关系的门缝而已,至于日后能走进去多远,要看各位的造化了。我们只有准确理解了一些基本的因果关系,才能更好地生活,在寻常动物的眼中,火就只是一种光焰,但人类掌握了火之生灭的原因,就可以将火为我所用。除了这些现实、实用的例子而外,人们对因果关系的探究也源自一种与生俱来的好奇心,可有些因果关系掩藏的太深根本找不到怎么办?类似的还有,印加人的故事里说,月食一只美洲虎攻击了月亮,而美索不达米亚人相信月亮遭到了恶魔的袭击。古人的思维方式是极其相似的,谁也没比谁更博大精深。利用这个瞎编的原因,好像也能有点儿用,古人们大吼大叫敲盆打鼓一顿操作猛如虎,嘿,你看天狗吓跑了吧,月亮它又圆了了。但如果利用这个 虚构的原因去解决更复杂的问题,它就失灵了,比如,天狗下一次啥时候吃月亮?要解决这个问题,就需要那个真实的因果关系和精确的历法知识了。2001 年,研究人员做了一组随机双盲对照研究,验证祈祷是否会提升病人的治疗效果,试验共整理了 3393 名感染的成年病人,分成了祈祷组和对照组,结果显示,祈祷组病人的住院时间缩短了,在统计学上具有显著性。你看,分组随机,还用上了盲法,统计结果也有显著性,这个试验会不会让你的固有观点有那么一丝丝动摇?但你要看了这个研究过程,都得气乐了,这简直就像一出恶作剧,设计这个试验的人是 21 世纪的,而这些病人和住院资料却来自 20 世纪(1990 年-1996 年)。当下的原因(祈祷)能够导致某件事情在过去发生(病人好转),一个人得疯成什么样才能相信这样的因果关系?但我想强调的重点并非是这个试验有多么离奇,而是时间上的先后,有时候会直接主导我们对因果关系的认知。比如还是上述的试验方法,假如祈祷在前好转在后且统计学上有显著性呢?一般而言,找到因果关系的方法有两种:观察法,实验法。举个常见的观察法的例子,假如你在某天出门诊时,忽然出现一大批疑似食物中毒的病人,那么,你如何证明这些人确实是食物中毒呢?第一步,得找到这些人近期吃的东西有没有相同的部分,第二步,才是去检测这部分东西有没有问题。19 世纪,John Stuart Mill 提出过穆勒五法来寻找类似的规律性,这些方法包括:契合法,差异法,契合差异并用法,剩余法,共变法。契合是指某个原因是导致某种结果的必要条件,除非出现这个原因,否则不会出现这个结果。比如作为公司主管,你发现迟到的员工都是谈恋爱的,那么,恋爱就是迟到的必要条件。(在这个虚拟的例子里,不是说恋爱的全迟到,否则,恋爱就成迟到的充分条件了)如果我们要考察出现某种结果和未出现某种结果之间有什么不同,这就是差异法。比如你发现凡是头一天出去跟对象约会的,第二天上班都很疲惫,而那些没约会的,第二天就很精神,那么,跟对象约会就是次日疲惫的充分条件。如果将契合法与差异法联用,找到的原因就可能是某结果的充分必要条件。剩余法就是排除法,对于某结果只剩下一个可能的原因,那么就是这个原因导致了该结果。但这个方法有个重要前提,就是假定我们已经知道了所以其他可能得原因导致的所有结果,且一个原因只会导致一个结果。比如你周一到周五都是很规律地跟 ABCDE 五个对象分别约会,但只有周五那天脑袋疼,如果除外了 ABCD 四种可能,那么 E 就是致病因素。可实际情况要复杂的多,比如有没有可能 ABCD 也是致病因素,但是产生症状的过程有时间延迟?又或者只有当 ABCDE 五者相互作用时才让人头疼?在共变法中,原因和结果之间存在剂量效应——随着原因剂量的增加,结果的剂量也随之增加——典型例子,啤酒喝得越多尿得就越多。还是那句话,实际情况要更复杂,如果啤酒喝得足够多,那人就会死于酒精中毒,死人是不会产生尿液的。在医学史上使用穆勒五法找到原因的例子有很多,最著名的一例是 John Snow 发现了伦敦爆发霍乱的原因。Snow发现死于霍乱者都可能使用过宽城街水泵里的水。1951 年有一项前瞻性的研究,研究者向 6 万名英国医生发放调查问卷,采集关于吸烟习惯的信息,在短短 5 年的时间里,重度吸烟者患肺癌死亡的概率是不吸烟者的 24 倍。美国的癌症协会也在同一时间里发起了类似的研究,美国的研究者发现,吸烟者死于肺癌的概率是不吸烟者的 29 倍,而重度吸烟者死于肺癌的概率是不吸烟者的 90 倍。另外,曾经吸烟后来戒烟的人,其患病风险降低了一半。(剂量-响应效应)吸烟有害健康在今天似乎已经是尽人皆知的常识了,但最初关于吸烟是否有害健康的争论曾经非常激烈,这里处理烟草公司利益攸关的因素而外,也跟这其中因果关系的确证极其复杂有关,很多医界人士和统计学专家都不相信吸烟致癌这个结论,因为这个致病的时间太漫长了。上世纪 60 年代,美国专门成立了一个顾问委员会(10 位成员中,5 位吸烟,5 位不吸烟)来讨论这个问题,后来该委员会发布了一份报告,明确了吸烟与肺癌的关系。值得一提的是,路易斯·费瑟,这位每天要吸 4 包烟的重度吸烟者在委员会的报告发布之后一年内被确诊为肺癌,他在给委员会的信中写道:虽然吸烟致癌的证据已非常充分,但你们可能还记得在委员会的讨论会上,我仍在不停地吸烟,还东拉西扯了所有那些吸烟者一贯使用的借口……对我个人而言,我被确诊为肺癌,这一事实比任何统计资料都更有说服力。但观察法的局限也是非常明显的,当只有观察数据时,我们永远都无法确定是否存在隐藏的共同原因,从而导致了一些表面上的因果关系。比如数据显示学习时间长者学习成绩好,那么我们能不能据此认为学习时间长这个因就会导致学习成绩好这个果?有没有可能这两者的共同原因其实是学生天资聪明,而这个聪明才是导致学习时间长和学习成绩好的共同原因。(我在这里没打算给出结论,只是提醒读者注意,不要被表面上的关系误导)因此,对于更复杂的因果关系,我们只能通过实验法来明确。很多时候,我们之所以想找到原因,就是因为我们系统通过操纵原因来实现对结果的控制,在这个范畴里,发现病因并找到治疗方法就是最典型的例子了。还有《心外传奇》中都提及了许多通过实验来找到因果关系的案例,这些故事都说明,寻找因果关系的过程经常都是非常曲折的,由于人类认知的局限性,还经常被表面现象引入歧途。更让人难过的是,那些科学家心血的结晶还经常被公众误解,以至于很多有价值的结论,在造福社会的过程中还是会步履维艰困难重重。正确的决策需要依赖可靠的因果关系,这似乎是不言自明的,但在实践中,却并非易事。比如就在林德发现防止坏血病的方法之后的一百年后,英国还有两支极地探险队惨遭坏血病的侵袭,他们为什么会忘记 100 年前的教训呢?1875 年,当北极探险队的水手们在饮用了柠檬汁的情况下仍然患上了坏血病,医界陷入了极大的困惑,他们同时还发现,那些吃了鲜肉的水手并没有得坏血病,而那些吃了罐头肉的人却得了坏血病,于是就有医生得出结论腌肉才是坏血病的罪魁祸首(这一推理过程参见前述穆勒五法)。结果在后来1911 年的一次南极远征探险中,队医就没建议储备足够的柑橘或橙子,而是带上了未经污染没有腐坏迹象的干肉……可真相其实是,他们吃的鲜肉——北极熊的肝脏里含有维生素 C,而他们喝的柠檬汁则是烹煮过的。1929年,圣捷尔吉·阿尔伯特(Albert Szent-Györgyi,1893-1986)成功分离出己糖醛酸,此物质即后来大名鼎鼎的维生素 C,至此,坏血病才彻底被征服,由于天然食物中富含维生素 C 者很多,以至于坏血病几乎都快要从人类疾病谱中被抹去了。还有一个例子也很发人深省,美国田纳西州曾有一个小规模的随机试验发现,被分到小班(人数较少)的学生在标准化考试中的成绩比那些分到大班的学生要好。这是不是提示我们,如果我们把大班拆分成小班对学生的学业成绩应该是有利的?基于这个试验结论,加州实施了一个项目来缩小班级规模,结果,却并未收到预想中的效果。因为很多时候,我们都无法孤立地只操纵一个因素而其他条件都保持不变,加州的新政策只是缩小了班级规模,可学生总数并没有减少,这就导致需要更多的教师,结果,这些新招聘的教师中,有 20%以上没有教师资格证。上述两个决策失误的例子,前者是因为确切机制不明(并没有真的弄懂柑橘橙子为什么会起作用),后者是因为一个干预因素的改变引起了后续预料之外的连锁反应,还有一个失误的例子,简直让人哭笑不得。大家现在都知道是蚊子传播的,有些地方不是穷么,好吧,俺们捐蚊帐给你们防蚊子……有个项目后来发现疟疾在当地的发病率也没降啊?你要不是提前知道答案的话,估计你想破头也想不出来是因为啥。他们把蚊帐当渔网来使了,因为实在太穷了啊,缺乏食物的威胁远比感染疟疾来得迫切……大家看,即使理论正确,方法正确,也不敢保证一定出现预期中的理想结果,真实的世界,复杂到让人想骂娘的地步。既然因果关系这么复杂,那么算了,爱咋咋地吧,瞎活。往宏观了说,命运也会区别对待是否尊重理性和常识的民族、国家。我们讲过那么多误用因果关系的例子、教训,绝不是说干脆不思考因果关系反而是对的,正确的理论在执行层面当然有可能出现不良结果,但理论层面就是错的,还想收获更好的结果,那他妈的就是痴人说梦。我们不能指望有一种一劳永逸的方法直接就能解决所有的因果关系,比如把一堆数据扔进一个黑箱子,取出来就是个确切的结论。每一种寻找因果关系的方法,都只能在特定的条件下才好用,就像我们开头提到的,在人的身上做随机双盲对照试验是验证一种药物是否有效的好方法,把这个方法平移到验证降落伞的保护效果上面就明显不适用。如果非要为寻找因果关系的方法给出一个标准答案,那么这个答案就是:我们需要利用多种不同的方法。如果你只会一种方法只会用一种思维方式看待这个世界,那么一定会因这样的局限性而在现实世界里撞的满头都是包。当然,这些讲的的全都是如何做具体的事,至于做人,那就复杂到难以评价了,因为👉🏻「人永远都无法知道自己该要什么,因为人只能活一次,既不能拿它跟前世相比,也不能在来生加以修正。没有任何方法可以检验哪种抉择是好的,因为不存在任何比较。」
(因果关系感兴趣的读者,推荐阅读这几本书:《别拿相关当因果!因果关系简易入门》《为什么:关于因果关系的新科学》《因果革命:人工智慧的大未来》)