查看原文
其他

我们苦苦追寻因果,到头来只是相关

王海华 模型视角 2023-09-19

在我们日常的生活中,我们经常会听到这样的说法:“A导致了B”。这种因果关系似乎是我们认知的基石,无论是在自然科学、社会科学还是其他领域。但是,当我们深入研究某一问题时,经常会发现所谓的“因果关系”其实更多的是“相关关系”。尤其在数学建模领域,我们经常面临的挑战是如何从一堆数据中找到潜在的因果关系。但真正的因果关系真的那么容易找到吗?

1. 相关与因果

首先,我们需要明确一点:相关不等于因果。两个变量之间可能存在很强的相关性,但这并不意味着其中一个变量是另一个变量的原因。

例子1:冰激凌的销售量与被阳光晒伤存在很强的相关性,但这并不意味着吃冰激凌会导致晒伤。它们之间的相关性实际上是由于第三个因素——天气炎热——导致的。在炎热的天气里,人们更喜欢吃冰激凌,同时也更容易被晒伤。

例子2:另一个有趣的例子是,随着时间的推移,美国的分娩数量和鹿的数量都在增加。这两者之间存在很强的相关性,但我们不能得出结论说分娩数量的增加导致了鹿的数量增加,或者反过来。这显然是荒谬的。这种相关性可能只是一个巧合,或者是由于其他未知因素引起的。

例子3:还有一个经典的例子是,20世纪50年代,当研究人员发现肺癌的发病率与烟草销售量之间存在很强的相关性时,有些人开始怀疑吸烟与肺癌之间存在因果关系。但在早期,仅仅依靠这种相关性是不足以证明吸烟是导致肺癌的原因的。经过多年的研究,包括大量的实验和流行病学研究,科学家们最终确定了吸烟与肺癌之间的因果关系。

2. 数学建模中的挑战

在数学建模中,我们的目标通常是找到一个模型,可以用来描述或预测某一现象。为了建立这样的模型,我们需要收集数据,并使用这些数据来训练我们的模型。但是,数据中的相关性并不总是指示因果关系。例如,我们可能发现某一药物与病人的康复率之间存在很强的相关性,但这并不意味着这种药物就是病人康复的原因。可能存在其他的因素,如病人的年龄、饮食习惯等,也会影响康复率。

3. 工具与方法

为了区分相关性和因果关系,数学家和统计学家发展了许多工具和方法。其中最著名的是“因果推断”方法,这种方法试图通过随机实验来确定因果关系。例如,如果我们想知道某一药物是否有效,我们可以进行随机对照实验,随机将病人分为两组,一组服用药物,另一组不服用,然后比较两组病人的康复率。是确定因果关系的“金标准”方法。通过随机分配实验单位(例如,患者或学生)到不同的处理组,我们可以确保所有其他的混淆变量在组间是均匀的。因此,任何组间的差异都可以归因于处理效应。

但是,在许多情况下,进行随机实验是不可能的,例如我们不能随机选择一些人吸烟,然后看他们是否得肺癌。在这种情况下,我们需要使用其他方法来确定因果关系,如工具变量法、倾向得分匹配法等。

3.1 工具变量法

当不能进行随机实验时,工具变量是一种有用的方法。工具变量是与处理相关,但与结果无关的变量。它可以作为处理的代理,帮助我们识别因果关系。模型可以分为两个方程:

第一阶段:预测处理变量

第二阶段:使用预测的处理值

其中, 是工具变量,   是第一阶段得到的预测值。

例子: 考虑研究教育对收入的影响。由于存在多种因素影响教育和收入,直接的相关性分析可能不准确。但如果我们找到一个只影响教育但不影响收入的工具变量(例如,距离最近的大学的距离),我们可以使用它来估计教育对收入的真正影响。

3.2 倾向得分匹配法

这种方法试图通过模拟随机实验来确定因果关系。首先,基于观察到的数据估计每个实验单位接受处理的概率(倾向得分)。然后,根据这些倾向得分将处理组和控制组进行匹配,以确保两组在所有观察到的变量上都是相似的。

首先估计倾向得分:

Treatment

通常使用逻辑回归或其他分类方法。然后,对于每个处理单位,找到一个或多个控制单位,使得它们的倾向得分尽可能接近。

例子: 在研究某种训练课程对员工生产力的影响时,我们可以使用员工的背景信息(如年龄、教育和工作经验)来估计他们选择参加课程的概率,并据此进行匹配。

3.3 双重差分法

这种方法是基于时间序列数据的,通过比较处理前后的变化来确定因果关系。模型通常表示为:

其中, 是第 个单位在时间 的结果,   是一个指示变量,表示观察是否在处理后进 行,Treatment 是处理组的指示变量, 是它们的交互项, 是我们关心的处理效应。

例子: 考虑研究某种税收政策变化对经济增长的影响。我们可以比较政策实施前后的经济增长率,以确定政策的效果。

这些模型为每种方法提供了一个基本的框架,但在实际应用中,它们可能会根据特定的情境和数据进行调整和扩展.

结论

在数学建模中,我们经常面临的挑战是如何从一堆数据中找到潜在的因果关系。但我们必须时刻警惕,不要被数据中的相关性所迷惑,误以为找到了因果关系。只有通过深入的分析和合适的实验方法,我们才能真正确定因果关系。

“我们苦苦追寻因果,到头来只是相关”是数学建模中一个永恒的主题。在面对复杂的数据和现象时,我们必须保持清醒的头脑,不被表面的现象所迷惑,深入挖掘数据背后的真实因果关系。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存