陆超超:首先,在最理想的情况下,我们希望能通过数据直接学习到潜在的正确的因果模型。但是,这在大多数情况下不太现实,因为对于给定的数据可能会对应多个潜在的因果模型,而我们无法确定哪一个是正确的。因此,我们通常需要利用已有的先验知识对潜在的因果模型做一些假设,缩小可能的潜在因果模型的范围,然后再从数据中进一步学习并确定其中正确的因果模型。一旦得到因果模型,就知道了变量之间的因果关系,然后就可以做一系列预测、生成、决策等机器学习任务。因果模型一方面可以描述数据分布的变化,比如遇到新的环境,通过干预变量产生数据变化,我们可以看到哪些干预对目标变量产生影响,哪些不产生影响;另一方面,因果模型会显式地告诉我们,哪些变化是有用的,哪些没用,这就能很好地解决传统机器学习中最重要的两个任务:泛化(generalization)和适应(adaptation)。由于因果模型能够描述分布中变化和不变的部分,所以就很容易做泛化和适应任务。这里的因果是如何定义的呢?通常我们是通过干预来定义因果。对于两个变量A和B,要判断A是不是B的因,我们可以通过干预A,然后看B是否会产生变化。比如一个简单的例子,如何判断鸡叫和日出有没有因果关系?我们可以干预鸡,让它不叫,然后看太阳是否升起。如果控制鸡不叫,但太阳照常升起,说明它们没有因果关系。所以干预是定义于因果的一种方式,也就是说,通过分布的变化,我们能确定有没有因果关系。反过来,因果也是一种描述数据分布变化的方式。Judea Pearl 的因果之梯
陆超超:我是在博士阶段到 Bernhard Schölkopf 组做研究,自然受到他们的影响。我之前认为,机器学习主要是数据驱动的,它的目的就是从数据中发现模式,根据模式做预测。Bernhard 是做传统机器学习出身,他很清楚知道机器学习的优缺点是什么,能解决什么问题,不能解决什么问题,他对于因果机器学习的观点说服了我,我觉得很有道理,于是从2018年开始做这方面的研究。学习机器学习之后你会发现,大部分模型输出的结果都是不可靠的。因为数据是人以各种方式生成的,而每个人都是有偏见的(bias),生成的数据也自然包含了人的偏见,这样学到的模型自然也是有偏见的,做预测或决策时自然也会有偏见。所以传统的机器学习有很多问题,这些最本质的问题通过现有的学习理论没有办法解决,必须借助新的工具。对我来说,我觉得到目前为止,因果模型是其中最有道理的一个工具,但我并不认为它是唯一的一个。因果机器学习是一个非常新的领域,我读博士之前还没太多的人研究,可以参考的文献也不是很多。当时的情况是,有表征学习,有强化学习,有因果推理,但没有办法把它们拼起来,没有人知道怎么拼,大家都在做各种尝试。像因果强化学习,到目前为止,都没人知道要怎样有效地结合,还在尝试。那种感觉就像是在太平洋上,一个人划着一只船,或者几个人划一只船。
陆超超:我觉得至少在博士期间,对我影响最大的是 Judea Pearl 和 Bernhard Schölkopf 两个人。Judea Pearl 的书我基本都读过,包括《Causality》、《The Book of Why》、《Causal Inference in Statistics: A Primer》。我最早看的是《Causality》,这本书基本囊括了他所有的观点,对我影响挺大。还有 Bernhard Schölkopf 的书 《Elements of Causal Inference》。