查看原文
其他

因果性学习范式初探

蔡瑞初 博士 DataFunTalk
2024-09-10

导读因果性正在机器学习领域收获更广泛的关注,因果性与机器学习的结合也不断涌现。在因果关系发现的基础上,本次报告主要讨论因果与机器学习的结合有哪些范式。

主要包含以下三大部分:

1. 什么是因果性学习?

2. 基于先验因果结构的因果性学习方法

3. 基于因果发现的因果性学习方法

分享嘉宾|蔡瑞初博士 广东工业大学 教授 

编辑整理|王雨润

内容校对|李瑶

出品社区|DataFun


01

什么是因果性学习?

首先来探讨一下什么是因果性学习。

人类学习是通过书籍、观察、实验等方式完成不同技能的学习过程。

传统机器学习方法完成的相关性学习以数据为基础,通常基于统计学习方法学习数据背后的相关性,此类范式面对视频分析、图像识别、文本生成、问题回答等认知型任务具有良好的表现,但无法胜任游戏、驾驶等决策型任务。

因果性学习更关注数据背后的因果性,在数据的基础上进一步引入知识和行为,以学习复杂场景背后的因果关系,用于刻画动态决策过程中的交互行为,实现具有更高泛化性的学习。因果性学习与相关性学习均属于机器学习,因果性学习在原有相关性学习的基础上,进一步深入考虑数据内部的因果机制。

我们为什么需要因果性学习呢?

因果性学习的第一大优势是更强的泛化性。传统机器学习通常基于数据联合分布,由于伪关联的存在,联合分布通常是不稳定的。例如在骆驼的识别任务中,由于骆驼的图像通常伴有沙漠背景,在训练过程中会使得骆驼与沙漠之间产生伪关联,若去除图像的沙漠背景或更换背景,将导致骆驼识别失败。

当考虑因果性时,因果性稳定且不变,如驼峰与骆驼识别之间存在因果机制,基于该因果性可提高骆驼识别的稳定性与泛化性。由此,因果性学习一定程度上可以排除数据中的伪关联,抓住其中的主要矛盾,实现具有更好泛化性的识别与决策。

因果性学习的另一个优势在于更好的可解释性。人类认知世界的模型正是一个因果模型,具有很好的可解释性,也很简洁。基于因果性可以指导人类改造世界,相关性的模型则无法提供足够的有效信息用以进行决策。

同时,因果性学习更容易引入先验式的因果结构。因果知识与深度学习数据拟合能力相结合,从而实现数据与知识混合驱动的机器学习。

目前,因果性学习方法可主要分为两类范式。

第一种范式为基于先验因果结构的因果性学习方法,已知因果结构与先验知识;核心问题在于如何将此类因果知识与现有机器学习方法结合与利用;总体思路为因果结构+深度学习。

第二类范式为基于因果发现的因果性学习方法,因果结构未知,需要通过因果发现方法找出背后的因果结构知识;核心问题在于因果知识哪里来以及如何利用因果知识;总体思路为因果发现+(因果结构+深度学习)。

接下来将分别展开介绍这两类学习方法。

02

基于先验因果结构的因果性学习方法

传统机器学习方法在分布相近的数据集上进行训练,当训练集与测试集数据分布不一致时,模型泛化性能较差,进而导致领域自适应问题。如何从因果机制出发,帮助领域自适应问题的解决,核心在于因果机制在不同场景与不同数据分布中保持不变。

领域自适应问题在数据生成过程中的表现可主要分为四类,今天主要探讨 conditional shift 的情境。D 和 Y 共同决定 X,其中 D 是领域信息,Y 是判别模型的标签,X 是特征,特征会随着领域信息的变化而变化。

在现实生活中,认知猪、小猪佩奇和电吹风的任务对于人的认知能力来说很简单,但对于机器学习模型却很困难。基于 conditional shift 的认知因果结构,领域信息对应卡通与现实场景的划分,y 标签对应小猪佩奇和电吹风的划分,两个因素共同影响生成图片的样子。从此因果结构出发,可将领域信息与标签信息进行解耦,实现领域信息和标签信息的语义分离,构成一个解耦的领域自迁移学习方法。

在与机器学习方法结合的过程中,因果结构可用于网络结构的设计。如在网络结构中引入两个分支,分别对应领域信息和标签信息,并引入有监督信号以指导二者的分离。

在面对更复杂场景时,如 source 与 target 之间存在重叠部分。解决方案是首先对因果图进行修正,在修正的因果图基础上,对现有网络结构进行结构层面微调,以实现先验知识的嵌入。将因果知识与现有深度学习结构结合,可实现使用因果知识指导算法设计的目的。

在细分领域,该类范式已有广泛的研究和应用,如 Stable Learning、推荐场景、计算机视觉等。这些工作的范式都是将因果图与现有的机器学习或深度网络相结合。

该类范式中普遍存在的问题在于,因果结构的正确性以及给定的因果图是否可识别、图给定的情况下变量是否可识别。

2019 年 ICML 的一篇论文指出,在对隐变量进行恢复的时候必须满足 inductive biases 或 implicit and explicit supervision 假设。这一工作引发了我们进一步的探索。

调研发现在 match pairing、rank pairing 等监督信号的情况下,隐变量是可识别的。

在此基础上,我们就想知道,比如在领域迁移领域,到底需要多少监督信号才是足够的呢?我们在今年 NeurIPS 上的最新结果将原有监督信号数量由 2n+1 放宽至 n+1。而 n+1 是否已是极限,还值得继续探讨。

03

基于因果发现的因果性学习方法

在没有因果先验知识的情况下,则需要通过因果发现的方法挖掘因果知识。

我们这系列工作早期的研究是关于中央空调最优控制参数。面临的问题是,比如广州一个大厦的中央空调控制的最优参数已经学习得很好了,是否可以将模型迁移到北京的大厦中。时序领域迁移问题面临不同偏移、值域和不同变量之间的时延等多种偏移问题,并存在复杂依赖。

但中央空调作为一个封闭的物理系统,物理机制保持不变,因此可迁移该物理机制。由此,可通过学习数据中的因果机制,并将该因果机制迁移至不同领域场景的数据生成过程中。

具体算法设计上,通过 LSTM 模块和注意力机制,求出不同时间序列之间的稀疏相关矩阵与可能的因果机制,通过相关矩阵对齐的方法,解决时序迁移问题。

算法设计如上图所示。有很多不同的时间序列,x1、x2、x3 是时间序列的三个维度,我们采用最基本的深度学习的方法,比如 LSTM+attention 机制,学到三个序列背后可能的因果机制。比如发现 x1会影响 x2,也会影响 x3,而在目标北京也有同样的机制。我们采用 MMD 就可以将两个矩阵对齐,这样就实现了因果机制的迁移。

LSTM 学习到变量之间的关联结构,但尚未构成严格意义上的因果关系。为进一步提取有效因果结构,以实现端对端的因果发现,将因果结构视为隐变量。在数据生成过程中,当前时刻观测数据由历史数据和因果结构所决定,基于当前时刻观测数据和历史观测数据,可以通过隐变量恢复的求解方式,实现因果结构的重构。

至此,就可以与现有的机器学习方法相结合。

理论分析显示,一个模型是否可迁移,受限于目标数据和领域数据因果机制变化程度大小,若因果机制变化不大,则该数据具有很强的可迁移性。

该理论结果在实际应用中也获得较好的验证,当模型学习到因果机制后,模型可较快收敛。

在人体骨架行为序列迁移任务和空气质量预测任务中都取得了较好的表现。

这类因果性学习方面面临的主要问题是,因果发现算法往往具有强假设,而机器学习往往是开放问题,强假设与开放场景之间存在矛盾。同时,因果发现普遍依赖独立检验等工具,机器学习普遍基于优化方法,两类方法基础工具方法不调和,因此融合困难。

最后进行一下总结。

基于先验因果结构的因果性学习方法,其基本范式是实现因果结构与现有深度学习方法的结合,通过引入领域知识或归纳偏置等方式提升泛化性,或解决数据偏差。这一类模型的可识别性有待进一步解决。

基于因果发现的因果性学习方法,通过挖掘数据内在因果结构提升泛化性和可解释性。开放场景的因果发现算法和因果发现与深度学习的融合有待进一步解决。

再进一步,目前因果性学习方法尚未达到基于因果指导干预与决策,后续可进一步通过因果强化学习等探索策略解决未知环境学习问题。

因果+AI 是一条通往通用式AI的可能路径。目前,大模型尚不具有因果能力,因果研究仍处于起步阶段,值得大家关注和后续投入。欢迎大家关注 causal-learn 平台和 CDMiR 平台。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


蔡瑞初 博士

广东工业大学

教授

蔡瑞初,教授、博士生导师、数据挖掘与信息检索实验室主任、国家优秀青年基金获得者。

蔡教授专注于因果关系发现与因果性学习、深度学习等领域的理论与应用研究。在上述领域先后主持国家优秀青年基金、科技部”科技创新2030“重大项目、省杰出青年基金、省特支计划等项目;在因果关系发现、因果性学习方面开展了系列有益探索,在ICML、NeurIPS、AAAI、IJCAI等领域重要会议和TPAMI、JMLR、TNNLS、TKDE等国际著名期刊发表论文100余篇;协助华为、网易、腾讯、滴滴、唯品会、南方电网、南方通讯建设等企业解决了因果故障定位、因果决策优化、因果个性推荐等应用难题,取得了良好的经济和社会价值;获得省科学技术一等奖(第三完成人)、国家发明专利奖优秀奖(第三完成人)等奖项;指导学生获得NeurIPS 2019解耦学习算法大赛第一名、亚太因果推理大会推理大赛第一名、“互联网+”全国决赛金奖等奖项;担任Neural Networks杂志Action Editor、NeurIPS、ICML等会议的Area Chair,IJCAI、AAAI等会议的SPC等。



资料领取



往期推荐


OLAP的统一及技术趋势:StarRocks 架构和实践分享

快手基于 Flink on K8s 的生产应用实践

快手专家:如何成为好的数据产品经理?

百度基于云原生的推荐系统设计与实践

高性能 LLM 推理框架的设计与实现

揭秘超算互联网统一存储平台技术研究方案

京东物流一站式敏捷BI平台建设方法论

快手数据成本白盒化治理实践

重构推荐系统,还是重构大模型?

开源大数据 OLAP 的思考及最佳实践

英伟达NeMo框架在AI领域的综合应用与优势总结

大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

点个在看你最好看

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存