【源头活水】因果关系检测提高强化学习效率

人工智能前沿讲习 2022-05-20

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—张楚珩

地址：https://zhuanlan.zhihu.com/p/442579248

原文传送门

NIPS 2021：Seitzer M, Schölkopf B, Martius G. Causal Influence Detection for Improving Efficiency in Reinforcement Learning[J]. arXiv preprint arXiv:2106.03443, 2021.

https://arxiv.org/pdf/2106.03443.pdf

特色

这里提供了一种在强化学习中检测每个状态下动作是否能够影响状态转移的方法，并且展示了如何用该技术提高强化学习的效率。

背景

这个文章思考问题的出发点是基于机械臂的控制任务的。在这样的任务中，我们需要控制的是机械臂（比如这里把这个物品的编号设置为 1），目标是用该机械臂来操纵一系列的物品（比如编号 2、3、4...）。可能的的相关影响关系全部都画出来，就应该是下图 a 中的这种因果图。但是实际上，我们直接操作的是机械臂，因此大部分情况下，A 直接影响的是 S’1。如果机械臂和某个物品 2 没有接触（如图 b），那么 A 对于 S'2 就没有causal influence（我碰都没碰到你，请不要碰瓷╭(╯^╰)╮）；只有在机械臂和物品 2 接触（如图 c）时，动作 A 才可能对物品 2 产生 causal influence。

观察到这件事情之后，文章就打算先把这个关系给学出来。下一步再考虑学出来有啥用。

如何学习到 causal influence？

最终咱们的目标是学习到定量的 causal influence 的大小，不过如果考虑定性的版本，就是学到是否有如下关系：S'j ⊥ A | S=s, A。定量地来说，就是要学习到如下互信息

文章中把它叫做 causal action influence (CAI) 。把 KL 散度展开，有

因此，我们发现需要估计 p(s'j | s,a)。这里先假设我们用神经网络能够拟合出来这样一个分布，那么我们可以近似计算上面这个量（把积分用求和代替），即

我们对着这个式子来理解一下：方括号中的每一项代表 p(s'j | s,a) 和 p(s'j | s) 的差距，如果在某个状态 s 上，不管采取什么动作 a，s'j 的后验分布都差不多，那么方括号中的每一项应该都会比较接近于零，即代表在这个状态 s 上，动作的可控性不强。

最后，我们需要拟合 p(s'j | s,a)，这里把它建模成高斯分布，即我们需要输出

关于 theta 的优化问题就变成了

如何使用估计到的 causal influence？

这里提出了三种使用方法：

1、用作 intrinsic reward 来帮助探索。即 CAI 越大说明在该状态下智能体对于环境的可控性越强，我们认为这些状态能帮助探索到更多的信息（否则，机械臂可能会在空中不停挥舞，啥也不干）。即

2、用作学习过程中的探索。这个作用和原本的 epsilon-greedy 差不多，不过效果会更好，可以替换原本的 epsilon-greedy。即在每个状态下，尽量选择能对于环境产生最大影响力的动作。

3、用于设置 replay buffer 的优先级。我们希望更多地把对环境影响力大的 transition 拿出来学习，因此可以用 CAI 来定义相应 replay buffer 的采样概率，即

对于某个样本 i，当 CAI 比较大的时候，所定义的 p 也会比较大（注意到公式是倒数）。

讨论

读完之后有几个感受：

其实使用方法感觉还是绞尽脑汁硬套了几个强化里面能使用的方向，创新一般；

这篇文章的最有意思的地方应该是在提出一些机械控制问题里面适用于去检测每个状态下的可控性。该方法的有效性和任务的选取是比较相关的，在机械控制问题里面物理上有这种”接触才能影响“的性质，因此相互影响是比较稀疏的，比较容易学出来，并且学习出来的信号也比较强。

这里面虽然使用了应该因果推断的相应技术，但是最诟病的我感觉是还是学习了一个模型 p(s'j | s,a)，这个模型其实就编码了因果关系，但是这个因果关系是否能学习出来是值得怀疑的。具体来说，把 a 看做 treatment ，s 其实是一个 confounder ，即它不仅影响我们选取动作 a，也影响最后的结果 s'j；从这样的数据里面很难学习到真实反映应该关系的模型 p(s'j | s,a)。当然，文章里面给了一些理论试图说明其可行性（这里没讲，感兴趣的大家可以自己看），但是我感觉相应的理论还是比较弱的。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

【源头活水】因果关系检测提高强化学习效率

原文传送门

特色

基于GNN的层次人脸聚类

CLUES:用于NLU的少样本学习评估

全新视觉 Transformer：高分辨率图像复原新SOTA——Restormer

GRI：通用强化模仿学习，用于视觉自动驾驶

UMBRELLA：不确定性-觉察、利用规划的基于模型离线强化学习方法

Devign: 基于GNN的源代码漏洞检测

DriverGym，一个强化学习用于自动驾驶的开源平台

GRASSY | 利用图神经网络和几何散射方法优化分子图的生成

Very Deep VAE

联合意图识别和槽位填充，Slot-Gated机制

[ACM MM 2021] 基于深度学习的图像水印去除

SIGIR'21微软|基于自监督图学习的推荐系统

驾驶行为预测方法：分层自适应可迁移网络HATN

无监督异常检测场景下如何自动选择模型？

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

生成图片，分享到微信朋友圈

【源头活水】因果关系检测提高强化学习效率

原文传送门

特色

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣