查看原文
其他

2022年「强化学习」优秀论文盘点

智源强化学习组 智源社区 2023-01-22


No.72

智源社区

强化学习组

 习




研究

观点

资源

活动




周刊订阅

《强化学习周刊》已经开启“订阅功能”,扫描下面二维码,进入主页,选择“关注TA”,我们会向您自动推送最新版的《强化学习周刊》。





关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,本期为了更好的让读者总结2022年强化学习领域的发展,以及把握来年强化学习领域发展方向,小编汇总了本周刊2022年强化学习领域较有影响的30篇论文,撰写为第72期《强化学习周刊》以飨诸位。


周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。


本期贡献者:(李明,刘青、小胖)









论文推荐


强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》在2022岁末到来之际,整理了今年强化学习领域影响力较大的30篇论文,推荐给读者。希望读者可以在这些论文中进一步得到相关的启发,在2023年有更好的科研进展。


从研究方向角度有扩散策略、自然语言处理、分布式强化学习、组合优化、不确定性估计、游戏、自动调整内在奖励、预训练强化学习、多智能体动态算法配置、因果强化学习、AlphaTensor、Transformers、协作 MARL、逆强化学习、规则发现、推荐系统、多智能体强化学习。


【1】标题:Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning(德克萨斯大学奥斯汀分校: Zhendong Wang|扩散策略作为离线强化学习的表达策略类)

推荐理由:扩散策略为2022年的一种算法,本篇文章将扩散策略与强化学习结合,提出了 扩散-QL,它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数,并在条件扩散模型的训练损失中添加了一个最大化动作值的项,这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于 扩散-QL 的出色性能。

论文链接:https://arxiv.org/pdf/2208.06193.pdf

https://hub.baai.ac.cn/view/22004


【2】标题:Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization(强化学习是否适用于自然语言处理?:自然语言策略优化的基准、基线和构建块)

推荐理由:OpenAI在2022年11月发布了ChatGPT聊天机器人https://openai.com/blog/chatgpt/,想必很多人已经体验过了。还没有体验了可以去体验一下。基于此,推荐的这篇论文,是解决了将预先训练的大型语言模型(LMs)与人类偏好相匹配的问题。如果将文本生成视为一个顺序决策问题,强化学习(RL)似乎是一个自然的概念框架。然而,将RL用于基于LM的生成面临着经验挑战,包括由于组合动作空间而导致的训练不稳定性,以及缺少为LM对齐定制的开源库和基准。因此,研究界提出了一个问题:RL是否是NLP的一个实用范式?为了帮助回答这个问题,作者首先引入了一个开源模块库RL4LMs(语言模型强化学习),用于使用RL优化语言生成器。接下来,作者提出了GRUE(通用强化语言理解评估)基准,这是一组6个语言生成任务,它们不受目标字符串的监督,而是由捕获人类偏好的自动度量的奖励函数来监督。最后,作者介绍了一种RL算法NLPO(自然语言策略优化),该算法学习如何有效地减少语言生成中的组合动作空间。

论文链接:https://openreview.net/pdf?id=8aHzds2uUyB

https://hub.baai.ac.cn/view/22015


【3】标题:ActorRL: A Novel Distributed Reinforcement Learning for Autonomous Intersection Management(清华大学吴建平教授团队 | ActorRL:一种用于自主交叉口管理的新型分布式强化学习)

推荐理由:本篇文章作为分布式强化学习的应用成果推荐给读者。深度强化学习 (DRL) 作为一种在许多领域获得令人满意的性能的方法,最近已被引入 AIM。为了克服多智能体 DRL 中维数灾难和不稳定性的挑战,本文提出了新的 AIM 问题 DRL 框架 ActorRL,其中actor分配机制在全局观察下将具有不同个性的多个角色附加到 CAV,包括激进的actor、保守的actor,安全第一的actor等。actor与分配给它的 CAV 的集体记忆共享行为策略,在 AIM 中扮演“导航员”的角色。

论文链接:https://arxiv.org/pdf/2205.02428.pdf

https://hub.baai.ac.cn/view/16945


【4】标题:Reinforcement Learning to Solve NP-hard Problems: an Application to the CVRP(强化学习在解决NP难问题中的应用)

推荐理由:NP难问题是数学领域的知名问题,人工智能已经越来越多的应用于数学理论方面,基于这个理由,推荐给各位读着。本文评估了强化学习(RL)在解决一个经典的组合优化问题中的应用:容量约束车辆路径问题(CVRP)。文章在RL框架中形式化了这个问题,并在一组基准实例上比较了两种最有前途的RL方法与传统的求解技术。通过返回的解决方案的质量和返回所需的时间来衡量不同的方法。

论文链接:https://arxiv.org/pdf/2201.05393.pdf

https://hub.baai.ac.cn/view/14161


【5】标题:UdeM | Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation(基于不确定性估计的样本高效深度强化学习)

推荐理由:样本效率是强化学习中很重要的一个问题,所以周刊推荐该论文给研究样本效率的研究人员。来自加拿大蒙特利尔大学(英文简称:UdeM)的学者们最近提出一种基于不确定性估计的样本高效深度强化学习。在无模型深层强化学习(RL)算法中,使用噪声值估计来监督策略评估和优化会对样本效率造成不利影响。由于这种噪声是异方差的,因此可以在优化过程中使用基于不确定性的权重来缓解其影响。先前的方法依赖于抽样的集合,这些集合不能捕获不确定性的所有方面。

论文链接:https://arxiv.org/pdf/2201.01666.pdf

https://hub.baai.ac.cn/view/13918


【6】标题:Meta:Human-level play in the game of Diplomacy by combining language models with strategic reasoning(Meta:通过将语言模型与战略推理相结合,在外交游戏中发挥人的水平)

推荐理由:尽管在训练人工智能(AI)系统模仿人类语言方面取得了很大进展,但在交互环境中使用语言与人类进行有意交流的建筑代理仍然是一个主要挑战。该论文介绍了西塞罗(Cicero),他是第一个在《外交》(Diplomacy)中实现人类水平表现的人工智能代理,这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。Cicero将语言模型与规划和强化学习算法相结合,通过从对话中推断玩家的信念和意图,并根据其计划生成对话。在一个匿名的在线外交联盟的40场比赛中,西塞罗的平均得分是人类选手的两倍多,在超过一场比赛的参与者中排名前10%。

资讯链接:https://www.science.org/doi/10.1126/science.ade9097

https://hub.baai.ac.cn/view/examine/22424


【7】标题:DeepMind 推出 DeepNash攻克西洋陆军棋游戏

推荐理由:近期,Science上发表了DeepMind的一篇AI玩转西洋陆军棋(Stratego)的论文,引发关注。Stratego是一种不完全信息博弈,需要像国际象棋一样的长期战略思考,但它也需要像打扑克一样处理不完美的信息,因此是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。DeepMind 团队介绍了 DeepNash 这一自主智能体,利用博弈论、无模型的深度强化学习方法,无需搜索,通过从头开始的自我对弈来学习掌握 Stratego。DeepNash成功地展示了,AI如何在不确定的情况下,完美地平衡了结果,解决了复杂的问题。

资讯链接:https://www.science.org/doi/epdf/10.1126/science.add4679

https://hub.baai.ac.cn/view/22224


【8】标题:Spectral Decomposition Representation for Reinforcement Learning(谷歌研究院: Tongzheng Ren|强化学习的谱分解表示)

推荐理由:表示学习通常通过管理维数灾难在强化学习中发挥关键作用。一类具有代表性的算法利用随机过渡动力学的谱分解来构建在理想化环境中具有强大理论特性的表示。然而,当前的谱方法的适用性有限,因为它们是为仅状态聚合而构建的,并且是从依赖于策略的转换内核中派生出来的,而没有考虑探索问题。为了解决这些问题,本文提出了一种替代的光谱方法,即光谱分解表示 (SPEDER),它从动态中提取状态-动作抽象,而不会引起对数据收集策略的虚假依赖,同时还平衡了学习过程中的探索与利用权衡。

论文链接:https://arxiv.org/pdf/2208.09515.pdf

https://hub.baai.ac.cn/view/22016

 

【9】标题:麻省理工实现自动调整内在奖励的强化学习

推荐理由:最先进的强化学习 (RL) 算法通常使用随机抽样进行探索,但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。当智能体寻求内在奖励并执行不必要的探索时,即使有足够的任务奖励可用,这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序,可以自动调整内在奖励的重要性:它在不需要探索时抑制内在奖励,并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

论文链接:https://arxiv.org/pdf/2211.07627.pdf

资讯链接:https://hub.baai.ac.cn/view/22021

 

【10】标题:谷歌利用真实世界的高速乒乓球强化机器人

推荐理由:为将机器人学习应用需要紧密循环的动态、高速人机交互任务中,谷歌研究利用乒乓球这一速度和精度双重要求很高的运动来进行训练机器人交互和强化学习的研究。在现实世界中学习目标条件控制是机器人技术中一个具有挑战性的开放问题。强化学习系统有可能通过试错法自主学习,但在实践中,手动奖励设计、确保安全探索和超参数调整的成本通常足以阻止现实世界的部署。另一方面,模仿学习方法提供了一种在现实世界中学习控制的简单方法,但通常需要昂贵的策划演示数据,并且缺乏持续改进的机制。谷歌研究团队发现,迭代模仿学习可以在动态环境中扩展到真实机器人上的目标导向行为:高速、精确的乒乓球。研究人员发现这种方法提供了一种直接的方式来进行持续的机器人学习,而没有奖励设计或模拟到真实的迁移等复杂性,同时它也是可扩展的——样本效率足以在几个小时内训练一个物理机器人。

资讯链接:https://arxiv.org/pdf/2210.03662.pdf

https://hub.baai.ac.cn/view/21864

 

【11】标题:首次应用!基于掩码的建模技术助力强化学习

推荐理由:视觉状态表征的质量对基于视觉的强化学习(vision-based reinforcement learning)至关重要。为了学习高效的状态表征,微软亚洲研究院的研究员们创新性地将基于掩码的建模技术(mask-based modeling)应用到强化学习中,以促进其状态表征学习。此前基于掩码的建模技术已经在 CV 和 NLP 领域中大放异彩,而这项工作是将其应用到强化学习领域帮助策略学习的首次探索。其提出了一种简单而有效的自我监督方法,即基于掩码的潜在空间重建 (MLR),以从具有空间和时间掩码像素的观察中预测潜在空间中的完整状态表示。MLR 可以在学习状态表示时更好地使用上下文信息,从而使它们更具信息性,这有助于 RL 智能体训练。

资讯链接:https://arxiv.org/pdf/2201.12096.pdf

https://hub.baai.ac.cn/view/21685

 

【12】标题:算法蒸馏,DeepMind推出可探索的预训练强化学习

推荐理由:近期,DeepMind研究人员根据实验结果,提出一种可行性:任何强化学习(RL)算法都可通过模仿学习“蒸馏”成足够强大的序列模型(如Transformer),并将其转化成上下文RL算法。上述的“蒸馏”则为DeepMind提出的算法蒸馏 (AD),这是一种通过使用因果序列模型对其训练历史进行建模,将RL 算法提取到神经网络中的方法。算法蒸馏将学习到强化学习视为跨集顺序预测问题。学习历史数据集由源 RL 算法生成,然后通过自回归预测动作来训练因果变换器,并将其先前的学习历史作为上下文。与提取学习后或专家序列的顺序策略预测架构不同,AD 能够完全在上下文中改进其策略,而无需更新其网络参数。

资讯链接:https://arxiv.org/pdf/2210.14215.pdf

https://hub.baai.ac.cn/view/21484

 

【13】标题:机器狗当守门员,成功拦截多种快球

推荐理由:Mini Cheetah 是 MIT 在 2019 年研发的四足机器人(机器狗)。使用机器狗当足球守门员是一个具有挑战性的问题,它将高度动态的运动与精确和快速的非抓握物体(球)操纵相结合。机器狗需要在很短的时间内(通常不到一秒)使用动态运动机动对潜在的飞行球做出反应并拦截。本文研究者使用分层无模型 RL 框架来解决这个问题。该框架的第一个组件包含针对不同运动技能的多个控制策略,可用于覆盖目标的不同区域。然后,这些技能被框架的第二部分使用,以确定所需的技能和末端执行器轨迹,来拦截飞向目标不同区域的球。使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截。

资讯链接:https://arxiv.org/pdf/2210.04435.pdf

https://hub.baai.ac.cn/view/21188

 

【14】标题:Multi-agent Dynamic Algorithm Configuration(计算机软件新技术国家重点实验室(南京大学):Chao Qian | 多智能体动态算法配置)

推荐理由:自动算法配置将用户从繁琐、反复试验和错误调整任务中解脱出来。现有算法配置优化范例是动态算法配置(DAC),其中智能体通过强化学习(RL)跨实例学习动态配置策略。然而,在许多复杂算法中,可能存在不同类型的配置超参数,这种异构性可能给使用单个智能体RL策略的经典DAC带来困难。为此,并提出了多智能体DAC(MA-DAC),即一个智能体为一种配置超参数工作。MA-DAC将具有多种超参数的复杂算法的动态配置作为上下文多智能体马尔可夫决策过程,并通过协作多智能体RL(MARL)算法进行求解。

论文链接:https://arxiv.org/pdf/2210.06835.pdf

https://hub.baai.ac.cn/view/examine/21035

 

【15】标题:Causality-driven Hierarchical Structure Discovery for Reinforcement Learning(中国科学院: Shaohui Peng|强化学习的因果驱动层次结构发现)

推荐理由:强化学习和因果发现是目前人工智能的两个重要研究领域,将其结合是一种研究趋势。分层强化学习(HRL)在高质量层次结构(如子目标或选项)的指导下,有效地提高了智能体在稀疏奖励任务中的探索效率。然而,如何自动发现高质量的层次结构仍然是一个巨大的挑战。以往的HRL方法利用随机驱动的探索范式,由于探索效率低,难以发现复杂环境中的层次结构。为了解决这一问题,此文提出了CDHRL,一种因果驱动的层次强化学习框架,利用因果驱动的发现而不是随机驱动的探索,在复杂环境中有效地构建高质量的层次结构。关键见解是,环境变量之间的因果关系自然适合建模可达子目标及其依赖关系,可以完美指导构建高质量的层次结构。

论文链接:https://arxiv.org/pdf/2210.06964.pdf

https://hub.baai.ac.cn/view/21021


【16】标题:Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief(华为诺亚方舟实验室: Kaiyang Guo|基于模型的具有悲观调节动态信念的离线强化学习)

推荐理由:基于模型的离线强化学习(RL)旨在利用以前收集的静态数据集和动态模型,找到高回报的策略。动态模型的泛化能力在重用静态数据集的同时,如果利用得当,有望促进策略学习。由于动态和奖励在MDP背景下是本质不同的因素,通过奖励惩罚来表征动态不确定性的影响可能会在模型利用和风险规避之间产生意想不到的权衡。本文相反地在动态上保持信念分布,并通过信念中的有偏见抽样来评估/优化策略策。基于离线RL的交替马尔可夫博弈公式推导了偏向悲观的抽样程序。此文正式地表明,偏差抽样自然地诱导了一个带有策略依赖重加权因子的更新动态信念,称为悲观调制动态信念。

论文链接:https://arxiv.org/pdf/2210.06692.pdf

https://hub.baai.ac.cn/view/21022


【17】标题:提升5倍性能!英伟达提出树搜索策略梯度

推荐理由:NVIDIA再出新作,首次将树状搜索整合到策略梯度的方法中。策略梯度方法被广泛用于学习控制策略。它们可以很容易地分布式执行,并在许多领域达到最先进的结果。然而,由于它们累加在整个轨迹上的梯度,它们表现出较大的估计方差,并且存在高样本复杂性。在另一个极端,规划方法,如树形搜索,使用考虑未来展望的单步过渡来优化策略。这些方法主要被考虑用于基于价值的算法。基于规划的算法需要一个前向模型,每一步的计算量都很大,但采样效率更高。本文研究者引入了SoftTreeMax,传统上,梯度是针对单一的状态-动作对进行计算的。相反,此方法基于树的策略结构在每个环境步骤中利用了叶节点的所有梯度。这使算法能够将梯度的方差减少三个数量级,并且与标准策略梯度相比,拥有更好的样本复杂性。

资讯链接:https://arxiv.org/pdf/2209.13966.pdf

https://hub.baai.ac.cn/view/21049

 

【18】标题:Nature封面论文:DeepMind强势推出AlphaTensor

推荐理由:在2022年一期Nature的封面论文中,DeepMind提出AlphaTensor这一Alpha系列智能家族新成员,其用于自动发现算法获得广大科研人员的关注。提高基础计算算法的效率会产生广泛的影响,矩阵乘法就是这样一项原始任务,发生在许多系统中。使用机器学习自动发现算法提供了超越人类直觉并超越当前最佳人工设计算法的前景。DeepMind 科研人员报告了一种基于 AlphaZero的深度强化学习方法-- AlphaTensor,这是首个用于发现任意矩阵乘法的有效且证明正确的算法。智能体AlphaTensor 发现的算法在许多矩阵大小上都优于最先进的复杂性。特别相关的是有限域中 4 × 4 矩阵的情况,AlphaTensor 的算法在 50 年间首次改进了 Strassen 的两级算法。

资讯链接:https://www.nature.com/articles/s41586-022-05172-4?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

https://hub.baai.ac.cn/view/20915

 

【19】标题:Transformers are Meta-Reinforcement Learners(微软公司: Luckeciano C. Melo|Transformers 是元强化学习者)

推荐理由:近年来,Transformer 架构和变体在许多机器学习任务中取得了显著成功。这种成功本质上与处理长序列的能力和注意力机制中上下文相关权重的存在有关。本文认为这些能力适合元强化学习算法的核心作用。实际上,元 RL 智能体需要从一系列轨迹中推断出任务。此外,它需要一种快速的适应策略来适应新任务的策略——这可以使用自注意力机制来实现。本文提出了 TrMRL(元强化学习的转换器),这是一种使用转换器架构模拟记忆恢复机制的元 RL 智能体。它将工作记忆的最近过去联系起来,通过变换层递归地构建情景记忆。

论文链接:https://arxiv.org/pdf/2206.06614.pdf

https://hub.baai.ac.cn/view/20831

 

【20】标题:斯坦福新作:AI在实际社会中交互学习

推荐理由:PNAS收录了斯坦福大学一篇文章,此研究着眼于社会情境学习这一目前人工智能(AI)的重要挑战,并在视觉问答任务的实验中,性能提高了 112%。无论 AI 智能体有多少可用的数据,智能体在现实世界的部署中不可避免地会遇到以前没有见过的情况。通过从其他人那里获得新的信息来对新情况做出反应--社会情境学习--是人类发展的核心能力。斯坦福研究人员将社会环境下的 AI 任务--通过与人的社会互动来寻找新的信息的智能体--正规化为一个强化学习问题,智能体通过社会互动观察到的奖励来学习识别有意义和有信息的问题。研究人员将此框架表现为一个交互式的智能体,当它在一个大型的照片分享社交网络上扩大其视觉智能时,它学会了如何提出关于照片的自然语言问题。这项工作为持续改进AI智能体提供了机会,使其在开放的社会环境中更好地尊重规范。

资讯链接:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

https://hub.baai.ac.cn/view/20836

 

【21】标题:DeepMind实现Atari超人类基线200倍智能体

推荐理由:Atari 游戏一直是强化学习 (RL) 的长期基准, 提出这个基准是为了测试 RL 算法的一般能力。2020年,DeepMind 提出 Agent57,这是首个在所有 57 款 Atari 游戏上都超过标准人类基准测试的深度强化学习智能体。但是此结果是以牺牲数据效率为代价,需要近800亿帧的经验训练才能实现。两年后的现在,DeepMind 在Agent57基础上进行超级升级,实现超越人类基线所需的经验减少 200 倍的新型智能体-MEME。研究人员调查了在减少数据机制时遇到的一系列不稳定性和瓶颈,并提出有效的解决方案来构建更强大和更高效的智能体。并且还通过 Muesli 和 MuZero 等高性能方法展示了具有竞争力的性能。

资讯链接:https://arxiv.org/pdf/2209.07550.pdf

https://hub.baai.ac.cn/view/20758

 

【22】标题:Deep Reinforcement Learning With Quantum-Inspired Experience Replay(南京大学: Qing Wei|具有量子启发的经验回放的深度强化学习)

推荐理由:本文提出了受量子计算启发的新型训练范式,用于具有经验回放的深度强化学习 (DRL)。与 DRL 中传统的经验回放机制相比,具有量子启发的经验回放(DRL-QER) 的 DRL 根据每个经验的复杂性和回放时间(也称为转换)自适应地从重放缓冲区中选择经验,以在探索和利用之间取得平衡。在 DRL-QER 中,转换首先以量子表示形式表示,然后对转换执行准备操作和折扣操作。在这个过程中,准备操作反映了时间差误差(TD-errors)与经验重要性之间的关系,同时考虑了折扣操作,保证了过渡的多样性。

论文链接:https://ieeexplore.ieee.org/document/9357477

https://hub.baai.ac.cn/view/19885

 

【23】标题:Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL(牛津大学:Jakub Grudzien Kuba | 异构Agent镜像学习:协作 MARL 的连续解决方案)

推荐理由:智能机器之间合作的必要性已经在人工智能(AI)研究界普及了协作多智能体强化学习(MARL)。然而,许多研究工作都集中在开发实用的 MARL 算法,其有效性仅通过经验研究,因此缺乏理论保证。正如最近的研究所揭示的,MARL 方法通常在奖励单调性方面实现不稳定或收敛时次优的性能。为此,本文介绍了异构智能体镜像学习 (HAML) 的新框架,它为 MARL 算法设计提供了通用模板。并证明了从 HAML 模板派生的算法满足联合奖励的单调改进和收敛到纳什均衡的期望特性。

论文链接:https://arxiv.org/pdf/2208.01682.pdf

https://hub.baai.ac.cn/view/19493

 

【24】标题:Active Exploration for Inverse Reinforcement Learning(苏黎世联邦理工学院: David Lindner|逆强化学习的主动探索)

推荐理由:逆强化学习 (IRL) 是一种强大的范式,用于从专家演示中推断奖励函数。许多 IRL 算法需要已知的转换模型,有时甚至需要已知的专家策略,或者它们至少需要访问生成模型。然而,这些假设对于许多现实世界的应用来说太强了,其中,环境只能通过顺序交互来访问。本文提出了新颖的 IRL 算法:逆强化学习的主动探索(AceIRL),它主动探索未知环境和专家策略,以快速学习专家的奖励函数并确定好的策略。AceIRL 使用先前的观察来构建置信区间,以捕获合理的奖励函数并找到专注于环境中信息量最大的区域的探索策略。AceIRL 是首个具有样本复杂性边界的主动 IRL 方法,不需要环境的生成模型。

论文链接:https://arxiv.org/pdf/2207.08645.pdf

https://hub.baai.ac.cn/view/19015

 

【25】标题:Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement Learning(代尔夫特理工大学:Wendelin Böhmer | 具有不确定性的规划:基于模型的强化学习的深入探索)

推荐理由:基于深度模型的强化学习(RL)在许多具有挑战性的领域表现出了超强的人类性能。然而,低采样效率和有限的勘探仍然是该领域的主要障碍。本文通过将认知不确定性纳入规划树,绕过通过价值学习传播不确定性的标准方法,展示了对基于模型的RL的深入探索。通过使用最先进的基于模型的RL算法MuZero来评估该方法,并扩展其训练过程,以从明确探索的轨迹中稳定学习。

论文链接:https://arxiv.org/pdf/2210.13455.pdf

https://hub.baai.ac.cn/view/21847

 

【26】标题:R5: Rule Discovery with Reinforced and Recurrent Relational Reasoning(阿尔伯塔大学:Shengyao Lu | R5:具有增强和递归关系推理的规则发现)

推荐理由:系统性,即在对关系数据进行推理的同时重新组合已知部分和规则以形成新序列的能力,对机器智能至关重要。具有较强系统性的模型能够训练小规模任务,并推广到大规模任务。本文提出了R5-基于强化学习的关系推理框架,它对关系图数据进行推理,并从观察中明确挖掘潜在的组成逻辑规则。R5具有较强的系统性,并且对噪声数据具有鲁棒性。它由一个策略值网络和一个用于规则挖掘的回溯重写机制组成,策略值网络配备了Monte Carlo树搜索来执行递归关系预测。通过交替应用这两个分量,R5逐渐从数据中学习一组显式规则,并执行可解释和可概括的关系预测。并对多个数据集进行了广泛的评估。

论文链接:https://arxiv.org/pdf/2205.06454.pdf

https://hub.baai.ac.cn/view/examine/21676

 

【27】标题:Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering(华盛顿大学: Jiacheng Liu | Rainier:用于常识性问题解答的强化知识内省器)

推荐理由:知识是推理的基础。最近的研究表明,当相关知识作为常识问答(QA)的附加上下文提供时,即使在最先进的技术之上,它也可以大大提高性能。其挑战是,在哪里以及如何找到高质量的、与问题相关的知识;从知识库中检索到的知识是不完整的,从语言模型中生成的知识也是不一致的。本文介绍了Rainier,即强化知识反省者,它学习生成与背景相关的知识来回答给定的问题。该方法从模仿GPT-3生成的知识开始,然后通过强化学习学习生成自己的知识,在强化学习中,奖励是基于提高的答题成绩而形成的。

论文链接:https://arxiv.org/pdf/2210.03078.pdf

https://hub.baai.ac.cn/view/examine/21478

 

【28】标题:Towards Trustworthy Automatic Diagnosis Systems by Emulating Doctors' Reasoning with Deep Reinforcement Learning( Mila-Quebec人工智能研究所: Arsene Fansi Tchango|通过深度强化学习模拟医生的推理,走向值得信赖的自动诊断系统)

推荐理由:目前机器学习文献中提出的大多数医学证据获取和诊断过程的自动化工作仅专注于提高患者病理的预测准确性。此文认为这一目标不足以确保医生接受此类系统。在与患者的最初互动中,医生不仅专注于识别患者的病理,还会生成鉴别诊断(以可能疾病的简短列表的形式),因为从患者那里收集的医学证据通常不足以确定最终诊断。而且,在可能将其排除在鉴别诊断之外之前医生会明确探索严重的病理。最后,为了让医生相信系统的建议,他们需要了解收集到的证据是如何导致预测疾病的。因此系统与患者之间的交互需要模仿医生的推理。综上,此文建议使用深度强化学习框架对证据获取和自动诊断任务进行建模,该框架考虑了医生推理的三个基本方面,即用探索-确认方法生成鉴别诊断,同时优先考虑严重的病理。

论文链接:https://arxiv.org/pdf/2210.07198.pdf

https://hub.baai.ac.cn/view/21019

 

【29】标题:DIMES: A Differentiable Meta Solver for Combinatorial Optimization Problems(伊利诺伊大学香槟分校:Ruizhong Qiu | DIMES:组合优化问题的可微元解法)

推荐理由:最近,深度强化学习(DRL)模型在解决NP难组合优化(CO)问题方面显示出了良好的结果。然而,对于图上的组合优化问题,如旅行推销员问题(TSP),大多数DRL求解器只能扩展到几百个节点。本文通过提出一种新的方法,即DIMES,解决了大规模组合优化中的可扩展性挑战。与以前的DRL方法不同,该方法需要昂贵的自回归解码或离散解的迭代细化,DIMES引入了一个紧凑的连续空间,用于参数化候选解的潜在分布。这样的连续空间允许通过大规模并行采样进行稳定的基于增强的训练和微调。并进一步提出了一个元学习框架,以便在微调阶段有效初始化模型参数。

论文链接:https://arxiv.org/pdf/2210.04123.pdf

https://hub.baai.ac.cn/view/20950

 

【30】标题:DreamShard: Generalizable Embedding Table Placement for Recommender Systems(莱斯大学:Daochen Zha | DreamShard:推荐系统的通用嵌入表放置)

推荐理由:本文研究了分布式推荐系统的嵌入表布局,其目的是将表划分并放置在多个硬件设备(如GPU)上,以平衡计算和通信成本。尽管现有研究已经探索了基于学习的计算图设备放置方法,但嵌入表放置仍然是一个具有挑战性的问题,由于嵌入表的操作融合,以及具有不同表数和/或设备数的不可见放置任务的泛化要求。故本文提出了DreamShard,一种用于嵌入表位置的强化学习(RL)方法。DreamShard通过一个成本网络来直接预测融合操作的成本,以及一个策略网络来实现操作融合和泛化的推理,该策略网络在没有实际GPU执行的情况下,根据估计的马尔可夫决策过程(MDP)进行有效训练,其中状态和回报是通过成本网络来估计的。这两个网络配备了总和和最大表示约简,可以直接推广到具有不同表数和/或设备数的任何看不见的任务,而无需进行微调。

论文链接:https://arxiv.org/pdf/2210.02023.pdf

https://hub.baai.ac.cn/view/examine/20949


如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴


扫描下方二维码,加入强化学习兴趣群


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存