【活动通知】SFFAI105×CRIPAC 强化学习专题
SFFAI 合作机构 CRIPAC 简介
会议内容
会议简介
强化学习近年来在控制、机器人、自动驾驶、多智能体、在线决策等领域得到了广大的发展。但这些成功大多基于实验上的探索,缺乏数学上的性能保障。因此,从理论上理解强化学习算法的稳定性与收敛性显得尤为重要。双Q-学习就是这样一个例子。双Q-学习被提出以解决Q-学习的不稳定性问题,作为一个启发式算法在实践中得到有效的应用。但人们对其收敛性质与收敛速度的理解非常有限。理论地证明双Q-学习的有效性或找到双Q-学习存在的不足能帮助研究人员更好地了解并进而设计更有效的强化学习算法。
讲者介绍
翁文涛,清华大学姚班大四在读。主要研究兴趣为大规模随机系统中的算法与设计,研究问题包括云上的调度问题、按需服务平台、以及强化学习理论。
会议题目
双Q-学习的均方误差
会议摘要
本文在理论上严格比较了双Q-学习和Q-学习均方误差。基于最优策略的唯一性和算法的收敛性假设,本文基于线性随机近似理论对Q-学习和双Q-学习的Lyapunov方程进行了分析。该分析对表格型和带线性函数近似的情况均成立。我们证明了当双Q-学习的学习率为Q-学习的学习率的两倍,且输出其两个值函数估计的平均值时,渐近意义上双Q-学习的均方误差与Q-学习的均方误差是一致的。我们使用仿真实验进一步提供了该理论结果的实际意义。
论文标题:The Mean-Squared Error of Double Q-Learning
论文下载:关注本公众号,对话框回复“SFFAI105”,获取下载
会议亮点
1、本文首次严格给出双Q学习准确的渐进意义上的均方误差;
2、本文提供了以渐进均方误差为指标比较两种强化学习方法的理论框架;
3、本文根据文中的理论发现,提出了改进双Q学习均方误差的简单方法。
直播时间
2021年5月9日(周日)20:00—21:00 线上直播
关注本公众号,对话框回复“SFFAI105”,获取入群二维码
注:直播地址会分享在交流群内
论文推荐
“SFFAI105期来自清华大学的翁文涛推荐的文章主要关注于基础研究的强化学习领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。”
领域经典
01
推荐理由:使用ODE方法研究强化学习收敛性的开创文章。是这一领域的必读文献。
02
推荐理由:该文章分析了带函数近似的TD学习的收敛性。其中的许多建模与证明思想对现在的强化学习理论产生了深远的影响。
03
推荐理由:该文章将控制论中的Lyapunov分析思想巧妙地引入到了强化学习的理论分析中,开启了一大片研究方向。
领域前沿
04
推荐理由:该文章全面的介绍了如何使用随机近似理论分析Q-学习,并提出了改进Q-学习均方误差的方法。
05
推荐理由:该文章介绍了如何从理论上精准地计算线性随机近似方法的均方误差。
06
推荐理由:该文章首次刻画了表格型双Q-学习在有限时间内均方误差的收敛速度。
SFFAI招募!
现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest,通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献,欢迎大家关注SFFAI论坛:https://bbs.sffai.com。SFFAI历史活动
SFFAI 104 目标检测专题
SFFAI 103 局部监督训练专题
SFFAI 102 人体姿态估计专题
SFFAI 101 多模态预训练专题
SFFAI 100 优化算法专题
SFFAI 99 数据扩增专题
SFFAI 98 模型架构设计专题
SFFAI 97 三维点云检测专题
SFFAI 96 目标检测专题
SFFAI 95 因果推理专题
SFFAI 94 人脸生成专题
SFFAI 93 知识图谱专题
SFFAI 92 AI研究启航指南
SFFAI 91 组合泛化专题
SFFAI 90 超分辨率专题
更多SFFAI历史活动
请点击文章底部“阅读原文”查看