查看原文
其他

查宏远教授团队论文被运筹与管理科学领域顶级期刊Operations Research接收


近日,我院查宏远教授团队的论文“Reliable Off-policy Evaluation for Reinforcement Learning”被运筹与管理科学领域顶级期刊 Operations Research 接收。

该文章考虑了强化学习中的非策略评估(off-policy evaluation)问题:它希望通过一个以往的策略产生的历史轨迹,来估计另一个策略在强化学习环境中的风险。作者借助分布鲁棒优化的想法,为该策略的风险在各种情形下提供了非渐进性以及渐进性置信区间。

本期推文,我们邀请到论文第一作者,目前正在佐治亚理工学院攻读博士学位的港中大(深圳)2020届本科毕业生王捷,分享他在本科生期间的科研心得,并为我们介绍论文。


Operations Research 是运筹与管理科学领域极具影响力的 TOP 期刊,在此期刊上发表文章难度极大。作为论文第一作者,能否简单分享您的科研心得?


王捷

佐治亚理工学院博士生

香港中文大学(深圳)2020届毕业生

积累科研兴趣——从我自己的经历出发,起初我也没有很好的兴趣做科研,但是在试着做项目的过程中不断地遇到问题、投入时间、以至于到后来解决问题。在这一过程中发现自己在数学和编程这两个维度都在不断地进步。这样的正向反馈道路最终让我积累了科研兴趣,下定决心走科研道路。

增强科研能力——在正常完成本科的课程修读以外,还建议额外修读我们学校提供的 Graduate Level Courses,这些课程一方面会传授很多科研所必须具备的理工类知识,另一方面大多会有一个期末课题。期末课题会让大家用在这门课上学到的知识做一个关于科研上的开放式问题,最后形成课题报告和课堂汇报,很好地锻炼了我的科研能力。与此同时有兴趣想做科研的同学,在具备了基本的理工背景之后,建议尽早进入实验室丰富科研经验。


论文链接:https://pubsonline.informs.org/doi/abs/10.1287/opre.2022.2382

https://arxiv.org/abs/2011.04102


01

研究背景

在像无人驾驶、自动控制、股票投资这样的高风险高成本情形下,如何在部署新策略之前提前评估它在强化学习环境中的风险是一个很重要的问题。这一任务的完成依赖于旧策略在环境中产生的历史轨迹。以往的文献中大多只提供了关于新策略的风险的点估计,而本文为其表现提供了置信区间估计,其中置信区间上界可以为强化学习中的探索(exploration)-利用(exploitation)提供指导,下界可以为设计鲁棒型策略提供保障。


02

研究方法

借助于统计中的重要性采样(importance sampling)的想法,关于新策略 π 的风险可以通过旧策略 πb 的平稳分布来估计。在实际问题中由于收集数据的有限性所以无法精准地估计关于旧策略的平稳分布,因此我们通过分布鲁棒优化的想法提供关于风险的上下界估计:通过已有数据首先找到该分布的一个粗略的估计,随后在其周围用最优传输距离构建概率分布的集合,最后在这一集合里面找到最坏的和最好的分布估计使得风险最大/最小化。同时我们为求解这样的优化问题设计了鲁棒价值函数迭代(Robust Value Iteration)算法。

随后我们研究了在两种不同的强化学习情形下该如何用统计的方法调整关于构建概率分布集合的大小。

首先考虑旧策略和新策略都是在同一马尔科夫环境下评估风险的,在这一情况下最优传输距离的半径应该随着数据量的增大而越来越小:

而当新策略的环境发生变化的时候,我们为分布集合的半径设置为常数情形下的风险估计提供了理论保障:

最后,我们为更复杂的离线强化学习问题设计了一套鲁棒算法,并且在各种情形下从数值上检验了提出的框架的优越性。


03

研究结论

本文提出了一种基于分布鲁棒优化的算法来为非策略评估问题提供置信区间,同时该方法还可以被用于解决离线强化学习问题。该算法有助于提升强化学习模型的稳健性。


04

作者简介

我院机器学习与应用中心主任、香港中文大学(深圳)校长学勤讲座教授、数据科学学院执行院长查宏远教授为论文第三作者。

查宏远教授现为香港中文大学(深圳)校长学勤讲座教授、数据科学学院执行院长、深圳市人工智能与机器人研究院(AIRS)机器学习与应用中心主任。查宏远教授1984年毕业于复旦大学数学系,并于1993年获得斯坦福大学科学计算专业博士学位。查教授于2006年至2020年任职于佐治亚理工学院计算机学院,1992年至2006年任职于宾州州立大学计算机科学与工程系。他目前的研究方向是机器学习及应用。

论文第一作者为香港中文大学(深圳)2020届毕业生王捷。

王捷于2020年获香港中文大学(深圳)理工学院数学与应用数学理学学士学位(乙等一级),目前在佐治亚理工学院攻读工业工程系博士。他的研究兴趣包括统计学习、优化理论与算法,以及网络信息论等方向。

论文通讯作者为德克萨斯大学奥斯汀分校麦库姆斯商学院高睿教授。

高睿教授现为德克萨斯大学奥斯汀分校麦库姆斯商学院助理教授。高睿教授于2013年获西安交通大学数学与应用数学理学学士学位,并于2018年获佐治亚理工学院运筹学博士学位。他的研究兴趣包括数据驱动下的决策以及指示性分析。


05

期刊介绍

Operations Research 成立于1952年,前身为美国运筹学学会期刊(Journal of the Operations Research Society of America),1955年获得现名。它是美国运筹与管理学会(Institute for Operations Research and the Management Sciences )的旗舰期刊。


* 相关图文内容由论文作者提供


相关阅读

AIRS in the AIR | “机器学习与优化方法”系列讲座


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存