工劳快讯:汕尾美团骑手罢工取得阶段性胜利

记者调查泉州欣佳酒店倒塌曝惊人“案中案”:曾是卖淫场所,50名老板、官员卷入其中

退出中国市场的著名外企名单

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

【少儿禁】马建《亮出你的舌苔或空空荡荡》

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

最新录用 | 非平稳环境下的自适应深度强化学习

SCIS 中国科学信息科学 2022-10-13


Jin ZHU, Yutong WEI, Yu KANG, Xiaofeng JIANG, Geir E. DULLERUD. Adaptive deep reinforcement learning for non-stationary environments. Sci China Inf Sci, DOI: 10.1007/s11432-021-3347-8


深度强化学习(DRL)目前用于解决马尔可夫决策过程问题,通常假设环境是平稳的。

本文提出了一种适用于非平稳环境的自适应DRL方法。首先,引入模型不确定性,提出了自调整的深度Q学习算法,该算法能够随着环境的变化自动实现勘探(exploration)和开发(exploitation)的再平衡。

其次,基于大偏差原理(LDP),提出了一个判断深度Q网络参数设置是否合适和最小化误判概率的可行准则。

通过一个先进的持续威胁(APT)攻击模拟游戏说明了所提出的自适应DRL方法的有效性。

实验结果表明,与非平稳和平稳环境下的经典深度Q学习算法相比,自适应DRL算法的性能分别提高了14.28%和30.56%。


最新录用文章未经编辑加工,可能会与最终出版文章有微小差异。本文内容均来自于作者提交最终版稿件英文原文,中文文字为编辑翻译加工,请以作者英文原文为准。点击下方阅读原文按钮可获取文章预发表版本。



《中国科学:信息科学》| SCIENCE CHINA Information Sciences

及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、微电子与固体电子学等领域基础与应用研究方面的原创性成果.

英文版投稿: https://mc03.manuscriptcentral.com/scis

中文版投稿:  https://www.scicloudcenter.com/SSI/login/index

快速访问: http://scis.scichina.com/ 

文章有问题?点此查看未经处理的缓存