【视频回放】2022 CCF青年精英大会
会议名称:
2022 CCF青年精英大会
主办单位:
中国计算机学会
回放通道
蔻享学术 |
本次技术论坛由山西大学计算机与信息技术学院的钱宇华教授和魏巍教授共同担任论坛执行主席;特邀南京大学人工智能学院的俞扬教授,南洋理工大学的安波讲席副教授,华为诺亚方舟决策推理实验室主任、天津大学副教授郝建业老师,上海交通大学的张伟楠副教授,北京大学计算机学院的卢宗青助理教授以及来自OPPO数智工程事业部的机器学习高级专家陈令奎等六位嘉宾线上进行深度分享与探讨。
强化学习领域大咖齐聚一堂
OPPO专家观点频出内容精彩纷呈
论坛首先由俞扬教授带来以《数据驱动的强化学习及其工业应用》为主题的报告,通过介绍强化学习的发展历程,引出强化学习在游戏环境中表现出超越人类的决策控制能力的原因;为解决强化学习在实际应用下操作难、成本高等问题,提出了一系列解决方案;并介绍了数据驱动强化学习的理论与技术进展,以及在工业中的应用案例,最后俞扬教授希望强化学习技术能够大规模地工程落地,提升工业生产力。
近年来人工智能取得了一些重要突破,如德扑系统Libratus和安全博弈论,这些突破主要归功于大规模博弈求解技术在最近十年来的进展。然而博弈求解技术无法解决一些复杂的大规模博弈问题。安波讲席副教授针对这一问题,带来了《强化学习求解大规模复杂博弈》的主题分享,尝试将算法优化强化学习技术用来求解复杂博弈的应用,并提出解决问题的实际案例,例如城市警察资源的调度、多人德扑系统等方向。
紧接着,来自天津大学的郝建业副教授带来《自监督强化学习-通往强化学习决策大模型之路》的主题分享,介绍了如何利用自监督表征技术,从状态、策略、动作、环境/任务等不同视角提高强化学习的表征能力,最终提高学习效率和跨场景/任务的可扩展性,最后展望自监督强化学习有望成为构建通用智能“决策大模型”重要技术的演进之路。
随后,北京大学计算机学院的卢宗青助理教授带来“Advances in Multi-Agent Reinforcement Learning”的主题分享,介绍了多智能体强化学习基础算法(值函数和策略梯度)的最新进展及应用,主要包括集中训练去中心化执行学习算法、去中心化学习算法、以及多智能体强化学习在现实场景中的应用。
尽管深度强化学习已经成为人工智能研究界最受欢迎的方向之一,但依然存在样本效率低、和真实环境交互有风险等问题,阻碍着该技术广泛落地到现实应用的进程。对于此类问题,上海交通大学的张伟楠副教授通过《大规模离线强化学习》,对离线强化学习的问题定义、核心科学问题以及两类离线模型(Model-free Methods、Model-based Methods)进行了介绍,并列举了大规模离线强化学习的实际应用案例,从而进一步推进强化学习的落地,并对大规模离线强化学习进行了展望。
《强化学习在OPPO多场景落地的挑战》
OPPO作为全球领先智能设备的创新者,始终以用户为中心进行着强化学习领域的场景布局。近年来,OPPO不断借助强化学习技术在多场景落地方面进行尝试,OPPO数智工程事业部的机器学习高级专家陈令奎在《强化学习OPPO多场景落地的挑战》报告中,分享了强化学习在OPPO的手机应用推荐、浏览器、小布智能助手等场景落地的技术挑战和解决方案,并以OPPO业务接入全周期(业务预接入、效果预评估、业务接入、效果调优、业务全量)为例,说明强化学习平台在实际业务合作中如何发挥作用,最后分别从多智能体和模拟环境两个方向提出现存痛点及未来的探索方向。
强化学习在多领域取得重大进展
未来进化之路更加清晰
“强化”和“强化学习”的概念和术语于1954年由MIT教授Minsky首次提出。上世纪八十年代末,Watkins提出的Q学习进一步拓展了强化学习的应用和完备了强化学习。此后一段时间,强化学习被监督学习(supervised learning)的光芒所遮掩,便因此沉寂了一段时间。直到2013年,DeepMind在Nature上发表了利用强化学习技术玩Atari游戏的DQN,标志着深度强化学习时代的来临。
现如今,强化学习研究取得了巨大成就,受到了学术界和产业界的广泛关注,在游戏、金融、智能城市、推荐系统、无人驾驶等众多领域取得了令人瞩目的研究进展和成果。未来,将会有越来越多的专业人才专注到强化学习领域,大规模强化学习发展中也必将存在更多突破机遇和路径,其未来进化之路将会更加清晰。
剖析大规模强化学习未来之路
顺应趋势必将大有可为
在主题报告结束后,立刻进入万众期待的思辨Panel环节,各位嘉宾与专家们再次对“大规模强化学习的未来之路”的主题延展问题进行了深度的互动探讨。
《嘉宾及主持人合影》
参会的研究者通过探讨总结出大规模强化学习面临缺少丰富的高质量数据、拥有尝试过的决策数量较少、智能体更大任务更复杂、数据多样性受限、应用到现实场景挑战大等挑战;并对大规模多智能体落地应用较少,真正面临的难点及如何做进行分析,以及提出强化学习是否存在可学习理论下的界等观点进行分享。OPPO数智工程事业部的机器学习高级专家陈令奎代表OPPO对强化学习的行业专家们未来合作的机会表示期待,并展望强化学习技术能更加落地于工业应用当中。
推荐阅读
CCF合肥为新研究生导航 >>
第一届CCF量子计算大会 >>
编辑:王亚琨
蔻享学术 平台介绍
蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。
识别二维码,
下载 蔻享APP 查看最新资源数据。
点击阅读原文,查看更多精彩视频!