查看原文
其他

KDD 2019教程 |《深度强化学习在交通领域的应用》,带你知晓DRL在交通领域最新进展 (附PPT下载)

张露露 滴滴科技合作 2021-09-05

点击上方“蓝色字体”,选择“置顶公众号”

精彩内容,即刻送达


导语

美国当地时间8月4日至8日,国际数据挖掘顶会KDD在阿拉斯加安克雷奇市举行。在KDD 2019会议的第一天,滴滴做了深度强化学习的教程,主题为“Deep Reinforcement Learning with Applications in Transportation”,全面讲述深度强化学习的理论、算法以及在交通领域的实践应用,并阐述当前面临的机遇与挑战。


(滴滴深度强化学习教程吸引现场众多学者和业界研究人员参加)



深度强化学习在交通领域的应用



网址:https://outreach.didichuxing.com/internationalconference/kdd2019/tutorial/(教程PDF可点击【阅读原文】获取)


报告简介


交通领域尤其是移动共享出行领域,有许多具有挑战性的动态决策问题。派单、路径规划、信号控制等问题都有一个共同的特点,即在关注特定范围内的某些累积目标时,要做出一系列决策。强化学习是机器学习的范式之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。因此,它是一类用于解决顺序决策问题的优化方法。


由于深度学习研究和计算能力的快速发展,深度神经网络与强化学习的集成在解决复杂的大规模学习问题上取得了爆炸性的进展,近年来引起了人们的极大关注。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的信息进行控制,是一种更接近人类思维方式的人工智能方法。


本教程针对强化学习的理论和算法,循序渐进地讲解了马尔可夫决策过程 (Markov Decision Process, MDP) 基础、动态规划方法、基于函数逼近的价值类方法、进阶的策略梯度类方法、多智能体强化学习和迁移学习等课题;同时,以众多案例入手,具体介绍了在智能交通场景下派单调度、路径规划、导航、交通灯控制和智能驾驶等方向的应用,机遇和挑战;并详细展示了滴滴在该领域的最新探索与实践。


主讲人

叶杰平滴滴AI Labs负责人、滴滴副总裁,密西根大学教授


(叶杰平教授介绍城市交通演变史及机器学习范式)


唐剑滴滴AI Labs智能控制首席科学家,雪城大学教授


(唐剑教授讲解基于函数逼近的价值类方法)


秦志伟(Tony)滴滴AI Labs强化学习团队负责人


(Tony详解深度强化学习基础理论)


内容大纲



此次教程中,滴滴研究团队深入讲解了滴滴在强化学习领域的研究工作,尤其是在智能派单调度中的应用。


由于派单的决定会影响未来的司机分布,且派单既要考虑司机收入还要保障用户体验,综合考虑这两个需求,滴滴介绍了两种方法来解决派单问题,一种方法是时间差学习(TD-learning),另一种是深度强化学习。TD-learning在派单中的应用中分为两个部分,线上的计划过程和离线的学习过程,这两个过程结合了强化学习和组合优化。考虑到每一次匹配对未来是有影响的,这样可以能基于全天供需、出行行为预测,来考虑一天之内司机整体的效率。相关模型实践论文已被KDD 2018收录。



而深度强化学习在派单应用中具有诸多优点,不仅对于实时供需变化具有良好的适应性;而且适合学习不同城市和时间段的数据,从而迁移模型知识;此外,由于输入 (上车地点、时间、目的地、内容) 权重共享,具有泛化能力强的特点。由此滴滴研究团队提出了带有行动搜索的DQN (Deep Q-network) 模型,对DQN做了多项技术改进,使之能在离线off-policy数据上能成功训练。同时也提出了一种新的双路径网络架构,使迁移学习得以和强化学习相结合,描述该项工作的论文也已发表在IEEE ICDM 2018会议。



最新的KDD 2019研究成果中,滴滴提出一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效价值估计。具体内容届时可关注后续KDD 2019论文解读。



滴滴现场还进一步讲解了如何运用深度强化学习联合优化派单和车辆调度。通过有效利用了深度学习中的嵌入层和注意力机制,可以把派单和调度进一步整合,打开更大的优化空间。这一模型于去年12月首次在NeurIPS Deep RL Workshop发表。



此外,通过使用多智能体强化学习 (MARL),将司机视为系统内的智能体,订单选择视为智能体的动作,以中央训练,分布式执行的方法也是解决派单问题的一个全新视角。采用平均场估计 (Mean Field Approximation),通过智能体和环境其他参与者之间的相互作用来获取动态的供需变化,实现派单中智能体之间的合作。可以显著降低需求与供给间的差距,间接缓解了高峰时期的交通拥堵现象。这一算法实践入选了WWW 2019。



(教程PDF可点击【阅读原文】获取)


相关阅读预告 | Meet DiDi @KDD 2019KDD 2019 | 从上千篇投稿脱颖而出,这三篇论文你不可错过!
编辑 | 洛羽


视频 小程序 ,轻点两下取消赞 在看 ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存