2017年12月7日,曾研发出在围棋界打败天下无敌手的AlphaGo团队推出了更为强大的AlphaZero,它从零开始训练,仅8小时就击败了与李世石对战的AlphaGo v18!
然而AlphaZero带来的冲击远不止如此!在AlphaZero的封神之战上,面对当时世上最强的国际象棋引擎Stockfish,AlphaZero没金铩羽以28胜72平的百局不败战绩,将冠军Stockfish斩于马下。这样的结果不免令人震惊,此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。论速度,Stockfish以每秒6千万个位置的计算能力也足以完爆每秒6万的AlphaZero。可现实情况却是——Stockfish永远不可能战胜AlphaZero。AlphaZero拥有一种更加聪明的思维模式,这使得它更明智,知道该思考什么,该忽略什么。这种更聪明的思维就来源于强化学习。以联结主义的神经网络为代表的深度学习毫无疑问是21 世纪初人工智能领域的最重要、最具实用意义的技术突破之一,它为基础研究走向产业应用做出了巨大贡献,也相应地赢得了巨大的声誉和关注。然而,如火如荼的产业应用掩盖不住冷静的研究者们对人工智能未来走向的担忧,越来越多的研究者把深度学习的改良性研究视为工业界的应用技巧,而开始关注与联结主义的经典深度学习不同的人工智能范式探索。强化学习与传统的预先收集或构造好数据及标签的有监督学习有着本质的区别,它强调在与环境的交互中获取反映真实目标达成度的反馈信号,强调模型的试错学习和序列决策行为的动态和长期效应。这使得强化学习在人工智能领域的一些难题的研究中具有无可替代的重要地位。而这些宝贵的思想,也为联结主义的深度学习在小数据、动态环境、自主学习等方面的进一步发展提供了重要的基础。在AlphaGo 战胜李世石之后,AlphaZero 以其完全凭借自我学习超越人类在各种棋类游戏中数千年经验的能力再次刷新了人类对人工智能的认识,也使得强化学习与深度学习的结合受到了学术界和产业界的前所未有的关注。《强化学习(第2版)》 Reinforcement Learning: An Introduction ( Second Edition ) 正是在这样的背景下出版的。
本书的两位作者Richard S. Sutton和Andrew G. Barto都是强化学习领域的先驱,他们早在1979 年末便开始关注如今被称为强化学习的领域并从事相关研究,于1998 年出版了本书的第1版,引起业界轰动。
(Richard S. Sutton和Andrew G. Barto)该书作为强化学习领域的开创性、奠基性著作,对强化学习思想进行了深度解剖,为强化学习核心概念与算法提供了清晰简明的解释,20年来引领了无数爱好者走进强化学习,并培育出了好几代强化学习领域的优秀研究人员。
20年后的今天,在机器学习(包括强化学习)前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。《强化学习(第2版)》应运而生,第2版中加入了很多新的内容,包括对深度强化学习应用(如AlphaGo)的介绍,以及更新的思想和理解等,使得本书既保持对核心理论的清晰简明的讲解,又包含了与时俱进的最新应用成果和作者的最新思想。在国内本书延续了国际上炸裂的口碑,国内学习者们在豆瓣读书上实打实的给出了9.8的高分!
这本书是迄今为止最系统最完整地描述强化学习领域的教材,在第2版中除了包含机器学习、神经网络等人工智能诸多方面的内容外,还涉及心理学与神经科学等内容,新概念、新词汇繁多,对于大部分国内读者来说存在着极高的阅读门槛。值得庆幸的是,上海交通大学俞凯教授率领团队已经将这部行业圣经的思想和内容以符合中国人理解习惯的方式进行了高质量地翻译!
俞凯教授身为上海交通大学计算科学与工程系教授、思必驰公司创始人及首席科学家,长期从事交互式人工智能,尤其是智能语音及自然语言处理的研究和产业化工作,有着非常丰富的强化学习和深度学习实践经验。这也保证中文版忠于原著且行文流畅。本书从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
(扫码了解本书详情)
如今这本《强化学习(第2版)》已经上市近3个月了!在这三个月的时间里,经过了上万名读者的审视,他们对这本中文版留下了这样的评价:
正如香港科技大学杨强教授说的那样:“毫不夸张地说,《强化学习(第2版)》中文版的面世为机器学习领域的中国学者和学生架起了一座通往强化学习经典知识宝库的桥梁。”可见,这座“桥梁”不仅已落成而且效果颇丰!
此外,Yoshua Bengio、Demis Hassabis、周志华、邓力等众多国内外行业大咖同样力荐:DeepMind研究科学家,阿尔伯塔大学计算机科学教授
DeepMind联合创始人兼首席执行官
美国城堡基金首席人工智能官 (Chief AI Offiffifficer) ,美国微软公司原首席人工智能科学家
AlphaGo首席工程师(Lead Programmer of AlphaGo)
华盛顿大学计算机科学教授,《终极算法》作者
蚂蚁金服副总裁,首席 AI 科学家
卡内基梅隆大学计算机科学教授
前海微众银行首席人工智能官,香港科技大学讲座教授,国际人工智能联合会理事会主席(2017―2019)
蒙特利尔大学计算机科学与运筹学教授
中国科学院院士,清华大学人工智能研究院院长
南京大学计算机系主任/人工智能学院院长,欧洲科学院外籍院士
得知本书要在中国上市,两位原著作者还特意为中国读者写了寄言。
We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.
——Richard Sutton and Andrew Barto
我们非常高兴俞凯教授将我们的教材翻译成中文,希望这本教材能够帮助更多的中国学生自学强化学习,并且促进更多的新思想在中国产生,为世界范围的强化学习研究的多样性和生机活力做出贡献。
——理查德·萨顿、安德鲁·巴图
强化学习是人工智能领域的一颗明珠,也会是后深度学习时代技术发展的重要火种之一。正如俞凯教授在译者序里所讲那样:
“希望本书的中文译本能够让他们的思想为更多的中国研究者所了解,并作为一个种子,在中国孕育并产生人工智能前沿研究的新思想。”