暑研招募 | 北京大学人工智能研究院多智能体中心

CMAR中心 EconCSLab 2022-12-22

中心简介

Introduction

北京大学人工智能研究院多智能体中心由北京大学邓小铁教授带领，研究主要关注多智能体各个成员（单智能体）之间的关系：控制、通讯、协调、合作、竞争对抗。中心的定位是创新型多智能体研究机构，持续产生原创性理论、算法和系统设计，用以推动和支撑多智能体系统优化、行业进步，同时建设大规模多智能体模拟系统、人类和多智能体混合博弈的开放试验平台，为理论、算法和协议的研究提供现实场景的测试环境。

北京大学人工智能研究院官网：http://www.ai.pku.edu.cn/index.htm

导

师

简

介

邓小铁，北京大学前沿计算研究中心讲席教授，人工智能研究院多智能体中心主任，欧洲科学院外籍院士，ACM/IEEE Fellow。主要科研方向为算法及博弈论、互联网经济、在线算法，及并行计算。作为项目负责人，他曾承担十几项加拿大、香港、英国，及国家基金委科研项目，并担任多种国际期刊编委。发表论文200余篇，被引用数上万次；多次做国际学术会议特邀报告；曾获得IEEE理论计算机学术会议FOCS的最佳论文奖；其成果“关于图与组合优化的若⼲经典问题的研究”获2015年度⾼等学校科学研究优秀成果奖（⾃然科学）二等奖（排名第⼆）。应用方面获得多项美国专利及国家专利。

李阿明，北京大学工学院助理教授，博士生导师。于2011年获浙江工业大学数学学士学位，2017年获北京大学理学博士学位，博士期间在美国东北大学和麻省理工学院联合培养。博士毕业后在瑞士苏黎世联邦理工学院和英国牛津大学从事博士后研究。主要研究兴趣为群体智能，演化博弈论，网络化系统控制与设计。研究论文发表在Science, Nature Communications等期刊。2018年获国际人类前沿科学计划组织交叉学科三年独立研究经费（International HFSP Cross-Disciplinary Fellowship Award）。

李博，北京大学经济学院经济学系助理教授，2018年博士毕业于纽约州立大学石溪分校，硕士和本科分别毕业于北京大学经济学院和数学科学学院。研究方向为宏观经济学，房地产经济学，公共财政和计算经济学。目前的研究主要包括全民基本收入的经济学影响，所得税改消费税的福利分析，劳动力空间分布和房地产市场的宏观影响，AI-Based Model（AIBM）等，相关成果发表于Journal of Economic Dynamics & Control, 财贸经济等期刊。

李文新，北京大学信息科学技术学院教授，北京市教学名师，北京大学计算机实验教学中心（国家级示范中心）主任。她为推动ACM/ICPC竞赛在北京大学、中国乃至亚洲的普及做了大量工作，多次获得ACM/ICPC组织颁发的“区域发展杰出贡献奖”，“领导力奖”等。由她组织、为训练ACM队员而开发的北京大学在线程序评测系统目前已成为国际同类网站中最有影响的几个网站之一（http://poj.org ）。李文新教授是中国计算机学会杰出会员，北京大学人工智能研究院副院长。她是国际上最早从事自动化掌纹识别的研究者之一。她领导的团队研发手指静脉识别技术在教育考试、银行、社保、医保等领域都有广泛的应用。目前她的主要研究兴趣是游戏智能体相关领域，包括游戏和游戏AI的复杂度分析、游戏AI的评测方法、游戏AI的算法、游戏AI的模仿和倾向性聚类、游戏AI对局的自动解说等等。她的团队自主研发的游戏AI对战平台已经成为国内外知名的游戏AI对战平台（http://botzone.org/ ）。

卢宗青，现任北京大学计算机系数字媒体研究所研究员（“博雅青年学者”）、博士生导师，“决策智能”课题组负责人。他于2014年在新加坡南洋理工大学获得计算机博士学位，2014至2017年在美国宾州州立大学从事博士后研究，并于2017年9月加入北京大学。他在东南大学获得学士和硕士学位。主要研究方向为（多智能体）强化学习、移动/边缘智能系统。担任NeurIPS、ICLR、IJCAI、AAMAS、INFOCOM等会议TPC，Nature Machine Intelligence等审稿人。

彭一杰，北京大学光华管理学院助理教授，博士生导师。本科毕业于武汉大学数学与统计学院，从复旦大学管理学院获博士学位。在美国马里兰大学和乔治梅森大学分别从事过博士后与助理教授工作。主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持多项科研基金项目，包括国家优秀青年科学基金项目，国家青年科学基金项目，北京市青年骨干个人项目等。在《Operations Research》，《INFORMS Journal on Computing》和《IEEE Transactions on Automatic Control》等高质量期刊上发表学术论文20余篇。曾获得2019年INFORMS Outstanding Simulation Publication Award，2020年Winter Simulation Conference Best Theory Paper Finalists,2017年IEEE Robotics and Automatic Society Best Paper Award Finalists。目前担任Asia-Pacific Journal of Operational Research期刊与IEEE Control Systems Society 会议编委，中国运筹学会金融工程与金融风险管理分会常务理事，中国仿真协会人工社会专委会委员。

王龙，北京大学系统与控制研究中心主任，北京人工智能学会副理事长，北京大学工学院智能控制实验室主任，中国系统仿真学会智能物联系统委员会主任。1992年于北京大学获得博士学位。1993年在加拿大多伦多大学作博士后，1995-1997年获德国洪堡基金资助在德国宇航中心进行合作研究。现为北京大学教授、博士生导师、长江学者。获得国家教委霍英东奖（研究类一等奖）、国家自然科学奖（1999, 2017）、国家教委科技进步奖（一等奖）、教育部自然科学奖（一等奖）、第一届Ho Outstanding Paper Award、第一届关肇直控制理论奖等多项奖励。

谢广明，现任北京大学工学院教授，博士生导师，毕业于清华大学。主持包括重点项目在内的多项国家自然科学基金项目。获得国家自然科学奖二等奖、教育部自然科学奖一等奖等多项奖励。担任中国仿真学会机器人系统专业委员会主任，是国际水中机器人大赛的创立者，是期刊《Mathematical Problems In Engineering》主编，包括《Scientific Reports》等多个期刊编委。

研

究

课

题

复杂网络上的群体博弈

从可观察到的鸟群、鱼群，到不易察觉的微生物群体，再到传感器、群体机器人协作系统等，多类自然与人造群体系统存在于我们周围。这些由多个简单个体组成的群体系统，展现了超乎想象的诸多类型的智能行为。近年来，随着交叉学科的迅速发展，群体智能相关研究得到了不同领域科学家的集中关注与深入探索。然而，随着高新技术的飞速发展和我们对高精度海量个体交互信息获取能力的不断提升，群体系统的结构分析、群体交互与智能决策这一科学问题面临重要挑战。本暑期研究课题重点关注群体系统中个体交互博弈、策略演化、个体智能决策等方面的问题，探索复杂网络上群体交互博弈。课题组通过向学生介绍演化博弈论、网络科学等基础知识为出发点，进一步通过辅助阅读经典文献、激发提出科研问题、探索科研问题等方式，为学生提供探索群体智能相关问题的平台，优秀者可在暑研结束后继续参与到课题组的研究之中，共同发表学术发现。

指导老师：李阿明

时序网络能控性

近年来，网络科学的迅速发展为我们理解、分析与控制多机器人协作、智能电网、智能交通等复杂系统提供了有效的切入点。虽然静态网络相关探索已取得突破性进展，但是实际系统中的网络往往是随着时间演化的时序网络，即网络中的节点与连边不总是处于被激活的交互状态。换言之，网络本身演化的时间尺度并不总是长于其上系统动力学相对应的时间尺度。本课题旨在分析时序网络在演化的同时，其对应系统能控性的变化，以及如何设计相应的外部控制输入，使得系统状态沿着期望方向演化。课题组将带领学生了解网络控制这一前沿领域的相关基础知识，研读领域经典文献，提出并探究具有创新性的科学问题，亲身体会时序网络控制对于各类重大工程技术系统设计的重要意义。优秀者可在暑研结束后继续参与到课题组的研究之中，共同发表学术发现。

指导老师：李阿明

AI算法优化高维经济学模型

职位描述：

·探索如何使用人工智能（AI）分析复杂的高维动态经济模型

·设计如何在决策函数依赖于数百个状态变量的异质性主体模型中进行模型简化

·利用基准模型来设计和评估各种经济政策，例如财政和货币政策

·将建立的AI解决方案框架进行自动化，使其可以广泛应用于各种经济模型

要求：

·熟悉动态规划

·熟悉深度学习和强化学习算法

·熟练使用Python / Matlab / Fortran 其中之一

·对经济学话题感兴趣，如资产配置、住房市场、财·政和货币政策等等

指导老师：李博

AI-based的经济学模型

职位描述：

·建立AI-based的经济学模型

·设计求解高维度系统的算法

·利用模型进行政策分析，并撰写学术论文或政策研究报告

要求：

·熟悉Agent-based经济学模型

·对经济学和计算经济学有一定了解

·熟悉并掌握动态规划和并行计算

·熟练使用Python/Matlab/C++ 其中之一

加分项：

·熟悉高级宏观经济学知识或熟练使用Fortran语言

指导老师：李博

多智能体游戏天梯评测算法理论与应用

背景：双人游戏天梯评测算法已有比较成熟的结果，多智能体游戏天梯基本是将游戏转化为双人游戏进行评测。

目标：在不将游戏转化为双人游戏的前提下，探究多智能体游戏天梯评测算法理论及应用性能，与常见赛制进行比较。

子目标：

（1）多智能体游戏中的合作与对抗能力评测

（2）对多人扑克游戏/麻将用于评测的初始手牌进行筛选

（3）天梯排名在一段时间内的均值的置信区间，例：排名均值为105，浮动在[100,110]，显示的实时天梯排名，也显示一段时间的均值及浮动区间

说明：天梯并不要求排名精确性，只是显示实力排名的大致范围。

指导老师：李文新

游戏AI共性及个性探究

题注：可以限定为扑克游戏，也可以不限定

背景：游戏规则可以因为很小的变动就使得游戏性质发生巨大变化。为了适应并解决这个游戏问题，游戏AI需要有什么样的变化，与之前的AI有什么样的共性，因为游戏变化又产生了什么个性。

思路1：对于坦克大战系列，筛选同一个用户在这几个游戏中的AI，默认用户只对AI进行了很小的改动，通过模仿探究AI共性及个性。

思路2：开发不同规则的扑克游戏（如斗地主，可以继续开发换三张、跑得快等玩法），自行编写对应AI，通过模仿探究AI共性及个性，缺点是内容较多，且没有最大利用平台已有资源。

指导老师：李文新

平台游戏AI代码重复探究

题注：相似概念的是代码克隆，一般用于一个项目里重复的代码段，这里用于描述不同AI具有相似代码结构

背景：平台研究者在调研平台AI算法时，往往需要阅读AI代码并筛选出典型的几种使用不同算法的AI，而不是仅仅换了个变量名、函数名，调整了几个参数而算法框架没有改动。通过检测平台已有的AI代码重复情况，能够：

（1）管理员侧：查重

（2）管理员侧：筛选统计AI算法

（3）使用者侧：推荐对战

（4）使用者侧：筛选用于评测新增AI的Baseline算法

指导老师：李文新

多智能体模拟平台建设（项目导向）

描述：基于物理模型，构建类似MuJoCo的多智能体模拟环境，作为强化学习的Benchmark

要求：擅长Python, C++编程

指导老师：李文新

多任务多智能体强化学习

内容：针对多个任务场景，采用多智能体强化学习训练智能体，实现自动分组协作完成任务

指导老师：卢宗青

基础科研课题（论文导向）：基于风险度量的强化学习算法理论与应用

内容：经典的强化学习问题的目标是在动态环境下给出最优策略极大化累加期望回报。期望反映的是随机变量的平均值，它无法刻画随机变量的尾部分布，从而忽视了策略在极端环境下的表现。导致2008年全球金融危机的重要原因之一是对极端市场环境下的风险管理能力不足。本课题尝试将人的行为特征融入智能系统的训练中，提出以扭曲风险度量为目标函数的强化学习训练方法。扭曲风险度量可以放大极端事件的客观概率，从而使得最优策略在极端环境下表现的稳健性得到大幅提升。

指导老师：彭一杰

应用科研课题（项目导向）：重大项目“智能博弈环境数智孪生关键技术”中子课题“博弈对抗条件下复杂影响因素探索性训练学习技术”

内容：研究数智孪生环境下针对不同层级、不同视野下的智能体动态融入技术，并根据不对称态势信息的融合、认知、理解，实现大规模智能体的演化。设计面向博弈对抗的探索性训练学习方法实现动态仿真资源分配策略。研究高效的仿真支撑环境对复杂博弈进行求解。通过使用并行仿真技术，减少相同问题的计算时间，或在相同的时间内求解更加复杂的问题。

本课题开展大规模博弈智能体的动态融入研究，实现大规模博弈智能体的融入和适配，开展博弈动态环境演化加速、探索性模型学习方法和大规模分布式并行模型训练方法研究，并在此基础上研究人机混合博弈模式和博弈效能的验证评估。

指导老师：彭一杰

社会网络上的信息传播和演化动力学

内容：网络作为研究系统交互的数学模型在近20年来被广泛地研究和应用，其中关于社会网络的探索受到许多不同领域学者的关注。随着大数据时代的到来，真实的社会网络数据更容易获得，关于其上的动力学分析成为当今的研究热点。本课题将利用随机过程和演化博弈的相关知识研究社会网络上的信息传播和演化动力学，以此解释一些存在的社会现象。

指导老师：王龙

多智能体仿真平台库开发

题目介绍：仿真平台是机器人集群系统研究的有效工具，通过融合gym, MuJoCo, ROS, Vrep等仿真平台，开发机器人仿真平台库，便于多智能体仿真平台研究。

拟招人数：1~2人

要求：熟悉Python, C#, C++ 编程。

指导老师：谢广明

多智能体编队研究

题目介绍：编队任务是多智能体系统中具有挑战的协同任务，在已有的二维环形编队的研究工作的基础上，通过强化学习实现三维环形编队以及跟随编队任务。

拟招人数：1人

要求：1. 熟悉Python 编程; 2. 熟悉 PyTorch 或 TensorFlow; 3. 熟悉强化学习方法

指导老师：谢广明

多智能体强化学习协同方法研究

题目介绍：在已有的多智能体强化学习协同算法的基础上，进一步展开算法研究，并在星际任务中达到SOTA性能。

拟招人数：1人

要求：1. 熟悉Python 编程; 2. 熟悉 PyTorch 或 TensorFlow; 3. 熟悉强化学习方法

指导老师：谢广明

基于通信的多智能体强化学习方法研究

题目介绍：结合通信原理构造多智能体强化学习方法，并在方法的基础上，解决序列社会困境难题。

拟招人数：1人

要求：1. 熟悉Python 编程; 2. 熟悉 PyTorch 或 TensorFlow; 3. 熟悉强化学习方法；4. 有博弈论知识基础

指导老师：谢广明

招

生

信

息

简历收取时间：2021年6月2日-6月20日

结果公布时间：2021年6月28日前

项目开展时间：2021年7月1日-8月31日

请将简历发送至：cmar@pku.edu.cn

邮件标题：多智能体中心暑期科研——导师名称

文字编辑：段志健

图文：褚顾佳

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

暑研招募 | 北京大学人工智能研究院多智能体中心

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住

生成图片，分享到微信朋友圈

暑研招募 | 北京大学人工智能研究院多智能体中心

您可能也对以下帖子感兴趣

你手放哪呢，出生啊