刘铁岩：博弈机器学习是什么？

2016-08-05 刘铁岩 微软研究院AI头条

欢迎关注微信公众号：微软研究院

作者：微软亚洲研究院首席研究员刘铁岩

拖至文末查看相关论文

人工智能早就不是一个新词了。早在六十年前，在达特茅斯学院举行的一次会议就正式确立了人工智能（Artificial Intelligence）的名称，以及研究领域和任务。在那之后，人工智能几经沉浮，走过黄金时代，也走过人工智能的寒冬。如今，人工智能又迎来了新的春天，不管是Skype Translator实时的语音翻译技术，超过人类准确度的图像识别技术，像微软小娜、小冰一样琳琅满目的聊天机器人，还是不久前的人机围棋大战，都让我们目睹了人工智能技术的一个又一个突破。身处人工智能时代，一方面，我们对人工智能的未来充满信心，另一方面我们也需要深刻反思现在的人工智能技术是否存在局限性，而未来的人工智能之旅又该去向何方？

从个体智能到社会智能

作为人工智能领域的研究人员，我认为“人工智能即将取代人类”的想法未免太过“乐观”了。事实上，目前人类对人工智能的研究还停留在相当初级的个体智能阶段，即计算机仍只能完成某些单一任务，例如识别出图像中的内容、听懂一段语音、打赢某个电子游戏，或者在某次考试中取得一定成绩……虽然计算机在某些特定领域或某些特定任务上的表现已经逐渐逼近人类，甚至超越人类，但这些任务通常目标单一，且缺乏与其他智能个体（人类）或群体的互动。

从智商到情商，从个体智能到群体智能，是实现人工智能的一道重要门槛。不夸张地讲，如果我们人类只有个体智能，而不知道如何和其他同类打交道，不能通过群体和社会来不断放大我们的智能的话，那么我们将无法像今天一样成为万物之灵。在日常生活中，有很多例子都能充分表明拥有社会智能，并充分利用社会智能的重要性。比如商业领域的互联网广告竞价、股票交易；公共服务领域的城市交通、教育；甚至到各项政策的推行、法律法规的制定等等。在这些例子中，每一次规则与政策的变化，参与其中的人（局中人，player）也会根据策略相应地调整自己的行为。

人类做出每一项决策，其实都是与其他若干拥有同样智能的人类相互博弈的过程。本着趋利避害的本能，人类倾向于在相互博弈的过程中做出最有利于自己的决策。相比之下，人工智能技术的行为原理，大多假设世界是客观存在（或者一成不变、或者具有稳定的统计属性），很少考虑到它要处理的数据可能是另外一个智能体在与自己博弈的过程中产生的。这种简单的假设会使得人工智能的算法只具备个体智能，而缺乏社会智能，从而很难在与聪明的人类交往的过程中真正逼近或者超越人类。

具体来讲，绝大部分人工智能和机器学习方法都是基于这样的一个假设——用于研究的数据（或产生数据的环境）是预先存在的，而且它的统计规律不因学习过程本身而改变。机器学习过程就是对这些数据进行分析和学习，理清其潜在的数据分布，从而找到合适的分类器、回归器，实现对未来事件的预测。这种假设在某些情况下是合理的，例如用于图像识别的大量图像及标签数据，用于语音识别的声音数据，用于机器翻译的语言数据等。这类数据都十分可靠、稳定，不会持续地发生变化，我们也易于用一些概率分布去描述这些数据。

与这类稳定的天然数据不同，在互联网时代我们所说的大数据却并不是一成不变的。例如应用商店的下载排名发生变化时，用户的下载行为也会产生相应的变化；例如搜索引擎给出不同的查询结果页时，用户的点击行为也会因为排序的变化而改变；又例如在社交媒体中，回复、跟帖、转发等大量数据产生都是由人类这一智能体产生的，并且会根据系统的推荐算法、其他用户的互动行为而发生变化。在这些例子中，如果我们依据收集好的历史数据学到一个模型（比如排序模型或推荐模型）并把它应用到实际中，一旦用户的行为随之发生了变化（从而导致数据分布的变化），原来学到的模型将不再最优，其性能可能远远低于我们的预期。但人们的行为变化迅速，即便我们再根据变化之后的数据更新模型，也总会比人们行为的改变慢上一拍，在这个由博弈导致的变化环境中永远与“最优”隔岸相望。

此前，我的团队在与微软在线广告部门合作时，就发现了这样的问题。我们团队首先依据此前累积的数据，帮微软广告部门离线训练了一个效果极佳的机器学习模型用于必应广告搜索中的竞价排名。上线之初模型立刻带来了很大的效益，但随着时间的推移，广告效益却大打折扣。我们很快地找到了这个现象的根源：广告竞价排名过程常常涉及到人（广告主）的因素，广告主会敏锐地发现因为广告竞价算法的改变所带来的自己广告投放成本和收益的变化，从而相应地调整自己的广告投放策略，这是一个动态的变化过程。如果不考虑经济规律和人的动态策略，离线地进行机器学习模型的训练，结果自然会产生很大的偏差。

广告竞价的过程包含广告平台与广告主之间的互动，以及广告主之间的相互博弈，想要对其进行精准建模，仅靠机器学习的知识背景是显然不够的。因此我们团队把博弈论的思想引入机器学习，并于2013年在国际人工智能大会（IJCAI）上首次提出了“博弈机器学习”的概念，将博弈论的思想引入机器学习中，即以博弈论的思想对人的动态策略进行显式建模，利用行为模型和决策模型相结合的方式来解决这一类难题。有了博弈机器学习，我们的算法就可以比人多想一步、甚至多想很多步，提前预料对方会做出什么样的反应，从而在与博弈的时候占得先机。

行为经济学和增强学习

此前，学术界还有多种方法用于解决个体和个体之间的博弈问题，例如行为经济学、增强学习等等，博弈机器学习与这些学科既有联系又有区别。

首先是行为经济学，这是一个经济学概念，研究人员主要是经济学家。我们知道，传统经济学的基本假设是人是完全理性的，但这种假设在很多实际情况下是不合理的。例如，情况一：你扔一枚硬币，正面就给你1000块钱，反面就一分钱也不给你；情况二：直接给你500块钱。这两种情况从理性角度并无区别（期望的收益都是500块钱），但在现实生活中，人可能因为对风险的恐惧，更倾向于选择直接拿500块钱。为了更好地解释人类的这种行为，学者们又提出了有限理性的概念，对传统经济学进行了修正，从而衍生出了行为经济学这个学术分支。行为经济学虽然比传统经济学更加合理，但是其主要研究目的仍然和传统经济学一脉相承——对经济数据进行解释，而在计算机领域我们则是希望通过构建算法模型对将要发生的事情进行计算和预测。

增强学习，大家都知道此前的围棋机器人所采用的主要算法之一叫做增强学习。增强学习主要关注的是智能体如何在环境中通过采取一系列行动（包括探索和利用），获得最大累积回报的自学习策略。增强学习认为数据是环境产生的，并且把环境分成随机型和对手型两种进行考察。虽然在对手型增强学习里，某种程度上考虑了算法和环境的博弈过程，但是它没有对对手的行为进行显式建模，而是简单地使用最大最小准则来得出最坏情况下的学习路径。从这个意义上讲，它对于对手的理解很有限，和人们想象的不同，这种算法不能达到比对手多想一步的效果。以人机围棋大战为例，系统并没有针对博弈对象（李世乭）本身的行为特点（棋路、现场表现、情绪状态等）采取有的放矢的个性化策略，而是利用离线习得的策略函数和价值函数、以及在线的蒙特卡洛树搜索来决定如何出招。

真实的人类行为既非随机、也非完全理性和对立——事实上人类（智能体）的行为往往会有一定规律可循。与前面提到的这些技术不同，博弈机器学习就是利用了这样一个简单的常识。无论是人与人之间的互动，还是人与计算机之间的互动都是可以被建模的，这样我们就能够知道这些人为的数据是如何产生的，从而在学习的过程中对此加以利用，从而在和人类博弈的过程中占得先机。

用博弈机器学习解决现实生活中的问题

除了我们前面提到的，博弈机器学习可以帮助我们优化在线广告的竞价机制，它的思想在很多其他领域都大有用武之地，比如社交媒体、众包管理、交通疏导等等。一旦我们在机器学习的过程中，对人的行为模型做出学习和描述，就可以知道我们的算法机制发生改变之后，人们的行为会怎么去改变，从而知道在很长时间以后当人的行为趋于稳定（均衡态），我们取得的结果是好是坏。

以城市交通为例：

目前城市中的其中一条主干道A堵车情况十分严重，另外一条路线B行驶缓慢，而路线C较为畅通，那么当司机通过导航等渠道得知了这个信息之后会做出怎么样的选择呢？很有可能司机们选择一窝蜂涌入道路C而造成该道路极为拥堵，当然也可能存在大量无论如何也不愿意绕远路而死守在最短路线A上的司机。那么如何实现理想的资源优化配置呢？

如果从博弈机器学习的角度来思考，我们首先会注意到每位司机都有着大量的驾驶数据，例如几点出门，几点回家，习惯走哪条路，备用路线通常是什么、对拥堵的忍耐程度、是否常常根据导航给出的建议改变行车路线、等等。倘若我们将这些数据利用起来，为每个司机构建个性化的行为模型，那么作为交通诱导信息的发布者（这里我们假设是交管局或者导航软件）就可以预测在发布某个交通诱导信息之后对城内交通可能带来的影响，并以此为依据来帮助决策者选择更好的诱导策略，甚至能有针对性的对不同行为偏好的司机提供不同的诱导策略。而对于一些数据量较少，不足以构建个性化行为模型的司机，我们可以做一些聚类模型，或是采用通用模型，加以解决。

2013年，我们提出的“博弈机器学习”理念随后得到了学术界的广泛肯定，很多国际知名的博弈论专家、以及机器学习专家也开始纷纷进入这一领域。现在回想起来，之所以我们的工作会取得这么大的反响，是有原因的。首先，算法博弈论的研究通常是以理论研究为主，对应用的研究相对较少。但在微软亚洲研究院，我们是站在工业界的角度，能够发现实际问题，并找到理论问题与实际问题之间的差距和联系，从而弥补这一方面的空白。正是因为这种独特的角度，近几年我们的研究组提出了大量全新的问题，受到了理论界的广泛欢迎。其次，机器学习的主流研究人员是统计学家和数据科学家，而博弈论研究的主力则是组合数学家和理论计算机科学家。这原本是两个非常不同的世界。但现实问题多是既有组合又有概率，既有数据又需要理论分析，我们研究组的背景恰恰与此吻合——我们同时具有统计背景和博弈论知识，自然而然就担当起了学科交流融合的角色，并为这两个学科都引入了新鲜血液。

当计算机学会博弈

什么才是人工智能？想要解决这个问题，首先需要为“智能”提出一个定义。如果说过去对于个体智能的研究为计算机赋予了智商（IQ）的话，那么社会智能则对应着人工智能的情商（EQ）。三人成众，人类是具有极强社会性的动物，而“社会性”则少不了与其他人类进行互动，这样的互动体现出的就是情商和社会智能。真正想把人类的智能研究清楚，把个体智能扩展到社会智能是一条必经之路；而想要把社会智能解释清楚，既利用了人类的行为数据，又利用了群体之间博弈行为本质的博弈机器学习将会是一个绝佳的工具。

为计算机打造出高情商，博弈机器学习可能是个极佳的解决方案。通过观察周围人的行为，对每个人构建不同的个性化行为模型，计算机就可以三思而后行，选择一条能让周围人最大化满意的策略。假设我们现在要设计一个聊天机器人，那么有了博弈机器学习，我们就可以基于用户的个性化行为模型，计算一下当机器人说出某句话以后其他人会有什么反应，几个人开心，几个人生气，最终是否能达到平衡，平衡的结果是大家都离我而去，还是相谈甚欢。这样的聊天机器人可以超越简单的问答模式，懂得“察言观色”、“看人说话”，体现出非同凡响的情商。我们的研究组目前正在和微软的小冰团队一起，探索这方的技术和应用，如果小冰学会博弈、具有情商，那样我们离真正的人工智能就更近了一步。

经常有年轻的研究员问我，如何在当下火热的人工智能大潮中把握好前进的方向。从我的研究经历出发，其实上面提到的博弈机器学习的研究历程就是一个很好的例子。当一个人拥有非常宽的领域知识、并且怀揣强烈的好奇心，对应用还非常敏感，那么他就可以很容易找到属于自己的独特的研究方向，做出对学术界和产业界都有价值的创新性研究。微软亚洲研究院正是一个可以帮助大家实现这一目标的孵化器，欢迎各路有才华有想法的年轻人加入我们，一起开拓更新的世界，为世界创造更多的价值。

参考论文：

1) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search, IJCAI 2013.

2) Tie-Yan Liu, Wei Chen, and Tao Qin, Mechanism Learning with Mechanism Induced Data, AAAI 2015.

3) Haifang Li, Wei Chen, Fei Tian, Tao Qin, and Tie-Yan Liu, Generalization Analysis for Game-theoretic Machine Learning, AAAI 2015.

4) Fei Tian, Haifang Li, Wei Chen, Tao Qin and Tie-Yan Liu, Agent Behavior Prediction and Its Generalization Analysis, AAAI 2014.

5) Wei Chen, Tie-Yan Liu, and Xinxin Yang, Reinforcement Learning Behaviors in Sponsored Search, Applied Stochastic Models in Business and Industry, 2016.

6) Tao Qin, Wei Chen, and Tie-Yan Liu, Sponsored Search Auctions: Recent Advances and Future Directions, ACM Transactions on Intelligent Systems and Technology, 2014.

7) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, Online Learning for Auction Mechanism in Bandit Setting, Decision Support Systems, 2013

8) Haifeng Xu, Diyi Yang, Bin Gao and Tie-Yan Liu, Predicting Advertiser Bidding Behaviors in Sponsored Search by Rationality Modeling, WWW 2013.

注：本文首发于《环球科学》（Scientific American）微信公众号

你也许还想看：

刘铁岩：在微软大学的三次华丽转型

鱼与熊掌如何兼得：微软科学家解决并行训练困境

微软认知服务：人工智能的技术拼图

微软小冰住进微软研究院微信啦！快去和她聊聊天吧。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！