德扑「人机大战」始末:一场人类与 AI 的共谋
刚刚发生在中国的德扑“人机大战”,更像是资本驱动下,人类与AI的一次共谋。AI有绝对的信心获胜,而人类也在大赛中各取所需。
文 | 王海璐
为期5天的德扑“人机大战”在海南36度的高温中落下帷幕。由常春藤资本合伙人杜悦担任队长的人类战队,最终输给了AI 79万元筹码,以及200万大赛奖金。
对于人类输给AI的结局,似乎无论是对主办方、选手还是观众而言,都毫无悬念。赛前媒体发布会上,杜悦坦然承认,中国选手的胜率预期不会超过10%。他们的目标从来就不是赢过AI,而是与此前被德扑AI击败的世界顶级选手相比,不要相差太多就好。
不同于围棋“人机大战”,人类与人工智能的战争带着捍卫种族尊严的英雄主义色彩,刚刚发生在中国的德扑“人机大战”,更像是资本驱动下,人类与AI的一次共谋。AI有绝对的信心获胜,而人类也在大赛中各取所需。主办方创新工场同时做大AI与德扑两个市场,有明确的商业指向,有变现的前景。
2017年大年初三晚上,创新工场CMO 黄蕙雯收到李开复的讯息:“我们来做一个人机扑克赛事吧。”
黄蕙雯当时正在家休假,对于老板的指示一头雾水。她有很多举办国际性大型活动的经验,但对于德扑和AI跨界是完全陌生的。后来,黄蕙雯得知,在这段时间,由美国卡内基梅隆大学计算机学院教授托马斯·桑德霍尔姆(Tuomas Sandholm)及他的博士生诺姆·布朗(Noam Brown)开发的德扑AI“Libratus”,正在匹兹堡River赌场战胜了4位世界顶级德州扑克选手。李开复看了这场比赛后非常兴奋,于是产生了把德扑AI请来中国的念头。
李开复也是深度的德扑爱好者
在比赛现场亲自和冷扑大师玩了一把
在中国复制一场德扑“人机大战”,李开复确实是最合适的人选。他是卡内基梅隆大学的博士、荣誉校友。在校期间也曾开发过一款名为“奥赛罗”的黑白棋人机对弈系统,1988年击败了黑白棋世界冠军。他还把同样对人机对弈感兴趣的师兄许峰雄推荐给了IBM,许峰雄在加入IBM的第9年做出了“深蓝”,打败了象棋世界冠军。
李开复亲自负责了前期与卡内基梅隆大学的沟通。他撰写了一封礼貌的邮件给“Libratus”的开发者——桑德霍尔姆教授,表达对德扑AI的赞赏,以及把AI请来中国的意愿。
桑德霍尔姆教授非常欢迎。他唯一的顾虑,可能就是担当德扑AI“大脑”的匹兹堡超级计算机的远程运算会不会出现故障,以及比赛既定的手牌数是否足以将德扑运气的成分摊平。
Libratus是拉丁文,源自数学家纳什定义的一种完美博弈模型。黄蕙雯后来根据发音翻译成了“冷扑大师”,给人一种冷酷的神秘感。
李开复并不回避,把“冷扑大师”请到中国来的“私心”。最近2年来,创新工场先后投资了30多家AI创业公司,并于今年1月份成立了“人工智能工程院”,试图把人才、技术、市场、软硬件平台、大数据环境集成一体,为AI创业提供支持。这位技术出身的投资人看好人工智能的未来,并不遗余力地为花费重金投资的创业项目造势。
你几乎在各个场合都能看到李开复在谈论AI。今年1月份,他出现在《奇葩大会》上,预言“未来10年,有50%人的工作将被人工智能取代”;3月,在三亚的一个投资论坛上,李开复以《我不是李开复,我是人工智能》做了一次演讲,会场中他与徐小平对视的一张图片,后来还被网友恶搞;4月,他的新书《人工智能》也开始预售。
网友的恶搞
除了在AI领域早早布局,李开复同时看好德扑在中国市场的潜力。他本人是深度的德扑爱好者,曾经在知乎上发帖教网友打德扑,创新工场也经常组织创投圈的德扑牌局。这场比赛的承办方——“传奇扑克”就是创新工场投资的项目。德扑“人机大战”同时促进两个市场升温,无疑是一笔划算的生意。
在确定与卡内基梅隆大学的合作后,为德扑AI挑选一位中国对手并不是一个艰难的决定。在中国德扑圈,杜悦的名号几乎无人不知。
杜悦是常春藤资本的合伙人,曾经是人人网战略投资部门的负责人,主导了包括人人网收购56、百度收购糯米网在内的多宗重大并购。打德州扑克是这位60后海归投资人的业余爱好。
2016年夏天,杜悦在美国拉斯维加斯赌场斩获德扑顶级赛事WSOP的冠军金手链,收获了80多万美元奖金,以及在中国商界精英圈层的社交影响力——德州扑克被视作考验智商、情商的社交游戏,在中国的互联网圈、创投圈普及率极高。
在3月份三亚举办的那次投资峰会上,李开复见到了同为嘉宾的杜悦。他跟杜悦说起自己把AI请到中国的想法,并邀请他出面带领中国德扑选手参战。
本质上,杜悦对于国内任何推广德扑的活动都是欢迎的。他也是“传奇扑克”的投资人之一,看好德扑在中国市场的未来。被动地扛起创投圈德扑第一人的大旗后,杜悦也愿意多为行业多做一些贡献。截止到目前,德州扑克在中国的发展仍然处于政策的灰色地带,经常被与博彩混为一谈。杜悦希望通过正面的推广为德扑正名。
在李开复找到杜悦之前,杜悦已经在组建一支德扑战队,后来命名为“中国龙之队”。他原本的计划是带领这支队伍,去征战今年夏天的WSOP。参加“人机大战”,正好可以让“龙之队”在大众面前打响名号。队员们带着与AI战斗的经验去跟人类较量,也会更有把握。“人机大战”的来临,让这支战队的赛程提前了。
“人机大战”前一周,“龙之队”的5位选手从全国各地赶到北京,与队长杜悦会合。他们在酒店集训了5天,从牌理上总结AI的策略,从技术上研究它的工作原理。
“龙之队”的选手大多是杜悦的朋友、熟悉的牌友。点点网、啪啪网创始人许朝军是杜悦在人人网期间的前同事,也是他在清华大学计算机系的同门师弟。绰号“喜之郎”的“联众”平台第一高手童舟,以及曾经签约Poker Star的选手朱亚西都是职业牌手水准。
“龙之队”成员(从左至右):
许朝军、张淮、王天建、杜悦、朱亚西、童舟
通常情况下,德扑比赛的赛制是9位选手坐在一个赛台上相互淘汰。但与“冷扑大师”的比赛稍有不同,采取的是一对一“单挑”的形式。此外,6位选手还被分为两组,组间对应的两位选手拿到相反的手牌,以此来摊平运气成分对比分的影响。
某种程度上说,“单挑”的赛制是更有利于AI的。因为选手在打每一手牌的时候都处于精神高度紧张的状态,对体力、精力是极大的消耗。而AI是不会感觉到疲劳的。
杜悦和许朝军同时认为,采用“单挑”的赛制,是因为“冷扑大师”目前的运算能力还不足以应付群体竞技的复杂性。
诺姆•布朗却表示,冷扑大师在技术上是可以达到群体赛上的标准的,“单挑”是为了防止人类抱团围殴AI的局面。
“人类可能会联合对抗AI。或许不是故意的,但无意中就可能受到其他人的影响,导致的最终结果就是AI会输。”诺姆•布朗告诉36氪。
最终,中国德扑选手在5天的时间里,和“冷扑大师”打了9场比赛。第三天下半场是个关键性的转折。在此之前,龙之队连续3场比赛大比分落后,输给冷扑大师52万筹码。他们在9场比赛总共输了79万。下半场比赛开始前,选手们调整了策略,不再用自己不熟悉的策略去试探AI,而是回归了自己的一贯打法。他们的成绩随之触底反弹,每场损失不超过6万。
许朝军和童舟是此次“人机大战”中成绩最好的一对搭档。选手们平均总共输给AI 13.2万,许朝军输了9.8万,而童舟最后只输了1.8万。
比赛结束后,许朝军总结“冷扑大师”的打法,认为它在90%的情况下接近于一个真正的德扑大师,内功深厚,技术精湛。而其余10%的情况,它就像一个“神经病”,打法和下注完全不合理,令选手们一头雾水,并且极容易因此产生情绪波动,反过来被AI抓住把柄恶意操作。
许朝军每天坚持跑步、游泳
保持良好的精神与AI作战
面对这样的对手,许朝军的策略是变换打法,不按套路出牌。此外,情绪管理是非常重要的。他会在打牌的时候和冷扑大师“聊天”,输牌的时候顺便夸奖一下对手,“你要说这个牌打的好,你来抓我吧。实际上你是不停地在疏导自己。”许朝军说。
为了应对“单挑”对体力的消耗,许朝军还坚持每天早期跑步,下午比赛的间歇去游泳。中间靠各种能量饮料、食品补充体力。有时候晚上因为大脑过度兴奋会失眠,许朝军会喝2罐啤酒,把自己灌得迷迷糊糊地入睡。
许朝军把自己的策略分享给队友,他的搭档童舟的状态也渐入佳境,但其他队友却没能重复他们的好成绩。在杜悦看来,这是因为选手们原本风格就各不相同,短时间内很难统一成一种打法。
许朝军对此感到有些遗憾。和人工智能不同,人类在制定策略之后,还会受到很多其他因素的影响。
“人可能10%的概率,100%贯彻策略。”
4月10日中午,德扑“人机大战”宣布结束。媒体的新闻稿瞬间在网络上铺天盖地。一些报道以龙之队输给AI作为噱头,吸引流量,这也令创新工场的宣传团队感到有些失控。在一个媒体群上,黄蕙雯劝告记者:“各位媒体朋友,辛苦的龙之队成员看到‘狂虐’等标题,实在有点伤心哪。”
下午的发布会上,李开复又重申了一次,“请各位媒体报道的时候平衡一下,‘中国龙之队’是让我们非常骄傲的,用这种方法来描述。”
这位做事体面、周全的投资人显然不愿意看到,因为宣传德扑AI,朋友被推上尴尬的处境。
作为压力的中心,比赛结束后的发布会上,在李开复、卡内基梅隆大学教授、教授的博士生依次总结了德扑“人机大战”中AI的出色表现之后,最后拿到话筒的杜悦忍不住多说了一句:
“‘冷扑大师’确实是人工智能及博弈论在德州扑克领域的科学杰作,(但)离理论上最佳的水平,还有一些差距。”
龙之队总共输给AI79万筹码
童舟和许朝军的组合成绩最好
客观来讲,杜悦和“龙之队”的表现是过关的。1月份匹兹堡的德扑“人机大战”,世界顶尖德扑高手平均每100手牌输给“冷扑大师”16个大盲,中国选手输了22个,相差不太多。中国队虽然输了,但输的并不丢脸。
许朝军甚至认为,他和搭档童舟已经逐渐发掘出冷扑大师的破绽,如果比赛持续下去,最后的结果很可能他们会赢。
对此,桑德霍尔姆教授持相反的意见。在他看来,冷扑大师在美国打了12万手牌,在中国只打了3.6万手,相较之下仍然存在着较大的波动。许朝军和童舟,很可能就是冷扑大师在中国遭遇的波动。
诺姆•布朗补充道:“我们要看很多的牌才知道谁是更强。3.6万手牌是足够的样本,但是每个选手6000手牌,并不是足够的样本。”
虽然如此,诺姆•布朗仍然对中国选手的成绩感到惊讶。比赛之前,他预期他们会输给AI将近100万美元,他们最后只输了79万人民币。“他们认真研究了战术,成绩比我预期的要好的多。”
许朝军并不纠结于舆论的压力。
“很荣幸的说,我们是第一批中国人,可能也是最后一批中国人去挑战。我可以跟后代讲,当时参加过人机大战,这个历史是很有意义的一件事情。”
两周前,桑德霍尔姆刚刚注册成立了一家AI创业公司,计划在不久的未来将Libratus的技术商业化。在他看来,Libratus处理不完整信息的技术,在股票市场、医疗和商业谈判等领域都有广泛的应用场景。在美国,类似的技术已经开始在器官移植领域实验,AI在捐赠者和受赠者之间进行媒合匹配,提高配对的效率和准确性。
桑德霍尔姆在“自动谈判”领域深耕27年。他坚信Libratus的技术将在这一领域有广泛的应用。因为谈判的逻辑与德扑牌局相似,本质上都是利益双方在信息不对称情况下进行博弈,最后做出最正确的判断,令自己的价值最大化。
与阿尔法狗不同,Libratus采用的并不是被AI最受瞩目的技术方法“深度学习”,而是更加传统的“线性规划”,通过“虚拟遗憾最小化”、“残局解算器”和“强化自我学习”三个模块,对不完整信息进行综合处理分析。外界对于Libratus是阿尔法狗“低配版”的说法是不公平的。因为与阿尔法狗不同,Libratus处理的是不完整信息,通过概率的演算寻求最优解。
桑德霍尔姆对于Libratus的应用充满信心,并给出了一个预期的期限。“如果5年之内还看不到相关的应用我将会感到惊讶。”他告诉36氪。
桑德霍尔姆(左)和杜悦(右)在比赛现场交流
在杜悦看来,桑德霍尔姆显然是过于乐观了。他毫不怀疑AI是一个时代性的浪潮,会彻底颠覆人类存在的方式。但这个时代就何时会来临,现在还未可知。
“大的方向是对的,但真正把冷扑大师的技术运用到商业里面去,这个难度不亚于再做一个冷扑大师。” 杜悦说。
许朝军对此有同感:“我们对于新的技术,短期要悲观一点,长远要乐观。”
同样作为投资人,与李开复不同,杜悦看了大量的AI创业项目,但迄今为止一个都没有投。在他看来,创业公司做AI是一件成本极其高昂的事。AI研究需要世界级的科学家、海量的大数据和平台的支持。在国内,除非挂靠BAT,普通的创业公司很难接近这些资源,因此也不会有长久的想象力。
在杜悦看来,当今的AI创业市场有泡沫化的嫌疑,真正好的投资机会还需要理性评估。“炒作的有点多了,有点过热。”杜悦说。
但他也同时相信,AI终将会变得无处不在,这还需要一个周期。
“通常一个大潮来的时候,总是要有泡沫的。”
推荐阅读
点击下方图片即可阅读
德扑大赛AI刚刚完胜人类,AlphaGo就确定五月来华迎战柯洁
长按识别图片二维码▲,订阅「开氪」