查看原文
其他

别了,人类对手|科学现场

王子凯 冰点周刊 2018-09-07


此时的阿尔法狗已经完全不再需要人类棋手的定式了,所有的训练都是通过自我博弈增强学习来完成。

本文约3200

预计阅读时间9分钟


作者 / 王子凯

编辑 / 秦珍子


马博从未下过一盘完整的围棋,但他的“作品”很会下棋。

最近,在一场世界级的围棋大赛中,“绝艺”以7∶0战胜“星阵”获得冠军,俩选手都不是人。绝艺来自马博所在的腾讯AI团队,星阵的前身是清华大学开发的“神算子”。

参加本届腾讯世界人工智能围棋大赛前,绝艺曾对阵柯洁豪取13连胜,还以11连胜的战绩夺得第10届UEC杯计算机围棋大赛冠军,成为这项承载“攻克围棋”使命的AI赛事里最后一个冠军。它的名字来自杜牧诗句“绝艺如君天下少,闲人似我世间无”。

比起UEC杯,腾讯举办的人工智能围棋大赛参赛门槛更高:参赛程序需要获得过世界人工智能围棋比赛(最近3年)前8名的成绩,或棋力在腾讯野狐围棋平台九段及以上。大赛吸引了包括日韩两国国家围棋队指定训练AI在内的众多高手,一度被外界认为是一场“众神之战”。

“绝艺”和“星阵”的研发团队代表在赛后握手合影。


人类世界的围棋高手只是观众

2016年3月以来,在腾讯程序员马博的工作计算机里,绝艺几乎24小时都在跟自己下棋,每天对弈成千上万盘。

这样的对局数,是人类棋手一生几万盘棋难以企及的。而在19×19的方格世界中,存在着10171种有效对局盘,数量超过宇宙原子的总和。

两年前,李世石以1∶4败给阿尔法狗,后者的训练数据是3000万盘棋。人类不再心存“赢”的幻想。此后阿尔法狗又连胜中日韩高手60盘,其技艺“让人类棋手感到绝望”。

两周前,众多围棋国手来到他们熟悉的中国棋院对弈场,只当观众。马博和绝艺研发团队第一次走进中国围棋最高殿堂:“棋圣”聂卫平、“八冠王”古力、“天才少年”柯洁都曾在此留下名局。

AI棋手没有环肥燕瘦或迥异个性,它们不像聂卫平那样嗜烟如命,在烟雾缭绕中陷入棋局的沉思。也不会有柯洁的年少轻狂,对阵前辈李世石前放话“胜算95%”。它们是一行行代码和后台的计算资源,人类棋手要紧跟棋盘局势都显得十分吃力。

“比赛现场观众都是一些职业棋手。”马博对中国青年报·中青在线回忆,他将笔记本电脑接入比赛的对弈系统,点击屏幕上的“开始”后,就“与我无关”了,人类棋手则紧盯着对弈台后面的电子棋盘。虽然人类前辈在几千年前就已经开始黑白“搏杀”,并且一直是胜负的主角,但此刻的棋盘上还是有太多人类从未见过的“杀招”。

“我们和AI的思考层级不同,在计算量上存在着差距。”作为决赛解说嘉宾的古力表示,他曾和绝艺有过数次交手,但对手成长之快,他始料未及。3年前,风头正盛的日本围棋AI“DeepZenGo”开发者加藤英树曾表示,人工智能攻克围棋至少需要10年。


我们是人类,人类会犯错误

两年前的绝艺还只是业余五段的水平,如今古力已用“不可思议”来解说昔日对手的战术了。就在4个月前,古力在个人微博上晒出“绝艺正式成为中国国家围棋队训练专用AI”画面,并配文“国家队的训练方式跟上了时代步伐”,而此前的中国国家队并没有专用AI。

在赛场上,马博偶尔也会听听解说嘉宾聊起的围棋段子,或是走下对弈台喝喝茶,和罗洗河聊聊天——后者是绝艺的围棋顾问,也是开发团队中唯一能下完一盘围棋的人。这位曾在2006年1月终结“李昌镐时代”的传奇棋士,也是截至目前和绝艺对弈最多次的人类。他需要通过与之对弈发现漏洞,将它打造成“围棋上帝”。

比起棋盘走势,马博和他的对手更关心各自电脑屏幕上闪现出来的一行行胜率计算结果,那是AI通过算法分析落子位置得出的获胜概率。屏幕上胜率持续上升,意味着此前的算法分析没有出现失误,布局意图正逐步实现。但随着对手落下一颗棋子,局面的胜率就会被算法重新统计。

绝艺使用的算法框架并非马博团队的首创。“人工智能领域有很多公开的算法框架,按照这些框架很快就能做出产品。但如果要达到更高的胜率,就要在算法细节和计算能力上努力了。” 虽然马博为绝艺写下了第一行代码,但其核心算法框架来自于Deep Mind团队。

2016年1月28日,谷歌旗下的Deep Mind团队在《自然》杂志发表论文,介绍了阿尔法狗程序的技术细节,还附带它以5∶0横扫三届欧洲围棋冠军樊麾二段的喜讯。

樊麾并没有像1997年国际象棋世界冠军卡斯帕罗夫那样,在被IBM研发的象棋AI“深蓝”击败以后,指责这款电脑程序作弊,并要求重新比赛。他也并没有像这位俄罗斯棋王一样,有过3次击败“棋桌对面新型智慧”的战绩,并坦言“自己还有几年的安稳日子”。面对比国际象棋10120种变化更为复杂的围棋,樊麾的劣势要更加明显。

“人类是会犯错误的,因为我们是人类。”阿尔法狗在樊麾眼里像一面没有任何情绪波动的墙,稳稳地堵住了他调动的一切经验和智力攻势,也压住了一名顶尖棋手求胜的欲望。如果没有事先告诉他阿尔法狗是程序的话,樊麾甚至会认为对方是一个棋路清奇的人类棋手。

一年后的乌镇棋局,阿尔法狗又以3∶0的战绩强势逼哭了棋盘对面的柯洁,这位围棋史上最年轻的五冠王第一次在赛场上失控落泪。在离开对弈台的20分钟里,他觉得自己就像一个“无助的孩子”,对过程和结局都感到绝望。

“对手非常完美,没有任何缺陷和失误,而且也没有任何心态上的波动。”柯洁赛后曾表示。阿尔法狗也在此战后成为中国第43位中国围棋九段获得者,它的42位九段前辈都是人类。

获得2018腾讯世界人工智能围棋大赛冠军的“绝艺”,有奖杯和名牌,却没有实体。


人工智能下围棋不需要人类对手了

“没有情绪”或许是人们对阿尔法狗最为感性的理解了。

实际上,阿尔法狗有着两个强大的决策网络:Policy Network(策略网络)和Value Network(价值网络)。前者主要判断在当前局面下,下一步棋该怎么走。作出这样的判断,不仅需要提前输入人类已探索出的大量棋谱,还要让其能够通过大量的自我对局结果来学习评价每一步棋的优劣。后者则相当于人类棋手的“大局观”,阿尔法狗在自我对局中会逐渐学习评价整体局面的走势。

第一个网络在从人类棋手已有的走法中筛选出若干种可能的同时,也会通过蒙特卡洛树搜索来展开这些走法并给出优劣判断。蒙特卡洛树搜索正是围棋AI算法的核心之一。在对弈时,它会随机选择一种落子路径并向下展开,如果这种落子路径能够获胜,就会被赋予一定的权重,并在下次随机选择路径时被优先选中。

第二个网络则会利用整体局面的判断删除那些无法得到高胜率的落子路径,同时也能根据下一步棋将导致的新局面的优劣,给出落子建议。最终的落子决定则是由两个网络被平均加权后作出的。

这种既有局部判断又作全盘分析的思考方式已经接近人类棋手的思维。虽然棋手选择的落子位置并非由局部和全盘的思考加权平均决定,但DeepMind在论文中却得出了这样的结论:两个大脑取平均的结果比依赖两者各自得出的结果要好很多。

2017年10月,在宣布阿尔法狗退役后的5个月后,DeepMind又在《自然》杂志发表最新论文。他们最新的“狗”在3天时间内积累了490万盘围棋赛的训练数据,并以100∶0完胜曾经打败过李世石、柯洁等人的——过去的那个自己。此时的阿尔法狗已经完全不再需要人类棋手的定式了,所有的训练都是通过自我博弈增强学习来完成。

马博团队先后借鉴了Deep Mind两篇论文,但他们已经不再热衷战胜人类棋手,以证明绝艺的实力了。很多围棋界的棋手期待绝艺能逼出阿尔法狗与之一战,探索围棋之道的极限。

这样的众望,人类曾寄托于吴清源、聂卫平、李昌镐……当然,也给过出战阿尔法狗之前的人类棋手。

(本文图片均为采访对象提供)

原文刊载于《中国青年报》2018年8月15日11版



王子凯

 欢迎留言,跟作者沟通互动 


微信见习编辑:魏其濛

审核:郑萍

转载请扫码



阅读更多精彩文章

非洲加速度

不录取你,因为你是女生

七夕不正经送礼指南

两年时间,三个官司,五百元钱

人狗共处只剩异烟肼一条路么

谁为公章问题“盖章”

现实版《小偷家族》


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存