其他

台湾围棋AI黑马击败腾讯绝艺,独家揭秘四大关键

2017-08-26 詹子娴 DeepTech深科技


“赢腾讯绝艺,我自己都吓呆了”,这是台湾交通大学资讯工程系教授吴毅成,接受DT君采访时说的第一句话。


图丨台湾交通大学资讯工程系教授吴毅成。(图片:詹子娴)


AlphaGo 击败人类棋王的事实,使得全球都加大了对人工智能的投入。日前,在鄂尔多斯举办的中国围棋大会首届世界智能围棋公开赛上,AlphaGo 因宣布退休而没有参赛,本来不出意外,冠亚军在腾讯的绝艺和日本老牌围棋 AI 程序 DeepZenGo 之间产生。殊不知半路冲出一匹大黑马,击败了腾讯的绝艺,夺下亚军,这只黑马就是由吴毅成领军、台湾交大团队所开发的围棋人工智能“CGI”。


磨练两年以黑马姿态崛起


近期 CGI 在国际赛事屡创佳绩,包括六月中在福州举办的中韩人机配对赛获得冠军;七月份在意大利的国际 IEEE FUZZ 会议上,CGI 与台湾的红面棋王周俊勋对弈两场,CGI 先是执黑获得胜利,执白也以 2.5 目取胜,成为全球第一次“学界”围棋程序在正式比赛击败职业九段棋士,又在八月的中国围棋大会上又胜过腾讯绝艺。


图丨福州中韩人机配对赛上 CGI 团队在测试


能得到这样好的成绩,连 CGI 团队自己也没想过。CGI 全名是 Computer Games and Intelligence,是吴毅成带领的电脑游戏与智能实验室的缩写。围棋智能就是CGI开发的技术之一。CGI是个才出现了短短两年的围棋 AI 新手,相比于投入了庞大资源跟资金的绝艺,或是结合了产学之力、过去十年站在领先位置的日本 DeepZenGo,仍然显得稚嫩。


在 2015 年的初版里,CGI 的棋力大约仅相当于业余三段水平,因此不被外界看好,中国围棋世界冠军柯洁就认为绝艺是胜券在握。



就连 CGI 团队自己当时也认为,“如果能得到第三就很开心了。”因为在中国围棋大会比赛之前,团队对自己及对手进行了分析:尽管 CGI 经过两年的改进及实战,实力上已有提升,但始终觉得跟绝艺、DeepZenGo 仍有一段距离。“当时评估在ELO 等级分系统(Elo Rating)中,与 DeepZenGo 还差 100 左右。预估双方应该会是 45 对 55,而绝艺应该是远高于我们,”吴毅成诚实地说。



令人没有想到的,在第一天的赛事中,CGI 以全胜晋级,连团队自己都不敢相信。到了第二天,比赛还在进行中,同在观赛的红面棋王周俊勋认为CGI有极高的机率获得冠军,因此就先传了讯息向CGI团队说:恭喜,得冠军的機率很大。但“有点可惜,在比赛后期犯了一点错误”,无奈在 DeepZenGo 面前败下阵,与冠军擦身而过。    


什么是吴毅成口中的失误?他解释,电脑的逻辑跟人脑不一样,电脑是只要赢就好,赢一目也是赢。但是,人类总是想攻城掠地,尽可能赢越多越好,人的逻辑没有错,赢越多就越能保障胜率,但风险也较大。


另外,进入比赛后期,如果电脑失误,很容易就开始乱下。围棋只要有一两个地方看错往往就会输了,当 CGI 对弈 DeepZenGo 时,电脑搜索没有那么深,看错了一个地方,但想要挽回时,才发现已经中了对手的陷阱,情势已难挽救,团队当场看胜率就往下掉了。


战胜腾讯绝艺四关键


对战绝艺的胜利,不仅让外界注意到了 CGI,更好奇胜出关键是什么。吴毅成笑说:“大家都在问这个问题,在会场时,就有很多人赶快拿我们的论文研究。”


目前,在围棋智能程序领域,吴毅成分析,AlphaGo已经是在天上的等级,CGI、DeepZenGo、绝艺三者的实力是伯仲之间。蒙特卡洛树搜索算法(MCTS)发展后,DeepZenGo 一直领先,深度学习发展之后,他们也追得上,着实厉害。另外,大陆过去在 Computer Go(电脑围棋)的投入不算多,但在 AlphaGo 兴起后,投入大量资源及资金研发,一年就快速赶上。



“能打败腾讯绝艺,主要是这次机器版本改善了许多小东西而累积起来的成果,使得胜率比之前版本多了 70~80%,我相信绝艺要改善是很快的。”不过他也对 DT 君透露了制胜的四个关键:


第一:机器过去只管输跟赢,但这次网络设计是包括输多少、赢多少,机率又是多少,例如比对手多五目的机率是多少、多六目又是多少。如果这一个 Net 可以判别可以输几目、赢几目的话,在某个角度来看精准度就会更高。有些人可能认为这个对胜率提升帮助不大,但对 CGI 来说,数据是有提升的。


第二是分布式系统的成功,让多台机器联合作战,也是此次加入的设计。


第三是改善了蒙特卡洛树搜索算法的一个项目。这个改善过去看不太出来,不过却在这次展现。


第四则是训练机器的棋谱,品质有所提高,包括有深层棋谱及高手棋谱。


另外,吴毅成也分享与腾讯绝艺、DeepZenGo 这些 AI 的观察,一致认为有一个问题程序不好解,就是“龙”很长的时候程序常会误判。这个对我们而言是个谜,我们也不确定 AlphaGo 是否已经解决,还是只是没有遇到这状况,因此让人期待 DeepMind 的下篇论文。  


投入围棋前的练兵


吴毅成在 12 年前就开始将人工智能应用在游戏的领域,是因为当时他看到了一件事:电脑的运算能力已经够了,摩尔定律快到极限, 让他敢于投入,而且订下一定要做围棋的目标。不过,围棋 AI 程序对他来说,就象是打怪游戏里的大魔王,要挑战它得先把基本功练好。


因此,实验室先从其他的益智类游戏做起。他在 2005 年发表了自创的六子棋游戏,在其它游戏也都取得很好的成绩,包括麻将、暗棋、象棋等的竞赛都取得冠军。另外,在2048 数学方块游戏领域,他们也是全世界第一个达到总分 65536 的纪录创始者。   



把这些基础建设好后,2015 年开始进军围棋。吴毅成的学生吴迪融进一步发展蒙特卡洛树搜索算法中的MM技术(maximization最大化、minimization最小化),成为他们开发围棋AI程序的关键,“有了这个才敢发展 19 路”。


CGI 实验室全力投入深度学习四五个月后,他们就在台湾区的比赛拿下冠军。“当然,要到世界水准还有一段差距”。 之后学界开始出现利用深度学习预测高手下法的技术。而且盛传 DeepMind 将在不久后展示相关突破。虽然当然有一派看法认为深度学习不一定能发挥很大的成效,但吴毅成非常笃定深度学习将刮起炫风。



尽管 CGI 的程度还不算好,但他跟学生说:“全力以赴,这是一个机会。我负责到处找资源,你们要做两件事情:找 CP 值最高的 GPU,同时改善演算方法,减少 GPU 的需求。”到了 2016 年 DeepMind 的 AlphaGo 击败世界大师级冠军李世乭,AI 从此在全世界流行起来。Android 之父 Andy Rubin 就认为,下一个操作系统会是 AI 平台,这无疑是新一波的技术转移。


深度学习让人为涉入减少


不过,也因为 AlphaGo 名气太大,技术高超,不少人看衰同样是发展智能围棋的机构或新创公司,甚至会告诫有意做 AI 的新创团队不要再想围棋这个项目了。例如,马云先前就大声疾呼:“中国很多公司别再去搞 AlphaGo 这样的东西了,没有多大意义。”另外,卸下微软小娜(Cortana)研发总监,回台湾创立台湾人工智能实验室的杜奕瑾也曾说,要找别人还没有做得很好的领域来做。


图丨前微软小娜(Cortana)研发总监杜奕瑾


对于这些评论,吴毅成认为是对也不对,当初 CGI 的目的就只是为了希望协助台湾棋手进一步提升实力。从学界的角度来看,“我们现在正是处于一个绝佳的时机”,有了深度学习之后,大家不是可以追得更快吗?


对学校、学生来说,就算没有赢过 AlphaGo,但过程就是一种学习,路走过了就会有收获。“我们百分之百确信, DeepMind 不会一辈子做围棋,就算他不玩了,后继有人做更多的改善,都是件令人开心的事。”


确实,DeepMind 创始人兼 CEO Demis Hassabis 表示,他们相信 AI 协助社会发现新知识并造福社会的潜力,AlphaGo 让人一窥此事的可能性,研发团队将把精力投入新的挑战,例如开发更高级的通用算法,协助科学家们掌握各种更复杂的问题。


图丨DeepMind 创始人兼 CEO Demis Hassabis


回顾 DeepMind 在去年做的几件大事,还包括改善医疗,例如与英国国家医疗服务体系 NHS 旗下的基金会 Royal Free London 签约合作,寻找疾病的治疗方式,以及协助 Google 减少数据中心的能耗、语音辨识,或是发明革命性的新材料等。


另外,从创业的角度来看,中日韩的围棋市场其实不小,但他也坦言,“这个东西只有第一名跟第二名可以活着”。不过,将这样的概念应用在其他产业上也同样是一种思路。


图丨卡斯帕罗夫对战深蓝


“AlphaGo 跟过去 IBM 深蓝不同,这次领域知识(domain knowledge)的人为涉入而减少了很多。”这是什么意思?


几年前,CGI 开发的象棋程序在大陆参加比赛,旁边有一个高手观赛到一半就直接告诉吴毅成:“你们输了!因为这里的卒距离对方的帅还不够近,如果你再进一步就会赢。”但这对于没有拥有像高手那样超凡专业的开发者来说,就是看不出来,所以当时开发象棋,需要找一个很强的高手来告诉程序,这个局面有什么特征,是好还是不好,如果是好就加分。


吴毅成表示,换到现今的 AlphaGo 下围棋,你会看到专业人士涉入的程度很少,一是因为围棋复杂,走法、例子多到没办法穷举。更重要的是,现在使用深度学习模拟人脑,是让电脑自己学,而不是靠高手输入指令。


“加上过去方式所要付出的成本很高,而且有些逻辑规则会互相矛盾抵触,但现在深度学习厉害之处就是不再需要这么多的领域知识( domain knowledge),同一套程序加以调整后就比较容易应用到其他领域,不论是游戏、机器人、无人机都很有机会。”


或许也就因为如此,现在吴毅成的实验室有一半学生都在跟产业界合作,包括机器人、光学检测、制造应用等方面,未来都有发展成创业的可能。  


-End- 




欲知会员计划详情,请点击以上图片



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存