查看原文
其他

重磅|DeepMind官方揭秘AlphaGo2.0版本的技术设计和棋艺水平!

2017-05-25 全球人工智能

全球人工智能:专注为AI开发者提供全球最新AI技术动态和社群交流。用户来源包括:北大、清华、中科院、复旦、麻省理工、卡内基梅隆、斯坦福、哈佛、牛津、剑桥等世界名校的AI技术硕士、博士和教授;以及谷歌、腾讯、百度、脸谱、微软、华为、阿里、海康威视、滴滴、英伟达等全球名企的AI开发者和AI科学家。


全球人工智能


https://v.qq.com/txp/iframe/player.html?vid=r0506t2386y&width=500&height=375&auto=0

5月23日,人机大战第一局在浙江桐乡打响,围棋人工智能AlphaGo执白1/4子战胜目前等级分排名世界第一的中国棋手柯洁,暂时1比0领先,在赛后发布会上,柯洁表示,AlphaGo是太厉害了,我输得没什么脾气。


新版的AlphaGo为什么能让柯洁输到没脾气你?我们跟随Google的David Silver来揭秘新的技术设计和表现水平!


1、AlphaGo1.0版本的性能参数


2、AlphaGo2.0版本的性能和特点


3、AlphaGo2.0版本强化学习:自虐式左右手互搏学习


4、AlphaGo2.0版本强化学习:价值网络预测整个棋局和获胜者


5、AlphaGo2.0版本强化学习:策略网络预测下一步落子位置怎么走


整体来看,设计思路和1.0版本没有太大变化,加强了RL提升了智能水平;另外本次使用的TPU仅仅一个,而1.0版本却使用了50个,说明了计算效率获得了大大的提高。和之前的各个版本对比,AlphaGo 各个版本棋艺水平:


AlphaGo的水平怎么样?按照围棋等级分来看:ZEN、CrazyStone版达到约2000分;AlphaGo Fan版本达到约3000分;AlphaGo Lee版本达到3500分以上;AlphaGo Master版本达到4500分以上。



附:AlphaGo Lee版本的主要技术设计


  1. 走子网络(Policy Network):走子网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。走子网络有两个选择,一个是通过KGS高水平对局训练出来的走子网络(SL),另一个是在此基础上通过reinforcement learning训练出来的走子网络(RL)。两个网络结构差不多,但参数不一样,RL是左右互搏来提高自己水平的。(可参考图b)

  2. 快速走子(Fast rollout),目标和走子网络是一样的,但在适当牺牲走棋质量的条件下,速度却要比走子网络快1000倍。  另外,AlphaGo有了快速走子之后,不需要走子网络和估值网络,就算没有任何深度学习和GPU帮助,不使用增强学习,单机上就能达到3d水平(见Extended Table 7倒数第二行)。知道有多厉害吗?任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。


  3. 估值网络(Value Network),基于全局输赢估算目前局势好不好。如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),但是如果将两个合起来就会提高到(2890);话说估值网络是整个系统中最难训练的部分(需要三千万局自我对局),很厉害吧!

  4. 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),作用就是上面三个部分连起来形成一个完整的系统,用来搜索并且确切的挑出下一手是什么的算法。运行机制:MCTS先挑几个有希望的下一手,然后在这些手的基础上再展开几手,这样就有一个树形结构,到达第L层时,不再用走子网络展开搜索而是直接用快速展开网络展开到底。这样就把一次模拟做完,这样重复很多次,MCTS可以通过自己的算法挑一个最好的下法,然后落子。什么意思?就是在无数种下法在算时间搜索出来最后找一个最有可能赢的下法落子,厉害吧!



热门文章推荐

重磅|谁让英伟达一夜损失360亿人民币?还留下一道思考题!!

重磅|Google I/O 17扔下两枚核弹,炸掉全球无数独角兽公司的数千亿美金的研发投入!

重磅|振奋人心!图灵奖得主John Hopcroft教授加入北大!

重磅|不懂这四点,谈人工智能的专家都是扯蛋!

重磅|中国成立类脑智能领域唯一的国家级工程实验室

应用|亚洲首个全自动码头,中国这个港口被机器人承包了!

AIJob|深大70万+年薪招聘大数据人才,另享“孔雀计划”160-300万元补贴

最新|超级计算机之父Cray:宣布推出全新的AI超级计算机!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存