视频| 异族崛起?!人类智慧被虐,各国顶级高手已纷纷投降
温馨提示:建议在wifi下观看,土豪君随意
https://v.qq.com/txp/iframe/player.html?vid=q0188ls7utf&width=500&height=375&auto=0
这场象征着人类与机器智慧之战的参赛选手分别是:
人工智能—— AlphaGo
AlphaGo(阿尔法围棋)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下每一步棋。
(“AlphaGo”人工智能 VS ”李世石“人类大神)
人类围棋顶级选手—— 李世石
李世石,1983年3月2日生于韩国全罗南道,1995年入段,1998年二段,1999年三段,2003年因获LG杯冠军直接升为六段,2003年4月获得韩国最大棋战KT杯亚军,升为七段,2003年7月获第16届富士通杯冠军后直接升为九段。2006、2007、2008韩国围棋大奖——最优秀棋手大奖(MVP)。棋风特点——李世石属于典型的力战型棋风,善于敏锐地抓住对手的弱处主动出击,以强大的力量击垮对手,他的攻击可以用“稳,准,狠”来形容,经常能在劣势下完成逆转。
就在今年3月15日,历经漫长的对决,这场在韩国首尔进行的人机大战落下帷幕,这是AlphaGo车轮迎战全世界40名顶级高手后的最后一场终极对决。
而比赛结果令人大跌眼镜:
人类选手 李世石 不敌 Alpha Go,人机大战1-4尘埃落定,李世石第五局中盘认输!
5番棋,4比1,从AlphaGo连取三局奠定胜局,到最后的两盘双方各取一盘,拥有14个世界冠军头衔的 李世石在这场举世瞩目的人机大战中完败而归。毫无疑问,围棋这项号称“人类智慧最后堡垒”的阵地也宣布失守,现在的问题是,AlphaGo这台机器的出现究竟给人工智能带来什么样的颠覆性改变呢?
AlphaGo在这场人机大战中完胜李世石之后,我们终于明白,不管是何种抽象思维,顶级的人工智能都能够做到。那么,为什么围棋这项运动能被称为是人类智慧最后的堡垒?
因为无论国际象棋还是中国象棋,都是以攻克对手王后或王帅为终极目标,因此每一手棋的价值都可以用固化的数字进行计算,这无疑是电脑最能够把控的,而围棋从布局到中盘,直至官子之前,每一手棋的价值判断都是非常模糊的,有时候棋手需要放弃到手的实际利益去寻求未来可能的更大空间,偏偏这种空间是未知的,甚至可能一无所获,但如果棋手只顾眼前利益毫无大局观,他根本就赢不了棋。二十年前,在象棋方面,人类早就不是电脑对手了,围棋方面,一直没有产生一个达到职业水准的人工智能,就是因为围棋的这种相对模糊的价值判断是普通人工智能很难把控的,而今,AlphaGo的出现彻底让围棋人士绝望了。
思维模式与工作原理揭秘:
AlphaGo主要工作原理是“深度学习” 像生物神经大脑
一、AlphaGo 是如何决定下每一步棋的?
首先要声明的是,目前我们还没能真正的打开 AlphaGo 代码库,去检查它全面的运行逻辑。我们只能从已公开的权威论文中,来梳理这个迄今为止走进公众视野的最强大人工智能,是如何做出决策,战胜人类的。
1.简单说,AlphaGo 下的每一步棋,都依赖于“概率”
当一开始,棋盘有大量空白区域,棋子较少时,AlphaGo会更愿意采用“固定策略”。这种策略来自于 AlphaGo 自己模拟训练的数百万场棋局(每一局都从开始模拟到结束)。这让 AlphaGo 心中有一个大概的最佳选择可能性,即下在点A和点B,哪个更好些。
在这个时候,AlphaGo 是通过经验来判断的。虽然这个经验不来自与人类,而是来自于它结合人类下棋方式学习后,自己和自己对弈的数百万经验值。但这种基于经验的判断,是人类挑战它的最佳机会——和“恐怖”的机器推演能力相比,经验,起码离人类更近一些。
2.当棋局有局部拼杀时,AlphaGo 的战力就升级了
这时候,再依赖那数百万局 “自己与自己下棋”的经验,明显是不够的。因为棋局瞬息万变,李世石的下法,很可能是 AlphaGo 没有模拟过的(不要高估数百万局训练,和围棋的可能性相比,只是沧海一粟)。
这时候,AlphaGo 会不再聚焦于整个棋盘,而将计算精力缩到一个小范围(战斗区域,例如右下角5*5,8*8这种)。这时候,它会启动现场演算推理功能,即开始计算每一个落子位置的后续走势,来计算最佳一步。
3.当局势需要兼顾大局和计算力时,AlphaGo 怎么办?
开局布局,AlphaGo 用经验;短兵相接,AlphaGo 用计算力。那么在局势复杂时,AlphaGo 的另一个特长就有用武之地了——兼顾大局观和计算能力。
它叫做“棋局评估器 (Position Evaluator)”。这个东西会告诉 AlphaGo ,哪些地方是“不值得”你去深度计算的。这就帮助 AlphaGo 节省大量的计算需求,只针对局面上有价值的点,来推演,并给出最终的优胜概率排序。所以,这个评估器也叫作“价值网络”。
AlphaGo通过模拟两个“自己”,然后随机落子计算每个位置对赢棋的价值。这种简单粗暴的计算是人类大脑无法训练的,只有机器可以肆无忌惮的这么做。
打个形式上的比喻。如果你用过扫地机器人就知道,启动后,它并非按照人类的方式,一块地砖接一块的扫地,而是以一种乱序的方式,在房间里横冲直撞。你以为它疯了。但只要你关上门,过一会,你会发现它已经把地打扫干净了——所有的区域,都被这种随机方式覆盖到。人类是不可能这么扫地,会累死你。
但和穷尽推演相比(虽然目前不可实现),这种价值估算并不是完全准确的(扫地和围棋在精读与复杂度上,是完全不同的)。它是在兼顾时间和效率基础上,一种最适合的策略。这也是 AlphaGo的一个弱点。
二、AlphaGo 也会怀疑自己
从单一棋局看,AlphaGo 确实是不会“后悔”的,因为它的每一步,都是它认定的最佳决策。但当你通过多局去观察 AlphaGo 时,会发现它其实也会“怀疑”,只是这种怀疑,并不会影响它的棋力,反而会促进它的进化。
原理很简单,AlphaGo 会怀疑自己,是因为在很多局面选择时,最优解不止一个,或者比较接近。例如有五个点的赢棋概率都是45%,在这一局里,AlphaGo 可能选择了点A,但下一句,它可能会选择点B……
从逻辑上推断,既然是经过了百万棋局的演算,那么一局的胜负,对于具体某点的概率提升,不会太明显。所以,AlphaGo 在应对同样局面时,它可能给出完全不同的下法——根据几个最优解,随机选择。
而这一点,也正是它可怕之处,连开发它的人类,都无法预测它的行为。因为你把随机函数的权利,交给了人工智能自己。
三、AlphaGo 为什么极少下臭棋?
我们通常把人工智能比作”高智商婴儿“,按照这个推断,AlphaGo 就算表现惊艳,但应该也会有下臭棋的时候。因为单纯的人工智能,是无法真的模拟人类思维的。
AlphaGo 没有丢过人,因为在一开始,它并非完全的“自学”。工程师们安排 AlphaGo 在网络对战平台上,与人类棋手不断下棋,用来学习人类下棋的风格和方式。当工程师们觉得 AlphaGo 足以“像个人类棋手”时,才让它开始自己和自己更疯狂的练棋。
你如果很早在KGS(网络围棋对战平台)上遇到过 AlphaGo ,那么,你可能有幸看到过 AlphaGo 还是婴儿时的样子。
四、AlphaGo 自己训练自己,而且效率吓人
前面提到了,和人类练棋不同,AlphaGo 在学会了人类下棋方式后,复制了两个自己,依托计算机性能优势,不断下棋,去丰富对局面判断力。这种效率非常之高,甚至已经超越了人类历史上所有的对弈棋局总数量。
这意味着 AlphaGo 会越来越”老练“。虽然它还是无法在每一局的每一步中,穷尽所有可能性(如果它能做到,就战无不胜了),但它会不断通过训练积累大局观,而随着大局观提升,在实战中,它需要做现场精准推演的效率也会更聚焦——人类也就越来越难赢它。最后,它就只能在自己的世界里,自己和自己下棋玩了。
无敌...最寂寞_(:з」∠)_
小编有话说:时至今日,人工智能的发展速度,就连小编也不得不说:实在是太快了!而更让人惊叹的是,机器人技术无论从软件还是硬件方面都始终保持着极高的同步性。可以预见的未来是,机器人走进千家万户和生产工作的各个角落,而当前我们正处在机器人发展大潮中最完美的阶段,机遇无处不在。机电俱乐部也将与时俱进,关注最新机电科技动态,带给您最"IN"的行业资讯!
小伙伴们,看完记得分享哦!o(*≧▽≦)╯