无知者的畏惧之AlphaGo Zero
再不点蓝字关注,机会就要飞走了哦
题外话:鉴于我写的一些话题很容易就得罪了各大公司的PR们,导致包括起诉我,到我公司去告状等一系列的麻烦,以后我会避免直接提起公司或者产品的名字,以代号称呼。
1
这几天来被刷朋友圈的,无疑是这个新来的AlphaGo Zero,有被翻译成阿尔法元的说法。大概是觉得元比较酷,代表了某种东西的元年。
这个新的AlphaGo Zero很了不得,了不得体现在很多创新上。不需要人类的输入作为指导,通过从无到有的学习很迅速的就可以超越人类。从技术上来看,的确是很了不起的突破。
无知者无畏这句话无疑是不正确的。人们对于未知的事物心存畏惧。对于人工智能这个东西,大部分人是心存畏惧的。
AlphaGo Zero的这种创新也人类无限的扩大了。因为这个新的狗不需要人类的输入,可以自行学习。如果说万一 它学出了情绪,会怎么样呢?这个世界是否从此陷入了麻烦。黑客帝国必将降临呢?
今年年初的时候,上海机场发生了老太太给飞机引擎扔硬币求平安的事件。飞机对于老太太来说是个值得畏惧的东西。虽然对于我们这几代人来说,接受过初高中物理教育,知道飞机为什么会飞,早已没有了畏惧之心。
但是人工智能不同。大部分的人对于人工智能这个词语是畏惧的。他们既没有学过人工智能的知识,也不知道这个智能和人类自己的智能是不同的。所以他们非常的畏惧。这种畏惧到纽约时报上,就成了下面这幅图:
2
那么,AlphaGo Zero到底说明了什么?我的机器学习是体育老师教的,所以我就只能就着体育老师教我的水平来试图讲一讲。
但是有一点,我对所谓的人工智能并不心存敬畏。此人工的智能和彼人类的智能,虽然都号称是智能,其实毫无关系。在今天所谓人工智能的道路上努力到宇宙都垮了,也无法诞生出人类的智能。能够诞生出来人类智能的,需要根本性的变革。而这种变革,我想可能我有生之年是看不到了。
要聊这个AlphaGo Zero,先聊围棋。棋类问题里围棋比较另类。在中国人或者整个东亚的文化里,通常围棋要上升到哲学的高度。所谓棋如人生,在哲学文学等方方面面都体现着围棋的神秘性和不可捉摸性。
对于通常意义上的下棋来说,我们可以定义为这是一个封闭世界里面有确定步骤和确定结果的游戏。这句话比较绕口,首先封闭世界意味着这个棋类的世界规则很简单,是固定且已知的。其次有确定步骤是说每次下棋,无论哪一方,总有固定的可数的下棋方式,这个方式也许几百几千几万,但是肯定是可以数清楚的。至于最后,一盘棋总有下完的时候,下完总是可以知道是输是赢的。
但凡这类游戏,计算机里使用Min-Max Tree,就可以转化为一个搜索问题,通过暴力解,限界剪枝法,启发式搜索等等一系列技术区解决这个问题。
举例而言,我们可以在空棋盘上让选手A列举出所有可能性,让B根据每个棋盘的A的下法,再列举出所有可能性。如此一直下去,肯定可以把所有可能性穷举出来,只要计算机够快,就可以很迅速的判断出具体在当前棋局下,自己怎么下最优。
3
这个方法到了围棋那边不适用了。具体原因来说是状态空间太多,多到整个宇宙原子的总数都比不上。
当然计算机界不会傻到直接暴力搜索,通常会做启发式搜索和剪枝。这就需要一个估值函数,能够通过对当前状态和下一步走之间进行比较,对这步棋的走法进行合理的估值,从而只走向那些有希望的空间,不访问那些不可能有最优解的空间。
这个办法在围棋上依然不适用,因为给定当前状态下,围棋的下一步走下去,对棋局最后到底是个什么样的影响,用估值函数去指导是一件特别难的事情。围棋棋盘变化复杂,可能一个棋子就会导致整个盘面的优劣发生剧烈变化。用数学的术语来说就是这个函数不够平滑。计算量大,无法有效剪枝,是两个围棋无法顺利被计算机解决的主要原因。
就像我说的,我的机器学习是体育老师教的。我对围棋下棋的理解也是体育老师教出来的水平。所以胡说八道的地方只能见谅了。
蒙特卡洛树的发明让机器玩游戏,包括围棋进入到了一个新的阶段。而AlphaGo实际上是把围棋当做了从数据,包括人类棋谱里面,用深度学习的方式来解决的问题。通过学习人类棋谱和自己的对弈,AlphaGo的蒙特卡洛树的选择更加的高校和精准。对于机器学习是体育老师教的我,在阅读大量文献以后,也就只能给出这样一个二把刀的结论了。
4
但是AlphaGo Zero的做法很不一样。它的做法是重新回到了非常经典的,1980年就很热的启发式搜索上去。使用启发式搜索来解决Min-Max Tree的搜索问题不是什么新鲜玩意。
那么这个AlphaGo Zero新鲜在哪里呢?启发式搜索需要一个评估函数,就是所谓的heuristic。这个函数在经典教科书里面是通过人看特定的解决问题,然后拍着脑袋先想出来,再去证明是可行的。
这个办法搞不定围棋,不仅仅是因为围棋搜索空间大,更重要的是,围棋评估函数至少看起来复杂,人没办法拍脑袋想出一个来。
而AlphaGo Zero则是在这个评估函数上做了文章,通过使用reinforcement learning的方式来学启发式函数。这个做法在机器学习里应该是没有人做过的。当然again我的机器学习是体育老师教的,大家谨慎的听取就好。
无可厚非,这是个巨大的突破。而且这个想法的胆子也很大。搜索空间巨大,人类无法拍脑袋写出的评估函数,通过增强学习可以学到。这至少是假设了围棋的这个巨大无比的搜索空间里面有很强的结构特点。否则的话,怎么可能学出一个对如此巨大的空间里面的各种各样的子空间都适用的评估函数呢?
说实话,这个结果放出来,对我来说其实对围棋这个游戏的揭秘的震撼远远大于这个方法本身。文章里也同时说了,人类对开局和官子的认识和机器差别不大,但是在中盘,机器的做法非常的匪夷所思。
这说明人类大脑的思维方式,并不一定适合类似启发式搜索的做法。人类大脑在解决最优化问题的时候,往往会很快的收敛到一个局部最优解。
而更为重要的揭示还是围棋这个巨大无比的搜索空间,其实是有着我们人类不知道但是某种内在的结构的。
5
那么所有的这些东西加在一起说明了说明?使用增强学习来构建评估函数,让近点的启发式搜索的应用范围一下变得很大。人类不需要拍脑袋去创建评估函数了,这恐怕是AlphaGo Zero巨大的贡献。会让启发式搜索的应用范围变得异常的宽广。
除此之外呢?围棋的搜索空间是有结构的,算是个发现吧。这其实从侧面说明,这个用于解决围棋的方法对于通用问题的实用性恐怕是极其狭窄的。能够用启发式搜索就决定了这个问题必须是closed world,能够枚举。而空间有结构从而能够学出有效的评估函数,近一步限制了这类问题的适用范围。
所以一定要说呢?这个围棋的问题以这样一种方式去解决,对于拥有体育老师教的机器学习的知识的我,确实有一种震撼的美。
但是震撼过去之后,还是爱啥啥去。这个解法的普适性,都不用怀疑,没有普适性。这里机器学习不需要人类的输入,只是reinforcement learning的一个办法。
指望靠这套东西让机器有更为广阔的空间和更多的智能,我想大家可能都要失望了。至于从此以后机器如同人类有情绪了,那简直就是那个给飞机引擎投硬币的老太太一样,被那种半真半假的神秘性给忽悠了。
但愿今天中国的投资人和人生导师们,不会因为AlphaGo Zero这个东西的诞生,而再一次开启蛊惑人心之旅。当然,如果被蛊惑,我也只能说人傻没得救了。起码找个体育老师学点机器学习吧。
打赏专用二维码
飞总聊IT
IT八卦,大数据风云,职场风波
长按二维码订阅
合作垂询:feizongitworld@gmail.com