阿狗归零成精，但别怕! 智能再强势，终究仍无法替代全人类的创造性思维？

2017-10-22 作者| 孟津 蝌蚪士

特别声明

本平台推出文稿均出于非商业性的教育和科研目的，旨在传播学术研究信息、净化大学教育与科研生态环境。但声明该文仅代表原作者的个人观点并不意味着本公众号赞同其观点或证实其内容的真实性。如有异议或侵权，本平台将在第一时间处理。期望读者关注点赞《蝌蚪士》公益事业：为苦逼科民发声、并贡献正义的智力；且为平民大众免费科普，使之走进科学、传承科学、壮大科学——人人都能成为真才实学的蝌蚪士 (主编| 赛德夫).

年初我写了篇博文《观聂卫平战“大师”－阿狗重出江湖》，是观聂卫平和阿狗大师（Alpha Go Master）对弈的感想。那一回，阿狗大师60比零胜了世界围棋界众多顶尖高手，然后宣布退役。好家伙，赢了就归隐江湖，让人恨得牙痒痒。当然，很多人有话说，阿狗大师能赢，全在于是下快棋，如果慢棋，人也许有机会。后来，柯杰和阿狗大师下了三盘慢棋，结果大家都知道，恩怨是非可以了断了。

本来以为有了这个测试后，阿狗也许可以去找点什么正经事做，只知道玩，不是好狗，能咬耗子也不错，总是有点用。结果阿狗团队现在又冒了一泡，出人预料。这回出来的是很谦虚的阿零（AlphaGo Zero), 没有阿狗大师那么嚣张，但却是更令人可怕了。首先，它已经不屑跟人下棋了，可以说绝对没有任何人是对手。它只和机器下。从当年以4:1胜了李世石的版本，到60:0胜了众多棋手的大师版，阿零和它们对弈的结果是100:0。有关的文字发到了《自然》上，网上可以找到，我就不贴了。但两篇文章体现的概念却非常不同，这个从两篇文章的题目就可以看出。

过去的版本，是基于人类的棋谱，通过机器学习，最终在对弈中可以选择最佳的应手，从而取得胜利。但阿零却不是这样，它完全没有从几千年的人类对弈棋谱中学什么，而是在现行规则下，从零开始，自己对弈，并在其中学习提高，最后达到超人类的境界。从他们的文章中可以看出，阿零使用的算法，是所谓的强化学习（reinforcement learning），我不知道有没有更专业的译法。从零开始学习，不受人类围棋经验的影响和约束，到进入超人类弈棋的境界，花了30-40天时间，这个可以从DeepBlue网站上看到（见下面附图）。

对于不懂数学和人工智能的我来说，有个问题不知这里的高手能否回答：从阿零的学习曲线看，40天以后，如果它接着练下去，是否可以达到一个极限？也就是说，就现有的规则和19X19棋盘，它永远也达不到Elo 6000。或者说围棋的变化还是有限的？不管怎么说，这个阿零的出现，说明人类对事情的认识，还是有局限性的。抛开人类的局限性，阿零的算法能够达到更佳的结果。但从最后列出的棋谱看，也可以说人类的一些基本行棋“定式”，还是围绕在最佳选择上的。这个从阿零开局就可以看出来，基本上收敛于从角部落子，和人类高手过招的思路非常相似。就围棋来说，很多可能性人类都还没有尝试过。当然，人类有自己的一些追求，比如说棋型的美感，这个阿零能否理解。但那种美感，对于胜负来说，意义在什么地方呢？

看了一些对局，还是很感叹。很想知道，阿零跟九段棋手下让子棋是个什么状况，能让到几子。贴一份阿零对阿大师的对局谱，以及阿零自己左右手搏击的棋谱。这些棋谱，在Nature文章的辅助材料中可以看到，我挑了两个最简单的放上供参看。不太清楚阿零自我博弈的胜负率，是否会是50%对50%。

上面四张阿零学习过程图，来自DeepMind网站，特此鸣谢。

阿零（执黑）对阿大师

阿零自己打自己

棋谱来自Nature, 特此鸣谢。

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

钢琴《偏偏喜欢你》：有些人一旦遇见，便一眼万年