自学40天，100:0碾压“前任”，新版“阿尔法狗”让人类颤抖了

查看原文

其他

自学40天，100:0碾压“前任”，新版“阿尔法狗”让人类颤抖了

2017-10-20 每经记者 每日经济新闻

当地时间10月18日，谷歌人工智能团队Deep Mind团队在著名学术期刊Nature发表论文，宣告了人工智能一个新纪元的诞生。

围棋世界冠军、少年天才柯洁甚至感叹，“人类太多余了”。

那么，到底是什么样的厉害成就，让少年心高的棋士柯洁都佩服地如此“甘拜下风”呢？

原来，最新版本的阿尔法零（AlphaGo Zero，又译“阿尔法元”）战胜了所有“前辈”，其中包括以100比0的悬殊比分碾压曾战胜李世石的AlphaGo版本，成为当今世界上最厉害的围棋程序。

如果光是这样，你可能觉得这消息还不够轰动。但阿尔法零绝不是简单的进化版本而已。

每日经济新闻（微信号：nbdnews）记者注意到，之前的AlphaGo版本都是通过学习以前的人类经典棋局提高自己的棋力，并存储有几百万盘棋谱。

而阿尔法零则完全没有学习任何人类知识，仅靠自我对弈，“左右互搏”来学习提高，就在40天内超越了人类几百年来的围棋知识积累。

这一“从零到巅峰”的突破，也被誉为人工智能领域目前最伟大的进步之一。

新版阿尔法零完虐老版本

英国《电讯报》指出，阿尔法零只是被人类教会如何下围棋，此外便没有给出任何额外的指令。相反，随着时间的推移，阿尔法零学会了如何下出最好的围棋走法，而这仅仅是通过与自己对弈490万次而达成。

▲柯洁败给AlphaGo（图片来源：电讯报）

经过3天的训练，阿尔法零就以100：0的比分赢下了李世石版AlphaGo，并且只用了1台机器和4个TPU（谷歌研发的芯片）。

而李世石版AlphaGo则用了48个TPU。阿尔法零除了独立地学会了人类花费数千年时间来发现的围棋规则，还自行学会了非常有趣的围棋策略，并且许多走法都“极具创造性”。

▲AlphaGo的效率越来越高（图片来源：DeepMind）

那么阿尔法零是如何实现这种飞跃的？

每日经济新闻（微信号：nbdnews）记者注意到，阿尔法零采用的是人工神经网络。这种网络可以计算出下一步走棋的可能性，估算出下棋选手赢的概率。随后根据计算，阿尔法零会选择最大概率赢的一步去下。

整个训练过程中，并没有人类参与，全程是阿尔法零自我学习，自我对弈。在训练过程中，阿尔法零每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练，神经网络变得越来越好。

▲阿尔法零从0到72小时的自学成长图（图片来源：DeepMind 论文）

创始人：AI可以解决现实难题

谷歌深度学习联合创始人兼CEO德米斯·哈比斯（Demis Hassabis）表示，阿尔法零这个项目之所以如此强大，是因为它“不再受限于人类知识的局限”。

▲图片来源：DeepMind官网

哈比斯还相信，如果将这个项目应用到治疗像老年痴呆症这样重大的健康问题上的话，那么在几周内，就能找到治愈人类需要花费几百年时间才能找到的疗法。

“我们希望利用这种算法突破，来帮助解决各种紧迫的现实世界问题。

如果类似的技术可以应用到其他问题上，例如减少能源消耗或寻找新材料，那么取得的突破就具有推动人类的理解的潜力，并对我们的生活产生积极影响。”

▲德米斯·哈比斯（图片来源：Youtube）

其实，谷歌的深度学习团队已经开始使用阿尔法零来研究蛋白质折叠，并承诺称将很快发表新的研究发现。错误折叠的蛋白质可以导致包括老年痴呆症、帕金森病和囊性纤维化等许多致命疾病。

每日经济新闻（微信号：nbdnews）记者注意到，近年来，越来越多的科技公司先后进入健康领域。去年，微软便宣布计划在10年内攻克癌症。谷歌旗下的部门也在调查延长人类寿命甚至停止衰老的方法。

每经记者蔡鼎

每经编辑王嘉琦郑直

本文为｜每日经济新闻 nbdnews 原创文章｜

未经许可禁止转载、摘编、复制及镜像等使用

欢迎转发、群发给你的朋友，欢迎分享到朋友圈

如需转载请向本公众号后台申请并获得授权

其他用户正在看

1、戴比尔斯、卡地亚、蒂凡尼…听到这个消息要哭了

2、7天5大议程！关于十九大，你关心的信息都在这里了

3、7个月吸金25亿！有望成为下一个《王者荣耀》的TA，让网吧老板慌了

4、“不忘初心”用英文怎么说？十九大报告外文翻译专家告诉你！

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心