今日头条算法发布：有多少人工，就有多少智能

2016-07-28 曹欢欢 笔记侠

曹欢欢 | 今日头条首席算法架构师，前诺基亚研究院研究员。

活动：2016年7月26日今日头条算数发布会，笔记侠作为合作方，经活动方与演讲者审阅授权发布笔记。如须转载请务必联系微信号：kezhou20，违者必究。

笔记：笔记侠剑飞深度好文：3302字 | 5分钟阅读

导读：计算机解决问题的方法，就叫算法。计算机是没有思维能力的，计算机的优势在于计算快，但是它并不知道怎么解决问题。在机器学习、人工智能界，有一个说法——有多少人工，就有多少智能。在机器学习领域，还经常说一句话，叫大数据是个好算法。机器能不能有一些创造性，有自己的想法？或者有人类不能预测的行为呢？机器是否会做梦？

全网首发完整笔记

今天，我给大家介绍一下，今日头条的算法，因为很多来宾对算法并没有一个很深入的了解。

01、 什么是算法？

算法在英文中是“algorithm”，中文是什么意思？就是计算机解决问题的方法。计算机是没有思维能力的，计算机的优势在于计算比较快，但是它并不知道怎么解决问题。

一个很简单的问题，也需要程序员做编程，把它变成最基本的程序指令，计算机才能解决。

比如一个最简单的问题，我们有很多数字，让电脑在其中找到一个最大的数字。这么简单的问题，如果没有算法，没有编程，计算机也解决不了。

从这个角度上来说，计算机、电脑的智能程度是取决于人。人赋予电脑更好的编程算法，电脑就能做更多的事情，也会显得更聪明。

要知道，有多少人工，就有多少智能。

前段时间，谷歌的AlphaGo，一个人工智能程序，战胜了围棋世界大师李世乭，这是一个标志性的事件。AlphaGo这么强，背后还是人的力量，如果没有人去编写这些算法的话，它永远也不会下围棋。

AlphaGo背后的算法，是一种叫深度学习的技术。深度学习是机器学习算法的一种，机器学习算法和算法的关系在于机器学习是算法中的某一个领域，它和一般算法有一些区别。

一般的算法，是人想要机器解决一个问题做出来的编程，把它变成一条一条的机器指令，机器就按照指令一条一条去做。这种指令比较死板，它没有很多的灵活性。但是机器学习算法，就更进化，它的思维就是授人以“渔”，而不是授人以“鱼”。简单来说，就是给机器一个套路，告诉它大概这样做，但具体怎么做，让机器自己学习。

怎么学习呢？通常的做法就是给机器很多数据，在这些数据中标注一些样本，机器学习这些样本。通过这些数据，总结规律，按照给出的套路、方向，自己学习里面的参数，最后解决这个问题。

在机器学习、人工智能界，我们有一个说法：有多少人工，就有多少智能。这句话怎么理解呢？

机器学习需要给它大量的数据，这些数据大部分是需要人工标注的，这些套路就叫做监督学习，我给它样本，并且要知道样本有什么意义。在机器学习算法里面，还有其它的分支，比如强化学习、无监督学习，但目前应用的主流还是监督学习，它的应用最广，影响也最大。

02、有监督的机器学习

什么叫有监督的机器学习？要写一个机器学习算法，让它能够帮我找到网上很多符合我口味的衣服，需要做什么呢？训练一个能识别某种服装的程序。

训练一个这样的程序，第一件事需要什么？数据，因为你需要给机器学习算法标注一些样本。首先我会搜集很多图片，然后把我需要的标出正例。

比如把所有衬衣图片标注出来，其它的没有标注衬衣的，就是负例。电脑会通过这些样本的标注，知道哪些是衬衣，哪不是衬衣，哪些是主人想要的，哪些不是主人想要的。

如果提出更高的要求，让它识别浅色的衬衣，就要进一步把浅色的衬衣图片再标注出来，这样发电脑就知道哪些浅色的衬衣是主人更需要的。

当然，还可以进一步把这个条件变得更复杂，让机器识别带条纹的浅色衬衣，这就需要把这些数据进一步处理，这些都需要人工解决。

人的工作完成之后，把数据标注好，就训练机器学习算法，让它不断去看图片，并对所看过的图片进行总结。然后它自己总结用什么样的参数，给出一个算法框架，知道大概往哪方面学习。机器学习目标就是需要我给它的数据，让它的识别错误要达到最低。最终，它达到目标之后，机器自身就学成出师了，可以为人工作了。

在训练好程序之后，我就跟电脑说，“你帮我找一件浅色的条纹衬衣吧”。这时候电脑就能发挥它的作用，机器虽然没有创造性，但是在把机器训练好之后，它的效率很快，运作速度非常快。机器可以瞬间分析全世界的网页，然后把我想要的服装类型找到。

机器学习的原理是，如果人好好调教机器，机器就会变得越来越聪明。人给机器工作的数据，然后给机器强大的硬件，支撑机器计算速度进一步提升，算法能力就会越来越强。

03、 大数据是个好算法

在机器学习领域，我们还经常说一句话，叫大数据是个好算法。这句话怎么理解？在机器学习里面，最重要的一步是要有很多数据，标注很多样本，相当于让机器学习的一个过程，就是所谓的机器学习。

人也一样。一个人他很聪明，天资很好，但是刚毕业，刚出校院，如果没有经验，这时候是不敢把很重要的工作交给他的。

但是相反，有可能另外一个人的资质并没有那么高，但他很勤奋，很努力，做过很多案例，吸取了很多经验教训。他的实际能力比那个很聪明的人的能力会更强，这对机器也是一样的道理。

这种公理对我们今日头条在推荐领域成为领先的公司是非常有利的，为什么呢？因为我们信息量非常大，应该是远大于这个行业所有后发的竞品。

目前，我们目前总安装量是5.3亿，每天产生的新数据有数十亿条，这些数据会源源不断地提供给推荐引擎，让机器变得越来越聪明，变得越来越准。越多人使用，越多的数据就会记录下来。接下来这个推荐引擎就会推得更好，这就是一个正向的反馈。

这样一种反馈机制，它会有一种先发优势，如果不犯大的错误，我们的优势会越来越大，后来者很难赶超。

04、 机器做梦

现在感觉机器好像很笨，机器主要是靠人给一个目标，就去实现一个目标。机器能不能有一些创造性，有一些自己的想法？或者有一些人类不能预测的行为呢？这是很有趣的话题。

包括之前像霍金的一些比较大的话题，做出一些很悲观的判断，觉得将来的AI会脱离人类的控制。这个命题很大，我自己也不好说，但是我可以给大家分享一个有趣的例子，叫机器做梦。

这个例子的背景：

谷歌有一些做图片识别的专家，他们想看一看在给机器看了很多图片、很多数据之后，机器到底是怎么学习的？机器能不能把它看到的东西再重新输出出来？专家们通过研究发现，给机器看一个画之后，它的脑子的图像反向输出，输出的图像很有趣。跟原来的图像有点像，但是又有很多奇妙的变化。很多专家也很难理解，因为这个算法太复杂了，他们也不知道这个画由何而来的，所以媒体就把这个现象取名为“机器做梦”。

我们来看一下机器是怎么做梦的。我们先看一下这幅画，这幅画是著名的抽象派画家康丁斯基的一个作品，抽象派都是线条、色彩，点线面的简单组合。我们看一下在机器的梦境中，这幅画是怎样的？

所谓机器做梦，这个画就是机器看了之后输出的图像，我们看这幅画主要的元素是比较像的，包括色彩，但是在很多细节上发生了很有意思的变化。之前的那些色块现在变成了小鸟，为什么机器能把色块看成小鸟呢？

这幅画的名字叫《蓝天》，这是作者取的名字。可能一般人看不出来这画的是蓝天，机器却从画里看出鸟，这是很有意思的事情，但很难有严密逻辑上的解释。

这几幅画都是康丁斯基的抽象作品，在机器的梦境中，它们也发生了奇妙的变化。未来我们是不是有可能借着机器很奇妙的想法，把这些东西融入到时尚行业？比如把这个图片标注以后，我们再做一些改变，会不会非常有趣呢？

谢谢大家！

［招贤纳士］

新媒体合伙人｜总编辑｜编辑｜主笔

产品经理｜新媒体运营｜技术运营｜电商运营｜活动运营

商务BD｜平面设计｜漫画师｜文案策划

简历请发至bijixia@foxmail.com

后台回复大咖名字，查看精彩笔记

李善友丨傅盛｜余晨丨龚焱丨徐新丨阎焱丨俞敏洪丨李丰｜蔡文胜丨段永朝丨罗振宇｜罗胖｜吴伯凡｜宗毅｜吴声｜伊光旭丨李欣频｜王东岳...

合作伙伴：混沌研习社｜创业邦｜领英中国｜36氪｜腾讯｜京东｜正和岛｜中欧｜微链...

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！