查看原文
其他

今日头条算法发布:有多少人工,就有多少智能

2016-07-28 曹欢欢 笔记侠

曹欢欢 | 今日头条首席算法架构师,前诺基亚研究院研究员。


活动:2016年7月26日  今日头条算数发布会,笔记侠作为合作方,经活动方与演讲者审阅授权发布笔记。如须转载请务必联系微信号:kezhou20,违者必究。


笔记:笔记侠 剑飞    深度好文3302字 | 5分钟阅读


导读:计算机解决问题的方法,就叫算法。计算机是没有思维能力的,计算机的优势在于计算快,但是它并不知道怎么解决问题。在机器学习、人工智能界,有一个说法——有多少人工,就有多少智能。在机器学习领域,还经常说一句话,叫大数据是个好算法。机器能不能有一些创造性,有自己的想法?或者有人类不能预测的行为呢?机器是否会做梦?



全网首发完整笔记

 

今天,我给大家介绍一下,今日头条的算法,因为很多来宾对算法并没有一个很深入的了解。

 

01、 什么是算法?


算法在英文中是“algorithm”,中文是什么意思?就是计算机解决问题的方法。计算机是没有思维能力的,计算机的优势在于计算比较快,但是它并不知道怎么解决问题。

 

一个很简单的问题,也需要程序员做编程,把它变成最基本的程序指令,计算机才能解决




比如一个最简单的问题,我们有很多数字,让电脑在其中找到一个最大的数字。这么简单的问题,如果没有算法,没有编程,计算机也解决不了。


这个角度上来说,计算机、电脑的智能程度是取决于人。人赋予电脑更好的编程算法,电脑就能做更多的事情,也会显得更聪明。


要知道,有多少人工,就有多少智能。

 

前段时间,谷歌的AlphaGo,一个人工智能程序,战胜了围棋世界大师李世乭,这是一个标志性的事件。AlphaGo这么强,背后还是人的力量,如果没有人去编写这些算法的话,它永远也不会下围棋。

 

AlphaGo背后的算法,是一种叫深度学习的技术。深度学习是机器学习算法的一种,机器学习算法和算法的关系在于机器学习是算法中的某一个领域,它和一般算法有一些区别。


一般的算法,是人想要机器解决一个问题做出来的编程,把它变成一条一条的机器指令,机器就按照指令一条一条去做。这种指令比较死板,它没有很多的灵活性。但是机器学习算法,就更进化,它的思维就是授人以“渔”,而不是授人以“鱼”。简单来说,就是给机器一个套路,告诉它大概这样做,但具体怎么做,让机器自己学习。

 

怎么学习呢?通常的做法就是给机器很多数据,在这些数据中标注一些样本,机器学习这些样本。通过这些数据,总结规律,按照给出的套路、方向,自己学习里面的参数,最后解决这个问题。



 

在机器学习、人工智能界,我们有一个说法:有多少人工,就有多少智能。这句话怎么理解呢?


机器学习需要给它大量的数据,这些数据大部分是需要人工标注的,这些套路就叫做监督学习,我给它样本,并且要知道样本有什么意义。在机器学习算法里面,还有其它的分支,比如强化学习、无监督学习,但目前应用的主流还是监督学习,它的应用最广,影响也最大。


02、有监督的机器学习


什么叫有监督的机器学习?要写一个机器学习算法,让它能够帮我找到网上很多符合我口味的衣服,需要做什么呢?训练一个能识别某种服装的程序。

 

训练一个这样的程序,第一件事需要什么?数据,因为你需要给机器学习算法标注一些样本。首先我会搜集很多图片,然后把我需要的标出正例。


比如把所有衬衣图片标注出来,其它的没有标注衬衣的,就是负例。电脑会通过这些样本的标注,知道哪些是衬衣,哪不是衬衣,哪些是主人想要的,哪些不是主人想要的。

 

如果提出更高的要求,让它识别浅色的衬衣,就要进一步把浅色的衬衣图片再标注出来,这样发电脑就知道哪些浅色的衬衣是主人更需要的。



当然,还可以进一步把这个条件变得更复杂,让机器识别带条纹的浅色衬衣,这就需要把这些数据进一步处理,这些都需要人工解决。

 

人的工作完成之后,把数据标注好,就训练机器学习算法,让它不断去看图片,并对所看过的图片进行总结。然后它自己总结用什么样的参数,给出一个算法框架,知道大概往哪方面学习。机器学习目标就是需要我给它的数据,让它的识别错误要达到最低。最终,它达到目标之后,机器自身就学成出师了,可以为人工作了。


在训练好程序之后,我就跟电脑说,“你帮我找一件浅色的条纹衬衣吧”。这时候电脑就能发挥它的作用,机器虽然没有创造性,但是在把机器训练好之后,它的效率很快,运作速度非常快。机器可以瞬间分析全世界的网页,然后把我想要的服装类型找到。

 

机器学习的原理是,如果人好好调教机器,机器就会变得越来越聪明。人给机器工作的数据,然后给机器强大的硬件,支撑机器计算速度进一步提升,算法能力就会越来越强。


03、 大数据是个好算法

 

在机器学习领域,我们还经常说一句话,叫大数据是个好算法。这句话怎么理解?在机器学习里面,最重要的一步是要有很多数据,标注很多样本,相当于让机器学习的一个过程,就是所谓的机器学习。


人也一样。一个人他很聪明,天资很好,但是刚毕业,刚出校院,如果没有经验,这时候是不敢把很重要的工作交给他的。

 

但是相反,有可能另外一个人的资质并没有那么高,但他很勤奋,很努力,做过很多案例,吸取了很多经验教训。他的实际能力比那个很聪明的人的能力会更强,这对机器也是一样的道理。



 

这种公理对我们今日头条在推荐领域成为领先的公司是非常有利的,为什么呢?因为我们信息量非常大,应该是远大于这个行业所有后发的竞品。


目前,我们目前总安装量是5.3亿,每天产生的新数据有数十亿条,这些数据会源源不断地提供给推荐引擎,让机器变得越来越聪明,变得越来越准。越多人使用,越多的数据就会记录下来。接下来这个推荐引擎就会推得更好,这就是一个正向的反馈。


这样一种反馈机制,它会有一种先发优势,如果不犯大的错误,我们的优势会越来越大,后来者很难赶超。


04、 机器做梦


现在感觉机器好像很笨,机器主要是靠人给一个目标,就去实现一个目标。机器能不能有一些创造性,有一些自己的想法?或者有一些人类不能预测的行为呢?这是很有趣的话题。


包括之前像霍金的一些比较大的话题,做出一些很悲观的判断,觉得将来的AI会脱离人类的控制。这个命题很大,我自己也不好说,但是我可以给大家分享一个有趣的例子,叫机器做梦

 

这个例子的背景:


谷歌有一些做图片识别的专家,他们想看一看在给机器看了很多图片、很多数据之后,机器到底是怎么学习的?机器能不能把它看到的东西再重新输出出来?专家们通过研究发现,给机器看一个画之后,它的脑子的图像反向输出,输出的图像很有趣。跟原来的图像有点像,但是又有很多奇妙的变化。很多专家也很难理解,因为这个算法太复杂了,他们也不知道这个画由何而来的,所以媒体就把这个现象取名为“机器做梦”。

 


我们来看一下机器是怎么做梦的。我们先看一下这幅画,这幅画是著名的抽象派画家康丁斯基的一个作品,抽象派都是线条、色彩,点线面的简单组合。我们看一下在机器的梦境中,这幅画是怎样的?



 

所谓机器做梦,这个画就是机器看了之后输出的图像,我们看这幅画主要的元素是比较像的,包括色彩,但是在很多细节上发生了很有意思的变化。之前的那些色块现在变成了小鸟,为什么机器能把色块看成小鸟呢?


这幅画的名字叫《蓝天》,这是作者取的名字。可能一般人看不出来这画的是蓝天,机器却从画里看出鸟,这是很有意思的事情,但很难有严密逻辑上的解释。


这几幅画都是康丁斯基的抽象作品,在机器的梦境中,它们也发生了奇妙的变化。未来我们是不是有可能借着机器很奇妙的想法,把这些东西融入到时尚行业?比如把这个图片标注以后,我们再做一些改变,会不会非常有趣呢?


谢谢大家!




[招贤纳士]

新媒体合伙人|总编辑|编辑|主笔

产品经理|新媒体运营|技术运营|电商运营|活动运营

商务BD|平面设计|漫画师|文案策划

简历请发至bijixia@foxmail.com

后台回复大咖名字,查看精彩笔记

李善友丨傅盛|余晨丨龚焱丨徐新丨 阎焱丨俞敏洪丨李丰|蔡文胜丨段永朝丨罗振宇|罗胖|吴伯凡|宗毅|吴声|伊光旭丨李欣频|王东岳...

合作伙伴:混沌研习社|创业邦|领英中国|36氪|腾讯|京东|正和岛|中欧|微链...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存