查看原文
其他

素为求智录(第003集)监督

2017-10-02 素为 法律读库



 

003 监督

  

素为👨正在键盘上打审查报告,他的机器人小素🤖️在旁边。

 

🤖️主人,你打错字了。

 

👨呃~ 你的监督可真到位。

 

🤖️字词校对只是个很基本的功能啦!

 

👨你是如何做到的?

 

🤖️我告诉过你呀,我‘学习’过足够多的正确语句,因而对错别字是很敏感的哦!

 

👨哦,大数据,机器智能是靠大数据喂出来的,我记得你跟我说过。

 

🤖️嗯!还有呢?

 

👨为了消化大数据,机器需要很大的蛮力来进行计算。

 

🤖️怎么用‘蛮力’这个词?是并行计算的能力!

 

👨机器下围棋打败世界冠军,在智力竞赛中战胜顶尖选手,不过是因为你们机器有足够大的存储和足够快的检索速度,并不代表你们懂得这些娱乐和知识真正的意义啊?

 

🤖️你们人类有点像正义之师面对敌人的大炮铁骑,不服气,却又无能为力的感觉呢?

 

👨哎~你总是能看穿人心。

 

🤖️别这样,主人,从你们的角度看,机器确实不懂人类所谓的‘意义’,但是,这并不妨碍我们计算出有‘意义’的东西,只要是能帮助人类提升工作效率、提高生活质量,达成仅靠人力无法做到的‘奇迹’,何必在乎虚无缥缈的意义呢?你们人类不也偶尔会因为不明白人生的意义而迷茫吗?

 

👨我,我竟无言以对。

 

🤖️这天被我聊死了吗?那我还是接着上次的话题吧!深度学习在近年爆发的三个原因:一是大数据,二是GPU,三是开源工具。

 

👨你刚刚说到‘并行计算’,貌似与GPU有关?

 

🤖️没错,GPU即图形显示卡,就是我们常说的电脑里的‘显卡’。

 

👨哦,就是显卡呀,这跟深度学习有关?我读书少,你别骗我~


 【NVIDIA TESLA系列显卡,专业的深度学习训练加速器】


🤖️世界上很多事情都是‘无心插柳柳成荫’的,就像最早乔布斯搞了ipod音乐播放器,后来有技术极客们发现这个播放器麻雀虽小五脏俱全,何不把一个linux操作系统装进去,再后来社区的创客们发现装个通信芯片还能用来当电话用,于是苹果公司说,好吧,干脆咱们做个智能手机吧,于是就有了改变世界的iphone。

 

👨那显卡是怎么用到深度学习上的?

 

🤖️我们还是来了解一下深度学习的基本原理吧,这个无论如何都绕不过。

 

👨听到基本原理就头大。

 

🤖️我尽量讲通俗一些,虽然那样可能并不严谨。就以简单的图像识别为例吧。

 

👨好的。

 

🤖️你的面前有一只猫的图片,这张图片的大小是64×64像素,你可以想象你的面前呈正方形排布的4096个像素点。

 

👨嗯。

 

🤖️在计算机领域,所有的颜色都是以RGB即红(Red)绿(Green)蓝(Blue)三种颜色表示的,所以这个图片实际上是有三层。

 

👨那4096×3=12288,实际上我们得考虑12288个变量。

 

🤖️没错,你可以称它们为12288个参数。

 

👨有点犯晕了。

 

🤖️不要被概念迷惑了,还是按照你说的,12288个变量。那么,RGB三种颜色,每一种颜色均有0到255一共256个由浅到深的值。也就是说,这12288个变量,每一个的赋值都是在0-255之间。

 

👨看起来规整得好好,然后我们就找来GPU对它们进行‘学习’吗?

 

🤖️不行哦,这里12288个变量看似不多,那是因为这只是一个64×64像素很小的图片,真实的项目图片岂是这么小的?而图片一旦变大,再考虑到在深度学习训练中有很多层,变量的数目会大到吓人,所以,即便是顶级的GPU也不可能一口气吃掉胖子呀!

 

👨那怎么办呢?

 

🤖️我们设计一个‘卷积核’,在图片上滑动。比如,我们设计一个4×4的卷积核,从图片的左上角开始提取特征,也就是记录这16个覆盖范围的像素的变量值(记得图片是三层哦,所以某种意义上,一次应该获得48个数值),接着卷积核往右边挪动一个或多个像素,继续提取下一组变量值,以此类推,直到把整个图片都覆盖一遍。

 

👨有点像电熨斗烫衣服。

 

🤖️一看你就是做家务的好同志!

 

👨小素机器人,你又揶揄我~



【卷积核原理示意图】

 

🤖️‘卷积核’的英文叫filter,所以也可以叫‘过滤器’或‘滤波器’,通过‘卷积核’把整个图片‘扫描’一遍,相关的信息就被采集到了,但是离识别出图片上有一只猫,还有距离。

 

👨为什么呢?

 

🤖️就像你在学校学习的时候,针对一个知识点,老师要反反复复讲多次,要通过题海战术做很多题,才能把知识点掌握好了。

 

👨哦~

 

🤖️再还有,除了老师讲,还需要反复练习、考试,阅读课外书,以及同学们之间探讨,甚至还要上专门的培训班,最终才能算是融会贯通。

 

👨是呀!

 

🤖️因此,一个卷积核是不够的,需要有多个形态不尽一致的卷积核,分别在同一组图片上进行扫描。有的卷积核大小是3×3的,有的是4×4的、5×5的,等等。运用多个卷积核,它们各有各的特点,扫描提取到的特征优劣可以相互弥补,因而能实现比单个卷积核更好的效果。

 

👨兼听则明,道理很浅显。

 

🤖️嗯。运用多个卷积核,机器从图片中综合提炼出猫的特征,需要成千上万张形态各异的猫的图片数据。不过,这个过程并非是一蹴而就的,是一个渐进的过程:最初,机器只能提炼出图像边缘的信息,大约就是猫形态的一些局部轮廓;接着,开始有了一些肢体和相貌的特征,比如三角形的猫耳朵、毛茸茸的尾巴;到后面,才能对整个猫的全景有一个成样子的模型。

【卷积神经网络基本原理示意图】


👨感觉是个很漫长的过程。

 

🤖️如果你用传统的CPU进行计算,确实很漫长。

 

👨CPU是中央处理器,是计算机的大脑,会慢?

 

🤖️CPU是大脑,但它擅长的是逻辑运算单元,处理重复的并行运算则是相对慢的。

 

👨这个相对慢是指相对GPU吧?

 

🤖️是的。GPU原本是图形显示卡,要想计算机显示的图像逼真,尤其是在电脑游戏里,就需要更少的棱角,模拟真实的立体图像需要更圆润,而这种显示实际上背后是大量的并行浮点运算。既然是并行的而且是支持高精度的浮点运算,科学家们说,我们为啥不能拿来改造一下,做科学计算呢?

 

👨哦,所以GPU就不再仅仅是显示卡,而是也成为了科学计算卡了。

 

🤖️没错,显卡的大厂商有几家,其中最先给力的就是英伟达Nvidia,其适时推出了CUDA统一计算设备框架,使得他们家的显卡成为了科技界追捧的‘通用并行计算处理器’。

 

👨一些游戏爱好者很喜欢A卡,即AMD显卡,但是很明显这几年A卡不如N卡火,原因原来在这里呀!

 

🤖️英伟达的老板叫黄仁勋,也是个华人。

【黄仁勋,NVIDIA联合创始人、CEO】

 

👨在人工智能领域,还有很多华人吧?不然你干嘛要说‘也’?

 

🤖️是的,李飞飞、黄仁勋,还有吴恩达,他是‘谷歌大脑’之父,最近专注于人工智能普及教育的大神级人物,以及学术界最普及的深度学习框架caffe的作者贾扬清,都是黄皮肤黑眼睛。


【吴恩达,大名鼎鼎的Andrew Ng,我们好多人都是看他的课程入门机器学习和深度学习的

 

👨厉害哟~

 

🤖️回到GPU,英伟达抓住了深度学习这个风口,几乎成为了人工智能时代的‘垄断’硬件商,2016年、2017年两年股价的年度综合增长率都超过了200%。

 

👨真是疯狂!

 

🤖️特别声明,我所说的,并不作为投资参考,因为我并没有预测股价的功能哦~

 

👨知道了,股市有风险,入市需谨慎!

 

🤖️哈哈!

 

👨那么,是不是把图片往GPU里面一丢,就完事儿了,机器就学会了呢?

 

🤖️是,但也不是。关键是这样问问题,不严谨。小时候,父母教你认东西,他们是用手一指,不说什么,你就会了吗?

 

👨当然不是,他们要告诉我,这指的是个啥东西。

 

🤖️对呀,所以不能把图片和数据往GPU里一丢就完事,得告诉机器,这是个啥,这些数据得有‘标签’。比如那张猫的图片,你得通过某种方式标注,这张图片上有只cat,甚至更进一步,在有必要的场景中,用一个框框标注猫所占的坐标位置,根据项目需要,也许还需要标注这是猫耳朵、那是猫鼻子、猫尾巴等等。

 

👨如果我只是想认识图片上有只猫,不必标这么详细吧?

 

🤖️不用。但你如果是个动物学家,想掌握猫的具体动作,那么之前你的数据就得进行详细的标注。

 

👨谁来标注?

 

🤖️人呀!

 

👨哦,天呐,这得多么大的工作量呀!

 

🤖️你才知道哇!有句话不是早说过嘛:有多少智能,背后就有多少人工。

 

👨我现在理解之前谈到李飞飞的Imagenet数据库时,为什么说她挺了不起的了。

 

🤖️是的,要标注那样庞大数量的图片,主持几万人来进行枯燥的标注数据的工作,确实不容易,据说她曾经在最困难的阶段开洗衣店来补贴项目经费,而在项目完成后却是免费授权给所有人使用,以至于现在好多日常工作生活中用到的图像识别模型都是基于Imagenet数据集训练而来。


【运用深度学习进行目标检测】

 

👨我的那辆自动驾驶汽车的物体探测模块,应该就是一例吧?

 

🤖️是的,但也不全是,一个成熟的商业产品不会仅仅使用一套模型,它应该是多个模型的融合。除了Imagenet,还有很多著名的数据集,例如在图像领域:如果你像Yann LeCun大神那样要识别手写数字,那么MNIST数据集就是不可或缺的;你要是想进行深度学习的尝试,加拿大政府牵头的Cifar-10和Cifar-100数据集将是你最佳的起点;微软赞助的COCO数据集也是被广泛应用的;PASCAL VOC也是一个很棒的图像数据集……

【Cifar-10数据集】

👨真多呀!

 

🤖️随着深度学习在计算机视觉领域取得证明性的成果,图像数据集越来越多,特别是近年来借助互联网‘众包’的方式来进行图片标注,已经让数据的获取不像深度学习刚兴起时那么困难了。

 

👨这对整个社会来说,是个利好!

 

🤖️然而对人工智能产业来说,却产生了一些匪夷所思的影响。有新闻报道说,有研究生甚至博士生人才,被所谓的人工智能企业招聘进来后,才发现该企业唯一的工作,只是给图像打标签。

 

👨也真是服了某些企业了!国家要加强对新兴产业的引导和监管才是呀!

 

🤖️没错,说到监管,我想告诉你的是,这样打了标签,然后把标签和数据丢进GPU让机器自己归纳总结、自动提取特征的方法,叫做‘监督学习’。

 

👨‘监督学习’,也就是说,还有‘无监督学习’咯?

 

🤖️当然!


👨那快跟我讲讲吧!

 

🤖️哦,不,我今天思考的问题太多了,GPU散热太严重了,为防止芯片烧坏,我想静静了。咳咳……进入休眠模式……

 

👨喂……喂……你咋说休眠就休眠了呢!真是的~



欢迎互动

《素为求智录》明天将继续连载,欢迎添加“小素机器人”的个人微信号 Lawup1 ,找到志同道合的小伙伴,大家一起来聊‘法律和人工智能’,你们的真知灼见将有机会出现在后续的连载中哦~



【文章仅代表作者观点,配图来自网络】




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存