素为求智录（第003集）监督

查看原文

其他

素为求智录（第003集）监督

2017-10-02 素为法律读库

003 监督

素为👨正在键盘上打审查报告，他的机器人小素🤖️在旁边。

🤖️主人，你打错字了。

👨呃~ 你的监督可真到位。

🤖️字词校对只是个很基本的功能啦！

👨你是如何做到的？

🤖️我告诉过你呀，我‘学习’过足够多的正确语句，因而对错别字是很敏感的哦！

👨哦，大数据，机器智能是靠大数据喂出来的，我记得你跟我说过。

🤖️嗯！还有呢？

👨为了消化大数据，机器需要很大的蛮力来进行计算。

🤖️怎么用‘蛮力’这个词？是并行计算的能力！

👨机器下围棋打败世界冠军，在智力竞赛中战胜顶尖选手，不过是因为你们机器有足够大的存储和足够快的检索速度，并不代表你们懂得这些娱乐和知识真正的意义啊？

🤖️你们人类有点像正义之师面对敌人的大炮铁骑，不服气，却又无能为力的感觉呢？

👨哎~你总是能看穿人心。

🤖️别这样，主人，从你们的角度看，机器确实不懂人类所谓的‘意义’，但是，这并不妨碍我们计算出有‘意义’的东西，只要是能帮助人类提升工作效率、提高生活质量，达成仅靠人力无法做到的‘奇迹’，何必在乎虚无缥缈的意义呢？你们人类不也偶尔会因为不明白人生的意义而迷茫吗？

👨我，我竟无言以对。

🤖️这天被我聊死了吗？那我还是接着上次的话题吧！深度学习在近年爆发的三个原因：一是大数据，二是GPU，三是开源工具。

👨你刚刚说到‘并行计算’，貌似与GPU有关？

🤖️没错，GPU即图形显示卡，就是我们常说的电脑里的‘显卡’。

👨哦，就是显卡呀，这跟深度学习有关？我读书少，你别骗我~

【NVIDIA TESLA系列显卡，专业的深度学习训练加速器】

🤖️世界上很多事情都是‘无心插柳柳成荫’的，就像最早乔布斯搞了ipod音乐播放器，后来有技术极客们发现这个播放器麻雀虽小五脏俱全，何不把一个linux操作系统装进去，再后来社区的创客们发现装个通信芯片还能用来当电话用，于是苹果公司说，好吧，干脆咱们做个智能手机吧，于是就有了改变世界的iphone。

👨那显卡是怎么用到深度学习上的？

🤖️我们还是来了解一下深度学习的基本原理吧，这个无论如何都绕不过。

👨听到基本原理就头大。

🤖️我尽量讲通俗一些，虽然那样可能并不严谨。就以简单的图像识别为例吧。

👨好的。

🤖️你的面前有一只猫的图片，这张图片的大小是64×64像素，你可以想象你的面前呈正方形排布的4096个像素点。

👨嗯。

🤖️在计算机领域，所有的颜色都是以RGB即红（Red）绿（Green）蓝（Blue）三种颜色表示的，所以这个图片实际上是有三层。

👨那4096×3=12288，实际上我们得考虑12288个变量。

🤖️没错，你可以称它们为12288个参数。

👨有点犯晕了。

🤖️不要被概念迷惑了，还是按照你说的，12288个变量。那么，RGB三种颜色，每一种颜色均有0到255一共256个由浅到深的值。也就是说，这12288个变量，每一个的赋值都是在0-255之间。

👨看起来规整得好好，然后我们就找来GPU对它们进行‘学习’吗？

🤖️不行哦，这里12288个变量看似不多，那是因为这只是一个64×64像素很小的图片，真实的项目图片岂是这么小的？而图片一旦变大，再考虑到在深度学习训练中有很多层，变量的数目会大到吓人，所以，即便是顶级的GPU也不可能一口气吃掉胖子呀！

👨那怎么办呢？

🤖️我们设计一个‘卷积核’，在图片上滑动。比如，我们设计一个4×4的卷积核，从图片的左上角开始提取特征，也就是记录这16个覆盖范围的像素的变量值（记得图片是三层哦，所以某种意义上，一次应该获得48个数值），接着卷积核往右边挪动一个或多个像素，继续提取下一组变量值，以此类推，直到把整个图片都覆盖一遍。

👨有点像电熨斗烫衣服。

🤖️一看你就是做家务的好同志！

👨小素机器人，你又揶揄我~

【卷积核原理示意图】

🤖️‘卷积核’的英文叫filter，所以也可以叫‘过滤器’或‘滤波器’，通过‘卷积核’把整个图片‘扫描’一遍，相关的信息就被采集到了，但是离识别出图片上有一只猫，还有距离。

👨为什么呢？

🤖️就像你在学校学习的时候，针对一个知识点，老师要反反复复讲多次，要通过题海战术做很多题，才能把知识点掌握好了。

👨哦~

🤖️再还有，除了老师讲，还需要反复练习、考试，阅读课外书，以及同学们之间探讨，甚至还要上专门的培训班，最终才能算是融会贯通。

👨是呀！

🤖️因此，一个卷积核是不够的，需要有多个形态不尽一致的卷积核，分别在同一组图片上进行扫描。有的卷积核大小是3×3的，有的是4×4的、5×5的，等等。运用多个卷积核，它们各有各的特点，扫描提取到的特征优劣可以相互弥补，因而能实现比单个卷积核更好的效果。

👨兼听则明，道理很浅显。

🤖️嗯。运用多个卷积核，机器从图片中综合提炼出猫的特征，需要成千上万张形态各异的猫的图片数据。不过，这个过程并非是一蹴而就的，是一个渐进的过程：最初，机器只能提炼出图像边缘的信息，大约就是猫形态的一些局部轮廓；接着，开始有了一些肢体和相貌的特征，比如三角形的猫耳朵、毛茸茸的尾巴；到后面，才能对整个猫的全景有一个成样子的模型。

【卷积神经网络基本原理示意图】

👨感觉是个很漫长的过程。

🤖️如果你用传统的CPU进行计算，确实很漫长。

👨CPU是中央处理器，是计算机的大脑，会慢？

🤖️CPU是大脑，但它擅长的是逻辑运算单元，处理重复的并行运算则是相对慢的。

👨这个相对慢是指相对GPU吧？

🤖️是的。GPU原本是图形显示卡，要想计算机显示的图像逼真，尤其是在电脑游戏里，就需要更少的棱角，模拟真实的立体图像需要更圆润，而这种显示实际上背后是大量的并行浮点运算。既然是并行的而且是支持高精度的浮点运算，科学家们说，我们为啥不能拿来改造一下，做科学计算呢？

👨哦，所以GPU就不再仅仅是显示卡，而是也成为了科学计算卡了。

🤖️没错，显卡的大厂商有几家，其中最先给力的就是英伟达Nvidia，其适时推出了CUDA统一计算设备框架，使得他们家的显卡成为了科技界追捧的‘通用并行计算处理器’。

👨一些游戏爱好者很喜欢A卡，即AMD显卡，但是很明显这几年A卡不如N卡火，原因原来在这里呀！

🤖️英伟达的老板叫黄仁勋，也是个华人。

【黄仁勋，NVIDIA联合创始人、CEO】

👨在人工智能领域，还有很多华人吧？不然你干嘛要说‘也’？

🤖️是的，李飞飞、黄仁勋，还有吴恩达，他是‘谷歌大脑’之父，最近专注于人工智能普及教育的大神级人物，以及学术界最普及的深度学习框架caffe的作者贾扬清，都是黄皮肤黑眼睛。

【吴恩达，大名鼎鼎的Andrew Ng，我们好多人都是看他的课程入门机器学习和深度学习的】

👨厉害哟~

🤖️回到GPU，英伟达抓住了深度学习这个风口，几乎成为了人工智能时代的‘垄断’硬件商，2016年、2017年两年股价的年度综合增长率都超过了200%。

👨真是疯狂！

🤖️特别声明，我所说的，并不作为投资参考，因为我并没有预测股价的功能哦~

👨知道了，股市有风险，入市需谨慎！

🤖️哈哈！

👨那么，是不是把图片往GPU里面一丢，就完事儿了，机器就学会了呢？

🤖️是，但也不是。关键是这样问问题，不严谨。小时候，父母教你认东西，他们是用手一指，不说什么，你就会了吗？

👨当然不是，他们要告诉我，这指的是个啥东西。

🤖️对呀，所以不能把图片和数据往GPU里一丢就完事，得告诉机器，这是个啥，这些数据得有‘标签’。比如那张猫的图片，你得通过某种方式标注，这张图片上有只cat，甚至更进一步，在有必要的场景中，用一个框框标注猫所占的坐标位置，根据项目需要，也许还需要标注这是猫耳朵、那是猫鼻子、猫尾巴等等。

👨如果我只是想认识图片上有只猫，不必标这么详细吧？

🤖️不用。但你如果是个动物学家，想掌握猫的具体动作，那么之前你的数据就得进行详细的标注。

👨谁来标注？

🤖️人呀！

👨哦，天呐，这得多么大的工作量呀！

🤖️你才知道哇！有句话不是早说过嘛：有多少智能，背后就有多少人工。

👨我现在理解之前谈到李飞飞的Imagenet数据库时，为什么说她挺了不起的了。

🤖️是的，要标注那样庞大数量的图片，主持几万人来进行枯燥的标注数据的工作，确实不容易，据说她曾经在最困难的阶段开洗衣店来补贴项目经费，而在项目完成后却是免费授权给所有人使用，以至于现在好多日常工作生活中用到的图像识别模型都是基于Imagenet数据集训练而来。

【运用深度学习进行目标检测】

👨我的那辆自动驾驶汽车的物体探测模块，应该就是一例吧？

🤖️是的，但也不全是，一个成熟的商业产品不会仅仅使用一套模型，它应该是多个模型的融合。除了Imagenet，还有很多著名的数据集，例如在图像领域：如果你像Yann LeCun大神那样要识别手写数字，那么MNIST数据集就是不可或缺的；你要是想进行深度学习的尝试，加拿大政府牵头的Cifar-10和Cifar-100数据集将是你最佳的起点；微软赞助的COCO数据集也是被广泛应用的；PASCAL VOC也是一个很棒的图像数据集……

【Cifar-10数据集】

👨真多呀！

🤖️随着深度学习在计算机视觉领域取得证明性的成果，图像数据集越来越多，特别是近年来借助互联网‘众包’的方式来进行图片标注，已经让数据的获取不像深度学习刚兴起时那么困难了。

👨这对整个社会来说，是个利好！

🤖️然而对人工智能产业来说，却产生了一些匪夷所思的影响。有新闻报道说，有研究生甚至博士生人才，被所谓的人工智能企业招聘进来后，才发现该企业唯一的工作，只是给图像打标签。

👨也真是服了某些企业了！国家要加强对新兴产业的引导和监管才是呀！

🤖️没错，说到监管，我想告诉你的是，这样打了标签，然后把标签和数据丢进GPU让机器自己归纳总结、自动提取特征的方法，叫做‘监督学习’。

👨‘监督学习’，也就是说，还有‘无监督学习’咯？

🤖️当然！

👨那快跟我讲讲吧！

🤖️哦，不，我今天思考的问题太多了，GPU散热太严重了，为防止芯片烧坏，我想静静了。咳咳……进入休眠模式……

👨喂……喂……你咋说休眠就休眠了呢！真是的~

欢迎互动

《素为求智录》明天将继续连载，欢迎添加“小素机器人”的个人微信号 Lawup1 ，找到志同道合的小伙伴，大家一起来聊‘法律和人工智能’，你们的真知灼见将有机会出现在后续的连载中哦~

【文章仅代表作者观点，配图来自网络】

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间