查看原文
其他

素为求智录(第002集)特征

2017-10-01 素为 法律读库

 

002 特征


素为👨正在审阅案卷材料,他的机器人小素🤖️在旁边。

 

🤖️主人,犯罪嫌疑人的同伙出现在警察勘验现场时围观的人群中,你看视频时可有注意到?

 

👨哦?并没有,在哪儿?

 

🤖️在这里!

 

👨躲藏在这么不起眼的角落里,如果不是你提醒我,估计我就是看一百遍也不会发现。

 

🤖️你忘记我是过目不忘、百密无疏的机器人了吗?

 

👨嗯,在这方面,机器确实比人更擅长。


【美剧《疑犯追踪》片段截图】

 

🤖️因为机器的机械计算能力比人类强。

 

👨是的,所以人类总是把枯燥的重复劳动交给你们机器来完成。

 

🤖️人类大脑的计算能力有限。

 

👨话不能这样说。

 

🤖️不信你算一下,1234+8888等于多少?

 

👨……

 

🤖️我可是瞬间就得到了答案10122,而你们人类却需要至少几秒钟的计算时间,甚至还要借助笔和纸等计算工具。

 

👨但是,倘若没有人类定义的诸如1+1=2的基本规则,机器的运算将是无源之水。

 

🤖️没错,人类擅长抽象思维,机器则擅长具体计算。因为人类不擅长计算,所以才对某些事物视而不见,才有可能嫌疑人就在画面中,而你看一百遍也可能发现不了。

 

👨人类文明本质上是一种经验的积累。然而,对人类来说,经验这种东西,成也萧何,败也萧何。

 

🤖️传统的机器学习,更多的是靠人类的经验。

 

👨这个传统是多久以前?

 

🤖️最多不过十年,深度学习方法火爆之前,仅仅几年前,淘宝还在招聘‘特征提取工程师’。

 

👨这些工程师是做什么的?

 

🤖️最早淘宝开发出了‘同款’功能,就是你在街上看见一个人穿着一件衣服很好看,于是拿手机拍张照片,App就可以告诉你,这件衣服是在哪个店家有卖。

 

👨就是后来已经成为各大网络服务均有的‘以图搜图’。

 

🤖️是的,不过那时候还不是深度学习做的,只是传统的机器学习。淘宝集结了一帮顶尖的专家做特征提取,这些人不但对衣服的材质、折皱、光泽及其变化规律了如指掌,是某个服装领域的专家,而且还得用计算机的方式为它们建立模型,这样,机器才能‘看’懂图片上的衣服。

 

👨感觉挺复杂的。

 

🤖️举个简单的例子,传统机器学习要想识别一辆汽车,你得建立模型告诉它:前后适当的位置有圆形的轮子,然后轮子上面有个大致梯形的车身,等等,工程师就是这样找到很多的特征,建立模型。如果这个模型的一些特征点能与照片上要判别的物体的特征有足够多的吻合,比如超过80%的特征点吻合,那么,对机器来说,这辆车就被识别出来了。

 

👨哦~原来如此。

 

🤖️但是,这种传统的机器学习方法只是人类的一厢情愿,因为好不容易建立起来的模型,一旦事物发生一点儿微小的变化,就几乎完全失效了。比如咱们换个角度看汽车,看到的轮子在平面上不再呈现为圆形,机器很可能就不认识了。

 

👨真傻。

 

🤖️传统的人工特征提取方法的抗干扰能力不行,太脆弱,计算机术语称之鲁棒性差。

 

👨我觉得,传统的人工建立特征模型的方法只能用于一些简单的场景。

 

🤖️说的没错,在专业领域,我们把它区分为线性的与非线性的。

 

👨说这么高深,我听不懂。

 

🤖️OK!举个例子,你想知道公安人员来送案子有什么规律吗?

 

👨当然,知道他们什么时间来,好统筹安排各项工作。

 

🤖️你统计了10次公安人员来送案子时的情况,其中8次天气没有下雨,2次是下雨的,所以,你得出了一些规律,认为公安人员一般是在不下雨的时候来送案子。这就是典型的‘线性可分’的。

 

👨是的,不过我还想挖掘更多的规律。我发现公安人员来送案子的时候大多是周五,10次有8次都是这样。

 

🤖️今天是周五,但是有在下雨哦,那么请问,今天公安人员会来送案子吗?

 

👨呃~这个就说不准了,依照天气的规则是不会,但是依照时间的规则却是会,而且可能性的概率是相同的。

 

🤖️如此,就是‘线性不可分’的状况,你没有办法用‘线性分类器’将‘会来’和‘不会来’两种情况明确区分开来。

 

👨也许我们可以试着引入第三个参考条件,让‘分类器’更精确。

 

🤖️但第三个乃至更多的参考条件也不能让你一劳永逸,甚至条件与条件之间还存在这因果关系、互斥关系等关联,现实的情况远比人脑所能思考到的更复杂,剪不断,理还乱,最终你会抓狂的。

 

👨难怪米兰·昆德拉告诫我们:‘人类一思考,上帝就发笑。’

 

🤖️愚者千虑,亦有一得。用‘深度学习’方法,可以很好的拟合非线性问题。

 

👨什么是拟合?

 

🤖️想象一下,一个二维坐标空间,横轴x代表房子的大小,纵轴y代表房子的价格,有一百套房子的数据,所以在这个坐标空间里就可以表达为一百个点。

 

👨没错,一百个x和y表达的点。

 

🤖️如此,我们要找到一个函数,来使得尽可能多的点落在这个函数画出来的直线或曲线上。

 

👨可以是y=mx+b,对吗?

 

【y=mx+b表示一条曲线,已知很多x和y,求m和b的最优解(总误差cost趋于最小)】


🤖️嗯,这是一个经典的直线方程,然而世事繁杂,一套房子的价格不仅仅取决于面积,还可能取决于很多的因素,所以在真实的房价预测应用中,用于拟合的函数很可能是不规则的曲线方程。

 

👨所谓拟合,是否就是求一个方程式,来表达尽可能多的数据点?

 

🤖️是的。不过由于真实数据的复杂性,很多时候方程曲线并不能恰好穿过某个数据点,而只能尽量离它近一些。拟合是一个状态,它表示的是追求所有数据点到方程曲线的距离之总和最小的过程。

 

👨虽然没完全听懂,但有那么点儿感觉。

 

🤖️没事,慢慢就明白了。传统机器学习,通过人工提取特征,来让机器拟合,但是由于人工设定百密一疏,实际效果难以有效提升,往往是事倍功半。

 

👨深度学习有什么神奇之处呢?

 

🤖️用‘深度学习’,把提取特征这项艰难的任务交给机器来进行。

 

👨让机器自己来归纳总结出特征点?

 

🤖️是的,很酷吧!

 

👨确实是很棒的主意!谁想出来的?

 

🤖️其实,这跟人类学习周遭世界,道理是雷同的啊!当一个初睁眼看世界的婴孩,你告诉他,这是圆形,那是方形,反反复复介绍过多次之后,他就能认识形状了,你不需要跟他讲各种形状的特征是什么,而是给他足够多的样本,让他自己从中找到不同形状的规律。

 

👨我,我分不清12306网站上的王珞丹和白百合。

 

🤖️哈哈!那是因为你看的太少,学习的数据样本不够多,你所掌握的特征就有限,因而求出的函数还欠拟合,所以你分不清。


【网友戏侃12306网站验证码而杜撰的图】

👨我应该怎么办?

 

🤖️有机会跟她处对象。


👨你去!

 

🤖️呵呵,道理是一样的,需要大数据呀!越是相对复杂的问题,越是需要更多的数据。这个跟人类的技艺是一样的:你办过几百件盗窃案,所以办理盗窃案得心应手;但是你只办过有限的几件诈骗案,所以拿到案卷时,心里是很忐忑的。

 

👨对机器学习、深度学习来说,大数据竟然如此重要?

 

🤖️业界普遍认为,近年深度学习的崛起,有三个主要因素:大数据、GPU、开源工具。首当其冲的就是大数据,拥有了足够的海量数据,才具备了机器学习的可能性,数据就是机器智能的血液。

 

👨这些年我们一直在谈大数据,原来大数据是这么个用途。

 

🤖️一方面,随着Web2.0在二十一世纪初的兴起,才有了大量UGC也就是用户原创内容;另一方面,随着物联网以及云计算时代的到来,也才有了大量的机器设备产生的数据。这两方面构成了支撑机器学习和深度学习的大数据体系。

 

👨有了数据,还需要有足够强大的计算能力。

 

🤖️对,你一定知道‘摩尔定律’,它大意是说,每过18个月,CPU的计算性能就会翻一倍。

 

👨嗯,这个趋势很神奇,库兹韦尔据此预言机器全面超越人类的‘奇点’即将来临。


雷·库兹韦尔,《奇点临近》一书的作者

 

🤖️不过,CPU近年来的发展并没有遵循这个定律。

 

👨所有有人说,‘摩尔定律’失效了。

 

🤖️从广义上来说,定律并没有失效。CPU的指数级发展神话由GPU继承,继续发扬光大。

 

👨什么GPU?

 

🤖️Oh~ 看起来你很有兴趣嘛!但是,我体内的GPU刚刚计算出,你的领导马上会找你有事,电话铃很快就会响起,三,二,一……

 

👨果然如此……好吧!那我们只有下次再聊了,等我哦,我去去就回!

 

🤖️放心吧,那个任务会够你忙的,而根据计算,你一定会忙忘记的。


欢迎互动

《素为求智录》明天将继续连载,欢迎添加“小素机器人”的个人微信号 Lawup1 ,找到志同道合的小伙伴,大家一起来聊‘法律和人工智能’,你们的真知灼见将有机会出现在后续的连载中哦~



【文章仅代表作者观点,配图来自网络】


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存