查看原文
其他

山世光:从视觉计算近期进展“管窥”AI之ABCDE

AI大咖说 AI前线 2020-01-18

作者|山世光
出处|AICon演讲整理
编辑|Emily


大家好!非常高兴有机会来到极客邦AICon大会跟大家做一次分享,刚才泰稳提到大家都说人工智能,事实上在几年前正好是相反的,我是做计算机视觉的,我们通常都不称自己是做人工智能的,现在是“被”人工智能了。


但是从广义的角度来讲,人工智能有非常广泛的话题,计算机视觉就是其中之一。所谓的计算机视觉,其实就是希望机器人能够像人一样去看,通过视觉的方式去了解周边有什么样的东西,以及正在发生什么样的事情。


所以今天,我从视觉智能的角度,来跟大家分享一下这一领域的最新进展及其背后技术,还将讨论现在所流行的技术对于整个人工智能未来的发展是否足够。

更多干货内容请关注微信公众号“AI前线”,(ID:ai-front)

开门见山,我们知道图像和视频,本质上是通过相机或者是摄像机对周围世界进行采样的结果。

那么计算机视觉,即是对摄像头、摄像机捕捉到的视频内容进行分析的技术,这一过程十分类似于人类的眼睛探索世界的过程,眼睛是通过光的感应对世界光进行采样、再对内容进行分析。

一幅数字图像到计算机里面变成有很多像素组成的数据矩阵,每一个像素有红绿蓝三个分样 。计算机视觉,就是从W×H大小的图像里面分析图像的 内容,包括边界、区域、事件、意义等等。

我们人是如何看见的呢?其实我们人类的“看”和“见”是两个不同的过程。“看”就像摄像机拍照一样,是眼睛通过视网膜的成像完成的:视网膜有大量的非常复杂、稠密的感光细胞,这些感光细胞可以对物体表面反射红绿蓝三个分量测量它的强度,而“见”,则是眼睛采集到信号后,大脑对这些信号进行分析的过程,这部分工作是在我们的视皮层上完成的,大概有两个通路,一个是what通路,一个是where通路。

我们进一步细看,人的大脑是由大约860亿量级的神经细胞组成, 这些神经细胞在大脑中又分成了不同的脑区,脑区又分成了不同神经细胞的互联。对图像内容的理解是在视皮层处理完成的,而此过程则涉及到多个脑区,涉及到两个通路 。


我们来仔细看看其中每一个神经细胞在做什么。我们在大学和高中的时候都学过一点点神经系统知识,一个典型的神经细胞,特别是感觉神经细胞,它通常来说会有这样一个结构:有一个像树根一样的树突组成,这些树突连接到细胞体,细胞体上面还有一个轴突,就像树干一样,树干的顶端有各种各样的神经末梢,一个神经细胞会与数千个其他的神经细胞相连,而这些神经细胞与树突的神经末梢相连,以与外界传递信息。而这个神经细胞在把这些信息汇集之后做决策,或者是支持某一个决定,或者是反对,或者是弃权。

如果支持自己兴趣的决策会发电,那么如果与这个神经细胞轴突相连以接收到信号,会发生什么呢?在上世纪六十年代,1959年前后两位神经科学家做了实验,在一只小猫的初级视觉皮层,把它的视网膜感光细胞所接收到的光信号,传递到神经视皮层区域最初的细胞上,科学家找了其中一个神经细胞,然后把电机插到神经细胞的轴突上去测量神经细胞在什么情况下会放电,他们发现当给这只小猫看一个特定的画面时,该神经细胞会放电。那么,这个画面是什么呢?是一个黑色的背景上面有一个斜向45度的亮条,当这只小猫看这个图案的时候该神经细胞会放电,如果你给它一个水平或者是竖直的亮条该细胞就不会放电,或者不在这个位置上也不会放电。


这个实验具有非常大的开创性,大家可能都想象不到,在1980年的时候有人以这个工作为基础获得了诺贝尔奖。


其实它告诉我们,我们大脑里面每一个神经细胞其实都有一个特定的功能,比如像刚才提到的神经细胞是专门检测斜向45度边缘的,而后来,他们慢慢发现,还有其他的神经细胞可以检测其他类型的信号。推而广之,其实我们可以想象在我们的大脑里面甚至会存在神经细胞对几个东西感兴趣,进一步推广我们的大脑里面也许存在祖母细胞,这个理论被称之为祖母细胞理论,当然这个理论最终被证明是不完备的,因为显然不会只有一个细胞对你的祖母感兴趣,可能有一群对你的祖母感兴趣,这是一个更加分布式的系统。否则的话当这个神经细胞挂掉的时候,你就失去了对你祖母所有的记忆,这显然不会是一个好的系统。


这样的结构对我们设计人工神经网络带来了怎样的启发呢?事实上,深度学习,其实是上世纪八十年代中后期多层神经网络的复兴。

在上世纪八十年代,甚至更早的时候,计算机科学家就已经提出一些单神经元人工计算模型,一个典型的人工神经元计算模型,与刚才提到的人脑中真正的神经元非常类似,也是一个神经细胞接收若干个输入、对这些输入进行加权处理、并最终做出反应的过程 。以这个神经细胞为例,有N个不同的输入给它,每一个输入会给它一个权重,通过加权求和的方式得到一个结果,再判断这个结果 是否大于某一个设定好的阈值,如果大于阈值就放电,否则就放电,当然我们会做一个非线性函数的处理,来对加权求和的结果做一个非线性处理。


我刚才提到有大量的神经细胞进行互联,那么互联的时候它们在做什么呢?首先来看一下人或者是生物的神经系统里面,有一个层级感受野的概念。

也就是说一个神经细胞会站在其他大量神经细胞的基础上做决策,这就非常像我们社会从个人到家庭、到社区、乡镇、县、市、省、中央这样的层级的机构,每一级往上走的时候,金字塔越上层的节点视野越大,他们完成的任务也更复杂。事实上在神经科学里面不同的颜色代表了这个神经细胞视野的大小,红色是非常小的,到蓝色的时候大概是七度的视野。


也就是说,大脑里面的每一个神经细胞能够看到画面的大小是不同的,反应到图像上去就是不同尺寸的像素区域 。在这样一个通路上,越靠近眼睛的神经细胞,它的感受野就越小,越往深层次走它的感受野越大,它完成的功能从最开始边缘的亮点到越来越复杂的图形,甚至到最后我们可以找到一些神经细胞检测车轮或者是眼睛等部件。

我们对应到计算模型上去,刚才提到单一的神经细胞完成加权求和、以及非线性激活,那么如果把这些单一的神经细胞进行层级互联,层层向上传递,最终其实就是我们所谓的深度学习的结构。而深度学习中的“深度”,即是指连接的层次多。

通过这样一种方式,我们得到一个多层神经网络, 把数据矩阵输入到网络处理以后得到我们期望得到的结果,这一过程,也就是我们所谓的“黑盒子”深度学习。

而在计算机视觉领域, 最典型的深度学习方法就是卷积神经网络。2012年,卷积神经网络在计算机视觉领域的众多问题上都取得了非常好的效果, 其设计非常符合刚才我讲的层级提取过程。上图给出了卷积神经网络的结构,其过程包括:卷积、采样、非线性激活、卷积、下采样、以及全连接。其中,卷积其实就是加权求和的过程,而在任意两层每一个神经细胞之间都有一个全连接的过程。

在图像领域,所谓的卷积是什么呢?其实就是刚才所说的加权求和的过程。在进行图像处理或者图像分析时,设计一个滤波器对应权重矩阵,将该矩阵放在输入图像上,与对应位置的像素加权求和,这个过程我们定义为卷积。本质上,卷积就是滤波器,而其在最底层所完成的功能,就是之前提到的那只小猫的神经细胞所做的事情--边缘提取,我们称之为局部特征提取器。

具体的计算过程如下:输入一张图像,由于具备红绿蓝三通道,因此使用三个5x5的滤波器,也即包含5x5×3,共75个值,提取特征后得到了一个激活图。

结合前一张PPT讲的内容,这一层结束得到了28×28×6的激活图。

而深度学习中所谓的“深度”,是通过分层来获得的。得到28x28x6的激活图后,在下一层将滤波器换成5x5x6,重复前序操作。通过不断重复此过程,最终形成一个卷积神经网络。

其实这里卷积的过程,与过去在图像处理和图像理解领域使用的滤波器类似。那么,它和过去的不同是什么呢?

在过去的特征提取时,采用的是人工设计的权重,我们对输入波形的变化进行调制,得到了输出的波形,这一过程中使用的每一个权重系数,都是人为根据正余旋波计算出来的。

而卷积神经网络中,5×5×3中的每一个权重不再是人为设计出来,而是通过神经网络的训练学习而来的,这是和过去非常大的不同。


虽然在底层,我们学出来的权重系数和从前人工设计出的权重系数是类似的。然而,由于权重形成的模式越来越复杂,已不再是过去人工的方式可以设计出来的。这也是过去人工设计方式极大的缺陷,即,很难设计出非常复杂的权重模式。

事实上,卷积神经网络并不是新鲜的事物,早已被应用于美国邮政编码的手写数字识别系统,并取得了非常好的结果。1998年,LeCun在手写数字识别的基础上,进一步做英文字母的识别,在这篇文章里,卷积神经网络这个概念被提出来。

我们简单回顾一下1980年的工作,它的计算非常类似于现在卷积的操作。

到1989年的工作做数字识别,这里面已经采用了现在广泛采用的多个卷积和层级操作的方式。

直到1998年,卷积神经网络概念被正式提出来,LeCun设计了一个包含两个卷积层在内的总计五层的网络,它在字符识别领域取得了非常好的效果。

接下来介绍2012年带来突飞猛进效果的AlexNet,它需要学习的权重数非常多,到了6000万个参数。然而我们仍对这两位学生充满了敬意。

我们为什么要非常敬佩这两个学生?因为此前做机器学习的人通常不认为这样复杂的系统是好的,有6000万个参数要学习的系统是极其复杂的,从机器学习的角度来讲,是非常容易陷入到过学习状态的,往往使得在计算机上好像效果非常好,但是一旦把这样的模型用到其他测试样本上去,效果就会变得非常差。


所以,在当时他们敢于尝试如此复杂的模型,而且要学习如此多的参数,意味着需要非常长的时间才能完成学习过程。实际上这两位博士生如果是在今天做这样一个学习,只需要把图像的上半部分扔给一块GPU,下半部分扔给另外一块GPU,然后再结合起来就可以了,但是当时GPU的计算能力还没有那么强大。

从1989年到2015年,神经网络经历了一个层数由少至多、层级由浅至深的过程,总体来说它的复杂度越来越高,事实上这也给机器学习领域带来了很多新的挑战。


因为过去机器学习领域对于复杂模型的理论是不足的,过去甚至认为,在处理一个具体问题时,应尽可能采用相对简单的模型,然而事实证明,相对复杂的模型现在看来也有着非常好的效果。

从2012年之后出现了非常多新的模块,包括对卷积层进行增强的方法,当然我们华人做了更多的贡献,在不同的计算机视觉任务上都取得了非常好的效果。


这样一些新的神经网络给计算机视觉带来什么样新的变化呢?

比如说在图像分类任务上,2011年是26%的错误率,2012年用八层的卷积神经网络错误率下降到16%,到现在大概是2%左右的错误率。在五年左右的时间错误率下降到了1/10。

在物体检测任务上,例如把照片中的人、车等两百多种物体找出来,该任务在2013年没有用深度学习的正确率是23%,2017年深度学习在同样的任务上做到了73%的正确率,大概有三倍多正确率的提升。

在更多的问题上,例如人脸检测、车辆行人检测等等任务上,我们都取得了非常大的进步。

我们的技术可以实现对行人车辆的检测、跟踪、属性分析等,这也是所谓“天眼系统”所采用的技术。

我们的无人机视觉技术,在500米高空上拍地面上的车辆,用检测框的颜色来区分车辆的类型,我们可以准确的检测出桥上大量的车辆。

我们希望能够分割出图片中哪一块是路面、树木、天空,在深度学习极大的促进下,正确率现在提升到86.9%。

这个任务我们称之为看图说话。


给机器一张照片,生成一段话来描述照片里面的内容,这件事情在2015年之前几乎没有人做,几乎看不到文章,但是在2015年之后出现了很多文章在做这件事情。


在某些数据集上,甚至机器生成的句子比人写出来的还要好,会让你无从判断到底是机器生成的、还是人写成的。它实现了计算机视觉图像内容和自然语言之间的联姻,使得我们可以了解或者认识图像、声音、语言等等不同的信息,赋予我们在同样语义空间里面对他们进行理解的可能性。

类似的问题是视觉问答,给一张照片以后问一个问题,系统自动回答盘子里面有什么菜、或者在画面里面谁戴了眼镜等等这样一些问题,这也可以和语言进行结合。

当然采用的方法是以语言为基础的,机器翻译也受到了深度学习极大的影响,2016年、2017年对机器翻译带来的提升是非常大的,这个问题和语言领域的进展是分不开的。

还有一个非常有意思的应用,对图像风格的转换。

比如说我们把一个人的头发变成黑色,然后再把它准确地变回来,通过使用生成式对抗网络,在很多问题上都取得了非常好的效果。左边是系统输入的照片,右边用该方法生成出来的,可以看出,无论是加刘海、还是改变头发的颜色,我们都可以做到以假乱真。

甚至可以实现对照片风格的转化,比如说把莫奈的油画变成看起来像照片,再比如把马变成斑马,甚至把一幅冬天拍的照片变成夏天拍的照片,这种转换跟深度学习是直接相关的。

着重强调一下,还有一个受到极大影响或者是极大促进的领域,就是人脸识别。

上图描述了人脸识别的快速流程,本质上就是要比较两张照片里面的人是不是同一个人。


过去我们大概采用这样几个步骤:第一步先找到脸在哪里,第二步找到面部的五官,我们找到通过预处理或者对齐找到标准照,眼睛和鼻子、嘴尽可能放在合适的位置,我们把这样一个照片变成一个向量,接下来计算上下两幅照片对应向量Y1和Y2的相似度,如果相似度足够大我们认为是同一个人,否则我们认为不是同一个人,这是人脸识别典型的流程。



在深度学习出来之前,人脸识别领域一直像是闭关锁国的小国家。做人脸识别的人基本上不看其他做计算机视觉的方法,因为那些方法在人脸识别上不好用,所以我们都是自己做自己的方法、特征和分类器。但是深度学习来了之后,在各个模块上全面的采用相对更加通用的深度学习,特别是卷积神经网络。


我们回过头来看一下人脸识别的技术。

在深度学习之前大概有三代技术:第一代技术就是人去设计一些特征;第二代是认为人设计的不好,我们找一个线性变换,在一维变换中,大家想象就是y=Kx,而对于二维图像,W就变成了矩阵,y=Wx,所谓的变换就是我们在图像空间里面找一个W变换,使得在这个空间里面不同人的照片能够分的开,同一个人的照片能够聚到一起,这是我们找W的目标设计。


我们发现第二代的技术也不够好,后来我们又回过头来,人还是要设计特征提取器,类似于卷积或者我们称之为滤波器。然后,在人为特征提取的基础上,再做第二步线性变换,试图找到一个低维的空间,使得同一个人的照片能够聚在一起,同时不同人的可以分开。

深度学习出现之后,变成了直接学习从输入空间到低纬特征空间的变换。我们再回顾一下这四类不同的方法,第一代实际上是人作为专家设计出来知识驱动的方法;第二代是数据驱动的方法,通过数据来学习一个W变换矩阵;第三个代是结合了前两代,首先人设计一些特征,在此基础上又通过数据驱动来学习W变换;第四代是完全数据驱动的方法。

深度学习在图像分类任务上取得非常好的结果之后,FaceBook以及谷歌通过对大量数据的学习,都把卷积神经网络应用到人脸识别的特征提取上,大家可以看到谷歌采用了800万人2亿张照片的数据库进行训练,在LFW数据集上取得了超过人类的识别精度。

如果我们回过头来看过去的技术,特别是第三代技术,我们采用了人工设计的局部特征,特别称之为滤波器,过去一般采用5×8总计40个不同的卷积核,得到如左图所示的滤波器,然后对图像进行卷积,卷积结束之后我们再做融合的方式,左下的图像显示的就是权重信息,是人工设计出来的。


而右图展示了通过训练的方式学习出来的权重信息,我们可以看到,深度学习在底层学习到的滤波器,与人工设计的滤波器是非常相似的,但是到上层的滤波器,则含有了越来越多的语义信息,使得我们能够更好的提取有效特征。

深度学习给我们带来的进步,并不仅仅表现在特征提取上,过去,我们的特征定位一定要有预处理的步骤,现在我们发现人为设计可能不够好,所以统统交给机器自己去学习,学习如何在人脸检测的基础上直接进行特征提取。

今年有一个工作,甚至不需要再定位五个(或者多个)关键特征点,把人脸检测框中的人脸直接输入给神经网络进行学习,这样得到的效果反而更好。

大家现在深刻体会到人脸识别在日常生活当中的应用,如果大家有iPhoneX的话就知道它的人脸非常好用,它的错误率是万分之一,因为它是最简单的人脸识别的应用。

为什么说它是最简单的人脸识别应用呢?因为它的传感器和注册方式是在人脸识别里面最容易的场景,它的传感器是红绿蓝,用来做照片的防伪和防攻击等等都相对比较容易。

事实上人脸识别有不同的应用场景,大概有三大类十几种小的不同的场景。

比如说在1:1的场景下,判断张三是不是张三这样一个问题上,也有不同的应用情况。

比如说我们坐高铁的时候拿身份证验证,大概可以做到一万个人冒充你,有一个人能够成功,不同的条件下正确率是不一样的。甚至包括表面加了网纹,我们将网纹去掉之后跟本人相比是不是同一个人,在这些方面都取得了很好的效果。再比如,拿一张照片看看这个人跟哪些人最像,现在的精度跟过去相比也有了非常大的提高,

当然在不同的场景下成熟度有非常大的差别,最难的场景其实是1:N+1,我不知道他是不是一万人里面的一个,有可能是,有可能不是,在不同的场景下成熟度很不一样。但是如果在一个单位的门禁和考勤场景下,这个技术是非常成熟的。而如果是在公安的黑名单监控场景下,虽然从识别率的角度来讲没有那么高,但至少它是可用的。

给大家看一个例子,这是中科视拓的人脸识别闸机,一个单位几千人不用带门卡即可以完成考勤和刷脸进门功能,2017年我们的人脸识别签到系统,已经成功应用到五个两三千人的会议中。尽管如此,人脸识别还有非常多值得关注的话题。

总结一下,以计算机视觉领域为例,过去我们通过ABC,A就是算法,B是大数据,以及C--高强度的计算能力,使得我们有了越来越好的精度。

也就是说,我们在方法论上或者说是在研究范式的角度,在过去几年中,经历了从人工设计到有监督大数据驱动的转变。

这个方法论在计算机视觉问题上,应该说推动了一大类非线性映射问题的解决。如图所示,用一个数据矩阵x作为输入,我们的目标是要学一个F函数,从而得到我们所期望的y,这个y可以是一个类别,也可以是分割的结果、或者是年龄、或者是某种以向量表达的值。


不管是哪类问题,只要问题能建模,而且有大量的x和y的数据对、或者是训练集,这类问题现在都有希望解决的非常好。

其实深度学习给我们带来更多的是思想的变迁,包括解决非线性问题的方法,包括从过去的人工设计特征到现在的数据驱动学习。


从过去很多时候是分而治之,把一个大的问题转换成小的问题,再对小的问题逐个解决;到现在试图减少人在此过程中的干预,变成端到端的学习。还有一个非常重要的思想变迁,就是数据智能,我们从过去重视算法到现在越来越重视数据,这对于计算机视觉领域的影响是非常巨大的。

我们再看一个物体检测的例子,我们称之为狗屎检测的例子,这是一个非常真实的案例,现在我们正在做这个项目。

有一个客户他们做了巡逻机器人在小区里面巡逻,业主说它没有用,后来终于找到一个痛点的需求就是检测狗屎,以便通知保洁赶紧清理掉,如果没有深度学习,我们大概的做法是这样的:

首先收集很多照片,当然也需要做标注;第二步我们要花很多时间看它长什么样,它有什么颜色,我们绞尽脑汁的设计一些特征,后面用数据驱动的方法做验证。如果这个特征不够好,我们再回到第二步反复的做。

这是过去做人脸检测和行为检测的方法论,大概花了十年左右的时间,还算做的不错,这是一个非常重的任务。如果狗屎检测需要一年,塑料瓶子检测一年,我们就需要很长的时间。


而深度学习时代,我们大概是这样做的:

第一步是花一些时间收集大量的照片,大家说你为什么可以收集这么多,因为我们有数据众包。我们可以非常快速收集大量的照片,我们花非常短的时间挑选深度学习的模型,接下来就交给机器做参数模型的优化。

幸运的话,如果是非常成熟的高手,一旦拿到数据之后,最快一两个星期就有非常不错的结果出来,所以这个时间就缩短到了两个月。

后深度学习时代上述的做法是不是足够呢?我们认为其实是不够的。我们会看到有大量各种不同的物体做检测,垃圾的种类又非常多。如果我们每一种都要这样做的话,对做AI算法的人来说是各种各样的悲剧。

也许我们花几分钟的时间简单到互联网上搜集照片出来,我们希望这样一个过程在几个星期或者几个小时里面完成,当然这个是不是够呢?


我们认为还不够,我们看看人,人踩一次狗屎之后,大概踩第二的次可能性非常小了,我们在几秒钟的时间内完成这样一个过程。

所以对人来说就是ABCD,A和C合起来是大脑,B称之为书里面很多知识,我们也需要数据,当然这个数据肯定不是大数据。如果我们真的看人的大脑,我们会发现人的大脑其实也是需要大数据训练的,只不过大数据训练早已由我们的祖先帮助大家完成了,我们出生之后的大脑其实是进化后的大脑,我们个体在成长发育过程当中,则是利用了后天积累的小数据和知识,对先天进化脑进行调整。


所以这个过程,从方法论的角度来讲,从监督大数据驱动方法论出发,我们最终形成的,还是把数据和知识联合起来驱动的方法论。

那么,计算机视觉是一个已经解决了的问题吗?


我们认为如果只是目前靠深度学习来解决,这样一种方式是远远不够的,比如说计算机视觉很多的问题,检测、分类、分割等等,这些问题都是依赖于大数据的。大家回忆一下刚才讲的目标检测,我们检测精度也没有到90%,事实上我们有数万类的物体要检测,这里面存在一个非常严重的问题。如果我们靠数据来解决,中国人多,我们十个人一组,做一个物体的检测也可以解决这个问题,但其实这是非常不优雅,也是不可能的。


我们看物体的时候,数万类的物体,有一些物体我们可以收集到非常大量的数据,但是有一些物体非常难收集大量的数据,甚至是没有数据的。我们希望能够在小样本的情况下或者没有样本的情况下也能够做计算机视觉。我最近一直在倡导我们要做这样一棵非常漂亮的树,包括我们在零数据、弱数据、小数据、脏数据,当然我们也需要借鉴或者利用一些知识,使得我们能够解决这些小样本学习的问题,以安全帽检测为例,最终我们希望如果能有这样的做法,把检测任务给它,剩下的交给AI生产平台,它先检索网络上的数据,搜索关于安全帽是怎么定义的,然后我们交给算法学习,这也许是一个更加智能、更加自动化的过程。


当然从学术的角度来讲,其实有非常多的小样本学习问题亟待解决,并且出现了不少的方法,大概可以分为如下几类:数据增广、零样本学习、以及小样本学习。

我们从数据的角度可以生成数据,比如通过物理建模或者是图形学的方法来重构。

我们也可以用类似GAN的方法,通过举一反三的方式来做数据增广。

我们可以在跟踪的过程中,实现大量的样本和有标注样本的收集,这是一个自动收集样本的过程。


现在我们做唇读的时候通过大量的语音识别生成文本,然后得到有标注的样本,还可以通过其他的模态自动标注。

此外,还有零样本学习的问题。

零样本学习的思路如下:比如说我们系统里面可能有老虎、有马,但是我们没有斑马。现在我告诉你能不能检测斑马,其实我们也可以采用零样本学习的方法,通过语义空间完成图像空间样本和类别空间之间的连接。

斑马在语义空间里面,因为它长得像马、身上又有条纹。虽然系统之前从来没有见到过斑马,但是我们可以通过零样本学习来实现对斑马的识别,当然所谓的语义空间怎么得到呢?也可能是人去通过属性的定义得到的。


我们也可以假定,语义空间和图像空间在结构上有相似性,所以可以通过对语义空间的学习来实现图像空间与语义空间的转换。


当然对小样本学习可以有更多的工作可以做。所谓的小样本,无论是有语义表示或者没有语义表示的情况下,只要每一个类别有小量的数据,我们就可以通过对辅助数据集的学习,把获取到的知识迁移到之前从来没有见过的类别上去,实现只有少量样本的检测或者是识别。

再比如,这边的物体有大量的样本,那边只有小量的样本,我们如何实现对那边只有小量样本的物体进行检测和识别呢?这可以通过迁移学习的方式来实现。


我们通过学习表达的空间,学习如何去提取一个特征,这个特征可以区分各种不同的物体,既包括这边也包括那边的物体,从而解决这样小样本学习的问题。


我们可以通过充分利用大量无监督的数据,来解决小样本学习问题。

最近两年有一个非常火的概念叫元学习,就是如何学习的方法,它可以用来解决小样本的问题。


虽然我们每一类物体有大量的样本,但是我们用抽样出来小量的样本,寻找到如何学好的方法,再把这一学习的方法应用到小样本学习上去。

当然在理论方法层面,仍需要迁移学习和自主学习等技术带来机器学习的本质的进步。


实际上从其他的角度来讲也是非常重要的,我们看到传感器的进步在很多时候能够带来巨大的影响,比如说摄像机的四高(高清、高速、高动态、高光谱),包括弱信号的检测、主动识别等等都对计算机视觉任务产生非常大的影响。

从计算的角度来讲,如何能够把一些复杂的任务放到端上去,也是非常值得我们关注的,我们相信在未来三到五年的时间里面,可能会有越来越多的事情是在端上的,甚至三到五年之后我们大量的训练任务都会在端上完成,而不是在服务器端完成。


简单总结一下,从视觉智能的角度来讲,我们有一句话叫做,“会看的AI更智能”。


学术界和工业界亟需从知识和数据联合驱动的方法论出发,解决小样本的问题,解决Scalability的问题。我们知道,目前在各种问题上,几乎所有工业界的算法都是基于大数据完成的,但其实本质上,我们也要着眼未来、布局新的可能性。


在这个领域里面有一句话叫做“数据为王”,未来不会永远是这样的,我的分享到此结束,谢谢大家。


如果觉得内容不错,记得给我们「留言」和「点赞」,给编辑鼓励一下!

今日荐文

点击下方图片即可阅读

 跳槽季·机器学习面试不完全指南


活动推荐

QCon北京 2018,我们会邀请从巨头到创业公司,从平台到垂直行业,尽可能多样性的人工智能专家来给大家分享他们所使用的人工智能技术,以及如何将人工智能技术和具体的业务实践相结合。现在报名享 8折优惠,立减 1360元。有任何问题欢迎咨询购票经理 Hanna,电话:15110019061,微信:qcon-0410。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存