查看原文
其他

视觉识别:“人类,不是我的上帝!”

木易 机器人文明 2020-01-18

关注我们,思考像钟摆,永不停歇


阅读关键词:视觉识别、模式识别、神经网络、深度学习


人工智能赋能传统视觉技术,让原本的机械拍照被赋予了人类对图像特征的分级识别和认知功能,能够快速、精准的识别物体,这一被赋予人工智能的视觉技术被称为视觉识别。

 

在能力上,视觉识别可以应用于对图像,或者视频中的物体/场景的识别、分类、定位、检测、图像分割等功能。在视频监控、人脸识别、自动驾驶、医疗影像、机器视觉、工业自动化等领域都可以得到应用。


 

事实上,在如何赋能机器视觉这件事情上,人类一直想扮演“上帝”的角色,希望机器视觉在人类赋予的禀赋和规则下自成一体。

 

但机器视觉却对人类的这一行径表示“蔑视”,认为人类还不是它的上帝。

 

这个能否成为上帝的故事,还要从“模式识别”说起。

 

模式识别

让机器像人一样进行特征判断


上世纪末,人工智能从图灵机的萌芽到发展已经60余年,但让早期科学家和工程师都始料未及的是,这一创新技术并没有如他们预期那样成几何级数式发展,比如西蒙上世纪五六十年代就认为人工智能在棋牌竞技上可以马上超过人类,但“深蓝”打败国际象棋冠军比他的预想晚了二三十年,现实与理想之间的差距,成为符号学派没落的原因。

 

但即便如此,人们也没有放弃将人工智能创造成“有人躲在盒子里伪装成机器的样子”的理想主义。

 

最先做出挑战的是模式识别,这一方式流行于上世纪80年代,顾名思义,它的主要功能在于发现、区分、检测或提取存在于世界的客观模式。

 

人类在思考问题的时候,不是进行大量数据分析,而是抽象思维。比如,我们之所以能够认出是太阳而不是月亮,主要因为了解恒星是自己发光发热的,而不是因为太阳的大小、形状、温度等等均和月亮不一致而从数据分析得出来的。

 

机器能否学会人类的这种思维能力?模式识别给到的方法是:只要认识这个集合中的有限数量的事物或现象,就可以识别属于这个集合的任意多的事物或现象。这其中的用于推出总体性质的事物或现象,就被认为是模式。

 

想让机器像人一样通过太阳自发光热,而不是通过计算分析判断,超出了计算机科学,延伸至认知科学范畴,包括生理学、心理学,这就要求在智能图像识别这件事情上,除了需要数学家、信息专家、计算机科学家之外,更需要生物学家和神经生理学家对智慧生命体本身的深刻认知,从而通力合作。

 

最终,模式识别的认知流程可以归结为下图:

 

 

图中箭头右边的“集合”,又被称为模式空间,相应的数值或符号则被称为信号。

 

在模式识别框架下,一种被叫做“光学字符识别”的方式被认为是最成功和应用最广的案例。它的识别原理是:利用光学设备捕捉图像中文字的物理特征,同时转换成系统可以识别的数值和符号,就成功“读取”出图片中的文字了。

 

企业界,模式识别上迈开第一步的是IBM,1965年推出元老级产品IBM1287,虽然对语种和字体等还有严苛限制,但已经成为第一个“吃螃蟹”的公司。之后,东芝、NEC等公司也先后在这一领域做出研究,东芝的OCRV595识别率甚至可以达到99.5%。

 

模式识别具有重要意义,教会机器如何对少量物理特征分类识别。但机器本质还是与人类的思维不同,对于隐藏在表象特征之下的潜在逻辑缺乏进一步自认知能力。那么,除了进行纯手工设定分类规则的方式,还有没有更有效率的识别方式?

 

答案是:模拟人类大脑。


神经网络

让机器模拟人类大脑

 

长期下来,科学家发现,像人类一样抓取特征的模式识别,除了在小范围可用,大部分情况下还是难以行得通,这让他们始正视计算机的思考方式究竟是怎样的。得出的结论是:让机器模拟人脑神经网络。

 

和模式识别抓取特征进而分类不同,神经网络是将人脑思考过程的作用机制转换成计算机语言。

 

人脑神经网络有无数神经元,而神经元之间又有无数连接,在大脑接触到新的刺激后,这些连接还可以重新建立或消除。机器模拟人脑神经网络,需要构建类似神经元的节点,再在各节点之间构建不同的通路。

 

如果找到了可行的通路,就弥补了模式识别只能抓取特征而无法识别背后逻辑的问题。在寻找可行通路的过程中,神经元实际上充当了分类器的功能,每个神经元通过长期的试错和反馈来找到更好的终点。


神经网络的运作原理

  

 

人工神经网络的数学本质是一种特殊的有向图,有向图可以由一层或多层节点组成,每一层的节点都通过有向弧指向上一层的节点,每一条有向弧都用一个权值来描述,同一层的节点之间则并无连接。输入层的节点按照有向弧的权值进行函数变换,变换后的输出传递给第二层的节点作为输入;第二层的节点如此这般执行同样的操作,其输出再作为第三层的输出。最后在输出层,哪个节点的数值最大,输入的信号就被划分在哪一类。


 

通过对人工神经网络的训练,负反馈动态调整神经网络的权值,最终让参数尽可能的与真实模型逼近。

 

作为神经网络的重要应用,图像识别的流程是:

 

 

预处理:将原始数据中的无用信息删除、平滑、二值化和进行幅度归一化等。

 

有特征提取:与传统模式识别相结合,充分利用人的经验获取模式特征以及神经网络分类能力来识别目标图像,特征提取须能反应整个图像的特征。

 

无特征提取:整副图像直接作为神经网络的输入,这种方式下,系统的神经网络结构的复杂度大大增加,输入模式维数的增加导致了网络规模的庞大。

 

在结合模式识别的方式下,如前所述对特征的抓取具有较大不确定性,加上模式有可能发生变形,神经网络还需要剔除掉模式变形的不利影响,所以还是在无特征提取的方式下识别率更准确。

 

然而,尽管解决了模式识别所无法解决的问题,神经网络还是有不少局限。

 

有三点决定了神经网络是否能良性运行,达到最终目标:

 

其一,网络结构和节点函数,运行机制符合真实事物的机理才是高质量的神经网络;

 

其二,训练数据的质量和完备性,即使有好的机制,如果训练数据数量不充分、分类不完备,或者数据性质不典型,可能出来的结果也是天差地别;

 

其三,训练方法的合理性,即使前两点保证了,训练方法不合时宜,也会导致错误的结果。

 

深度学习

让机器自己学会规律筛选

 

神经网络带领视觉识别走出用物质器官而非抽象思维认知图像的第一步,深度学习则走出了第二步。

 

神经网络主要模拟大脑神经网络结构,深度学习在此基础上进一步模拟了人类视觉系统中进行视野识别的方式。

 

1981年,生物学家大卫·胡贝尔和托尔斯滕· 魏泽尔因发现了“视觉系统的信息处理方式”而获得诺贝尔医学奖。但事实上,这一发现不仅仅是人类对自身器官认知的重要进步,更因“可视皮层分级”学说推动了人工智能的研究。

 

人类眼睛在识别物体时依照这样的流程:首先看到目标物的边缘,再从边缘特性中提取特征,最后将不同特征组合成相应整体,从而准确区分不同物体。

 

这种识别方式被深度学习学习之后,就形成了如下隐层:


 

相较神经网络而言,深度学习由最多只包含3个隐层扩展至多隐层,基于生理学的抓取也让特征学习能力表现的更为优异。在这些禀赋下,深度学习具备了模式识别和神经网络所不具备的一个重要优势——能够从海量的数据中自动进行特征的提取和筛选。

 

可以想象,如果在一个特征识别的过程中有成千上万的参数,手动设计参数规则会是一个漫长而容易出错的过程。深度学习则可以针对新的应用从训练数据中快速学习到有效的特征表示。

 

这样看来,深度学习已经很神奇了是不?被赋能了人类视觉系统,深度学习就可以在图像识别的道路上无所不能了?

 

还是别过早高兴。虽然深度学习神经网络可是实现多隐层架构,但这个架构要谁来实现呢?是人。每层神经网络的神经元种类和数量要由谁来设计呢?是人。训练算法参数谁来设置和调节?还是人。

 

所以,无论是让机器识别出了猫,还是狗,在机器学习规律的背后,人对它的设定本身还是至关重要的。

 

小结



从模式识别的产生到现在,人类在如何成为视觉识别“上帝”的路上走过了半个多世纪。

 

一方面,在人类对机器的赋能下,机器学会了如何模拟物理特征抓取的抽象能力,但和人类具有逻辑不同,机器是机械的;

 

为解决这一问题,科学家将目光转向通过类人类大脑构造方式构建机器思维过程,创造除了人工神经网络和深度学习。

 

但即便如此,人类还是没能成为它的“上帝”。


本文由“机器人文明”出品

转载请注明出处


可以撩撩群主~拉你入群

长此以往,我们就是朋友了!


往 期 精 选 


一文详解英特尔AI布局
AI顶级大牛吵翻天?三个男人,数度“厮杀”……五年十大收购案,谷歌的”AI野心“从未发现,AI竟然还可以这样玩!(附直通玩耍链接)
一文看懂AI算法(附:2018世界人工智能产业蓝皮书)



我是广告:欢迎给“机器人文明”投稿~

好文请投:tougao@gsi24.com

— 完 —

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存