点击上方“深度学习大讲堂”可订阅哦!
编者按:深度学习中最经典的卷积神经网络,其命名的初衷,即是向人脑中的神经网络致敬。而深度学习的提出,在很大程度上,也是受到了大脑的启发。然而,深度学习是否类脑?目前并没有统一的认识。对深度学习的类脑机制研究将有助于加深理解深度学习。
本文中,来自中科院自动化所的何晖光研究员,将从视觉信息编解码的角度出发,建立人类视觉系统与外界视觉刺激信息之间的映射模型,探索大脑视觉信息处理的过程和机理,希望利用机器智能实现对人类视觉感知功能的模拟,从而提升计算机处理视觉信息的能力。大讲堂特别在文末提供文中提及所有文章以及模型代码的下载链接。
深度学习是否类脑,目前并没有统一的认识。我将从视觉信息编解码的角度来介绍我们关于深度学习和类脑的思考。
我们通过fMRI信号,建立人脑响应与外界视觉刺激信息之间的映射模型,探索大脑视觉信息处理的过程和机理。与此同时,我们还将研究深度学习所得到的视觉特征与大脑视觉信息处理的关系,理解各层特征在大脑皮层的神经表达,并利用深度学习建立视觉信息的神经编解码模型。最后介绍我们利用多视图贝叶斯深度学习从fMRI信号重构图像的工作。我的汇报包括以下几个方面的内容:
研究背景
国内外研究现状
研究内容和研究结果
总结及展望
研究背景
众所周知,视觉是至关重要的,人类从外界接收的各种信息中,约80%是通过视觉系统获得的。因此,视觉研究一直是热点问题,近年来有关视觉的报道如雨后春笋般涌现。
计算机视觉 VS 人类视觉
近年来,计算机视觉的研究取得了极大的进展,在目标检测、分类、识别等各领域已有很多优秀的工作,但是它依然难以处理复杂背景下的物体识别。相对而言,人类视觉具有高效、鲁棒、抗噪等特点。因此,一个自然而然的想法就是:
——如何将人类视觉特性引入计算机视觉模型呢?
——我们考虑从视觉信息编解码的角度来尝试回答这个问题。
基于fMRI技术研究人脑视觉编解码机制
最近fMRI(功能性磁共振成像)技术发展迅速,它可以无损地检测大脑活动。我简单介绍一下fMRI的成像原理:
人类大脑接受外界刺激会引起神经元的兴奋,导致血液内含氧血红蛋白的增多,通过MRI(核磁共振成像)可以检测出这样的信号,从而检测出兴奋的区域,比如说话时语言中枢会比较兴奋,当接受视觉刺激时,视觉中枢会比较兴奋。
这是fMRI的一个实验步骤:人躺在共振成像的设备中,通过投影设备给他一些视觉刺激和任务,可以得到分别在静息和受刺激时的大脑反应,通过二者状态的差值能够检测出受刺激时相关的大脑反应区。
编码和解码是什么样的过程呢?
比如针对一个刺激S,大脑会有一个响应R,建立从刺激S到响应R的映射关系过程就是一个编码过程,当提供一个新的刺激时,就能够据此预测大脑的响应;反而言之,如果已知大脑响应,去推测受到什么样的刺激,这就是一个解码过程。解码过程可以看作是编码过程的一个逆过程。
如果建立一个好的编码模型,可以通过模型求逆得到解码模型,当模型不能够求逆时,可以通过最大后验估计或者贝叶斯估计来推出解码模型。因此,编码是一个非常重要的步骤。
国内外研究现状
2001年Haxby在Science上发表了一部分工作,通过fMRI实验,他将颞叶皮层的激活模式作为特征,对客体进行分类识别,在一些物体上达到了90%以上的分类准确率。后来有人在脑电上进行了类似的分类工作。
在客体识别上,UC伯克利的研究组利用Gabor金字塔建立了从图像到大脑信号的模拟V1感受野的模型。当接收到一个新的fMRI信号后,将信号和感受野模型的预测结果进行匹配,在120多张图片中可以达到90%以上的正确率。
Miyawaki发表在Neuron上的一个工作,进一步做了视觉信息重建,在客体分类和客体识别的基础上,重建出人类所看到的图像细节。
更进一步,Nishimoto组通过能量编码模型,可以大致重建出视频中物体的轮廓信息。
这是Gallant(神经科学家)在CVPR15上介绍的一个语义重建工作,Gallant是神经科学家,但是却受邀在CVPR上做KeyNote,这也反映了计算机视觉有必要与神经科学加以结合。受试者观看一个视频,同时采集他的fMRI信号。通过分析他的fMRI信号,就可以预测出人所看到的视频中包含的重要语义信息。
他们(Gallant组)发表在2016年Nature上的工作提出了几个重要观点:语义信息是在整个大脑皮层上都有响应的,且他们在不同个体上具有某种共性。
目前视觉信息编解码研究中的局限:
以上这些之前的研究取得了一些成绩,但是存在一定的局限性:编码较简单,如Gallant采用Gabor金字塔建立感受野模型,Mayawaki采用不同尺度的小方格来逼近视觉感受野。这只适合于初级视觉皮层,他们对高级视觉皮层,以及视觉皮层之间相关性信息的研究还不够。由此需要层次化的建模。
由于深度学习是一个层次化的模型,自然想到应用它来解决此问题,但是深度学习内在理论的研究还不完善,它常被当作黑盒子来使用。
研究发现,深度学习的层级特征和大脑皮层之间有一定的对应关系。比如,低层的Gabor滤波器类似于V1区识别图像中像素级别的局部特征,例如边缘信息;高级区域将低级特征组合成全局特征,形成复杂模式,甚至语义级别的信息。而对于中间层的映射关系,还有待进一步研究。
我们拿到了一个国家自然科学基金重点支持项目“视听觉信息的认知计算“,利用深度神经网络来进行视觉信息编码和解码,由此探索深度学习的类脑生物基础,并在一定程度上解释大脑视觉计算的机制。通过对视觉信息的编解码,引导深度神经网络建模。
研究内容和结果
我们的工作从几个方面展开:一方面,利用深度学习对图像进行分解,观察分解的特征在大脑皮层上的表达;另一方面,通过深度学习,进行视觉信息的神经编解码,理解人类视觉信息加工的特征空间以及在大脑中的组织规律,然后利用大脑的编解码来引导深度神经网络建模。
我们可以进行特征对比(比如将低层特征和fMRI特征进行对比)和特征选择,将其用在图像分类、检索和重建上。
特征表达
我们利用CNN对图像进行分解,得到不同层次的特征,然后观察不同层次特征和大脑体素信号的对应关系,由此可以建立体素的感受野模型,相当于特征在大脑皮层上的一个表达。
自编码模型用于神经信号编解码
很自然地想到CNN的自编码模型,输入图像通过CNN编码,可以在中间层得到图像的特征,然后通过反卷积重建出图像。因此,如果能够建立图像特征和大脑皮层响应关系,通过皮层响应就能重建出图像。这里涉及到两种方法:第一种,先做自动编码,再把中间层和大脑信号做一个回归。第二种,将自编码和回归同时进行。
通过建立上述模型,从图像到BOLD信号是一个编码的过程,从BOLD信号重建图像是一个解码的过程,这是在CNN框架下的一个工作。
多视图生成式自编码模型
考虑到“多视图”这个因素,也就是说,我们得到的视觉直观图像和大脑对其的响应具有一定的差异性,这两个view之间也具有一定的关系,我们需找到这两个view之间共同的表征,以便对其重建。
通过该通道,从图像到BOLD响应是一个编码过程。
通过该通道,从BOLD信号到图像的预测,就是一个解码的过程。
在这个框架下,我们给出了概率图模型和待优化的目标函数。
多视图生成式模型
这是我们的实验结果。第一排是原始的刺激,中间是其他人的一些方法和结果,最后一排是我们的结果。我们在三个数据库上进行了实验,结果表明,我们对数字、符号、字母的重建效果远高于其他方法。
我们还进行了一些定量分析,分别比较了相关性、重建误差、结构相似性,还对重建后的图像进行了分类,实验表明我们的算法对数字的分类正确率达100%,对字母的分类准确率也远高于对比方法。
卷积网络与人脑视觉皮层的功能对应
前面讲的是重建方面的工作。我们还尝试探索了深度网络与人脑视觉皮层的功能对应性。研究不同脑区和卷积层的对应关系。比如我们进行了量化的研究,上图右边是深度神经网络的第一个卷积层的感受野,由此推算出人脑视网膜的拓扑映射结构,左边是体素分布。
我们还探索了视觉皮层层级之间的联系。研究表明V1,V2,V3,V4之间有比较高的相似性,V3a和MT区也有比较高的相似度。虽然V3和V3a在解剖上距离很近,但是它们的相似度较低。这是因为V1,V2,V3,V4与客体识别相关,而MT和V3a区对运动信息更加敏感。
总结与展望
最后,对我们的工作进行一个总结。我们提出了一个基于多视图生成模型的重建框架,这个框架具有很好的扩展性,它可以挖掘不同模式之间的共同表征并建立两者之间的关系,这样使得Mind Reading成为可能。我们还研究了深度特征在大脑皮层上的表达,但是现在的研究还存在一些局限性,比如自然图像刺激的fMRI样本量很少,所以目前只能在数字、字母、符号上有较好的重建效果,对自然图像的重建效果还有待研究。而且,目前采用的是静态编解码,下一步将采用动态编解码,比如利用RNN,LSTM。此外,我们认为解决编解码问题的方法可以借鉴机器翻译中的对偶学习思想。值得一提的是,将VAE和GAN结合也值得尝试。
这个工作受到了基金委的支持,其中的主要工作是我的博士生杜长德完成的,谢谢。
文中引用文章的下载链接为:
http://pan.baidu.com/s/1i4JSId3
致谢:
本文主编袁基睿,诚挚感谢志愿者杨茹茵对本文进行了细致的整理工作
该文章属于“深度学习大讲堂”原创,如需要转载,请联系 astaryst。
作者信息:
作者简介:
何晖光,中科院自动化所研究员,博生生导师,中国科学院大学人工智能学院脑认知与智能医学教研室主任、岗位教授,中科院青年创新促进会优秀会员。中科院脑科学与智能技术卓越中心团队成员。中国图象图形学会视觉大数据专委会及机器视觉专委会常务委员,IEEE高级会员,CCF-CV专委会委员。分别于1994年(本科),1997年(硕士)毕业于大连海事大学,2002年在中国科学院自动化研究获博士学位。曾在美国罗切斯特大学、加拿大滑铁卢大学、美国北卡大学教堂山分校做博士后、高级研究学者。何晖光博士先后主持5项国家自然科学基金(包括国家自然基金重点项目)、2项863项目等,先后获得国家科技进步二等奖两项(分别排名第二、第三),北京市科技进步奖两项,中科院首届优秀博士论文奖,北京市科技新星,中科院”卢嘉锡青年人才奖”,中科院青促会优秀会员等荣誉称号。任国家自然科学基金, 国家863计划以及科技部国际合作项目的评审专家。其研究领域为脑与认知科学,模式识别,医学影像处理,脑-机接口,计算机图形学等, 其研究结果在NeuroImage, Human Brain Mapping, Pattern Recognition, MICCAI等相关领域的国内外核心期刊以及国际主流会议上发表文章一百余篇。
VALSE是视觉与学习青年学者研讨会的缩写,该研讨会致力于为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。2017年4月底,VALSE2017在厦门圆满落幕,近期大讲堂将连续推出VALSE2017特刊。VALSE公众号为:VALSE,欢迎关注。
往期精彩回顾
欢迎关注我们!
深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
中科视拓(SeetaTech)将秉持“开源赋能共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。
中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com
中科视拓
深度学习大讲堂
点击阅读原文打开中科视拓官方网站