查看原文
其他

计算机视觉:就在你我身边

2016-06-06 果壳实验室 微软研究院AI头条



欢迎关注微信公众号:微软研究院




在一个网页上上传自己的照片,让电脑判断自己照片中看起来的年龄,这款名叫How-old.net的应用在2015年红爆了社交网络,一时间刷爆了各个社交网络平台,在全球风靡,即使是平常对自己外貌再不关心的人也不介意花上一分钟测测自己照片中显示出来的年纪,虽然结果并没有百分之百的准确,但是科技与诙谐结合带来的新鲜感,让众多网友对这个简单的应用爱不释手,也让不少人对计算机视觉技术产生浓厚的兴趣。




这款应用是微软Build 2015开发者大会的衍生品,据说是两个技能爆表而又闲得无聊的工程师用了两天的时间,基于Azure云里的微软认知服务 Face API 等API识别照片中的人脸和特征,实现了整个应用的功能。

 

事实上,仅用两天时间开发出来的How-old.net,背后有着微软亚洲研究院数十年研究结果的积累与沉淀。近几十年来,计算机视觉技术从研究领域到工业应用领域,已从最初的冷门发展到今天的炙手可热。在微软亚洲研究院建院之初,计算机视觉应用非常少,很冷门,然而微软亚洲研究院成立的第一个研究小组却是视觉计算组,成了这个计算机视觉领域的先行者。


事实上,仅用两天时间开发出来的How-old.net,背后有着微软亚洲研究院数十年研究结果的积累与沉淀。近几十年来,计算机视觉技术从研究领域到工业应用领域,已从最初的冷门发展到今天的炙手可热。在微软亚洲研究院建院之初,计算机视觉应用非常少,很冷门,然而微软亚洲研究院成立的第一个研究小组却是视觉计算组,成了这个计算机视觉领域的先行者。



1
从获取图像到读懂图像


计算机视觉是从图像和视频中提出数值或符号信息的计算系统,更形象一点说,计算机视觉是让计算机具备像人类一样的眼睛,看到图像,并理解图像。


在计算机起步阶段,就有人觉得计算机应该具备“眼睛”,能够看能够理解。20世纪50年代末,图像增强第一次应用在对太空和航拍图像进行处理方面,人们开始发现计算机视觉真的可以应用。60年代初,模式识别在计算机视觉领域得到广泛的应用,例如字符识别等应用成了模式识别的经典应用。到了60年代末,有个麻省理工的博士生第一次从图像中提取出三维信息,把一个实体的物体从二维图像中提出来。随后,麻省理工学院在70年代成立了机器视觉的研究组,并且开设了相关的课程。



从70年代到现在,40年间计算机视觉得到迅速地发展,许多计算机视觉的应用出现在了生产生活领域,例如对道路交通等自然场景进行数字化分析、OCR应用在邮局分拣信件以及手写体的支票、人脸识别的门禁……期间,多视图几何和图像分割、视觉跟踪和运动分析、大型图像和数据库等研究对计算机视觉起了很大的推进作用。到了2011年,人们才真正发现计算机视觉的巨大商业价值,这一年以Kinect为代表的3D摄像传感器出现在公众的视野内,人们发现计算机不仅能看见,能够理解动作并实时做出反应。


然而,计算机识别的准确性始终是计算机视觉应用的瓶颈,直至2012年,基于深度学习的图像识别技术出现,极大地提高了计算机视觉的识别精确度。这些算法的可靠性促进了工业界的应用,比如车牌识别、游戏中的动作追踪、疾病监测等。





2
深度学习变革图像识别领域


在2012年深度学习技术出现后,识别的错误率有了突变性的改变,但是错误率降到一定阶段之后,再降下去就非常困难了。而且,计算机难以跟上环境变化的节奏,一旦光线和角度等环境因素发生变化,就会误识。以人脸为例,最初研究者试图将人脸想象成一个模板,用机器学习的方法掌握模板的规律,然而人脸虽然看起来很固定,但角度、光线、打扮不同,样子就有差别,令模板难以匹配所有人脸。人脸识别的核心问题在于,如何让计算机忽略同一个人的不同时刻的差异,又能发现两个人之间的差别。人工神经网络技术的引进是计算机视觉超越模板识别的关键。



微软获得2015ImageNet大规模视觉挑战赛冠军


2006年,有研究者发现多隐层的人工神经网络一方面具备更优异的特征学习能力,另一方面能通过逐层初始化克服机器学习的训练问题。但是,通常神经网络仅能做两三层,深度越深越不稳定,无法算出结果。2012年多伦多大学的研究者在神经网络研究有了一个新突破,将神经网络做到8层。2014年剑桥大学的研究者把深度升级到19层。2015年,微软亚洲研究院的研究员们基于残差学习,将深度提升到152层,凭借深度神经网络带来的准确识别能力,微软在2015的 ImageNet 大规模视觉挑战赛中以绝对优势获得图像分类、图像定位以及图像检测三个主要项目的冠军。 



3
物体检测的新突破



物体检测


在图像识别中,物体检测是人类从做计算机视觉开始便怀揣着的梦想——拿到一张图可以辨别里面有什么东西、在哪里?在微软的识别技术中,不仅能高准确度判断出有没有某件物体,判断出在什么位置,甚至还能达到像素级别的物体分割,将图像中的每一个像素属于哪个物体精确地识别出来。


物体检测=定位+识别




视频中的物体分割


4
未来:计算机视觉触手可及


How-old.net 应用火爆社交网络之后,微软又推出了一款“微软我们”应用,用户只要登陆“微软我们”网站,任意上传两张人物照片,就可以获知人脸的相似度。与此同时,更多基于计算机视觉技术的有趣应用也逐渐出现在公众的视野中:可以帮你找到和你长得相似的明星的应用CelebsLike、帮助你鉴别狗狗品种的应用Fetch、识别你的表情并用相应emoji表情代替的应用FaceHero……尖端的计算机视觉技术,正在以诙谐有趣的形象引起公众的兴趣,让公众轻松体验到其中的奇妙。计算机视觉不再是深藏楼阁的技术,而将在生活中随处可见,触手可及。


2015年5月初,微软正式公布了牛津计划(如今已融入微软认知服务中),这是一系列基于云端的与计算机学习相关的智能API、SDK和相关的服务被提供给开发者,开发者不再需要拥有繁复的机器学习等背景也能轻松开发出智能的包括计算机视觉在内的应用,让想法不再只是想法。


https://v.qq.com/txp/iframe/player.html?vid=t0192o82lco&width=500&height=375&auto=0

微软认知服务:Seeing AI应用


萨基博·萨科(Saqib Shaikh)是微软在英国团队的一位软件工程师,7岁就不幸失明,他凭借着自己的不懈努力,成为一位软件工程师。在微软工作时,他参与了微软正在研发阶段的人工智能项目:Seeing AI,这个项目帮助萨科“看见”和“了解”他眼前的世界。在展示视频中,当萨科滑动镜腿时,Seeing AI就可以识别出景象,并通过语音告诉萨科眼前是什么,例如公园中正在玩耍的人,会议室的空位,与会者的年龄、性别以及情绪,帮他读懂餐馆的菜单……这种科幻小说中才有的场景,正在逐渐被实现。这个充满人文关怀的应用,背后正是微软认知服务的开放API提供的强有力的支持。在诙谐之外,微软亚洲研究院的计算机视觉技术数十年的技术积淀已经在生活的方方面面展现出更加实在的价值,而这仅是开始。


本文转载自微信公众号“果壳实验室”(guokr_lab)



你也许还想看:


微软认知服务:人工智能的技术拼图

计算机视觉——让冰冷的机器看懂这个多彩的世界

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠



微软小冰住进微软研究院微信啦!快去和她聊聊天吧。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存