查看原文
其他

【不再从零开始】微软牛津计划:让每一个智能应用都能说会看

2015-12-17 牛津计划 微软研究院

微信公众号:微软研究院


直到今年四月底的微软Build开发者大会之前,你肯定还不知道微软牛津计划是什么。半年多后的今天,微软牛津计划却已经被每一个有志于开发人工智能应用的开发者们所熟知。今年上半年,火爆全球的How-old.net就是微软的几位工程师利用牛津计划中人脸识别API(Face APIs)开发而成,完全不需要任何机器学习等专业的知识背景,仅需要几行代码,你也能开发出自己的智能应用。


2015年5月初,微软正式对外发布了牛津计划,它由一系列基于云端的机器学习相关的API,SDK和相关服务等组成,旨在让开发人员们不需要繁复的机器学习背景也能开发出跨平台的更智能和更交互的应用。当时,牛津计划率先开放了人脸识别、语音处理和计算机视觉三个部分。10月末,语言理解智能服务(LUIS)对外开放,并提供了中文支持,同时将之前开放的脸部识别、计算机视觉和语音识别SDK加入GitHub。11月,拼写检查和人脸识别的更新内容对外发布,并预告了一系列将在年底发布的新功能。




经过紧锣密鼓的筹备,现在,说话者识别API(Speaker APIs)和视频API(Video APIs)的公开测试版已经推出,自定义智能语音识别服务(CRIS)也已经开放邀请。访问牛津计划官方网站www.ProjectOxford.ai(或阅读原文)就可以第一时间体验最新功能。



视频API:视频稳定、人脸追踪和运动侦测


在目前牛津计划已经开放的一系列API和SDK功能里,关于静态图像的分析技术十分丰富,例如计算机视觉API(Computer Vision APIs),能够对图像内容进行分析,提取图像内的文字等等内容;人脸识别API(Face APIs)则可以进行人脸识别,人脸检测,人脸身份验证等功能;而情绪API(Emotion APIs)则能够识别出人们的面部情绪。




最新开放的视频API(Video APIs)则是牛津计划首次开放和视频有关的智能工具包,目前开放的API能够自动实时的对视频进行分析和编辑,其中包括视频稳定、人脸追踪和运动侦测这三大功能。


视频稳定:事实上,这项技术已经在微软Hyperlapse延时摄影应用上得到了成功应用。视频稳定技术主要解决的是视频拍摄过程中出现的抖动、不平稳的问题,如手持摄影等第一人称视角视频中常见而不可避免的抖动问题等等。用户上传了原本剧烈抖动的视频之后,通过云端对视频进行快速编辑,几乎能实时生成一个更加平稳、流畅与清晰的视频。相信无论是漫步公园用手机记录下的美景,还是颠簸路况的骑行视频,甚至是无人机拍摄的空中镜头,画面抖动的视频都能被处理成清晰的视频,让你可以更好地与他人分享。




https://v.qq.com/txp/iframe/player.html?vid=c017615fwlw&width=500&height=375&auto=0


人脸追踪:这项技术能对视频文件中出现的多个人脸进行持续检测与追踪,并对不同人脸进行信息甄别,以区分不同的人脸。例如亲友聚会的派对视频、安防摄像头拍到的视频等都可以应用于此,找出某一个到多个特定的人脸在视频中的持续动态。


https://v.qq.com/txp/iframe/player.html?vid=l0176o6ppow&width=500&height=375&auto=0


要实现对视频中出现的人脸进行稳定的追踪,背后的技术十分复杂。首先,计算机需要在繁杂的背景中检测出人脸,之后再对已经识别出的人脸进行追踪。在人脸持续追踪的过程中,为了提高追踪的准确性与连续性,人脸追踪技术针对视频文件特性,采用了运动轨迹寻找的方式。例如视频文件中的追踪对象可能出现转身、侧卧等动作,在这些画面中的人脸特征很难被监测到并确定位置,但根据该画面前后人的运动轨迹分析以及其它辅助信息,对该画面中人脸位置进行估计,从而追踪到特定人脸。




同时,人脸追踪技术会对视频中出现的多个人脸加以区分,该功能在鉴别视频文件中的多个人脸方面表现非常优异,视频中的两个人可能擦肩而过,但视频API却不会因此“认错人”。想象一下,想要统计车来人往的十字路口每天都有多少人流量,只需要把监控摄像头的视频上传,系统就能快速告诉你准确数字。


运动侦测:简单的来说,这项功能可以检测出视频画面中有无运动行为等变化。随着各种智能摄像头的大量普及,这项技术在区域安全监控领域有很大的应用。例如,在家庭中,为了让儿童远离厨房等危险区域,可以利用该功能对某一区域进行运动侦测,如果检测到有人或物体(儿童)进入该区域,会及时得到警报提醒。再比如,对门窗区域进行运动侦测,如果有开门翻窗等动静,用户也能得到及时提醒。




https://v.qq.com/txp/iframe/player.html?vid=j0176julg7i&width=500&height=375&auto=0


相比于目前市场上已有的一些提供运动侦测功能的产品,牛津计划视频API中的运动侦测精度更为准确,更为鲁棒。例如它可以有效区分光照改变所带来的画面变化与运动之间的区别,省略了很多不必要的提醒。此外,视频中还可能会出现一些我们并不需要监测的运动变化,如人影的移动,微风吹起的窗帘,户外摇曳的树叶等等,牛津计划视频API中的运动侦测功能可以选择性忽略这些细节,让侦测更为高效和准确。


视频 API作为牛津计划首次开放的视频智能工具包,也是世界范围内首个拥有大规模云服务支持的智能视频分析处理API。微软亚洲研究院提供了此次开放的视频API的所有算法和代码优化,并会在后续的更新中,持续不断地提供更多研究成果和技术支持。微软亚洲研究院首席研究员曾文军表示,“和牛津计划项目组的合作,汇聚了微软亚洲研究院多个研究组在视频、计算机视觉等领域多年的技术累积,此次研究成果的开放能够服务于更多的开发人员和用户,让更多的人们感受到智能魅力。”



说话者识别API:说话者验证和说话者辨识


此次牛津计划开放的API还有另一个重要部分:说话者识别API。说话者识别API能够利用语音来识别用户(说话者)的身份。说话者识别API目的并不在于完全取代其它功能强大的验证工具,而是提供一项额外可选的验证措施,从而进一步提升安全性。此外,说话者识别API还能够提供更优质的消费者服务,例如当消费者拨通客服电话的时候,我们不需要一位人工客服经理对消费者进行繁琐的提问来确认其身份,而是通过简单的语音进行自动的身份识别即可。


说话者识别API技术能够帮助开发人员构建智能化的验证机制,力图在便利性与防范欺诈之间达到平衡。要实现这样的平衡绝非易事。事实上在理想情况下,为了确认身份,需要三个部分的信息:


•用户已知的事物(如密码或PIN码)


•用户已有的事物(安全密钥键盘、移动设备或信用卡)


•用户与生俱来的特征(即生物特征,例如语音、指纹、人脸等)


声音具有唯一性的特点,可以用来帮助识别一个人的身份。在过去几年间,说话者识别系统的性能取得了长足进步。


说话者识别API的使用过程分为两个阶段:录入和识别。在录入阶段中,说话者的声音被记录下来,并从中提取一些特征,形成独特的声纹,作为个人的唯一标识。这些特征取决于说话者口腔和咽喉的物理结构,并且可以通过一个数学公式来表达。在识别阶段,则会将所听到的语音样本与先前创建的声纹进行比对。




说话者识别的两个阶段


说话者识别技术提供了最先进的算法,能够在音频流中顺利识别出人类的声音。它由两个部分组成:说话者验证和说话者辨识。


说话者验证可通过用户的声音或语音来自动检验和验证其身份,这一点与身份验证的场景高度相关,并经常涉及到某个密码短语。因此,我们在说话者验证中选择了依赖于文本的方式。这意味着说话者在录入和验证这两个阶段,都需要选择说一句特定的口令。


说话者辨识能在多个已有存档的说话者音频文件中自动识别出当前某一特定说话者的身份。系统将输入的音频与已有存档的多个说话者的音纹特征进行比对,如果发现了匹配项,则返回信息,指明说话者的身份。因此,它并不依赖于说话者说出的文本内容,即在录入和辨识这两个阶段,说话者所说的内容并无限制。



更多开放,更多可能


这次开放的API还包括自定义智能语音识别服务(CRIS),这项服务目前已经对开发者们开放邀请。自定义智能语音识别服务(CRIS)让微软语音识别系统能够针对特定的词汇、环境以及使用者群体进行定制,例如在喧闹的公众场所准确地进行语音识别。该工具也可以用于帮助更好地理解非母语说话者或残障人士等——这些用户在以往的语音识别中往往困难重重。


微软一直致力于创造个性化的计算体验,提高人们的生产力。牛津计划作为实现这两个目标的实例之一,让开发人员花费较少的时间就能开发出跨平台的智能应用,从而给人们带来更多个性化的计算体验。目前,微软牛津计划已经在9个方向开放了API,希望在未来,微软的研究技术能够让人工智能系统在察言观色、表达聆听、理解推理等各个方面的能力日益强大。




相关阅读:


【牛津计划】高兴,难过,还是生气?计算机替你察言观色


【牛津计划】拥抱机器学习,再次升级




微软小冰住进微软研究院微信啦!快去和她聊聊天吧。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存