查看原文
其他

演讲|徐迎庆:针对视觉受损人群的触觉认知研究

2016-12-21 金红 微软研究院AI头条



11月14日,微软亚洲研究院院友会成立,下午举行了“让世界充满AI:人工智能研讨会”,新老院友同台分享来自各自领域的洞见。以下是第二篇,来自清华大学信息艺术设计系主任、信息艺术设计系X工作室主任徐迎庆教授,他在1999年至2011年期间曾就职于微软亚洲研究院。由雷锋网整理并授权转载。

有关院友会报道请戳:




这个项目在微软期间就开始了,大概做了7年。我想做的是针对视觉受损人群的触觉研究。


从WHO(World Health Organization)的数字来看,全球有2.85亿人是视觉严重受损,就是说视力低于0.1,而且比例达到每20个人就有一个人属于这种情况,几乎看不见,这个数字是可怕的。我们曾经在盲人学校看到,同学们虽然视力严重受损,但是有的同学每天把头贴在屏幕上,渴望着与外界的沟通。记得几年前我们开始这个项目的时候,有一个研究生去了盲人学校回来之后感动得热泪盈眶,她说这些孩子特别了不起,一定要为他们做一点事情。


从那时起,清华大学鲁晓波教授、史元春教授和我本人就共同发起了这个项目至今。我们希望通过触觉和触觉交互的设计,结合语音等多通道的沉浸认知让盲人通过触摸学习更丰富的知识,比如复杂的图形图像的理解。目前国际上这是一个前沿的研究热点。针对盲人的交互研究有很多的工作已经做了,比如可穿戴移动互联网辅助设备、智能导航盲杖、盲人手表、移动PDA等等,包括各种各样的语音识别软件。这里顺便说一下,如果你们看过盲人用语音聊天,你会感觉非常惊讶,我们现在的语速加速3倍、5倍以后,他们依然能听得懂,而我们跟不上。触觉图像的大幅面、高精度研究,美国、欧洲很多实验室都做过尝试。在多通道方面,我们过去几年一直在开展这个工作。


什么是触觉图像?

触觉图像就是通过实体表面的凸凹理解图像,为用户提供直接的触觉体验,可以触觉渲染,也可以视觉 45 33717 45 15262 0 0 1444 0 0:00:23 0:00:10 0:00:13 3716染。另外制作出这些图像有很多种方法,比如热塑、微囊纸、热敏纸、触点打印等等,这些设备相对来说制作起来不方便,而且相对没有那么多,还有点贵。同时带来一个问题,这就是打了很多纸,纸很厚(因为上面要有凸凹点),不容易存放和运输,而且只能显示静态的东西。


大家知道互联网的发展,在互联网上除了文字更多的是图形、图像、视频,这样发展的趋势就等于把盲人朋友放在了互联网之外,他们如果没有一个好的工具,就更没有办法理解这个东西,这是一个非常大的挑战。尽管现在有盲人图书、盲人打字机甚至盲人点显器,但是怎么帮助他们学习图形图像抽象的东西,以及获取互联网的信息,这不仅是挑战,而是全人类面临的义务和责任。




市场上的触觉图像显示器,大尺寸的非常贵,而且大尺寸也不是大家想象的那么大,这个就是比较大的了(上图)。再小的尺寸,由于分辨率的问题,认知效果就会大打折扣。但即便这样一个小的现在提高价格差不多5.5万欧元,将近40万人民币左右。


针对这样的问题,我们从几方面下手。首先是沉浸认识:要做触觉的东西,首先要从认知的角度,了解什么是他们能够接受、他们习惯以及他们能够真正通过触觉来理解的图像。其次,并不仅仅限于触觉。大家知道盲人的听觉也非常发达,那么,从听觉的角度来说,触觉和听觉的多通道怎么融合,开发多通道的沉浸的体验?同时我们希望能够开发一款相对低成本的触觉图像显示器。


问题有哪些?




这就带来了一些问题。比如,如何提高盲人图形图像的认知和交互体验,如何设计触觉图形。如果把普通的图像简单地提取一个边缘,这是盲人没有办法理解的,必须有一套相对来说经过改进的图像便于触觉理解。关于如何设计既有高精度、大幅面而又低成本的图像显示器,以及在更多的场景下如何融入触听觉沉浸式信息的获取,我们非常幸运,遇到很多合作伙伴,例如:北京盲人学校、北京联合大学特殊教育学院,我们和这些专家探讨如何探索图形库的内容的框架。



中国盲校的教学材料


这是盲文,中国的盲人是基于汉语拼音的。而且还不仅仅是文字,比如很多盲人音乐家非常厉害,这是他们学习音乐课的基本乐符。而学习物理课的公式和一些图形表达,物理化学课的内容,怎么通过这样一些图形来让他们上课,包括化学分子式。他们用的纸都是这样,我们小时候总是捐画报纸,当时不理解,后来才知道这是盲人同学用它扎字、做记录,我们的同学也自己去学习如何用盲文记录,这是一个非常有意义的体验过程。


用户体验研究


我们为测试做了很多的图形准备,这些是从标准的图形库中拿出来的,然后进行很多筛选和用户访谈,包括主动、被动地使图形能够更加有效地被识别。在这个过程中我们发现了很多与我们的假设完全不一样的事情,比如我们一直认为一个后天的盲人和先天的盲人如果同样接触识别一组图形,应该是后天的识别更好,因为他有过经验。但我们的实验表明,先天的盲人表现更好。后来才发现,这些后天盲人的先天经验干扰了他们对正确结果的判断,这些是完全和我们的想象不一样的(当然还有一个问题是失明具体发生在什么时候)。到现在我们每周都在做用户体验的设计,包括主动和被动的。和他们一起讨论,什么样的图形是合适的,怎么提取这里面的关键内容。


同样我们也提出了一套触听觉多通道的交互模型,希望能够从认知能力上,不同的信息占用不同的通道,不同的通道占用不同的脑力资源,在交互界面上触觉和听觉的信息分别占据不同的传输空间,如何做到干扰最小而融合最大。这个项目本身也是多学科的融合,除了我,还有清华大学美术院系鲁晓波教授、计算机系史元春教授,清华医学院的洪波教授,还有中科院心理所的刘烨研究员、以及我们的研究生焦阳、龚江涛等等。


通过大家的努力,我们得到一些非常有意思的数据。从盲人和所谓明眼人大脑的对比,我们能够看到,听觉区域,两个方面都是差不多的,而在视觉区域盲人明显小于明眼人的视觉区域,但很有意思的是,盲人的视觉区域虽然变小了,但这个地方并没有空下来,是被什么占用了、有什么功能,这就带来了医学研究的挑战。同样,盲人触摸东西非常快,那个速度让我们惊呆了。但是相关区域通过脑核磁脑的成像又是差不多的,这就告诉我们,只要我们闭上眼睛经过一但时间训练也可以达到。可见有些东西是由生理结构决定的,有些东西是由后天确定的。简单说,当时的一些假设,比如盲人的视觉区域比正常人小,fmRI结果支持了第一个假设,但是我们觉得盲人的手的运动区域要大,但在实验中就没有得到证明。因此这工作就非常有意思,是多学科交叉和融合的工作。  

 

Graille




我们对这样一个设备做了这样一些功能的设计,比如我们希望它有这样的一些功能,能够支持学习、社交、分享。这是我们提的一些技术指标,比如渲染幅面大于120×60点,现在已经有7200点,如何在这么小的空间上控制7200点,能够真正实时显示出来,这并不是简单的事情。这个工作为什么这么困难做了这么多年。这么小的结构,直径1毫米,这样的结构上,我们在这上面设计了几套机械联动装置。 


再谈一下产业化的东西,首先,为盲人朋友提供更好的服务是各国政府关心的问题。中国政府也非常关注这个事情,我们也拿到了国家的重大专项的支持,同时联合国儿童基金会、中国残疾人协会等也一直关心相关的研究。我们也在和百度合作,这个项目如果做出来原型,我们会和百度做盲人搜索平台,盲人用这样的设备来搜索、购物、做力所能及的事情。当然,刚开始可能不是那么完美,不能什么都做,但是万水千山第一步总是要迈出去。


进一步的研究


除了给盲人用以外,我们在计算机视觉上也提出了一些新的挑战。比如什么是图像语义特征,什么是触觉图像的语义特征,如何提取这种图像。例如,简单的阈值计算或者提取边缘并不能够使得盲人能够理解这样的图像,只有真的有语义的、精炼的表达出来才有可能对图像压缩、编码、传输真正起到帮助作用。借这个机会,我也特别感谢微软亚洲研究院曾经给过很大的支持,现在一直也在关注和关心这个项目。同时,也有很多单位给了这个项目很大的支持和赞助,比如微软亚洲研究院、Intel中国研究院、百度公司、国家自然科学基金、国家重大专项研究计划、北京盲人学校、北京联合大学特殊教育专业、中科院软件所、中科院心理所、联合国儿童基金会、清华大学美术学院、计算机系、医学院、心理学系等等。衷心感谢团队中的每一位成员的努力!



你也许还想看:




感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。

微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存