微软Project Tokyo让视障群体感知身边友人,重启社交
The following article is from 微软研究院AI头条 Author 微软亚洲研究院
丹棱君有话说:当你和三两好友聚会,你们在交谈中会很自然地面向正在说话的人,频频对视,或身体前倾表示正在聆听。眼神和肢体语言是交流中非常重要的一部分,但对视障人士来说,这几乎是不可完成的任务。而微软研究院 Project Tokyo 项目正在通过 AI 技术构建个性化智能代理,赋予视障群体更多能力,让不可能成为可能。
12岁的失明男孩 Theo 坐在厨房的一张桌子旁。他戴着微软 HoloLens 左右转动头部,摄像机、深度传感器和扬声器环绕着他的沙棕色头发。
当他面朝微软剑桥研究院高级研究软件开发工程师 Martin Grayson 时,Theo 听到一声提示音,“Martin”从他耳朵上方响起来。
“Martin,”西奥笑了,“它用五秒让我认出了你。” Martin 站在一个齐膝高的黑箱旁,其中的计算硬件正支持着 Theo 使用的机器学习模型的运行。
Theo 再次转动头部,又一个名字响起来,“Tim”。
“Tim,你在那里!” Theo 高兴地“看”向 Tim Regan,他是微软剑桥研究院的高级研究软件开发工程师,同时也是 Theo 的编程老师,每两个月,Theo 都会去 Regan 家中学习编程课程。Regan 此前在研究项目 Code Jumper 中认识了这个失明的男孩,Code Jumper 是专门为视障儿童开发的物理编程语言,用一种可触摸的方式,让对计算机科学感兴趣、但视力上有困难的孩子们体验编程的乐趣。
他们正在进行的项目 Project Tokyo 希望为人类定制智能个人代理,用 AI 技术来延伸人们能力的界限。对长期身处黑暗与未知的 Theo 来说,能够实时地“认出”周围的人们,是一种非常新奇的体验。“不仅仅是说话的人,那些没有说话的人,我从来不知道他们是谁、在哪儿。AI 技术让我能用这种特别的方式感知到他们的存在。”
Project Tokyo 有着更长远的研究愿景——构建能够扩展所有用户能力的智能个人代理,不仅仅是能够完成特定任务的端到端的系统,而是构建一个能自适应每一个人的不同需求的 AI 服务系统。
源自巴西残奥会的灵感
微软研究院首席研究员 Ed Cutrell 与项目中经过改装的 HoloLens 设备
HoloLens的进化
盲人音频工程师 Peter Bosher(中)在微软剑桥研究院查看系统的最新版本
与视障社区一起制作原型
随着研究团队对技术的开发,研究人员开始进一步与视障社区合作,邀请视障人士或视力不佳的成年人来亲身体验和测试这项技术,提供真实的反馈信息。
有几位用户认为不停地转动头部让人感到很尴尬,希望能在头部固定的情况下轻松地获取系统收集的信息。这些反馈又使研究团队开发了更多功能,比如在用户头部固定时,系统能用具有空间感的声音,对辨认出的所有人作一个概述。
如果我们感受到他人的视线,我们会从眼神交流开始自然地和对方展开交谈。研究团队据此研发了另一个实验性的功能,当环境中的某个人看向用户时,系统会在那个方向发出提示音,但这个提示音后不会出现对方的名字。
“不给出名字会让你将注意力转向那个试图引起你注意的人,将头转向他们,而当你直视对方时,系统会告诉你他的名字。” Grayson 向一位体验者解释这个细微的设计。
“我完全同意这一点,视力健全的人就是这样反应的。他们从眼角捕捉到某个人,然后转过头去叫他们的名字。”这位体验者说。
经过改进的 HoloLens,摄像头上方还装有一个 LED 灯带,白色表示正在追踪接近用户的人,绿色代表已为用户识别这个人。这个功能可让与用户交流的朋友知道他们已经被“看见”了,使交流更加自然,也能让他们自由地选择进入和移出设备的视野。
帮助视障儿童学习社会互动
随着研究的深入,研究团队发现,这项技术还拥有帮助视障人士或弱视儿童发展社会互动能力的潜力。
此前的研究表明,约有三分之二的失明或弱视儿童表现出了与自闭症儿童相似的社交行为,比如在谈话中似乎没有在与谈话对象交流,常常将头靠在桌子上露出一只耳朵。于是,研究团队开始探索这一技术是否可以帮助他们学习发起和维持与他人的社会互动。
Theo 参与到这项体验中,来帮助研究团队更好地让系统适配儿童的行为特征。比如孩子们总是喜欢坐在一起,但常常坐不了几分钟就起身跑来跑去。Theo 回忆起最初测试的场景,“系统有时会同时报出两个名字,这让我很难听清,所以我说这一点需要改动。”
研究人员还仔细观察了 Theo 自由使用系统的方式。比如在一次家庭用餐时,Theo 开始巧妙地反复左右转动头部,让系统说出正在与他说话的人的名字。
“Theo 在用这个技术保持对谈话者的空间注意力,” Morrison 当时感到很惊讶,“我们之前并没有想到,这对他来说无疑是一种行之有效的保持注意力的方式。如果他能保持注意力,他就可以与谈话者将话题进行下去。”
在实际测试中,更多的用途证实了这项技术对帮助视障儿童学习社会互动的潜能。
和其他失明儿童一样,Theo 在社交场合中也会将头搁在桌子上露出一只耳朵。研究人员和 Theo 玩了一系列游戏,来发掘他用身体和头部交流时可能产生的力量。
在游戏中,研究人员和 Theo 要解决一个小组问题。Theo 知道问题的答案,研究员们只知道问题的主题,而且只有在 Theo 看着他们时,他们才能交谈。如果 Theo 移开视线,他们必须立刻停止讨论。“那一刻,Theo 突然意识到自己能够掌控一段谈话。他开始理解‘看到’他人的力量,它不仅赋予了他交流的技能,更使他习得了一套全新的社会能力。”
无论是否带着特制的 HoloLens,Theo 都会将自己的身体和脸面向想要谈话的人。这是否会为 Theo 带来长期的变化还是一个未知数,研究团队也尚不能确定其他失明或弱视力儿童是否也会做出类似的反应。因此研究团队正在进入下一阶段,研究这项技术对更多儿童、年龄范围更广泛的人群的影响。
失明少年 Theo 正在厨房里参与用户测试
Project Tokyo 的未来
为了构建适用于更多人的智能个人代理系统,更广泛的研究工作正在进行中,包括让用户更自由地根据偏好调整系统的机器学习技术。例如,微软剑桥研究院机器学习研究员 Sebastian Tschiatschek 正在研究用户如何告知系统他们希望听到的信息的种类和数量。
由于用户的视力水平不同,对信息的需求也不一样。个性化的需求让 Tschiatschek 必须采取非常规的机器学习方法,“我们想以某种数学形式将问题形式化,但对这个问题来说并不容易。许多开发工作都是通过尝试,真正与人互动,了解他们的好恶,从而增强算法来实现。”此外,用户在系统提供已知信息时会感到失望,还有很多这样的问题尚待研究团队解决。
最终,Project Tokyo 将构建可扩展所有用户能力的智能个人代理。研究团队将与视障社区中的更多儿童继续探索,包括 Morrison 先天失明的7岁儿子 Ronan。
“我们在 Theo 身上看到的情况让人倍受鼓舞,他正在以前所未有的方式掌控自己的世界,” Morrison 充满期待,“我认为我们将在 Ronan 和更多的人身上看到这一点。”
了解更多:
后台入驻微软小冰
如果你很萌,请跟她一决高下!