为世界添加字幕
XRAI Glass 公司的创始人 Dan Scarfe 在探望其祖父后受到启发,决定利用技术帮助听障人士打破社交孤立。公司开发了一款应用程序,将实时字幕与增强现实眼镜相结合,使用户能够在各种场景下参与对话。该应用已经有5000名全球用户,并得到了慈善机构的支持。XRAI Glass 还计划开发翻译和反向转录功能,以进一步提升用户体验。同时这一突破也在测试我们对“残障”的理解:如果有一天字幕变得像眼镜一样普及,那么听力损失还会被视为一种“缺陷”吗?障碍究竟是内生“疾病”,还是缺乏支持设施?
图源:iStock/calvindexter
2021 年过节期间,IT 工作者丹·斯卡夫(Dan Scarfe)在探望家人时,对其 96 岁的祖父因耳聋日渐严重而无法充分参与谈话感到沮丧。据世界卫生组织(WHO)统计,全球有超过 15 亿人有不同形式的听力损失,约占全球人口的 20%,其中有 4.3 亿人因此遭遇障碍。尽管许多听障人士可以通过手语进行交流,或通过助听器或人工耳蜗等设备听到声音,但像斯卡夫的祖父所经历的社交孤立(social isolation)却很常见。
斯卡夫希望能做点什么。他说道,“我们在 [微软] Teams 和 Zoom 中已经实现了实时字幕技术,同时我们也注意到了那些全新的增强现实(AR)眼镜。我在想,为什么我们不能把这两者结合起来,创建实时字幕呢?”
2022 年 7 月,斯卡夫与六位拥有机器学习、市场营销和慈善工作背景的朋友和前同事合作创立了 XRAI Glass 公司。他说,该公司的使命是“为世界添加字幕”(“subtitle the world”)。
XRAI Glass是一款应用程序,其能让AR眼镜连接亚马逊、微软和Deepgram的云转录服务,从而在眼镜屏幕上创建实时字幕。
“你只需要在手机上安装软件,然后连接云服务,”斯卡夫解释说,“这就像把数字化内容投射到你眼前的现实世界中一样。”
该软件具有录音和回放功能,甚至可以在一群人中识别出说话者。
在短短一年时间里,该公司在全球的用户已增至 5000 人。教育管理从业人员卡罗尔·科弗(Carol Cover)在人工耳蜗植入失败后听力急剧恶化,她称赞这项技术帮助她像其他人一样在熙攘的餐厅里参与谈话,在教堂里私下忏悔。她说,“这对我来说就像一个奇迹。”
该公司由几位私人投资者出资,目前已筹集到斯卡夫所说的“小几百万美元”。英国皇家听障人士研究所(UK Royal National Institute for Deaf People)和国际听障儿童协会(DeafKidz International)等慈善机构也提供了资金支持。
斯卡夫和他的联合创始人早期关注的一个问题是用户隐私,XRAI 的政策是不收集用户设备中的数据。相反,用户才是正式的数据控制者,根据当地的隐私保护法,XRAI有法律责任确保对话者同意对话的文字转录。
XRAI 在启动阶段还进行了一系列软件升级,包括应用程序的翻译服务和虚拟助手。目前,该应用可以处理 76 种不同语言和 140 种方言,并进行实时翻译和转录。新的虚拟助手在 ChatGPT 上运行,用户可以通过 ChatGPT 提出“今天天气如何?”等问题,并在眼镜屏幕上以字幕形式显示答案。该虚拟助手还可以回放聊天记录,并创建内容摘要。
XRAI 创始人正在开发反向翻译模式软件,这将让使用该应用的设备既能说话,也能转录。这对某些特定群体来说可能是一项重要功能,比如那些天生听障且无法说话的群体——据世界卫生组织统计,这一群体在全球约有 7000 万人。
由于许多听障人士更喜欢使用手语进行交流,斯卡夫正积极开发一种可以翻译美国手语(ASL)的软件版本,将手语投射到眼镜内的 AR 图像中。他一直在与一家公司洽谈,希望能在未来几个月内实现这一想法。
斯卡夫说,他经常收到一些用户的反馈,用户们很高兴能够收听播客、边吃晚饭边聊天、去忏悔而不用来回传纸条。他说:“对于我们这样一家小公司来说,能收到来自世界各地的反馈令人难以置信。”