查看原文
其他

逃离无声的世界,跟AI一起听叶落的声音

新智元 新智元 2020-10-12



  新智元报道  

编辑:梦佳、白峰

【新智元导读】9月27日,是第63个国际聋人日。在国际聋人日结束两天后,YouTube却取消了可以帮助听障人士的字幕选项,让人唏嘘。数字时代如同一个未曾停歇的洪流。而在这洪流之中,听障人士因为被按下了「静音键」而被数字世界渐渐遗忘和抛弃。毕业于哈工大的张建宗找到了帮助听障人士触碰数字世界的途径。


近日,YouTube 突然取消了视频上的「社区贡献」功能,原本内容创建者可以给他们的视频上传字幕和说明。            在7月份宣布的这一举措一经出台,就引发了社区的强烈抗议,此举惹恼了失聪者、听力障碍者和大批国外粉丝。 这几乎是谷歌有史以来最糟糕的决定,9月27日,是第63个国际聋人日。在国际聋人日结束两天后,YouTube 却取消了可以帮助听障人士的字幕选项。 


逃离一个无声世界,听障人士如何踏上「数字班车」?


你的世界声色犬马,五彩斑斓,然而有没有想过,在我国有2780万听障人士,还生活在一个寂静无声的世界中。

 移动互联网、人工智能、云服务等信息技术快速发展的今天,数字时代如同一个未曾停歇的洪流,滚滚向前。而在这洪流之中,这些听障人士因为被按下了「静音键」而被数字世界渐渐遗忘和抛弃。 
作为一名技术人,哈尔滨亿时代数码科技开发有限公司的技术负责人张建宗很早地注意到了这当中的隐忧。 他毕业于哈尔滨工业大学,计算机科学与技术专业。名校加身,前途一片光明,本来有大把的机会可以进大型企业工作,但在这些机会中,他并没有找到自己想要找寻的「意义」。 此后多年,他全身心地投入到了信息无障碍领域的产品开发工作中,矢志不渝。 加入亿时代对于张建宗来说是一件有价值的事,有情怀的人做起事情来总是很有动力。2008年北京奥运会和残奥会期间,亿时代给予全程网站无障碍技术支持。               张建宗讲到,在去年一次很偶然的机会看见一位听力障碍者,在努力的使用两部手机来学习视频内容:一部手机播放视频,通过一根专用的连接线,由另一部手机进行字幕翻译。 对于普通人来讲,明明是再简单不过的事情,对于听障人士来讲却需要大费周章。 这一幕也深深地印在了他的脑海中,长久以来与计算机打交道的他,马上想到为什么不能用一个手机就解决他们交流的问题。 随着需求调研的深入,张建宗对于听障用户的需求逐渐清晰起来,除了前面无字幕视频的字幕提取,听障用户平时同样也会在生活、办公中的陌生人社交感到阻碍,如何弱化他们的日常「疏离感」显得尤为重要。 技术,不应是冰冷的代码和算法,而应该服务于每一个个体才是最本质的需求,社交需求就是其中最主要,也最容易被忽视的。
于是,在张建宗的脑海里,一款具备语音文字互转、实时视频语音字幕转写、在线远程视频手语翻译功能的应用构想应运而生。紧接着就是9个月的努力开发和迭代优化,终于「畅听无碍」APP正式上线,开始免费向听障用户提供服务。

 

这背后还有和华为工程师的不解之缘。 亿时代作为黑龙江的企业代表之一,在华为黑龙江代表处的陪同下共同加入了走进华为的参观访问,在此过程中接触到华为在19年提出的TECH4ALL数字包容倡议,十分感动亿时代出于对理念的认同,华为技术的信任,达成了这次有「温度」的合作。 有华为底层的技术作为支撑,结合听障人士的生活,提供了AI场景的无限可能。 华为解决方案工程师王一帆表示,「在这个项目中华为提供了华为云的能力,同时也提供了大量的研发和营销人员帮助项目实现落地,并帮助市场推广。」


畅听无碍,接过了数字世界的传声筒,刷剧学习无障碍


孔庆贤是畅听无碍APP第一位手语志愿者,她已经从事帮助听障人士的工作有12年之久。据她描述,自己做这件事的初衷是因为目睹了一次在教堂举行的聋哑人婚礼,他们用嘶哑的声音喊出了「我愿意」。 正是出于这份感动,她辞掉了本职工作,义无反顾地致力于用手语翻译帮助听障人士。 但毕竟仅仅通过单一的人力来帮助听障人士,力量还是太稀微了,弥合数字鸿沟,需要技术的大力加持和资源的汇集。 在畅听无碍APP上,听障人士可以通过远程视频方式与专业的手语翻译进行沟通,再由手语翻译和医生、政府、警察、律师、窗口办事人员、 亲友等进行沟通。达到辅助听障人士沟通的目的。               从孔庆贤的亲身经历中,张建宗也获得了更多的灵感和开发的需求。如今畅听无碍已经有超过1万的用户在使用,通过用户的不断反馈进一步优化产品。               与普通人不同,「看」是听障者感知世界最重要的方式,除了手语翻译之外,语音和文字的转换成了听障人士和外界沟通的最主要桥梁之一。 「畅听无碍」的背后正是基于华为云的语音识别、语音合成、实时语音转写等相关的人工智能技术,从而让张建宗的技术畅想变成现实应用。 「畅听无碍」APP提供的「自如交流」服务,就好比听障人士随身携带的一名「语音助手」。尤其是在与陌生人交流时,例如问路咨询,商场购物时,不方便通过社交软件交流,可以通过「畅听无碍」,通过语音-文字相互转换,达到随时随地快速沟通的目的。              
此外,在多人会议交流等场景,「畅听无碍」可以提供全程录音功能和文档保存功能,并一键分享到微信、微博、QQ等进行二次采集编写,对于听障朋友而言,他们不必再被不明来龙去脉的会议结论而困扰。声音,如此得以被「看见」。

而这些看的见的声音,来自华为云。
现在语音转写技术,大都使用了很深的神经网络,在实验环境的准确率和转写速度相差不多,但是实际使用中却参差不齐,而使用畅听无碍的用户所处环境复杂多样,对语音识别和转写的稳定性要求更高。 华为云的语音转写技术,将词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升了编解码速度和转写准确率,一句话,一段话,多人群聊等场景都能很好地适应。 语音转写可以帮助听障人士「听」到别人说的话,而要想更好地沟通,声音无疑是最好的方式,畅听无碍不仅可以把语音实时转写成文字,也能将文字合成为接近真人的发音,让听者感受不到差异,输出的语音音色和语速都是可调的,听起来更加自然,也让冰冷的技术更加人性化了。               数字时代,也催生出了诸多新兴生活和娱乐方式,抖音、快手、B站等等一众新兴社交平台层出不穷, B站数据显示,2019年一年已有1827万人在B站学习,相当于2018年高考人数的2倍。 但是,由于大量的视频没有字幕,这让听障人士以前不得不敬而远之。因此,得益于实时语音转写的AI技术,当「畅听无碍」可以实时的将视频中的连续音频流准确转换成文字字幕时,这无疑给了听障人士更全面地了解世界,跟上时代节奏的机会。
 当前,虽然「畅听无碍」APP通过人工智能技术可实现语音文字实时互转,在一定程度上辅助了听障人士的沟通与生活,但在一些「复杂沟通」场景下,如在医院问诊、法律咨询、窗口办事等,仍需要专业的手语志愿者进行辅助交流。
 因此,在亿时代的不懈努力下,他们通过自建手语翻译中心,以远程视频的形式为听障人士免费提供各类专业领域的实时手语翻译。「畅听无碍」成为了听障人士随身相伴的「手语翻译」,让他们不再因为交流的障碍而寸步难行。 
基于AI技术的「畅听无碍」APP,不仅仅是解决了听障人士简单的交流问题,更重要的是对于他们生活质量的提升,让他们感受到了世界的善意与美好。 而这正是AI本该有的样子,技术本该有的温度。 


「数字包容」惠及全球5亿人,这才是AI正确的打开方式 


从基础的社交、办公到生活娱乐,AI技术助力「畅听无碍」惠及了听障人士生活的方方面面。从此,一个原本无声的世界,因为有AI的加持,而变得绘声绘色。有这样的初衷,技术也不再是冰冷的代码和算法,而是一个个鲜活的个体更丰富的生活。 2019年,华为曾发出「TECH4ALL数字包容」倡议,希望通过技术、应用和技能,赋能每个人、每个家庭、每个组织,实现数字包容愿景,共同构建万物互联的智能世界。               用华为轮值董事长胡厚崑的话说,TECH4ALL,旨在在接下来的5年里让全球再多5亿人从数字技术中获益,最终实现科技普济天下。 如今,AI也被越来越多的技术人运用到了各种领域,它已成为了热带雨林的守护者,荒漠化问题的解决者,环境污染的治理者等等。              当AI不再是单单追求生产效率提升换取商业价值的工具,而是面向需要帮助的群体为他们提供全新的生活、工作方式和融入世界的机会的底座时,这才是AI的「正确的打开方式」,和为人类发展带来的真正价值。
「畅听无碍」为面向残障人士志愿服务的免费软件。
当前虽然「畅听无碍」APP通过人工智能技术可实现语音文字互转,在一定程度上辅助了听障人士的沟通与生活,但在一些场景下,仍需要手语志愿者通过「畅听无碍」APP中在线视频通话的功能,为听障人士提供实时手语翻译。
当前我国手语方言超过百种,手语专业志愿者非常稀缺,希望大家可以将信息转发,让更多具有良好手语基础的志愿者可以看到,加入到「畅听无碍」的志愿者阵营中,更好的为听障人士提供一份帮助。
加入方式:下载「畅听无碍」APP-->「我的」-->「角色切换」-->选择「手语翻译」。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存