如何为听障人士打造一副神奇眼镜？（上） | AI公开课 | 自由微信

查看原文

其他

如何为听障人士打造一副神奇眼镜？（上） | AI公开课

Original 科大讯飞 2020-11-15

自从和大家畅想了一下双十一的新剁手姿势之后

（详见双11的快递可以用意念接收？ | AI公开课）

AI公开课也有一段时间没有和大家见面了

而这期公开课的主题

则要从“科大讯飞”官方微博

收到的一条@说起——

我们可以为听障人士设计一副智能眼镜

当人们说话时通过语音识别

眼镜上会显示字幕

在感叹脑洞之大的同时

你是否有想过

真的能做出这样一副智能眼镜吗？

答案是：当然可以。

不过要打造这样一副眼镜

少不了的可是这个神兵利器——

本期AI公开课关键词：

语音转写

与语音识别不得不说的那些事

说起语音转写，首先要提的就是语音识别。关于语音识别，AI公开课已经有不少相关的课程了，感兴趣的同学可以自行在文末获取入口。语音识别根据任务的不同，则可以分为语音听写和语音转写。

相信大家小时候都有过“报听写”的经历，在学术界中，语音听写就像报听写一样，指的是实时的语音识别系统——把听到的内容“即时”写出来，而语音转写则是非实时的。

今天我们所说的语音转写，则是特指面向人人对话的语音识别系统，也是实时的哦，比如大家很熟悉的讯飞听见。

科大讯飞2016年度发布会讯飞听见实时转写+翻译

语音转写：想说爱你不容易！

试想听障人士戴上了这副专属眼镜，不论走在大街小巷，都可以自如地和对方交谈；但与此同时，谈话的环境可能非常嘈杂，谈话的对象也可能有着天南海北的口音，口语化的表达内容想要显示成通顺、易读的文字，可不是一件容易的事。

这些难题怎么解决呢？

-噪声和远场：喧嚣的背景音、远距离的对话、回声……面对这些扰人的因素，工业界拿出的是多个麦克风组成的麦克风阵列，便于屏蔽反射和环境噪声、提高语音识别的效果。除此之外，还需要深度学习的鼎力助阵，卷积神经网络（CNN）与“前馈”神经网络（DNN）都可以和麦克风阵列结合，进一步提高嘈杂、远场环境下的语音识别准确率。

（有关DNN、CNN，在微信后台回复“学习一分钟”即可获取相关知识小卡片）

-口语化：我们在自由对话时口语化的表达，与成文的书面语要求存在不同，这也让口语语言模型的建模面临很大的困难。因此，借用语音识别经典的处理噪声问题的办法，在书面语的基础上引入倒装、语气词等现象，就可以生成口语化的“文本”了。

还有一个办法，就是我们人人都遇到过的“根据上下文理解”。根据语音识别的解码结果，自动进行关键信息的抽取，再进行语料的搜索和后处理，用解码结果和搜索到的语料形成特定语音相关的语言模型，也可以让口语化问题迎刃而解！

-转写文字处理：第三个技术难题是转写成文字的后处理。我们和别人对话时的许多语言都是无组织的，虽然现在的语音转写已经能达到很高的正确率，但这些无组织的语言记录下来，在阅读时还是有些奇怪。

与语文考试里写作文一样，语音转写在处理这个问题时会考虑“断句”、顺滑、标点、分段几个关键部分。断句就是将语音识别的内容自动切分成语句；顺滑则是去掉口语化的一些语气词、重复词等“小尾巴”；标点则是在断句的基础上帮助更好理解每一句话；完成了标点，分段就不再是难事了。

技术上的难题解决之后

完成这副眼镜还需要……？

下期AI公开课将继续为你揭秘！

更多知识请点击这里↓

双11的快递可以用意念接收？ | AI公开课

是谁抢走了我的麦克风？！ | AI公开课

揭秘武林绝学——“听声辨位” | AI公开课

华山论AI：气宗还是剑宗更强？丨AI公开课

文 | 编阿序图 | 宝丁黄责编 | 王十二

内容素材来源于讯飞AI大学

喜欢此内容的人还喜欢

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！