查看原文
其他

如何为听障人士打造一副神奇眼镜?(上) | AI公开课

科大讯飞 2020-11-15

自从和大家畅想了一下双十一的新剁手姿势之后

(详见双11的快递可以用意念接收? | AI公开课

AI公开课也有一段时间没有和大家见面了


而这期公开课的主题

则要从“科大讯飞”官方微博

收到的一条@说起——


我们可以为听障人士设计一副智能眼镜

当人们说话时 通过语音识别

眼镜上会显示字幕


在感叹脑洞之大的同时

你是否有想过

真的能做出这样一副智能眼镜吗?



答案是:当然可以

不过 要打造这样一副眼镜

少不了的可是这个神兵利器——


本期AI公开课关键词

语音转写


1

与语音识别不得不说的那些事


说起语音转写,首先要提的就是语音识别。关于语音识别,AI公开课已经有不少相关的课程了,感兴趣的同学可以自行在文末获取入口。语音识别根据任务的不同,则可以分为语音听写和语音转写。


相信大家小时候都有过“报听写”的经历,在学术界中,语音听写就像报听写一样,指的是实时的语音识别系统——把听到的内容“即时”写出来,而语音转写则是非实时的。


今天我们所说的语音转写,则是特指面向人人对话的语音识别系统,也是实时的哦,比如大家很熟悉的讯飞听见。


科大讯飞2016年度发布会 讯飞听见实时转写+翻译


2


语音转写:想说爱你不容易!


试想听障人士戴上了这副专属眼镜,不论走在大街小巷,都可以自如地和对方交谈;但与此同时,谈话的环境可能非常嘈杂,谈话的对象也可能有着天南海北的口音,口语化的表达内容想要显示成通顺、易读的文字,可不是一件容易的事。


这些难题怎么解决呢?


-噪声和远场:喧嚣的背景音、远距离的对话、回声……面对这些扰人的因素,工业界拿出的是多个麦克风组成的麦克风阵列,便于屏蔽反射和环境噪声、提高语音识别的效果。除此之外,还需要深度学习的鼎力助阵,卷积神经网络(CNN)与“前馈”神经网络(DNN)都可以和麦克风阵列结合,进一步提高嘈杂、远场环境下的语音识别准确率。


(有关DNN、CNN,在微信后台回复“学习一分钟”即可获取相关知识小卡片)



-口语化:我们在自由对话时口语化的表达,与成文的书面语要求存在不同,这也让口语语言模型的建模面临很大的困难。因此,借用语音识别经典的处理噪声问题的办法,在书面语的基础上引入倒装、语气词等现象,就可以生成口语化的“文本”


还有一个办法,就是我们人人都遇到过的“根据上下文理解”。根据语音识别的解码结果,自动进行关键信息的抽取,再进行语料的搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,也可以让口语化问题迎刃而解!



-转写文字处理:第三个技术难题是转写成文字的后处理。我们和别人对话时的许多语言都是无组织的,虽然现在的语音转写已经能达到很高的正确率,但这些无组织的语言记录下来,在阅读时还是有些奇怪。


与语文考试里写作文一样,语音转写在处理这个问题时会考虑“断句”、顺滑、标点、分段几个关键部分。断句就是将语音识别的内容自动切分成语句;顺滑则是去掉口语化的一些语气词、重复词等“小尾巴”;标点则是在断句的基础上帮助更好理解每一句话;完成了标点,分段就不再是难事了。

技术上的难题解决之后

完成这副眼镜还需要……?

下期AI公开课将继续为你揭秘!



更多知识请点击这里↓

双11的快递可以用意念接收? | AI公开课

是谁抢走了我的麦克风?! | AI公开课

揭秘武林绝学——“听声辨位” | AI公开课

华山论AI:气宗还是剑宗更强?丨AI公开课


文 | 编 阿序  图 | 宝丁黄  责编 | 王十二

内容素材来源于讯飞AI大学

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存