如何为听障人士打造一副神奇眼镜?(上) | AI公开课
自从和大家畅想了一下双十一的新剁手姿势之后
AI公开课也有一段时间没有和大家见面了
而这期公开课的主题
则要从“科大讯飞”官方微博
收到的一条@说起——
我们可以为听障人士设计一副智能眼镜
当人们说话时 通过语音识别
眼镜上会显示字幕
在感叹脑洞之大的同时
你是否有想过
真的能做出这样一副智能眼镜吗?
答案是:当然可以。
不过 要打造这样一副眼镜
少不了的可是这个神兵利器——
本期AI公开课关键词:
语音转写
1
与语音识别不得不说的那些事
说起语音转写,首先要提的就是语音识别。关于语音识别,AI公开课已经有不少相关的课程了,感兴趣的同学可以自行在文末获取入口。语音识别根据任务的不同,则可以分为语音听写和语音转写。
相信大家小时候都有过“报听写”的经历,在学术界中,语音听写就像报听写一样,指的是实时的语音识别系统——把听到的内容“即时”写出来,而语音转写则是非实时的。
今天我们所说的语音转写,则是特指面向人人对话的语音识别系统,也是实时的哦,比如大家很熟悉的讯飞听见。
科大讯飞2016年度发布会 讯飞听见实时转写+翻译
2
语音转写:想说爱你不容易!
试想听障人士戴上了这副专属眼镜,不论走在大街小巷,都可以自如地和对方交谈;但与此同时,谈话的环境可能非常嘈杂,谈话的对象也可能有着天南海北的口音,口语化的表达内容想要显示成通顺、易读的文字,可不是一件容易的事。
这些难题怎么解决呢?
-噪声和远场:喧嚣的背景音、远距离的对话、回声……面对这些扰人的因素,工业界拿出的是多个麦克风组成的麦克风阵列,便于屏蔽反射和环境噪声、提高语音识别的效果。除此之外,还需要深度学习的鼎力助阵,卷积神经网络(CNN)与“前馈”神经网络(DNN)都可以和麦克风阵列结合,进一步提高嘈杂、远场环境下的语音识别准确率。
(有关DNN、CNN,在微信后台回复“学习一分钟”即可获取相关知识小卡片)
-口语化:我们在自由对话时口语化的表达,与成文的书面语要求存在不同,这也让口语语言模型的建模面临很大的困难。因此,借用语音识别经典的处理噪声问题的办法,在书面语的基础上引入倒装、语气词等现象,就可以生成口语化的“文本”了。
还有一个办法,就是我们人人都遇到过的“根据上下文理解”。根据语音识别的解码结果,自动进行关键信息的抽取,再进行语料的搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,也可以让口语化问题迎刃而解!
-转写文字处理:第三个技术难题是转写成文字的后处理。我们和别人对话时的许多语言都是无组织的,虽然现在的语音转写已经能达到很高的正确率,但这些无组织的语言记录下来,在阅读时还是有些奇怪。
与语文考试里写作文一样,语音转写在处理这个问题时会考虑“断句”、顺滑、标点、分段几个关键部分。断句就是将语音识别的内容自动切分成语句;顺滑则是去掉口语化的一些语气词、重复词等“小尾巴”;标点则是在断句的基础上帮助更好理解每一句话;完成了标点,分段就不再是难事了。
技术上的难题解决之后
完成这副眼镜还需要……?
下期AI公开课将继续为你揭秘!
更多知识请点击这里↓
文 | 编 阿序 图 | 宝丁黄 责编 | 王十二
内容素材来源于讯飞AI大学