如何为听障人士打造一副神奇眼镜？（下） | AI公开课 | 自由微信

查看原文

其他

如何为听障人士打造一副神奇眼镜？（下） | AI公开课

Original 科大讯飞 2020-11-15

上一期的公开课

我们探讨了如何为听障人士设计智能眼镜

让它可以在人们说话时通过语音识别

直接在眼镜上显示字幕

除了必须了解的技术知识↓↓↓

如何为听障人士打造一副神奇眼镜？（上） | AI公开课

完成这副眼镜还需要什么呢？

今天，我们继续一起学习

在了解语音听写、语音转写技术

以及降噪、口语化、后处理等问题后

这副眼镜还需要一些特别的东西

比如说量身定制

本期AI公开课关键词：个性化

更进一步？只能更懂你

语音识别发展至今，识别准确率已经很高了。比如说，我们的讯飞语音输入法识别准确率已经达到98%，讯飞听见会议系统已经可以达到95%！但是，在一些特殊的情况下，比如涵盖口音、专业术语、人名或地名，语音识别的准确率仍有进步的空间。

今天要说的个性化就是要进一步提高识别率，让这副眼镜只懂你。从科学技术的角度说，个性化主要从两方面实现：

-声学模型个性化：即针对口音和区域进行区分。针对口音，可以采用设计一些简单、高效的残差层解决自适应的问题；针对区域，则可以收集一些区域口音数据，再对模型进行调整，从而实现针对某个区域口音的个性化。

-语言模型个性化：一是按领域进行优化，二是按任务进行优化。按领域优化很好理解，比如说针对新闻、社会、体育等不同领域，可以做不同的语言模型，效果肯定比普适的要好；按照任务优化又可以分离线和在线两种方式↓↓↓

离线：在已知语音所处领域时，可以提供领域相关素材建立小的语言模型，从而达到更好的效果；

在线：即改即用！简单说，对人工手动修改的错误进行记录和学习，当再遇到同类问题的时候，就会有更好的效果。

合适才是最重要的！在完成了个性化定制之后，不管你是身处哪个行业做什么工作，不管你来自哪里有什么口音，都能拥有属于自己的超高识别准确率。

多项全能？平台来助阵

了解了制造这副眼镜的技术原理，或许你还需要一些技术支持！Emmmm，此时，要说说科大讯飞提供的平台了，毕竟我们的智能语音与人工智能技术已经获得了各方的认可！

先说说语音转写服务平台——讯飞听见网站。大家可以在讯飞听见官网上传各种音频文件，平台提供转写结果和可以快速编辑的环境，让你轻轻松松get文本文件。

对于个人用户来说，如果你想要更高的准确率，还可以使用人工转写服务。对于企业来说，讯飞也开放了语音转写的开放能力，比如日常会议、视频制作、在线直播、电话客服等，都能快速给出文字结果。这可以降低信息采集成本，增加信息传播的时效性。

在具体行业应用上，还有两个典型的应用产品不得不提。第一个是听见智能会议系统，通过使用讯飞提供的本地设备，在会议结束即可获得文字稿，还具有很高的保密性。不仅可以提升出稿效率，还可以提供高保真的文字记录，实现高效的内容管理。

CES2018上的讯飞听见

第二个是应用于法院的软硬件一体化的庭审系统，用一套麦克风和声卡方案，实现高质量的收音，其次用讯飞的实时转写引擎，将庭审过程中的文字直接显示在模板中，书记员可以根据转写结果进行实时修改。这是一种典型的人机耦合的方式，一方面减轻了书记员的压力，另外一方面也保证了整个庭审记录的质量。

未来已来？个性化可期待

-技术方面：虽然很多人说语音识别已经达到了一个非常好的状态，但整体框架还存在很大的调整空间，声学建模的能力依然很弱。目前很多方案大多依赖于有监督的数据，与人脑的工作机制相差非常大，所以现在很多学者也在致力于无监督方法研究，这是促进语音转写发展的新方向。

此外，语音识别的难点问题还具有很大进步空间，特别是在方言问题、中英文混读、中文和字母混读等问题上，仍然需要思考更有效的处理方式。

-在应用方面：语音转写目前在行业的应用得力于从业者、开发者在不同的垂直应用领域精耕细作，同时，我们还可以期待一些更好体验的个人产品。希望科大讯飞和广大的开发者一起努力实现“用人工智能建设美好世界”！

那么，除了这副特别的眼镜

你还有什么更特别的想法呢？

欢迎大家留在本文下方留言

一起大开脑洞

说不定在不久的未来就会实现呢

文 | 编转转图 | 宝丁黄责编 | 阿序

内容素材来源于讯飞AI大学

喜欢此内容的人还喜欢

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！