如何为听障人士打造一副神奇眼镜?(下) | AI公开课
上一期的公开课
我们探讨了如何为听障人士设计智能眼镜
让它可以在人们说话时 通过语音识别
直接在眼镜上显示字幕
除了必须了解的技术知识↓↓↓
完成这副眼镜还需要什么呢?
今天,我们继续一起学习
在了解语音听写、语音转写技术
以及降噪、口语化、后处理等问题后
这副眼镜还需要一些特别的东西
比如说量身定制
更进一步?只能更懂你
语音识别发展至今,识别准确率已经很高了。比如说,我们的讯飞语音输入法识别准确率已经达到98%,讯飞听见会议系统已经可以达到95%!但是,在一些特殊的情况下,比如涵盖口音、专业术语、人名或地名,语音识别的准确率仍有进步的空间。
今天要说的个性化就是要进一步提高识别率,让这副眼镜只懂你。从科学技术的角度说,个性化主要从两方面实现:
-声学模型个性化:即针对口音和区域进行区分。针对口音,可以采用设计一些简单、高效的残差层解决自适应的问题;针对区域,则可以收集一些区域口音数据,再对模型进行调整,从而实现针对某个区域口音的个性化。
-语言模型个性化:一是按领域进行优化,二是按任务进行优化。按领域优化很好理解,比如说针对新闻、社会、体育等不同领域,可以做不同的语言模型,效果肯定比普适的要好;按照任务优化又可以分离线和在线两种方式↓↓↓
离线:在已知语音所处领域时,可以提供领域相关素材建立小的语言模型,从而达到更好的效果;
在线:即改即用!简单说,对人工手动修改的错误进行记录和学习,当再遇到同类问题的时候,就会有更好的效果。
合适才是最重要的!在完成了个性化定制之后,不管你是身处哪个行业做什么工作,不管你来自哪里有什么口音,都能拥有属于自己的超高识别准确率。
多项全能?平台来助阵
了解了制造这副眼镜的技术原理,或许你还需要一些技术支持!Emmmm,此时,要说说科大讯飞提供的平台了,毕竟我们的智能语音与人工智能技术已经获得了各方的认可!
先说说语音转写服务平台——讯飞听见网站。大家可以在讯飞听见官网上传各种音频文件,平台提供转写结果和可以快速编辑的环境,让你轻轻松松get文本文件。
对于个人用户来说,如果你想要更高的准确率,还可以使用人工转写服务。对于企业来说,讯飞也开放了语音转写的开放能力,比如日常会议、视频制作、在线直播、电话客服等,都能快速给出文字结果。这可以降低信息采集成本,增加信息传播的时效性。
在具体行业应用上,还有两个典型的应用产品不得不提。第一个是听见智能会议系统,通过使用讯飞提供的本地设备,在会议结束即可获得文字稿,还具有很高的保密性。不仅可以提升出稿效率,还可以提供高保真的文字记录,实现高效的内容管理。
CES2018上的讯飞听见
第二个是应用于法院的软硬件一体化的庭审系统,用一套麦克风和声卡方案,实现高质量的收音,其次用讯飞的实时转写引擎,将庭审过程中的文字直接显示在模板中,书记员可以根据转写结果进行实时修改。这是一种典型的人机耦合的方式,一方面减轻了书记员的压力,另外一方面也保证了整个庭审记录的质量。
未来已来?个性化可期待
-技术方面:虽然很多人说语音识别已经达到了一个非常好的状态,但整体框架还存在很大的调整空间,声学建模的能力依然很弱。目前很多方案大多依赖于有监督的数据,与人脑的工作机制相差非常大,所以现在很多学者也在致力于无监督方法研究,这是促进语音转写发展的新方向。
此外,语音识别的难点问题还具有很大进步空间,特别是在方言问题、中英文混读、中文和字母混读等问题上,仍然需要思考更有效的处理方式。
-在应用方面:语音转写目前在行业的应用得力于从业者、开发者在不同的垂直应用领域精耕细作,同时,我们还可以期待一些更好体验的个人产品。希望科大讯飞和广大的开发者一起努力实现“用人工智能建设美好世界”!
那么,除了这副特别的眼镜
你还有什么更特别的想法呢?
欢迎大家留在本文下方留言
一起大开脑洞
说不定在不久的未来就会实现呢
文 | 编 转转 图 | 宝丁黄 责编 | 阿序
内容素材来源于讯飞AI大学