如何攻破语音识别最后的3%? | 读书会
导语
随着深度学习的引入,语音识别的准确率有了大幅的提升。16年11月份,讯飞、搜狗和百度均对外宣称语音识别准确率已到97%。
那么最后的3%是什么呢?我们有该如何攻破呢?
本次活动就以纠错为主题,来讨论如何基于语音识别的结果进行纠错,从而进一步提升语音识别的准确率,探索最后的3%。(本次活动是集智俱乐部从语音到语言读书会系列讲座中的第一个讲座,文末附有读书会通知,想了解更多内容请报名咨询!)
活动内容
本次活动内容主要分为三个部分:
1、大致介绍语音识别的基本步骤,引出为什么需要纠错。
2、对比语音场景下的纠错与其它场景的不同,比如搜索场景等。
3、介绍语音场景下的纠错方法。
活动安排
主讲人:刘洋
活动时间:6月18日(周日)下午2:00——4:00
活动地点:海淀区学清路768创意产业园内蕴味咖啡。
从语音到语言读书会
导语
让机器听懂人话,甚至能够理解人类语言中的深层次含义一直以来都是人工智能研究者们梦寐以求的目标,然而这一目标并没有想象中的那么简单。
尽管随着深度学习技术的普及和应用,语音的识别准确率有了很大幅度的提升,各种语音识别产品也已经走进了我们的生活,但是这一技术并不能完全达到让人满意的水平。例如,当学者们讲课时,经常会把中文和英文掺杂在一起,这给自动语音识别程序增加了巨大的难度。再比如,在一些环境非常嘈杂的地方,机器语音识别的准确度就很低。而且,在一些场合中,我们可能还希望机器能够做到更多。例如,课堂上的课堂笔记自动整理,思维导图的自动生成等等。而这些更高级的需求则显然不是简单的语音识别能够完成的,而是需要强大的自然语言处理技术。
读书会主题
本次读书会的主题就是“从语音到语言”,我们将组织大家一起阅读有关人工智能在语音识别、自然语言理解方面的论文,共同攻克语音的难题。
本次读书会阅读的论文将包括但不限于:
内容:
读书会主题 | 主要内容 |
语音识别技术概览 (1次) | 系统性的讲述语音识别技术的发展历程,从传统的HMM到现今的神经网络。 |
一般神经网络语音识别技术 (1~2次) | 通过介绍百度的DeepSpeech2技术原理(Toy model版本),了解神经网络语音识别技术的一般处理步骤,可能遇到的问题及解决方案。 |
End2End模型 (1~2次) | 相比其它神经网络架构,End2End未采用传统的CTC作为神经网络的目标函数,而是完全借用机器翻译当中的技术思想,端到端生成。 |
混合模型 (1次) | 同样类似于机器翻译领域,如今神经网络语音识别技术也有将传统的技术和神经网络结合在一起的案例。 |
问题研讨 (1次) | a.是否可能实现word by word的识别; b.针对已识别结果,我们可以如何改进,如纠错。 |
参考论文:
Graves A, Mohamed A, Hinton G E, et al. Speech recognition with deep recurrent neural networks[C]. international conference on acoustics, speech, and signal processing, 2013: 6645-6649.
Amodei D, Anubhai R, Battenberg E, et al. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin[C]. international conference on machine learning, 2015: 173-182.
Alex Graves, Navdeep Jaitly, Abdelrahman Mohamed: Hybird Speech Recognition with Deep Bidirectional LSTM, 2013
Bahdanau D, Chorowski J, Serdyuk D, et al. End-to-end attention-based large vocabulary speech recognition[C]. international conference on acoustics, speech, and signal processing, 2016: 4945-4949.
Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results, 2014
Graves A, Jaitly N. Towards End-to-End Speech Recognition with Recurrent Neural Networks[C]. international conference on machine learning, 2014: 1764-1772.
读书会简介
作为从事学术研究、享受科学乐趣的探索者的团体集智俱乐部对人工智能的研究由来已久。回顾我们的时间轴,我们在人工智能方向已经走了很远。早在2012年2月深度学习革命刚刚开始的时候,我们已经组织过相关内容的读书会;而2013年7月到2014年1月的一期“探索脑与深度学习”读书会,更是孕育出了“彩云天气”这样的创业项目;2015年4月到2015年5月的“高级认知相关的深度学习”读书会更是将深度学习这个主题推向了高潮,追踪了当前的前沿进展;2016年10月到2017年5月的深度“深度学习”读书会更是将深度学习的研究推向了高潮,也迸发出很多深度学习方面研究的新星。
现在,我们站在了2017年人工智能的风口。经过长期筹划,我们将举办一期全新的基于深度学习原理的语音识别读书会。本次读书会以回顾经典模型、研读最新进展为主。我们希望通过这次读书会活动,能够汇集江湖中的各路英雄,让知识的碰撞擦出创意的火花,并最终催生更多的人工智能产品创意。
下面先和大家分享一个关于读书会真实发生的故事,或许能让你对读书会产生不一样的理解。
故事还得从五年前说起。2012年,有个叫袁行远的大男孩,傲娇地辞掉了阿里算法工程师的工作。他辞职前加入了一个叫作集智俱乐部的神奇组织,也就是这个地方成为了他人生的新起点。当时,这个组织正在举办一期深度学习读书会,一群有着共同兴趣、理想、追求的青年聚集在一起,疯狂地读论文,推公式,堆代码,汲取着知识的能量。
然后,故事开始发展了,袁行远和肖达就碰撞出了火花(请勿YY,这是灵感的火花),他们想到,为什么不用深度学习来预测天气?让每个人都有自己的随身天气预报员?然后,他们开始将创意付诸实践。
于是,2013年,彩云天气上线了,局部有雨滚蛋了,普通大众也可以拥有自己的AI天气预报员了。经过四年的发展,彩云天气已经成长为一家实力型人工智能公司。
在2017年初袁行远团队开发的另一个人工智能产品——彩云小译这样一款即时翻译APP的横空出世又一次震惊了业内,并迅速登上了APP STORE的首页。
彩云天气也转型成彩云AI,袁行远也由当初那个腼腆男生成长为现在的霸道总裁!(广告:加入我们,下一个霸道总裁就是你!)
那么,在人工智能发展的又一次高潮中,你准备好接收未来世界对你发出的邀请了吗?
加入本次读书会,张江大大亲自上阵带着大家一起探索人工智能!为了圆满参与完读书会并有相应产出本次读书会仍然采用缴纳保证金的方式,详情请看下面的读书会报名方式。
参与方式
鉴于集智俱乐部该主题的读书会一向很火,预计参与人数会瞬间爆满。为了过滤一些非专业人士,甄选出真正对深度学习感兴趣、有相关研究经验的专业人士,也为激励小伙伴们坚持学习,本期读书会将采取收费 - 退款的保证金模式。
具体规则如下:
1、 读书会(5期)保证金共计500元/人(含每次活动的饮料费)。
2、 满足以下条件的可全额退款:
举办了两次以上分享活动者;
3、满足如下条件之一者可退款80%:
贡献了一次讲座(1个小时以上)内容的(如若讲座需要提前向主持人申请,通过试讲者可演讲);
完成了三篇以上读书笔记写作的(读书笔记标准:字数在4千字并以上,图文并茂,具体请参照此文:自然语言理解与深度学习课堂笔记1
有超额完成上述任务者可考虑全额退款;
4、读书会允许分期参加,单期读书会学费为100元/人,但无法享受退款。
时间安排:2017年6月11日-8月23日
报名方式:
扫描二维码报名
参考资料:
资料
https://www.zhihu.com/question/20398418
http://mp.weixin.qq.com/s/zRyuNtqJksnqTBbr7K1M2A
https://app.yinxiang.com/Home.action#n=01ab4805-539b-4aec-95dd-4a22fbdd973f&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
https://www.youtube.com/watch?v=g-sndkf7mCs
https://app.yinxiang.com/Home.action#n=622ecb8f-7784-4153-9438-383634cd1ed8&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
https://app.yinxiang.com/Home.action#n=ea612f32-d6c8-4aa6-b0f8-e03e625fb656&t=e04bbfae-5de3-44b6-ba6b-e6f877766c02&ses=4&sh=3&sds=5&
Starter Code
https://github.com/baidu-research/ba-dls-deepspeech
相关课程
机器翻译原理简介——龚力
http://campus.swarma.org/gcou=10166?src=2
系列课程:自然语言处理与深度学习
http://campus.swarma.org/gpac=1?src=2
TransG模型解析:知识表征学习——龚力
http://campus.swarma.org/gcou=10281?src=2
推荐阅读
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!