其他

语音输入大势所趋乘风破浪,轻声识别是打破僵局看似很轻的一记重锤

2017-04-07 互联网品牌官


作者 | 李大为

来源 | 互联网品牌官(szwanba)


有这样一种说法:越是无门槛的常见的事物,其创新驱动力就越低。


究其原因,常见事物的既定状态在很早之前就已经决定,即便短期内不进行技术创新也不会耽误现有状态的生存。



以最不起眼、却是人们日常沟通交流最必需的输入法为例, 经历了五笔、拼音到语音的时代性变革,现在搜狗、百度、讯飞三足鼎立,外人看来是各有千秋,但是在人工智能的大驱动下,语音输入成为创新路上的基准线。


01

语音输入体验的种种革新


路漫漫其修远,上下求索的百度输入法给出了他们的态度和答案。


2017年春节前夕发布的7.3版本,以极简语音、长文本语音、通讯录识别、ios不跳转等功能着实让众网友眼前一亮。


如果没有洞察市场先机的格局和眼见,如果不注重用户终端的体验,想必极简不挡屏的“极简语音”、不间断语音录入的“长文本语音”、人名优化的语音“通讯录识别”、果粉福利的“ios不跳转”等也就不会如横空出世般刷爆各应用类网站。


实实在在的场景化应用,不仅提升了用户感知,为百度输入法抢占市场先机带了空前流量,更让其坚定了追求用户极致体验的方向,在人工智能领域中场景化功能不断被开发与应用。


日前7.4版本的发布,主打轻声识别功能,就是最有力的证明。



02

轻声识别拓宽了语音输入的使用场景


所谓轻声识别,就是用户以极为细小的声音进行语音输入,语音可以完全收录,并转化为文字。



这一功能,主要是针对用户在公共场合中不方便打字但是语音输入“私密性”堪忧的痛点所提出的。轻声识别可以在地铁、电梯间、聚会、电影院等场合以近乎唇语的极细小的声音进行语音输入,它不仅化解了用户在公共场合使用语音输入的尴尬,保护了用户私密,更在某一层面上达成了对他人的尊重。


纵观近期的两次发版与动态,不难发现,百度输入法一直在为用户的实际体验做减法,极简语音也好,近期主打的轻声识别也罢,都是最有力的彰显。那么,这减法的背后,又有多少不为人知的技术上的加法呢?


03

实际体验的减法与隐藏在技术背后的加法


就轻声识别的研发来说,它的发音方式与正常语音有明显的不同。一方面,音量相对而言比正常发音的音量低,另一方面,人们在轻声说话的时候,由于不经过声带振动,因此不存在基频,也没有相应的各次谐波,其频谱特性与正常语音完全不同。


针对轻声语音的特殊性,百度输入法的技术人员采用主动学习的方式,通过基音检测和谐波分析技术,从海量数据中主动挑选出符合耳语特性的数据进行人工标注,作为训练集和开发集,在已有的通用声学模型基础上进行训练,使得声学模型能够快速适配耳语语音的特性。



所以,很在很多人以为轻声识别不过是提升了语音输入的准确性,更甚者有不懂的人士认为,这是手机话筒的功劳和输入法有什么关系?


但是就是这样看似简单的功能背后,经过了无数的实验以及模型的优化。


听起来“不明觉厉”,但有一点可以肯定,种种研发和创新其实都是百度输入法对于应用场景的不断优化以及理解,人工智能的核心不正是“更懂你”?这似乎与百度输入法所追求的核心不谋而合。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存