查看原文
其他

史上最强的语音输入法诞生,百度是如何做到的

科技唆麻 科技唆麻 2019-04-23

点击上方,关注唆麻

添加星标,不漏精彩

深度科技评论,你的互联网内参



可能是史上最强的输入法终于要来了。


在昨天,百度输入法“AI·新输入 全感官输入2.0”发布会上。百度输入法正式对外发布了最新杀手锏——AI探索版输入法。


这个输入法基本上颠覆了外界的想象。


作为百度眼中 AI 落地的“桥头堡”,百度输入法AI探索版默认将全语音作为默认输入方式,并在丰富输入方式上大开脑洞,围绕表情、肢体等为用户提供了全感官的输入体验。


在发布会现场,台上是嘉宾的演讲,大屏幕的右侧则是百度输入法的实时同步,我注意到,即便是一些英文单词,也能识别出来。


简单来说,这个输入法的特点包括以下几点:默认全语音输入、调动表情、肢体等全感官丰富体验。


比较有意思的是,百度在去年推出过一款默认语音搜索的搜索产品,简单搜索,我当时在文章里就评价道:“谁掌握了语音交互的入口,谁就掌握了比赛的输赢”。


以产品形态的角度看,输入法也堪称“古董”。从 PC 时代的键鼠,到移动互联网时代的触屏,介质一直在变,但输入法产品的基本逻辑并无显著革新,都是通过点按字符组成字词,输入效率提升已经顶到天花板。


早已成为一颗参天老树的输入法,如何在 5G、云计算、大数据、AI 技术的浇灌下发出新芽,已经成为老牌输入法厂商面临的新问题。现在看来,百度输入法试图通过AI探索版从“效率”与“温度”两方面给出答案。



1


AI探索版是如何提升效率的?


聊起输入法,早年接触电脑的朋友一定还对揣着五笔字根图记忆犹新,五笔的高效率甚至一度让“打字员”成为热门行业。但以百度输入法为代表的拼音输入法迅速崛起,五笔渐渐成为历史。


背后的逻辑其实很简单,五笔终归是一门新手艺,但汉语拼音近乎普及。而颠覆式创新从未停止,语音之于拼音、手写亦是如此,近乎为零的学习成本带来了“上手更快”。


这就不难理解,为何百度的“新芽”是一款全盘押注语音的 AI探索版输入法。


如果说,“上手更快”是语音输入法的共性,那么“识别更快”则是百度输入法 AI探索版的个性。


早在移动互联网浪潮兴起时,语音识别准确率就已成为各家产品必争指标。在基于 Attention 模型,纷纷提升到 97% 之后,市场却似乎陷入沉寂。


究其原因,过去语音使用的场景集中在聊天、搜索这两大场景,现在已经逐步拓展到了游戏、购物、娱乐等诸多场景,且使用的频率也越来越高,这就给输入法提出了新的考验。


归根结底,此前的语音输入法其实存在两大体验上的痛点。


其一在于流式解码。以谷歌 LAS 为代表的传统 Attention 模型几乎全部基于整句建模。简单来说,用户需要经历一个整句录制完成-上传服务器-建模分析的过程,输入法在其中充当的角色类似翻译APP,用户需要付出不小的时间成本。


其二在于长句识别准确率下降。这不得不提到 Attention 模型的核心逻辑:基于整句全局信息,通过机器学习的方法,选择出和当前建模单元最匹配的特征。句子越长,进行特征选择的难度越大。出错的概率越高,错误前后传导的概率也越高。


识别慢,识别不准,使得语音输入总是不能一步到位,最终成了一个“应急功能”。


针对这两大实打实的痛点,百度创新性地提出了流式多级截断注意力模型SMLTA。


看起来相当硬核,但是只要稍加拆分就非常容易理解这项新技术的亮点。首先,核心依然是目前主流的 Attention 模型,但截断、流式、多级、基于CTC & Attention 的四大创新点代表了独特的解决思路。


一一对应起来就是:先使用 CTC 算法对连续语音流进行截断,然后对每一个截断的流式语音数据进行建模,以往的整句建模转变为局部语音段建模,同时引入多级 Attention 机制,避免 CTC 插入删除错误对系统的影响,实现特征层层递进的精准特征选择。



简单来说,将以往的整句“切”成了小段进行实时处理,且通过算法解决了失去上下文逻辑导致的误差。


类比传统方案,百度输入法的 Attention 模型不仅解决了流式解码的低效问题,切分后更小的语音段还有效避免了识别率下降的问题。


据百度输入法官方披露,这也是第一次有公开报道局部 Attention 建模,有可能超过全局的 Attention 建模的产品。


流式多级截断注意力模型SMLTA 解决了效率的问题,而在提升易用性上,百度输入法还有另一个杀手锏——混合输入。


“初代网红”papi酱的成名作之一,便是演绎职场与生活的“上海话+英语”的混合表达。恶搞之于,其实也反映了一个现象,在全球化大背景下,商业文化的冲击会让口语表达更加不拘泥于一个固定范式。老实说,也的确有很多概念难以在普通话中找到一一对应的词语加以概括。


不得不说,以往的解决方案属于“头痛医头,脚痛医脚”。你说粤语?那么请在设置中切换粤语模式;你说英语?英语模式也有。至于普通话+方言+外语,输入法直接歇菜。


百度输入法的想法很直观,让语音输入回归本能。


一方面,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与普通话之间的无差别混合语音输入。


另一方面,得益于多年的海外布局,百度海外输入法已经支持到 120 门语言,为不少国家由于历史原因造成语言混输习惯的用户提供了更好的体验。



两大优势一叠加,无论是面向国内的百度输入法,还是面向海外的百度海外输入法,都成了各自市场中目前唯一实现高精度混输入的输入法产品。


既然从“识别更快”,聊到百度海外输入法,那就不得不提到它的“布局更快”。


作为输入法,打入国外市场的难度是难以想象的。以传统逻辑,来自目前全世界智能手机综合实力最强的国家,输入法出海最“明智”的方式无非是与厂商合作预装,短时间内便能通过这条“大腿”拿下漂亮的装机量。但与此同时,也会因为品牌在用户认知中的“隐形”而逐渐丧失竞争力。


显然,百度海外输入法深知其中门道,选择了不走捷径,而是踏踏实实从用户痛点出发,并深入当地文化语境中。


一方面当然是技术的革新,通过上面提到的智能语音、智能推荐、智能表情三大功能创新,百度得以在重技术、轻人性化的海外市场迅速占领市场。


另一方面,百度输入法将跳出了输入法的边界,将自己定位为一个创意品牌,与包括 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等在内的知名 IP 跨界合作,实现了输入法市场的差异化。


以热衷“萌”系画风的日本为例,有将近九成 10-19 岁女性为百度日文输入法Simeji 用户,目前日本市场品牌渗透率已经达到 80%。


靠着技术为主,深入文化语境为辅,百度输入法成为了输入法出海的代表。


2


输入法如何体现科技的温度


作为工具属性极强的产品,输入法往往承载了极为明确的用户预期。用户只希望它安安静静地干好输入法的“本职工作”就好,至于更多的新奇特性并无预期。


但从厂商角度,市场竞争对差异性提出了永恒的要求,于是便出现了厂商与用户在体验层面的博弈。


百度输入法AI探索版,显然是在这样的博弈中找到属于自己的路径,我将其概括为“温度”。


什么是“温度”?它并不代表有意放慢技术研发的速度,而是在技术落地到产品时,更多地考虑到如何以人性化的方式与用户沟通。


于是,百度输入法为何会主推一款默认全语音的输入法不难理解了。


语言,是人类最高效,门槛最低的沟通方式。一切研发围绕“回归语言沟通本能”展开,则显然是科技普惠又一次体现。


百度输入法同时发布了一系列“新表达”功能,包括识别面部特征打造专属表情的“拍立活”;将虚拟人物置于 360 度场景的“秀场”;配套的“表情秀”社区;以及基于最普通的手机摄像头,便能将用户肢体动作识别为文本信息的“新探索”功能“凌空手写”。



其实都是试图在手机端,加入神态、表情、动作等“全感官”体验,为用户还原生活中最真实的交流场景,以体现在技术飞速前进的浪潮下,百度依然希望产品能带给用户看上去“慢”的生活节奏。


3


最后


以当下的行业氛围,作为目前国内产品落地节奏最快的 AI 技术巨头,百度如果在这场发布会上畅谈输入法的各种想象空间亦未尝不可。


一方面,AI 技术储备深厚,布局宏大;另一方面,百度输入法也是稳坐市场头把交椅。但意料之外的是,看似“硬核”的一场发布会下来,我感受到的其实是行业领先者依然埋头将技术付诸于科技普惠的沉稳与温度。这当然是大局清晰后的自信,而更多的,则是一个企业价值观的呈现。



点击下方图片查看最新精彩文章

我怎么这么好看

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存