查看原文
其他

一条语音“爷童回”,靠的竟是这个黑科技!

微软科技 2022-07-21

(本文阅读时间:6分钟)

年少时,每个人也许都曾有过拯救世界,解开自然之谜的远大梦想。“回忆杀”当中,少不了像“海尔兄弟”一样勇敢智慧的化身。渊博睿智的海尔哥和聪明勤奋的海尔弟,连同爷爷以及小伙伴克鲁德和詹妮,一行人穿越太平洋,飞跃大峡谷,发现神秘石像,见证深湖巨怪和人形豹影,观看黑云中的礼花,在充满挑战与惊喜的大千世界里持续前行。

多少人羡慕过海尔兄弟的险象环生又收获满满的冒险之旅,渴望身边也有这样十项全能且推心置腹的默契伙伴,然而如今,我们或许真的可以同机智的海尔兄弟一起在日常生活里解锁未知,披荆斩棘。

今年 9 月,以“探险家”为主题的海尔兄弟 AI 音箱重磅上线,基于微软的语音合成(text-to-speech,简称 TTS)技术,完美还原海尔兄弟的声音,唤醒了许多用户在心底尘封已久的珍贵记忆。该款产品具备智能家居、音乐音频、儿童娱教和生活服务的多项功能。一句“海尔兄弟”或“小优小优”,即可开启三翼鸟全屋语音场景,目前已支持覆盖海尔智家70+品类、4400+型号的智能家电设备。

海尔兄弟 AI 音箱是善解人意的智慧生活助理,能够帮用户设置闹钟,提醒待办事件,查询天气;它可以感知决策,主动服务,监测家中电器和耗材的使用;原声植入的定制趣味交互,做到陪用户聊天,进行连续对话;一句话点播海量音频,寓教于乐的功能得以无缝呈现。可以预见的是,该款音箱将毫无悬念地成为海尔智能家居未来发展的核心产品。

在海尔兄弟 AI 音箱成为撬动海尔智能家居未来发展有力杠杆的过程中,微软的语音合成(text-to-speech,简称 TTS)技术提供了关键支持。语音作为微软人工智能平台的核心技术之一,在近几年逐步开放输出给微软全球的客户和合作伙伴,目标是弥合人和人、人和机器之间的沟通鸿沟,为个人用户带来美好的语音体验,帮助企业客户加速在人工智能时代的数字化转型。

海尔优家产品总监张汉恒则表示:“我们打造了一个高度差异化、高质量的自有音色,从此小优有了一个绝对自有的体验,未来我们将围绕 IP 差异化,打造虚拟人、话术辨识度、主动沉浸式交互……等核心产品体验。”

微软语音合成技术可以将文字转换成语音,同时微软也落地了产品化的基于端对端的深度神经网络的语音合成系统。根据第三方主观打分(Mean Opinion Score),基于深度神经网络的计算机合成的声音 (Neural TTS)几乎能够达到真人录音的水平,支持全球70个国家和地区,超过250多个平台声音可供选择。

与此同时,微软还推出了工业级的商业化声音定制平台,任何想要定制语音的第三方可以自助在微软的平台上定制属于自己的声音。早在2018年,微软认知服务神经网络语音合成技术首次发布时就已经达到了接近人声的自然度。最近两年来,核心技术上的不断创新使合成声音错误率进一步减少、显著提升了句子韵律和语音的高保真度,并且拥有15种语音风格及情感调节。

除家庭场景外,微软的语音合成技术早已深入到更多大众喜闻乐见的实用生活场景之中。

微软智能语音 x 小鹏汽车:车规级“真”人车载语音助手



当城市陷入水泄不通的僵局,或是长途旅行中闪过皆是千篇一律的风景,一款接近人声,无须反复唤起就可以流畅对话的“人格化”语音助手很难不让人怦然心动,甚至构成一种刚需。就在今年,小鹏汽车 P7车型进行了一次重要的 OTA(Over-The-Air,远程空中下载)系统升级,其中搭载微软语音合成技术的语音助手小 P 媲美人声的更新,再次拉高了智能汽车语音助手的水平线,实现汽车界对车载语音的前沿探索。

▲图片仅供参考,来源为微软全球官网,与案例内容无关

在达到车规级语音的过程中,微软提供的神经网络语音合成技术,克服了汽车移动状态下网络抖动、语音高保真度带来的连锁挑战和合成语音中的歧义问题,有效助力车载语音场景的应用落地。微软同样将小鹏汽车上对于语音模型的应用经验,反哺到通用语音模型中,做到“大道至简”,其模型能力的触类旁通,帮助更多像小鹏汽车一样的企业充分享受平台及 AI 模型的诸多益处与红利。

微软智能语音 x 小米:为小米 9 量身定制的人工智能版王源



在人工智能时代,声音即是品牌。还原偶像明星真人音色的领先语音合成技术无疑能够充分满足万千粉丝心底的真实诉求。

2019 年,微软与小米携手推出偶像明星王源定制版的小米 9,以王源在录音棚录制的几百句语音数据为基础,利用最新的深度神经网络、端对端的深度学习优化,创造出了语音语调自然流畅,像真人一样抑扬顿挫、并且富于情感的人工智能声音模型,在当时引起了广泛关注。

微软智能合成技术可以为个人或者企业定制属于自己的声音,既可以为客户提供自助式的服务,也可以提供端对端的整包服务。该项技术克服了传统技术定制的语音模型需要发音者录制上万句话,耗费几个月时间的痛点,几百句话就可以训练出一个逼真和自然的人工智能声音,而且可以很有效地扩展到多种说话的风格。智能合成声音定制带来手机内置的人工智能版“爱豆”,可以随时向用户问好,陪用户聊天,送出节日祝福,有效推动了移动设备上智能语音助理的潮流化与人格化的发展趋势。

生活智能管家、移动出行帮手和人工智能版偶像,微软语音合成技术早已打破多个场景的局限,从技术与解决方案角度出发完成了质的突破,让人工智能强大且亲切的形象日益丰满。我们期待看到语音合成技术在未来解锁更多社会化场景,发现更多可能,为企业和个人用户在实际工作与生活的方方面面带来更多意想不到的便利与精彩。

推荐阅读

微软零售“三重奏”出炉,feat.里竟然有Ta?
沈南鹏问了微软CEO四个问题
扫雷已是时代的眼泪?现在的小学生都在电脑课上……

精彩活动

全球 IT 最为关注的创新技术解析在这里


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存