Google 开放基于 DeepMind's AI 的 TTS 服务,接入后你的设备也能像人类一样自然的说话
- shenzhenware -
3 月 27 日,Google 宣布推出一款新的 AI 语音 TTS 服务,作为其机器学习云工具套件的一部分。这项服务被命名为「Cloud Text-to-Speech」,任何开发者或者企业可购买服务。
Google 表示,这项新服务可提供 12 种语言、32 种不同版本的语音选择,并支持多种音频格式,包括 MP3 和 WAV。此外,开发人员还可以根据需求,自定义音调、语速和音量增益等要素。
基于 WaveNet 神经网络,与自然人声交互相似度高达 70%
有趣的是,Cloud Text-to-Speech 中包含许多使用 WaveNet 构建的高保真声音。WaveNets 是由 Google 旗下子公司 DeepMind 实验室研发的一种卷积神经网络,基于 WaveNets 神经网络,能使得机器模拟生成的语音更为自然,与人类声音之间的相似度能提高到 70% 以上。
▵ 去年 10 月,WaveNet 首次被整合进 Google Assistant,被应用到 Google Home 等硬件产品中
在 2016 年末,DeepMind 推出 WaveNet 的第一个版本,当时在实验室环境之外的应用效果还十分生硬,在此之后的一年半里 ,Google Speech 团队一直在大力投资,并与 DeepMind 紧密合作来将 WaveNet 模型产品化。
去年 10 月,WaveNet 首次被整合到 Google Assistant 中(尽管只有英语和日文两个版本),其自然环境下合成的语音效果已经有了巨大的改善,现在则可以应用于 Cloud Text-to-Speech 中。
最新版本 WaveNet 模型运行于 Google 云端 TPU 基础架构之上,生成的原始波形比原始版本快 1000 倍,并且可实现在 50ms 内生成 1s 的语音内容。
「WaveNet 具备一个巨大的人类语音数据库,WaveNet 能将采样速率从 8 位提高到 16 位,能在 1s 时间内创建出 24000 个样本波形,高度再现出包括唇音、喉音在内的声音细节,以达到更加人性化的高保真人声效果。」Google Cloud AI 的产品经理 Dan Aharon 在博客中写到。
开发者可应用于电视、汽车、机器人等 IoT 设备,对 Google 意义重大
据 Dan Aharon 介绍,开发者可以通过多种方式应用 Cloud Text-to-Speech,例如:
嵌入智能电视、汽车、机器人、智能音箱地等 IoT 设备;
打造自然人声对话系统,为公司提供语音服务系统(IVR);
将基于文本的内容资源(如新闻、书籍)转换为语音格式(例如电台广播或有声读物);
据外媒评论,这一动作无疑对于 Google 是意义重大的,具体原因体现在以下两个方面:
首先,自 Google 于 2014 年收购 DeepMind 起,就一直在尝试如何将 Deepmind 的 AI 技术转化为可落地商业化的产品。到目前为止 ,DeepMind 的算法已经被应用在 Google 数据中心,并能够为之减少 40% 的演算成本;此外 Deepmind 的 AI 技术还被应用在了健康领域。更重要的是,此次直接将 WaveNet 整合进 Google 的云业务中,将赋予 Google Cloud 以 AI 为其独特要素,并依此赢得亚马逊与微软的云业务。
▵ 据测试小组给出的意见评分 4.1(1-5分),WaveNet 的美国英语发音比标准(非 WaveNet)声音的 MOS 好 20% 以上,与人类声音的相似度超过 70 %
其次,Deepmind 的 AI 语音 TTS 技术已经是目前业内技术最为先进、商用最为成熟的技术之一。大多数语音合成器(包括苹果的 Siri),都是使用所谓的拼接式合成,程序会以单个音节的形式进行处理存储,例如「ba」「sht」「oo」,然后将它们按照特定的语法拼接起来形成单词与句子。尽管这种方法的应用已经相当成熟,但在听觉体验上依然不够自然。
相比之下,Cloud Text-to-Speech 被认为是世界范围内最优秀的 TTS 系统,其提供的基于 WaveNet 卷积网络模型合成的人声,比标准(非 WaveNet)声音的 MOS 好 20% 以上,与人类声音的相似度超过 70 %,在世界范围内被认为是最优秀的 TTS 系统。
目前 Cloud Text-to-Speech 已经向个人开发者及企业开放,详细的操作指南及定价均已在 Google Cloud 官方博客开放。■
主笔:谈哲 / 深圳湾
编辑:小琳 / 深圳湾
< 深圳湾语音智能专题 >
// 语音智能深度分析 //
// 语音助手 //
Google Assistant | Alexa | Bixby
// 语音智能设备 //
// 智能耳机 //
// 家庭陪伴机器人 //
// 语音智能平台 //
// 方案商 & 开发者 //
// 语音芯片 & 方案商 //
// 又见音箱系列课程 //
// 智能音箱产业链峰会 //
// WARE 2017 语音智能峰会 //
百度景鲲 | 富士康李国瑜 | 海翼阳萌 | Rokid Misa
思必驰赵恒艺 | DeepBrain 李传丰 | 米唐宋少鹏
哈曼宋柏勋 | LifeSmart 董熠 | Vinci 朱大卫
Alexa Travis Grizzel | 搜狗王砚峰 | 瑞声科技张金宇
优必选梁嘉豪 | Omate Laurent Le Pen | GGMM 童建超
< 快到湾里来 >
深圳湾招人啦!!!深圳湾正在招聘「真知灼见的科技记者」、「四通八达的运营编辑」、「才华横溢的市场策划」、「技能爆表的活动运营」、「热情四射的社区达人」,如果你对科技领域有满满的热情、想把玩最新最酷的科技产品、喜欢分享一切有趣科技成果,那就快到「湾」里来吧!
简历传输门👉 s@shenzhenware.com
深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。