查看原文
其他

Google 开放基于 DeepMind's AI 的 TTS 服务,接入后你的设备也能像人类一样自然的说话

最「硬」的 深圳湾 2018-11-03


- shenzhenware -


3 月 27 日,Google 宣布推出一款新的 AI 语音 TTS 服务,作为其机器学习云工具套件的一部分。这项服务被命名为「Cloud Text-to-Speech」,任何开发者或者企业可购买服务。


Google 表示,这项新服务可提供 12 种语言、32 种不同版本的语音选择,并支持多种音频格式,包括 MP3 和 WAV。此外,开发人员还可以根据需求,自定义音调、语速和音量增益等要素。


    基于 WaveNet 神经网络,与自然人声交互相似度高达 70%


有趣的是,Cloud Text-to-Speech 中包含许多使用 WaveNet 构建的高保真声音。WaveNets 是由 Google 旗下子公司 DeepMind 实验室研发的一种卷积神经网络,基于 WaveNets 神经网络,能使得机器模拟生成的语音更为自然,与人类声音之间的相似度能提高到 70% 以上。


▵ 去年 10 月,WaveNet 首次被整合进 Google Assistant,被应用到 Google Home 等硬件产品中


在 2016 年末,DeepMind 推出 WaveNet 的第一个版本,当时在实验室环境之外的应用效果还十分生硬,在此之后的一年半里 ,Google Speech 团队一直在大力投资,并与 DeepMind 紧密合作来将 WaveNet 模型产品化。


去年 10 月,WaveNet 首次被整合到 Google Assistant 中(尽管只有英语和日文两个版本),其自然环境下合成的语音效果已经有了巨大的改善,现在则可以应用于 Cloud Text-to-Speech 中。


最新版本 WaveNet 模型运行于 Google 云端 TPU 基础架构之上,生成的原始波形比原始版本快 1000 倍,并且可实现在 50ms 内生成 1s 的语音内容。


「WaveNet 具备一个巨大的人类语音数据库,WaveNet 能将采样速率从 8 位提高到 16 位,能在 1s 时间内创建出 24000 个样本波形,高度再现出包括唇音、喉音在内的声音细节,以达到更加人性化的高保真人声效果。」Google Cloud AI 的产品经理 Dan Aharon 在博客中写到。


    开发者可应用于电视、汽车、机器人等 IoT 设备,对 Google 意义重大


据 Dan Aharon 介绍,开发者可以通过多种方式应用 Cloud Text-to-Speech,例如:


  • 嵌入智能电视、汽车、机器人、智能音箱地等 IoT 设备;


  • 打造自然人声对话系统,为公司提供语音服务系统(IVR);


  • 将基于文本的内容资源(如新闻、书籍)转换为语音格式(例如电台广播或有声读物);


据外媒评论,这一动作无疑对于 Google 是意义重大的,具体原因体现在以下两个方面:


首先,自 Google 于 2014 年收购 DeepMind 起,就一直在尝试如何将 Deepmind 的 AI 技术转化为可落地商业化的产品。到目前为止 ,DeepMind 的算法已经被应用在 Google 数据中心,并能够为之减少 40% 的演算成本;此外 Deepmind 的 AI 技术还被应用在了健康领域。更重要的是,此次直接将 WaveNet 整合进 Google 的云业务中,将赋予 Google Cloud 以 AI 为其独特要素,并依此赢得亚马逊与微软的云业务。


▵ 据测试小组给出的意见评分 4.1(1-5分),WaveNet 的美国英语发音比标准(非 WaveNet)声音的 MOS 好 20% 以上,与人类声音的相似度超过 70 %


其次,Deepmind 的 AI 语音 TTS 技术已经是目前业内技术最为先进、商用最为成熟的技术之一。大多数语音合成器(包括苹果的 Siri),都是使用所谓的拼接式合成,程序会以单个音节的形式进行处理存储,例如「ba」「sht」「oo」,然后将它们按照特定的语法拼接起来形成单词与句子。尽管这种方法的应用已经相当成熟,但在听觉体验上依然不够自然。


相比之下,Cloud Text-to-Speech 被认为是世界范围内最优秀的 TTS 系统,其提供的基于 WaveNet 卷积网络模型合成的人声,比标准(非 WaveNet)声音的 MOS 好 20% 以上,与人类声音的相似度超过 70 %,在世界范围内被认为是最优秀的 TTS 系统。


目前 Cloud Text-to-Speech 已经向个人开发者及企业开放,详细的操作指南及定价均已在 Google Cloud 官方博客开放。


主笔:谈哲 / 深圳湾

编辑:小琳 / 深圳湾


 < 深圳湾语音智能专题 > 


// 语音智能深度分析 //

迷你音箱来袭,2018 行业销量能否破千万?

语音技能 | 语音 OS 平台 | 语音助手

国内百箱争鸣 | 国外音箱全家桶


// 语音助手 //

语音助手排位赛

Google Assistant | Alexa | Bixby

DuerOS 小度助手 | Snips


// 语音智能设备 //

带屏幕音箱大盘点

Echo | Google Home

HomePod | 微软 Invoke 音箱

Facebook | 索尼 Xperia Hello

天猫精灵火眼 | 天猫精灵

腾讯亲见 M10 | 百度小度在家

小米小爱音箱 | 小米小爱音箱 mini

小米 Yeelight | 美的小美 AI  音箱

Anker | 小雅音箱 | 叮咚 | Rokid


// 智能耳机 //

2018 智能耳机进化的三大方向

CES 上的智能耳机大爆发

智能耳机三年全盘点

CES 上的智能耳机大爆发

AirPods | Line Mar | 索尼智能耳机

 Mobius | iBFree 2 | VINCI


// 家庭陪伴机器人 //

索尼 Xperia Hello | Jibo 

Kuri | 富士康晓乐

Zenbo Qrobot 


// 语音智能平台 //

DuerOS | AliGenie  | 腾讯云小微

思必驰 | 科大讯飞 | Rokid | 出门问问

小米水滴平台


//  方案商 & 开发者 //

DeepBrain | 海知智能 | 云知声

 图灵机器人 | 蓦然认知 微纳感知

羽恒科技 & 酷曼科技

杜志鹏 | 王兴超 | 杜军 | 宋少鹏


//  语音芯片 & 方案商 //

高通 | 联发科 | 杭州国芯

Sensory | CEVA | 微纳感知


// 又见音箱系列课程 //

叮咚魏强:AI 音箱的设计、困境与出路

飞鱼吴冬:如何靠设计让产品脱颖而出


// 智能音箱产业链峰会 //

峰会回顾


// WARE 2017 语音智能峰会 //

第 II 季回顾

百度景鲲 | 富士康李国瑜 | 海翼阳萌 | Rokid Misa

思必驰赵恒艺 |  DeepBrain 李传丰 | 米唐宋少鹏

哈曼宋柏勋 | LifeSmart 董熠   | Vinci 朱大卫

灵隆科技魏强 & 超声音响刘晓彤 & 猫王曾德钧


第 I 季回顾

Alexa Travis Grizzel | 搜狗王砚峰 | 瑞声科技张金宇

优必选梁嘉豪 | Omate Laurent Le Pen | GGMM 童建超


 < 快到湾里来 > 

深圳湾招人啦!!!深圳湾正在招聘「真知灼见的科技记者」、「四通八达的运营编辑」、「才华横溢的市场策划」、「技能爆表的活动运营」、「热情四射的社区达人」,如果你对科技领域有满满的热情、想把玩最新最酷的科技产品、喜欢分享一切有趣科技成果,那就快到「湾」里来吧!

简历传输门👉 s@shenzhenware.com


深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存