查看原文
其他

大咖专栏 | Amazon Polly:你打字,我说话!

2016-12-16 AWS云计算


大咖专栏

大咖专栏主要刊登亚马逊AWS诸位大咖亲自撰写的Blog,内容涉猎广泛,话题讨论前沿,且与实战紧密相连。我们非常欢迎小伙伴们在评论区留言,与大咖互动交流!


今天为大家撰文的大咖,是亚马逊AWS首席布道师——Jeff Barr

Jeff Barr

亚马逊AWS首席布道师

前言


在AWS re:Invent 2016上,AWS发布的三项Amazon AI服务:Amazon Lex、Amazon Polly和Amazon Rekognition,备受业界关注。亚马逊AWS首席布道师Jeff Barr在官方Blog上发表了一系列文章,对这三项服务进行了解读。今天我们就为大家介绍如何快速入门Amazon Polly。

在准备写下这篇文章时,我的思绪不禁回到了自己的孩提时代(那时候大部分时间都用在了看电视上)。上世纪六十到七十年代,出现了大批热门的计算机与机器人语音产品。一时间,HAL-9000(来自《2010太空漫游》)、B9(来自《迷失太空》)、初代《星际旅行》中的计算机以及罗茜(来自《摩登家庭》)等形象再次涌现在我眼前。那个时候,人们都热衷于这种机械生成的语音——声音精准、清晰且缺乏人类应有的情感。

《2010太空漫游》中的HAL-9000是无数科幻迷心中的经典

时光飞逝,如今我们已经拥有大量出色的计算机生成语音应用及用例可供选择,业界将其称为文本到语音或者简称TTS功能。娱乐、游戏、公共发布系统、电子学习、电话、辅助应用及设备乃至个人助手都已经开始将其引入。其中大部分应用能够很好地对接移动环境,但本地处理及存储型方案则表现平平。


你好, Polly

为了解决此类用例的实际需求(当然也包括其它大家能够想到的场景),我们推出了Polly,这项云服务能够将文本转化为逼真的语音,并允许大家将其用于您的工具及应用程序当中。Polly目前支持总计47种男声/女声表达并涵盖24种语言(暂不支持中文),而更多语言及语音选项亦在路线图规划之中。

 

Polly的设计目标在于解决语音生成工作中的大部分常见挑战。举例来说,我们以“live”一词为例,“I live in Seattle”代表我生活在西雅图,而“Live from New York”则代表由纽约发回的现场直播,二者在意义上显然存在差别。Polly能够理解这种同一词汇在不同语境下的含义,并给出完全不同的发音。类似的例子还有“St.”。根据语言类别及上下文背景的不同,其可以代表(或者应该发音为)“Street(街道)”或者“saint(圣)”。Polly同样能够准确识别二者间的差别。另外,Polly亦能够处理单位、分数、缩写、货币、日期、时间以及其它复杂的语言成分与表达方式。

 

为了实现这一目标,我们与以Polly支持的目标语言为母语的语言专家们进行合作。我们要求每位参与者利用其选定的语种提供大量单词与短语发音,并将音频拆分为声音单元,即双音素。

 

Polly在处理普通文本时拥有良好表现。大家只需要提交文本,Polly即可顺利完成接下来的工作,即以音频文件或者流媒体的方式给出精准、自然且与人类相似的语音表达。对于其它更为复杂的应用,大家可以使用SSML(即语音合成标记语言)为Polly提供更多附加信息。举例来说,如果您的文本内容中包含多种语言(例如英语与法语混杂),则可利用SSML作出标记以纠正发音。

 

在本文中我无法直接提供相关语音片段,因此感兴趣的朋友可以直接访问Polly Console:


https://console.aws.amazon.com/polly


亲自加以尝试。大家只需要输入文本内容并点击Listen to speech(听取语音)即可:

大家也可以将生成的音频保存在MP3文件并将其运用于您的应用程序当中。

 

以下为完全展开的语言与地区菜单:

技术细节

通过Console使用Polly当然非常便利,不过大家也可以采取其它方式以实现更具动态的使用途径。大家可以在文本或者SSML当中调用SynthesizeSpeech API函数。大家可以直接将输出结果以流媒体形式直接交付至用户,或者生成MP3或Ogg文件以备需要时播放。Polly能够以MP3或者Vorbis格式生成高质量(最高采样率为22 kHz)音频,亦可以PCM格式生成电话质量级(8 kHz)音频。


大家也可以利用AWS命令行界面(CLI)生成音频。例如:

Polly会对全部闲置数据进行加密,并通过SSL连接进行音频传输。所提交文本与提交者间的关联将被移除,以加密形式存储最多6个月,并被用于维护及改进Polly功能。

价格与上线时间

大家每月可以利用Polly处理500万字而无需支付任何费用。在此之后,每个字的处理价格为0.000004美元,或者折合为音频生成约为每分钟0.004美元。本篇博文的语音转换价格约为0.018美元,而《哈克贝利·费恩历险记》全文的语音转换亦仅需约2.4美元。

 

Polly目前已经在美国东部(北弗吉尼亚州)、美国西部(俄勒冈州)、美国东部(俄亥俄州)以及欧洲(爱尔兰)服务区上线,大家可以从今天开始加以使用。

期待你的创意!

关于Amazon Poly如果你有很酷的创意,欢迎大家在评论区留言。诸位小伙伴们也可以互相勾搭一下,一起构建好玩、有趣的应用!

点击“阅读原文

了解更多AWS官方Blog内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存