微软的技术,直接颠覆了我对听书这件事的看法!
阿虚同学
读完需要
12分钟速读仅需 6 分钟
阿虚一度是对听书不太感兴趣的(虽然一大部分原因是我看的小说没有有声书)
,AI机械式的发音,固定的腔调、语速,总会丢失那些波澜起伏的剧情所带来的沉浸式情感体验
但最近才知道微软在//Build 2021大会上,发布了旗下 TTS 2021版的人工语音,让我对听书这件事简直是有了革新式的看法
大家可以听听官方网页的示例,新增的这5种中文语音,根本听不出是机器在念,逼真地吓人:http://t.cn/A6x3q7ow
对于喜欢听书的人来说,估计和阿虚一样心里只有一个想法吧:赶紧让我体验一下!!!
而且对于一些想做视频却又觉得自己配音普通话不标准的人来说,用来生成AI配音也很有帮助
总之阿虚今天就准备来介绍一下部分平台上怎么用上微软这些最新的TTS语音!
1
安卓端
TTS对于多数人,肯定还是用于手机上看小说,所以这里还是先介绍怎么在手机上体验
1.1
TTS
目前最简单的方法就是@ag2s20150909制作的这款小APP了
APP的最新版发布在作者的Github:https://github.com/ag2s20150909/TTS/tree/master/release
如果你访问Github困难,建议了解《2022 Github加速访问教程》,或者也可以在公众号上回复以下关键词来获取这款APP:微软TTS
将APP下载并安装好之后,点击左上角「设置TTS」,将手机的默认的文字转语音引擎改成「TTS」
然后回到APP内,默认的AI是晓晓,如果你要切换成其他AI,要先勾选「自定义」,然后再点击切换!
阿虚自己是比较喜欢云希这个AI 的声音,讲话风格你也可以自行选择(有新闻/客服/助手/闲聊等等),阿虚自己是用的默认
然后因为TTS是系统级的功能,基本上的电子书阅读器都是支持调用系统TTS来朗读的
你立马就能在你常用的阅读、静读天下这类APP上体验到微软TTS的牛逼了!
▲这俩APP都能在储物间下载
不过这个TTS据悉会时不时存在卡顿、跳读问题,网友们给出的解决方法有以下这些:
换格式
换AI发声人
换时段
换格式的意思是,在TTS右上角的设置中,更改音频流的格式
说白了就是降低音频质量,32kbit/64kbit/128kbit 这些总能明白吧
理论上来说如果是网络问题导致的朗读卡顿,降低音频质量就应该是能明显改善问题的
而会出现以上问题的原因,大抵是因为大家用的都是作者的 API 导致的(或者是作者从某处挖来的),公共服务的缺点自然是用的人越多越不好用...
1.2
大声朗读
如果你想要长期稳定可用的微软TTS服务,还是建议各位用大声朗读这款APP
不过使用这款APP的前提是你得满足这俩条件之一:有国外的 edu 邮箱或者有VISA、MasterCard这类双币卡
但其实没有也有办法,你也可以借助万能的淘宝
现在还是能找到很多 edu 邮箱的卖家的,不过请注意:不是所有的 edu 邮箱都能订阅 Azure⚠️,买之前请自己详询卖家!
或者你也可以选择淘宝找一家虚拟信用卡用于过 Azure 的支付验证(后续使用并不会扣费)
总之若你满足以上条件,你就能自行注册微软 Azure 服务,然后借用大声朗读这款APP,从而获取到长期稳定可用的微软TTS服务啦!
这个APP是由酷安大佬@I I I I I 开发的:http://www.coolapk.com/u/453544(可用酷安打开此链接,此链接为作者ID地址)
不过由于他现在已经隐藏了之前的动态,我没找到他原始发布的动态,你可以关注微信公众号:阿虚同学,发送以下关键词,后台即会自动回复下载地址:
微软TTS
APP现在已经支持自动更新了,后续也不担心找不到最新版这种问题了
有国外edu邮箱的话,你可以直接百度搜「面相学生的Azure」,然后填学校邮箱注册就行了,不需要信用卡(前提是你的 edu邮箱支持过Azure订阅)
要国外edu邮箱是因为,由于国人大量薅微软的羊毛,国内的edu邮箱的优惠早被薅没了...
下面阿虚只介绍下有双币卡的情况怎么注册并使用
你别担心:双币卡只是用于过验证,并不会真的扣款,并且后续使用也并不会扣款
第一步打开此地址:https://azure.microsoft.com/zh-cn/free/cognitive-services/
类似于谷歌云,首次注册 Azure 账号即微软云,会免费给你提供12个月的热门服务,还有200美元的服务付费额度,不过我们后续会用到的AI语音服务是有免费版提供的,所以并不用担心1年之后就要收费了
在上方地址「点击免费开始使用」后登录你的微软账号,并填写相关账号信息+勾选协议+填写双币信用卡信息后
耐性等待信用卡验证注册好账号后,打开此地址:https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
点击「已在使用Azure?立即免费试用此服务」
在创建资源页面按下图方式进行,只需要注意订阅和Pricing tier处都选择免费选项即可
然后点击底部的「审阅并创建」,等待审阅通过,继续点击一下「创建」
创建好之后,点击「转到资源」
点击管理密钥
你会看到两个密钥,随便用一个就行
把密钥填到大声朗读的APP里即可,然后点击「SSML语音合成标记语言」
输入下方代码并保存,然后就可以随心使用了 ~
关于这段代码,你可以按需调整这3部分:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
name="zh-CN-YunxiNeural",即阿虚上图使用的是Yunxi(云希)这款AI语音
style="assistant",表示讲话风格设置的则是assistant(以热情而轻松的语气对数字助理讲话)
styledegree="2",这个值可以指定说话风格的强度, 默认值为1,最小值0.01,最大值2
xmlns:mstts="https://www.w3.org/2001/mstts"
xml:lang="zh-CN">
<voice name="zh-CN-YunxiNeural">
<prosody rate="${(rate-100)?c}%" pitch="${(pitch-100)?c}%">
<mstts:express-as style="assistant" styledegree="2">${text}
</mstts:express-as>
</prosody>
</voice>
</speak>
如果你想要自行更换以上配置,你需要参考微软官方的文档:https://docs.microsoft.com/zh-cn/azure/cognitive-services/speech-service/speech-synthesis-markup
你需要知道的是,每个AI所拥有的 Style 风格是不一样的,比如 Yunyang 目前就只有 customerservice 这一种风格
而 Yunye 则有calm、cheerful、sad、angry等等多种风格可选
最后需要注意的是微软Azure的免费额度是每月50万文本转语音字符(下方配图有错,见置顶留言说明)
虽然阿虚没实测,不过也不能排除一个汉字等于2个字符这个情况,总之就是自用的话也不要说无脑用哈(虽然一个月靠自己把这50万免费额度用完是有点不现实)
2
iOS端
很可惜,在iOS上阿虚也没找到什么 “ 特别好 ” 的使用微软TTS的方法,只有将能用的方法
2.1
Edge浏览器
最好的办法大概只有用 Edge浏览器了,但Edge浏览器目前仅有 Xiaoxiao(女)和 Yunyang(男)两种中文普通话语音(电脑上也是)
而且「目前」也还没有能支持最新的 Neural 神经语言情感系统,说话还是缺点灵气
但 iOS端的粉丝只能将就用用这个方法了,一起期待什么时候能将情感系统上线Edge浏览器开放使用吧!
除了能朗读在线网页小说,搭配一些网页版电子书阅读器,其实我们也能变相实现朗读本地电子书
在线电子书阅读器
阿虚找来了一些在线电子书阅读器,可以直接导入本地电子书文件,而剩下的大家应该就懂了吧
这个网站是我简单测试后觉得体验最好的在线mobi阅读器了,Edge自带的广告拦截也能拦截这个网站的广告
在线 Mobi 阅读器:https://lwebapp.com/zh/mobi-reader
tReader是阿虚测试一堆之后觉得体验最好的在线txt阅读器了,项目开源在Github(/tiansh/reader/),完全没广告,阅读器的功能很全,能添加书签、搜索、查看目录之类的
在线地址:https://tiansh.github.io/reader
Neat Reader是个在线阅读epub、txt阅读器,缺点是网站完全没有适配手机端,iPhone上你需要先横屏手机一直往右边翻才能看到上传按钮,并且存在的问题是有些电子书不知道为什么反复都上传不了...
在iPad上的话,这个网站体验还算不错的
在线地址:https://www.neat-reader.cn/webapp#/
2.2
云手机
另外一个可行的方法就是之前写iOS微信双开时候提到的,花钱使用云手机了
云手机是安卓系统,那你就只需要回头去参考本文第一节的内容就行了
3
Windows/Mac
用电脑端看小说的人应该比较少吧,多数开发者应该也是这样想,阿虚也的确没找到电脑端能直接调用微软TTS的阅读器
电脑端的工具基本都是调用微软TTS来进行文本转语音的工具,这个基本上都是视频制作人员才会用得上
不过你非要想在电脑上听微软TTS也不是没有办法
3.1
安卓模拟器(WIN/Mac)
因为电脑上你可以直接开安卓模拟器啊,整体来言无非就是多了启动模拟器的步骤
然后你就能像安卓手机一样享受微软的TTS语音了
并且你还可以直接录制电脑音频来获取AI语音(这对视频工作者来说应该不难,阿虚就不多费口舌了)
,也省去了折腾其他软件的功夫
安卓模拟器的推荐可以看阿虚原来的这期文章:
3.2
Edge浏览器(WIN/Mac)
除了以上最简单优质的解决办法,就依然和iOS端一样了,你可以直接用Edge浏览器自带的大声朗读功能——但缺点依然是Edge内置语音没有具备神经情感模型
对于txt文件电脑上更简单,你可以右键txt文件选择用Edge打开,或者直接将txt文件拖入Edge浏览器,然后你就能使用Edge浏览器的大声朗读功能了
注意txt文件不宜过大,1MB内比较合适,文档大了,浏览器容易卡死
而对于epub、mobi格式,你除了可以参考iOS那部分,使用在线电子书阅读器来查看,你也可以通过安装浏览器扩展来解决问题
另外在Edge扩展商店安装安装EPUB READER这款扩展之后:https://microsoftedge.microsoft.com/addons/detail/epub-reader/bfpfpfenkimhijpdcbbhmemcimbeehcl
新版Edge浏览器不能直接打开Epub文件的问题也解决了
而安装MOBI Reader这款扩展之后:https://microsoftedge.microsoft.com/addons/detail/mobi-reader/hnlidllpecohilngbcinhpgnaebeemno
也能直接在浏览器中看mobi文件了
3.3
SpeechStudio(网页)
听书的话基本上就以上俩方法了,本文剩下部分的再来说下文本转语音吧
如果你能按本文1.2节处注册到微软云,自然直接用微软官方在线免费的有声内容创作工具是最Nice的啦:https://speech.microsoft.com/
往下翻找到文本转语音,再点击有声内容创作
订阅选择免费试用,资源则选择刚刚创建的美国东部,免费F0资源
点击新建
然后就是一个非常简洁好用的在线语音合成平台了,在右方可以随意选择AI,设定说话风格,停顿...并且还能直接免费导出合成的音频
最 Nice 的一点是,你可以一段一段,或者一句一句的设置讲述人,甚至能用来自己创作有声书!
微软中国视频中心就在B站发布过一个用微软TTS演绎《红楼梦》的视频,可谓是活灵活现:https://www.bilibili.com/video/BV1my4y1S7RY
▲点击可播放
3.4
ReadAloud(网页)
虽然你完全可以用Edge浏览器打开本地 txt 文件,然后录制电脑音频来获取微软TTS语音,但的确稍微麻烦了点
@guozhigq这位作者基于微软Edge浏览器大声朗读功能开发了一个专门生成语音用的网站:https://guozhigq.github.io/ReadAloud/
工具开源在Github:https://github.com/guozhigq/ReadAloud
如果你访问Github困难,建议了解《2022 Github加速访问教程》
3.5
edge-TTS-record(WIN)
和上面那款工具基本上一样,基于微软Edge浏览器大声朗读功能开发的,不过这款是本地化的Windows程序
软件可以直接到作者Github下载:https://github.com/LuckyHookin/edge-TTS-record
如果你访问Github困难,建议了解《2022 Github加速访问教程》,或者也可以在公众号上回复以下关键词来获取这款软件:微软TTS
3.6
微软听听文档(微信小程序)
这个由微软官方推出「微软听听」知道的人估计就很少了
虽然它有在线网站(https://aka.ms/tingting),但实际最后是转到微信小程序中使用,所以建议大家是直接用微信小程序
同时为了方便你最后提取音频,建议是在电脑微信上使用小程序
点击选择手机内图片(实际是选择电脑上的一张图片),随便选一张图片就行,这个不太重要
然后在之后的页面点击「添加讲稿」,每张图片下只能生成一次AI讲稿,所以你可以多添加几张照片
微软听听最多一次性生成1500字的语音,然你需要在下方将功能从「录音」切换为「AI读稿」,然后点击红色的按钮来进行生成
目前共有7种主播(5中文2英文)可选,就是阿虚听不太出对应的是哪5个微软的中文AI了(目前微软一共有9个中文AI),但感觉是比Edge浏览器的晓晓效果要好一点
注意生成了还没完,你需要点击一下「试听」实际的音频才会缓存到电脑本地
然后打开微信设置,在文件管理中,打开你微信的本地文件夹,找到「Applet」这个本地文件夹
在「Applet」文件夹下按时间降序,找到最近修改过的 wx 开头的文件夹,并在这个文件夹内,找到「temp」文件夹
依然根据修改时间降序排序找到刚刚转换的文件(你也可以根据文件大小来判断),此时仍然不是音频,还有最后一步需要做
将这个文件复制到另一个地方,选择重命名,添加「.mp3」的后缀,你就得到微软听听文档AI生成的音频了
前文没有插入过多的演示音频,主要还是希望大家能自己动手操作,但文章最后还是带大家来体验一下效果究竟有多强吧!
▲阿虚的一些感触