“原音重现”单田芳背后,AIGC内容在如何改变音频行业?
撰文:EW | 顾倍嘉 王益琛
审核:EW | 岳 鸿 (上海)
支持:东西文娱泛娱乐组
导 读
“听众朋友们,你们好。从今儿个,由我为大家播讲悬疑小说,《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里.......”
熟悉的声音再次响起,一代评书大师单田芳先生仿佛又回到了我们身边。在单老先生仙逝三周年之际,喜马拉雅用语音合成技术实现了单老先生原音重现。
在新的“单田芳声音重现”账号之下,有用户评价称“这是真正的书接上回”,也有人为单老对紫金陈的《无证之罪》的跨时代演绎称绝。
通过语音合成 (TTS: Text-to-speech)技术,喜马拉雅在评书这一热门的付费音频品类上实现了IP的衍生。目前“单田芳声音重现”已经累积了6部涉及不同风格的专辑,与此前官方授权的“单田芳评书”共同构成“单田芳IP”矩阵。
基于喜马拉雅庞大的语音素材库,TTS技术已经在喜马拉雅在电子书、新闻等领域实现了较广的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。而单老的“原声重现”,则意味着TTS技术正进一步迭代,从而以AIGC的形式整体丰富了IP的呈现形式和数量,也进一步延续了经典IP的生命力。
对于国内音频产业而言,多场景消费用户的高占比,加之音频行业整体的渗透潜力,让技术越来越成为行业的重要竞争维度。
在音频赛道上,AI技术一方面在让声音内容的生产和分发更为高效,另一方面,随着音频内容逐渐规模化,以及技术的迭代更新,AI对于内容的参与程度也越来越高,从而让音频内容呈现更智能化的趋势。
由此,这也带动着音频行业以语音合成技术为基础的AIGC内容的产出,这将进一步丰富喜马拉雅原有的UGC+PGC+PUGC的音频生态,从而在IOT的场景时代打开更大的想象空间。
“重现”单田芳
喜马拉雅用AI语音重新演绎IP
作为喜马拉雅上广受欢迎的相声、评书类较为原生的音频品类,单田芳官方授权的内容此前收录在“单田芳评书”账号,在喜马拉雅拥有超过672万粉丝。多张评书专辑长期位列喜马相声评书热播榜前列,例如,《乱世枭雄》在喜马拉雅的播放量近24亿,《白眉大侠》播放量近20亿。
单田芳先生一生录制了100余部共计超过12000余集广播、电视评书作品,在全国500多家电台、电视台都播出过,节目时间约6000余小时。通过现代技术,让单老独特而迷人的“云遮月”嗓音再次响起,是众多评书迷的心愿。
而语音合成是一项实用性非常强的技术,也是喜马拉雅技术团队多年攻坚的重点。长期专注研发语音合成和识别等技术的智能语音实验室是喜马拉雅的核心部门,他们也有一个心愿,就是让TTS技术触及更多人。
合作的契机在于,在此之前,喜马拉雅和与北京单田芳艺术传播有限责任公司已经有稳定的长期合作关系,“单田芳评书”这一官方授权账号,已经上架了80余张单田芳先生评书专辑。这些内容同时,也是语音合成技术研发的重要基础。
但真正的难题在于如何通过技术再现单田芳评书的特色。相较常见的合成语音,评书最明显的特征在于其强烈的表现力。作为一种语言表演艺术,表演者语气的抑扬顿挫、有特点的音色、乃至口技,都是评书的重要组成部分。
“这一块是我们做评书,甚至是做单老音色的一个难点,因为单老的腔调相比其他人异常顿挫的更明显一些,更难模仿一些,所以这一块其实花了很大的功夫。”喜马拉雅智能语音实验室卢恒博士说到。
针对再现过程中的难点,喜马拉雅设计了单独的三大技术模块,并将其融入HiTTS语音合成框架。
为了再现单田芳评书饱含感情的抑扬顿挫,技术团队自主设计了韵律提取模块,通过引入停顿和重音等标记,对AI识别进行针对性优化。
单田芳评书中有一些区别于标准普通话的发音,例如“这个”中的“这”字,普通话发音“zhè”,但在评书中通常读为“zhèi”。针对这一点,技术团队设计了专门的口音模块,对单老的特殊发音进行标记,保证了语音合成的“原汁原味”。
据卢恒透露,他们对于评书中的口技也进行了针对性的研究,以期实现完全的模拟。
在喜马拉雅语音合成技术团队的努力下,不仅重现了单田芳先生标志性的“云遮月”嗓音和情感丰沛的腔调,同时通过前所未有的跨时空作品演绎,让“新派非遗”实现了新的传承。
“单田芳声音重现”账号目前已经上线了6部专辑作品,用单式评书腔调,全新演绎了多部风格迥异的经典之作。比如既有时下流行、故事情节曲折奇特的推理小说——紫金陈的《无证之罪》;更有延续单老生前未完成的的评书经典——宫白羽的《十二金钱镖》。
应用广泛
TTS让“声音颜值”更具想象
单老的声音重现仅是喜马拉雅TTS技术应用的冰山一角。
目前,TTS技术已经支持喜马拉雅在电子书、新闻等领域实现了突破,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,这些TTS内容在上线后也获得了较大的收听量。
以新闻榜单为例,位列新品榜前三的《鲸快讯》、《时代财经》、《环球观察》皆由喜马拉雅的AI主播进行播报。
不过,相比现在喜马拉雅整体的海量内容库,卢恒表示,目前TTS技术的应用范围还是很小的,未来,包括单老先生的IP在内,还会推出更多AIGC内容。
喜马拉雅这种兼具深度与广度的应用是其在语音技术领域沉淀多年的产物。
卢恒表示,“从霍金使用的拼接式语音合成技术,到参数合成,再到现在基于神经网络的参数管理系统,目前TTS在世界范围内的发展十分迅速,像DeepMind创建的语音合成器WaveNet,让语音合成的音质有了大幅的提升。”
公开信息显示,2016年,谷歌旗下的人工智能企业DeepMind推出了用于生成原始音频波形的深层神经网络模型—“WaveNet”,并在一年的时间内将原始模型的效率提高了1000倍。高保真(24kHZ)、高分辨率(16bit)和快速生成声波的WaveNet已经在Google Assistant被正式商用,甚至在一组美式英语的人类听众测试中,WaveNet的得分超过了真实人类语音。目前喜马拉雅语音技术团队也已经研发出自己的声码器“PhaseGAN”,这种基于生成对抗网络的声码器甚至有着比WaveNet 更高的生产效率。
也就是说,随着人工智能的发展,“高颜值声音”和“内容产出效率”已经跳脱出了互相制约的局面,可以成功商业化。
从国内TTS发展来看,不少大厂也早已看准音频技术领域前景,纷纷布局TTS赛道。比如阿里拥有的语音合成技术KAN-TTS,和腾讯云在语音合成方面的研发。
“经过这两年的研发,喜马拉雅的TTS技术在小说朗读、新闻播报方面在国内处于第一梯队了,当下我们仍在做进一步的研发。”卢恒表示。
作为喜马拉雅的核心部门之一,智能语音实验室在语音合成、语音识别、智能音效、语音编解码、语音信号处理和虚拟主播等技术上都进行了研发。目前,喜马拉雅建立了独有的三大语音技术平台,此次单老先生的声音重现依靠的就是“三驾马车”之一的语音合成平台—“HiTTS”,此外,还有语音识别平台“HiASR”和语音智能音效平台“HiSound”。
在TTS语音合成方面,喜马拉雅已经申请了三项专利,一是基于单语言级的多语言语音合成法,通过同其他人的英文数据集一起训练,标记共享音素的方式,可以让不会说英文的人也能流利地讲英语。另外,喜马拉雅还采用并行解码器,生成语音合成序列,改进了语音合成后端模型的结构和效率。
此外,喜马拉雅语音实验室还联合中国科学技术大学、中国传媒大学等高校进行了多角色TTS、多情感音库录制的合作。
“目前小说的声音角色分配用的是单播,所有内容都采用同一人的声音,通过与中科大的合作,将来会实现自动预测一句话是由哪个角色说的,并自动为他分配相应的TTS音色,”卢恒说道。
可以预见的是,在小说领域,喜马拉雅将会实现多音色自动识别朗读,在音频技术上进行突破。
而小说领域,对应的正是音频赛道独有的有声书品类。这种更娱乐属性的长音频内容,目前是音频平台们的第一流量来源,也是付费的主力品类之一。
声音赛道的升维战
内容与技术融合,AIGC内容的势能
从音频行业来看,随着人工智能以及大数据分析的技术更新,听众对“声音”需求的增长离不开技术和内容的双向拓展。
灼实咨询数据显示,目前,国内在线音频行业的渗透率仅为16.1%,而在线音乐、短视频和长视频的渗透率则分别达到56.7%、73.8%和74.2%。显然,在线音频行业还有很大的开发空间。
根据喜马拉雅招股书表述,截至上半年,用户移动端总收听时长和在线音频总收入来看,喜马拉雅是中国最大在线音频平台,平均MAU达2.62亿,其中包括1.1亿移动端用户和1.51亿的物联网及其他开放平台的用户。移动端用户共花费8478亿分钟收听喜马拉雅音频内容,占中国在线音频总收听时长的70.9%。
整体而言,在这样的用户基数下,头部平台的变现效率有所提升。从营收构成来看,喜马拉雅已经形成了付费订阅为主的变现模式,与此同时,还包括广告、直播等模式。这意味着内容已经成为驱动音频行业发展的主要因素。
对于已经发展十余年的音频行业来说,通过前期的内容沉淀,走过知识付费的阶段,随着大众对优质精神体验的需求增强,打造出大量优质的内容才能持续吸引和留存新听众,增强用户粘性,形成切实的付费转化。
从内容维度来看,通过PGC、UGC、PUGC三大生态模式,喜马拉雅已经搭建了稳定的内容供给金字塔,这一商业模式也得到了验证。
2020年,喜马拉雅与161000名第三方IP和内容创作者进行了合作。今年上半年,喜马拉雅移动端平均付费MAU为1420万,同比增长65.5%。
从内容策略上来看,喜马拉雅以爆款IP结合名人配音的模式,将目标听众的体量最大化,提高用户忠诚度的同时,进一步完成付费率的提升。
这在今年的暑期档内容供给中体现的尤为明显。就在8月20日,喜马拉雅发起品牌焕新活动,将“每一秒陪伴都有爱”的slogan正式更换为“每一天的精神食粮”。这也表明喜马拉雅未来,将集中打造精品内容,为用户提供优质的精神食粮。
在这一定位之下,喜马拉雅日前官宣《声临其境》此前的年度总冠军朱亚文成为精品有声剧的声音大使,并重磅推出了国风精品、主打精品悬疑的“白夜剧场”、主打经典文学作品的“回声剧场”等一系列优质IP,进一步加大了优质内容的供给。
比如在悬疑有声剧方面, 去年喜马拉雅重磅推出云集蔡骏、紫金陈等众多悬疑小说大家的“白夜剧场”,今年又拿下东野圭吾的代表之作《白夜行》,由韩雪和朱亚文配音,两人此前皆在《声临其境》中有出色表现。曾在中国登上畅销榜的《白夜行》凭借口碑基础,在喜马拉雅精品有声剧节目上线后,获得了9.7的高分,播放量达到650万。
与此同时,多场景消费用户的高占比,加之音频行业整体的瓶颈态势,技术已经成为音频领域的重要竞争力。
在招股书中,喜马拉雅强调了AI技术及大数据分析能力对内容创作、分发和运营的重要性,并以面向未来的技术、AI和大数据能力为战略。在技术研发费用上,喜马拉雅在2018年至2020年的投入分别为2.68亿、4.71亿和6.24亿元,包括了AI赋能的发现与推荐功能、支持高效创作的内容制作技术和支持物联网及其他设备的技术。
可以预见的是,在语音技术的加持下,高效和高质量音频预计将进一步赋能喜马拉雅优质内容的生产。
卢恒表示,喜马拉雅语音智能实验室的语音技术开发,会将AIGC作为辅助工具,为喜马拉雅平台上的主播等内容创造者助力。在保留原创性的前提下,节省主播在音频制作上的重复性工作,将精力集中在创造性内容上。
去年,喜马拉雅平台约有520万活跃内容创作者,创作了涵盖98个品类的2.9亿条音频内容。基于TTS技术,喜马拉雅已经开发了一系列多情感、多风格、多语种的模型,还录制了许多中头部主播的声音库,能够生成各种逼真自然的声音来表现不同的情感、题材和频道。
“我们也在做一些辅助主播的推广工具,比如输入一本书的内容,主播通过点击选用不同的音色,用TTS以及音色转换的技术(VC Voice Conversion)来合成内容,主播也可以使用自己的音色去读某些句子。”卢恒补充到。
可见,未来,随着喜马拉雅语音技术的发展,AIGC在喜马拉雅的辐射范围将进一步扩大,助力UGC、PGC、PUGC的内容生态,从而在IOT的未来竞争中进一步释放自己的势能。