配音领域的AIGC:游戏和影视是最佳场景,在人机交互领域改善用户体验,与配音演员共存的新商业模式 | AIGC系列
The following article is from 东西游戏 Author 东西游戏
除了AI图形与绘画,近日国内游戏直接以AI生成语音替代真人配音,同样引发了市场对AIGC在声音领域应用的关注。
此前,因配音演员无法继续参与语音收录工作,米哈游旗下《未定事件簿》和网易旗下《时空中的绘旅人》同时选择采用AI技术制作角色语音,替代真人配音。其中《未定事件簿》基于自研“逆熵AI”生成语音,《时空中的绘旅人》则与网易互娱AI Lab合作,表示提取角色原有配音声纹特征录制新语音。
AI配音技术并不新鲜,从Siri语音助手到智能音箱都是AI配音的应用。不过用户能够清晰分辨出这些AI配音浓重的机械感,也导致AI配音的应用场景受限。
而随着AI配音技术朝着更生动、更富情绪化的方向发展,正逐渐拓宽AI配音技术的落地场景。AI配音逐渐拥有“情绪”,与真人配音效果贴近,以至于出现令玩家都惊叹的效果。
影视、游戏等对于配音有着高要求的领域,正在成为AI配音新技术的主要落地场景。已经有不少AI技术公司、游戏公司和影视公司加码,并且逐渐落地产品。此外,数字人、品牌广告营销、直播、播客等领域也成为AI配音技术的切入点。
整体来看,AI配音技术当下主要还是对配音演员生态的补充。但因应用成本与门槛较低,且多个人机交互领域有改善用户体验的诉求,市场看好该技术未来以低廉的价格扩展到个人用户层面以及其他领域,并使配音市场将在AI技术帮助下变得更大。
AI配音技术向“情感”方向发展,游戏和影视是最佳落地场景
现今应用最普及的AI配音技术有两条路线:一是语音转换(Voice Conversion),在不改变输入配音音频内容的情况下,通过AI技术改变其音色、音调、语言等属性。
二是TTS(Text To Speech)技术,即文字转语音技术,通常被称为语音合成。输入文字内容,就可以由AI生成对应音频。这也是目前多家科技公司和初创企业的主攻方向。
目前TTS技术已从通用TTS、个性TTS向情感TTS发展。后者的音色与人声相比,几乎真假难分,并且能使AI配音出现情绪变化,破除此前 AI配音冰冷的机械感。
相比通用TTS和个性TTS,情感TTS需要更多样的音频数据库作为支撑,并且依赖“情感意图识别”、“情感特征挖掘”、“自然语言处理”等AI技术,是一项复杂的系统性工程,研发难度超过通用TTS与个性TTS。
其突破性的技术进步还在于其采用端到端的建模方式,即在输入端和输出端中间使用大量数据集对AI神经网络进行训练。这是由谷歌在2017年时提出,并以此研发了 Tacotron AI语音合成系统。
之后大批互联网和科技大厂跟进该技术,构建自研的端到端TTS模型。国内市场如百度的ClariNet模型、阿里巴巴的语音合成技术KAN-TTS、腾讯AI Lab研发的DurlAN模型等;国外则有英伟达自研的语音AI管线、微软的 Azure 云服务的语音合成功能等。
技术自身在情感表达上的突破与多家机构跟进研发,使得AI配音技术的应用场景和程度出现较大拓展。
早期通用TTS、个性TTS被普遍应用在语音助手、智能音箱、导航APP、有声小说等领域,而情感TTS已开始切入数字人、品牌广告营销、直播、播客等多个领域。
其中,就现阶段技术发展程度与商业化能力来说,游戏和影视被视为当前AI配音技术最佳的落地场景。
例如,目前正在被Spotify寻求收购的英国AI 语音平台Sonantic, 曾在2021年5月发布号称“世界上第一个会哭的AI” Faith,展示了一段由Faith配音的动画短片,被观众评价“配音能力令人惊叹”。
此外,该公司曾在2018年创立初期5天内,找到了7家有意愿合作的3A游戏工作室。而到了2021年,Sonantic透露其AI配音技术已经运用在200家游戏公司的音频工程中。Sonantic认为,“游戏开发者是叙事的专家,他们已经在使用包括TTS在内的前沿技术,因此我们认为游戏开发将是一个庞大的目标市场。”
而在国内市场,爱奇艺、米哈游、网易等涉及影视、游戏业务的公司也加大对AI配音的投入,并且已经在产品中落地。
AI配音技术
如何应用在游戏和影视领域
1.游戏领域的应用:多用于游戏开发阶段,探索工具化机会
海外游戏开发对相关技术的应用已经较为广泛,但AI配音较少被作为最终的配音效果输出,而是作为“检查点”一样的存在,让开发者可以知道这段游戏文本呈现为语音时大体的效果,最终配音依然是由真人配音演员完成。
为Ninjia Theory、Wargaming、Neon Giant等多家知名游戏开发商提供服务的AI配音技术公司Altered 公司CEO曾如此解释AI配音技术在实际游戏开发中扮演的角色:“当你编写完一段对话文本时,你需要去想象对话呈现的效果。可能当你把对话交给真人配音演员时,对话并不像你想象中那般有活力。我们提供了一个中间步骤,在AI配音工具内,他们可以直接知道对话呈现的大概效果,这为配音演员进入录音棚之前提供了一个‘检查点’”。
游戏开发商 Ninjia Theory 就AI配音的话题也在推特上表示,AI配音技术只用于早期开发阶段,而真人配音演员的演绎是使游戏叙事栩栩如生的核心。
而在国内游戏行业,一些大厂也在探索AI配音在游戏开发上的应用。除了用在角色配音上,AI配音技术也被广泛应用在提示音、游戏音效、游戏客服等方面。如网易 AI Lab 的AI语音合成技术,就被用在《哈利波特:魔法觉醒》《倩女幽魂》《荒野行动》等自研游戏中。
2021年,网易 AI Lab 技术总监林悦海还在网易游戏开发者峰会上提到,在《决战!平安京》内置的UGC工具“剧情编辑器”中,有大量由AI合成的声音供玩家在编辑剧情中使用。
2.影视领域应用:降低配音成本,解决小语种配音等特殊问题
影视行业有高度成熟的配音演员业态,因而采用AI配音技术主要分三种情况:
一是低成本电影制作。如2021年虚幻引擎短片奖的影片《Cassini Logs》考虑到成本问题,片中的演员配音都是由澳大利亚科技公司 Replica Studios 的AI配音技术所完成。
二是由于特殊原因演员无法配音。曾获奥斯卡奖项的好莱坞制片人 Morgan Neville 在纪录片《Runner》中为了重现拍摄中因病去世演员的声音,也使用了AI配音技术进行配音。
三是在制作小语种翻译配音上。AI配音的语音转化技术,可以保留配音演员本来音色的同时,快捷地转换为其他语种。今年2月完成2000万美元A轮融资的初创公司Deepdub,专注于将AI配音技术用于影视领域,曾用AI技术为电影《Every Time I Die》制作葡萄牙语和西班牙语版本。
“我们制作的游戏有几万行对话,必须不断调整对话内容,并最终由配音演员配音呈现。Sonantic 让我们只需要将对话脚本发送到API端口中,我们就能够得到如真人版的配音效果,这帮助我们更好完成游戏叙事。”
相较于传统的演员配音,AI配音也更加便捷,而且不需要跟配音演员协调录制时间和地点,当文本内容需要调整时,能随时得到AI配音音频。
因此,可以看到有许多国内外游戏、影视公司也在积极推动AI配音技术的应用。
比如游戏引擎厂商 Unity 和 Epic 都允许将AI配音插件嵌入到引擎程序中,以方便游戏开发者调用。2020年11月,Replica Studios 的AI配音工具就以插件形式嵌入到Epic的虚幻引擎中。在发布后三个月,开发者们便用该插件制作了一万六千条音频。
而在影视领域,国内以及好莱坞的部分影视公司,也开始使用AI配音技术。比如,爱奇艺基于AI语音转化和语音合成技术,自研 IQDubbing 配音平台。
在AI技术加持下,IQDubbing 配音平台可以让一名配音演员完成多个角色、不同年龄、不同音色的配音任务。据爱奇艺透露,相较以往的配音模式效率可提高三倍以上。此外,爱奇艺也在用AI技术为泰语、越南语等小语种影片配音,推动海外业务的发展。
伴随技术的发展,AI配音还能拓宽整个配音市场。Replica Studios 认为,AI配音技术可以将专业配音这项服务,以低廉的价格扩展到个人用户层面以及其他领域。
带有情绪的AI配音技术在游戏、影视等文艺创作领域落地后,还将和涉及人机交互的诸多领域产生交集,进而慢慢改变用户体验。
例如微软 Azure 云服务的AI配音功能,就允许个人用户通过SSML(语音合成标记语言)文本生成一段由多个AI音色参与且具有感情的音频。而且 Azure 除了将AI配音技术用于游戏领域外,还与小鹏汽车合作,将AI语音推广到汽车驾驶等人机交互领域。
米哈游的“逆熵AI”也不仅限于应用在游戏。今年7月,米哈游的虚拟人“鹿鸣”首次直播,全程与观众互动的语音也是由AI生成。另外,字节跳动旗下的网文平台“番茄小说”也在有声书功能上使用更有情感表现力的AI配音技术,其情绪多变的语音效果引发了一波讨论。
AI配音现阶段仍是配音演员业态的补充,合作模式发展有望诞生新商业机会
在AI配音技术发展和各种落地应用之下,不能忽视AI配音技术并非独立配音演员而存在的。不论是从音频数据的采集,还是到最终的配音呈现,真人配音能力仍发挥重要作用。
将“配音”作为内容创作的一环来看,优质配音就并非在后台为AI添加几个情绪那么简单,经验丰富的配音演员能揣摩剧本人物进行更合适情绪编排。在这种情况下,AI配音更多是作为配音演员业态的补充。
在新技术的冲击下,目前出现了一些AI技术提供方与配音演员间不同的合作模式,这对后续AI配音产业的持续发展具有一定启发价值。
前文提到的 Sonantic ,他们选择为合作的配音演员创建独特的AI配音模型,该模型可以用配音演员的声音演绎出任何说话内容。由 Sonantic 来运营这些配音演员的AI配音模型,而游戏、影视等内容创作公司则可以从Sonantic的AI配音模型库中挑选合适的声音。
Sonantic 认为,这是一种灵活性很高的合作模式。配音演员们可以继续做着传统的表演工作,将时间花在现实生活中,去试镜、去参加戏剧创作、接商业广告。而那一份AI配音模型则提供分成,为演员产生补充收入。
同时 Sonantic 也在AI配音模型在被调用过程中,确保所有产生的音频内容都是经配音演员本人同意,以防止配音演员声音被“滥用”的风险。
与 Sonantic 的模式不同,Replica Studios 选择推出虚拟的AI配音演员形象,来代替真人配音演员的身份。每一个AI配音演员形象背后,都是由真人配音演员的声音经过调试得到的,所有与内容创作方的合作都是AI配音演员为代表,而非真人。
目前,Replica Studios 的AI配音演员库有超40个演员,并且在快速增长。这些配音演员都是以二次元人物形象呈现,并且带有浓烈的游戏风格,这也与该公司主要瞄准游戏开发领域有关。
Replica Studios 只需要少量的真人配音演员就可以得到数十个AI配音演员,通过调节语音的情绪、节奏和音调,大批量生成声音完全不同的AI配音演员。而每当AI配音演员与游戏和影视公司公司合作获利时,其背后的真人配音演员也能获得一部分收益。
对于AI技术公司而言,AI配音演员看似比真人演员的AI配音模型更加高效便利,不过 Replica Studios 也明确指出,这种AI配音演员产生的声音不存在任何平滑的情绪过渡,单句话语中只能存在一种情绪色彩。
两种不同的合作模式难分孰优孰劣,但这些公司都在传达一种核心思想——AI配音技术不是洪水猛兽,而是能与配音演员达成共赢。