导语
AppAnnie2021移动游戏报告中,强社交互动属性的吃鸡、射击和在线多人竞技游戏成为最受欢迎品类,并成为玩家使用时长增长的主要驱动力。《绝地求生》、《使命召唤》、《FreeFire》等热门游戏中语音互动早已成为玩家习惯,新型社交游戏Roblox、Among us也大受Z世代欢迎。
当多人游戏和社交互动成为主流,游戏语音如何深度融合游戏场景,为玩家最大程度“还原临场感”却面临诸多困难。
Wwise+GME方案,不仅帮助游戏便捷接入实时语音,还能最大程度提升沉浸式游戏体验。本文将从方案优势、技术实现、语音玩法三个部分来介绍本方案的独特魅力。
当你玩吃鸡时,后方突然出现悉悉索索的脚步声,伴随一声枪响在右耳边炸开,身旁的队友瞬间倒地,队友的惊呼中还带着被击中后痛苦的颤音....
当你进入太空杀房间,映入眼帘的是夜晚的草原篝火场景,玩家围绕着篝火席地而坐,耳机里隐约传来左边玩家的窃窃私语,主持人的讲述里还夹杂着远处的狼嚎,闭眼,睁眼,今晚又有人被毒......
是的,上述场景都是多人游戏中,语音通信与游戏场景完美融合的效果,当多人游戏和语音通话已成为游戏品类的趋势,实时语音也不再只停留在基础的语音能力,而是追求为游戏玩家提供更“声临其境”的沉浸式游戏体验。
Wwise+GME方案是什么?
Game Multimedia Engine(GME)多媒体引擎是针对游戏场景定制的一站式语音解决方案,提供了包括多人实时语音、语音消息、语音转文本以及语音分析等功能,开发者需要通过API调用接入GME SDK,从而在游戏中实现语音功能。
传统的独立语音SDK方案接入过程是独立于游戏音效设计的,而基于Wwise音频引擎开发的游戏,Wwise+GME方案可以将语音的接入融入到游戏音效的设计过程,Wwise强大的音频处理能力和音频控制能力都可以运用到语音上,在提升语音音质的同时,为游戏音效提供了更加丰富的语音玩法设计空间。其基本流程框架如下:
Wwise+GME方案的独有优势
语音与游戏音效的统一设计:
在Wwise工程中,GME语音音频流无缝接入Wwise音频管线,接入语音的过程和Wwise的音效设计过程深度融合,避免了单独接入一套语音SDK可能引起的音频冲突。在游戏程序端,对GME语音发送和接收的操作被抽象成一个个Wwise事件的触发,这些操作和Wwise的标准开发流程体验一致,比以前的API调用的接入方式更直接,更形象。
有效解决开麦后游戏音效质量下降和音量跳变问题:
传统的独立语音SDK导致的声音发干,开麦以后的游戏音效质量下降和音量跳变都曾是行业痛点,尤其开麦后整个游戏的音效音质都进入“电话音质”状态(低采样率的单声道信号),极大的影响了玩家的游戏体验。而Wwise-GME有效解决了手游开麦以后音量类型切换导致的游戏音效质量下降的问题,大幅提升了开麦后语音的音质,在畅快聊天的同时仍然可以保持原有音效,做到听声辨位。
强大的设计能力,带来无限的玩法创意
Wwise-GME方案给游戏语音玩法带来非常大的设计空间,由于语音流全部送入Wwise总线,可将Wwise上丰富的音效处理和控制运用到语音,并且能定制化处理每一路语音流,从而增加游戏过程中的沉浸感和趣味感,让玩家交流“不出戏”。
技术实现
对于每一名玩家来说,语音聊天主要涉及两条音频流链路,一条是上行链路,即本地麦克风采集自己的说话声,通过服务器分发到远端队友,另一条是下行链路,即从服务器接收所有队友的语音,混音后经过本地的播放设备播放出来。
上行链路:
玩家本地的聊天语音流会经过GME采集插件发送给Wwise引擎,基于Wwise提供的丰富的音效处理能力,游戏端可以根据玩家所处的实际环境和需求来对语音流进行处理,比如质地,混响和变声处理等,试想现在玩家的角色是在教堂中,则处理后的带有教堂混响的语音流会通过GME发送插件发送到服务器中,进而发送到远端的玩家。同样,如果游戏设计了变声玩法,经过实时变声算法处理的语音流会发送的远端的玩家。
上行链路处理流程
下行链路:
相比上行链路的单路本地语音流,下行链路通常会收到所有队友的N路语音流,这些语音流会通过GME接收插件传给Wwise引擎,同样游戏端可以根据每一路接收语音对应的玩家在游戏中的实际场景,比如相对本地玩家的位置,距离和有无障碍物阻挡等进行对应的音效处理,处理后的数据经过Wwise混音后在本地设备播放。具体的游戏场景中,比如队友A站在本地玩家的左前方,那么他听到队友A的声音就是在左前方发出来,队友B跳到一个岩石后边,那么他听到队友B的声音就是经过岩石阻挡并折射出来的声音,同时随着队友接近或者远离听者,对应的声音也会被增强或者衰减。
下行链路处理流程
这种基于游戏场景处理过的语音不再像传统独立语音SDK那样只能提供“语音会议”般的游戏体验,而是把语音体验提升到了更高的层次,即与游戏场景融合的沉浸式语音体验。下面这个视频就展示了Wwise-GME方案的一些基本用法,如果用手机观看Demo视频,需要戴耳机观看,因为这里边运用了双耳虚拟声场技术。
视频中你是第一人称视角,对面灰色机器人是其他队友和你通过GME讲话,3D,变声和混响等都运用到语音聊天处理当中(视频中的所有语音都是实时录屏远端玩家发送的语音,而并非后期合成制作)。
(Demo中运用双耳虚拟声场技术,戴耳机感受最佳效果)
更多的语音玩法
Wwise-GME方案这种独特的设计使语音作为游戏音效设计的一部分成为可能,这里列出笔者想到的一些可能的语音处理,更多的玩法期待音频设计师的创作。
发送环境声音或伴奏音:
Wwise-GME提供的不单单是发送玩家语音的能力,还具备发送其它音频流到语音服务器的能力。这个能力最显而易见的应用场景就是卡拉OK了。对于游戏来说,试想这样的游戏场景——玩家在游戏中的角色处在雨中或者风中,当玩家和队友通话的时候,沉浸式的体验就需要把雨声或者风声适当的混音到语音当中。当然还有一些其它的应用场景,比如根据玩家在游戏中的进程发送一些声音Emoji增加语音的趣味性。
模拟语音的反射衍射等处理:
沉浸式的语音体验一定要把语音的渲染和游戏的实际场景结合起来考虑。本文之前提到的质地、衰减、变声、混响以及基本的3D定位处理只能算是初阶的处理,为了更好的模拟游戏场景中说话人与听者的语音传输路径,Wwise提供的反射、衍射、声笼和阻挡模型同样可以用来处理队友之间的语音,这些处理的效果正是元宇宙(Metaverse)所追求的语音终极体验。
人物性格和状态处理:
为了增加游戏语音的趣味性,根据玩家在游戏场景中的一些性格和状态变化也可对其语音做一些特定设计的DSP处理。比如在游戏中的玩家被对手击打掉血,那么语音上做一些失真,延迟或者颤音处理表明玩家的痛苦状态,再比如玩家PK掉了对手或者拾到了宝贝,就对语音做一些高通滤波或者语音加速处理,从而体现玩家的兴奋程度等等。
侧链的处理:
侧链是混音制作过程中必不可少的处理手段,其基本原理就是用一路信号控制另一路信号。游戏中加入语音功能是为增加游戏的社交属性,语音必须要清晰地传递到听者,当有玩家说话的时候,游戏声音混音的焦点就应该落到语音上而不是游戏本身的音效,这就类似收音机电台的做法,DJ要讲话时会让播放的音乐音量降低些,等讲完了话就把音量恢复。Wwise-GME方案把语音流全部送入了Wwise总线使这种处理在游戏场景下也成为可能,比如在接收的语音处设置一个Wwise Meter,然后根据这个Meter的值动态的控制其它音效的音量大小。
下面这段视频是Wwise-GME多种能力展示的Demo视频,其中展示了比如声音反射,阻挡和侧链对GME语音的处理。视频中展示了第一人称第三人称和俯视图视角,绿色机器人是队友和你通过GME讲话,随着机器人所处的位置和环境变化,对应的处理就会施加到语音上(处理细节字幕有描述),这样处理过的语音聊天会让人有身临其境的感觉。同样,视频中的所有语音都是实时录屏远端玩家发送的语音,而并非后期合成制作。
(Demo中运用双耳虚拟声场技术,戴耳机感受最佳效果)
小结
音频引擎中间件Wwise和游戏语音解决方案GME,两个产品各自可以从不同的角度提升游戏的品质,Wwise音频引擎大幅的提高了游戏中互动音效的开发效率,并且提高了游戏中的声音体验。GME则增强了游戏的社交属性,从而增加游戏对玩家的粘性。相信Wwise-GME会成为游戏音效设计师的强有力工具,为游戏中创造最好最真实最富有创意的声音。