什么是声音元宇宙?一文详解空间音频的原理、应用与技术方案|元来是你005
「元来是你」技术交流平台
3D未来,将是技术革新的未来。「元来是你」平台将聚焦 3D 内容生产与消费的相关课题,邀请技术、美术、产品到投资领域专家,交流和探讨前沿技术革新与市场变化,共探3D世界的未知与未来。
元象自研的「端云协同」3D互动技术,能提供庞大、逼真、多人、轻量的次世代交互体验,「逼真体验」正是我们持续关注的课题之一。
本文聚焦「空间音频」的话题,分为四个部分:1)空间音频的简介及技术原理;2)声场重构及虚拟立体声的技术方案对比;3)空间音频的应用案例;4)元象方案,包括场景建模、音效模拟、音源分离、虚拟人语音房等。
我们的方案适用于各类3D场景,希望通过空间音频为用户提供更身临其境的声音体验,提高3D场景的沉浸感、真实感、层次感。
全文6200字,阅读预计时间15分钟。
一、空间音频的简介
声音的元宇宙是什么?
当我们谈论虚拟世界时,经常谈论3D视觉,而忽略3D声音。但人的感官对周围世界的感知,全部是立体的,这适用于视觉、听觉、触觉、嗅觉,所以人可以看到、听到、闻到、摸到前后左右上下来自不同方向的信息。
当一个管弦乐队演奏时,你可以感到大提琴在你的右前方,小提琴在你的左前方,而小号却在中间……听一个电声乐队时,你可以明显感觉出主奏乐器来自不同的方向。听重唱,你可以清楚地分辨出左、右声道中分别播出的各自的高声部和低声部。
所以3D立体声音的优点,不仅是有真实感、临场感、空间感,还因为分离声像分离或改变位置,能使听觉具有层次感,可以压低噪声。
技术原理是什么?
空间音频(Spatial Sound),也叫3D音效、空间音效,就是一种通过操控立体声扬声器、环绕声扬声器、扬声器阵列或者耳机等发音设备所产生的声音,来实现让听众感受到声音似乎是从三维空间中虚拟的位置发出的一种技术。
通过模拟基于人耳的构造、声音在空气中的传播特性、遇到障碍物时的反射特性等物理规律,可以模拟音源位于听者水平面的前后左右,甚至是垂直上下方位,达到以假乱真的效果。
通过将空间音频应用于虚拟人物上,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果。
1)双耳效应
从声学角度讲,空间音频的原理并不复杂。人们在现实生活中因为“双耳效应”,就是依靠双耳间的音量差、时间差和音色差,能感受到声音从不同方位发出。当声音强弱不同,能感受到声源与听者之间的距离,从而判断感知声源所在位置。
a.双耳时差:首先是双耳时差(Interaural time differences, ITD)。声源与左耳或右耳的距离越远,双耳时间差越大。听者可以通过声音到达左右耳的时间差,来判断低频声源与人的相对水平位置。
b.双耳水平差:仅仅通过双耳时差(ITD)还无法判断高频声源的位置,由于一些高频的声音会被物体遮挡而无法继续传递、扩散,比如人的头部,这就是双耳水平差(Interaural level differences, ILD)。由于头部带来的声学屏障(Acoustic shadow),让左右耳听到的声音大小与频率产生差别,由此大脑会判断出声源方位。
双耳时差 (a) 及双耳水平差 (b) 示意图
c.频谱效应:还有频谱效应(Spectral effects)。声音在到达后会因外耳结构而形成反射,从不同方向来的声音,反射效果也不同,大脑可以根据它来判断声源在垂直方向上的相对方位。通过对耳朵结构的反射效应进行建模,构建HRTF,可以更加逼真地模拟声音的方向。
频谱效应示意图
有了双耳时差和双耳水平差判断声源水平位置,然后利用耳廓的反射可以判断声源垂直的位置,大脑就可以判断声音在三维空间中的位置了。
2)环境建模
除了双耳效应,环境建模同样重要。声音在传播过程中会随着距离衰减、失真;遇到障碍物经历多次反射、改变声音特性。因此,人可以通过结合生活经验,更准确地判断声音的位置。建模要考虑的因素包括:
a.衰减:受气压、温度等物理性质的影响,声音在不同空气中传播的衰减速度和频响特性都会有一定区别。传播越远,声音衰减越大,失真越多。
b.反射与阻挡:声音会与环境中的障碍物多次反射,最后到达耳朵的声音除了直接传播的声音,还有从不同角度反射而来的混响声。例如音乐厅中,为了让声音更好听,需要特别设计墙面的反射特性,达到最佳混响效果。为了提高室内环境的真实感、层次感,对此建模也是必不可少的。
声音反射示意图
(图片来源 Google Resonance Audio)
c.方向性:声音源发出的声音在不同角度的效果不同,例如在舞台正面和侧面听乐器演奏,音量和音色都不一样,如果一个图象是单向音响设备,各个角度的音量一模一样,就显得有点出戏了。
当用户操作虚拟任务在虚拟场景中移动时,需要以上这么多的细节问题都进行实时的、精细的模拟,才能完美模拟出最真实的听觉感受,对建模和计算优化的能力都是不小的挑战。
为什么需要它?
过去制约声音效果的主要因素是网络带宽,因此研究焦点主要在编解码技术,随着5G技术普及和编解码技术发展,声音的高保真传输已不再成问题,兴趣点转向如何能让声音更加真实呈现给用户。
空间音频就是其中一个热点,希望能通过在有限设备条件、甚至仅依靠一对耳机,模拟还原场景空间,力求提升用户临场体验。
近年来,由于疫情持续,越来越多用户参与到线上活动来,例如游戏、在线会议、在线演唱会等,对音频有了更高的要求,从能听到转向追求更好听。事实上,空间音频已经在这些场景得到了一定应用。
在FPS类游戏中,可以利用声音方位感判断敌我方位,大大提升游戏沉浸体验;在多人聊天或在线会议中,传统音频方案无法传输位置信息,多人交替发言时需要花额外精力区分说话人,没有足够临场感和沉浸感,导致与会者精力分散、容易疲劳、难以长时间投入到会议中,影响会议效果;在线演唱会中,如果没有空间音频,同样难以模拟出实地演唱会被周边观众欢呼声淹没的体验感。
而在线上实时互动场景中,互动体验很重要,沉浸感更不容忽视。试想在虚拟空间,你和朋友们一起听歌、聊天、玩互动游戏,一切都非常真实。假如缺失了空间音频的听感模拟,免不了会有出戏感。
通过空间音频模拟,新的空间信息被引入到虚拟体验中,使观众能够完全独立于他们的眼睛感知自己身后或虚拟环境中其他地方发生的事情,在建立用户之间实时互动的同时,空间音频也将成为帮助元宇宙场景增加临场感与沉浸感的基础设施,构建更逼真、更前沿的音频元宇宙。
二、声场重构 vs. 虚拟立体声
空间音频背后的技术可以分成两种:声场重构和虚拟立体声。前者主要利用硬件设备从采集层面实现声场的复刻,再利用播放设备实现声场还原;而后者是将原来采集层面不具备的条件的音频(例如单通道音频)依靠软件算法在播放端来模拟和还原空间感。
声场重构是什么?
从物理实现的角度,声场重构旨在利用扬声器阵列在特定环境中呈现真实的声场分布,使人们仿佛身临其境,感受真实的声效和声音品质。
它在现实生活中具有重要的应用价值。可以利用不同形式的传声器阵列采集声场信息,如传声器线阵列、平面阵列、圆形阵列和球形阵列等。
将声场信息进行相应的变换和处理,例如平面波分解、圆谐函数和球谐函数分解,求解扬声器阵列信号,进而重构真实声场,扬声器阵列的布置大多采用二维的直线、圆形或矩形等形状。
声场重构示意图
虚拟立体声是什么?
但有些场景受限于采集设备、场景等,可能只有单通道采集或非立体声采集。换句话说,就是没有办法使用专业话筒,只能用电脑自带麦克 风或普通麦克风。
但我们想体验会议室、演唱会、开 party 的“济济一堂”或者游戏中的“听音辨位,虚拟现实”,这时就需要虚拟立体声(Virtual Stereo)来实现了。
最简单的双声道虚拟立体声可以利用 Amplitude panning 技术,即通过调节左右声道的音量大小来实现。根据一个给定的虚拟音源的位置和距离人头的相对位置来调节左右声道的声波幅值,从而实现一个二维平面空间的立体声听感。
利用虚拟立体声,我们只需要在参数中设定声源的角度和距离,就可以决定声源的位置,而且声源的位置可供我们随意编辑。这样我们就可以在多人在线互动场景模拟出“身临其境”的感觉。
例如会议场景中,大家坐在不同的位置,你能清楚地听到每个人都在你的不同方位,再辅以图像就可以模拟真实的互动感,轻松让沟通更高效、更有趣。
两种方案区别是什么?
声场重构的标志性公司是杜比,虚拟立体声的标志性公司是索尼和苹果。目前应用更广泛的是苹果的虚拟立体声方案,这主要是因为成本。声场重构所需的全套设备往往非常昂贵,对于大部分用户而言难以承受。而耳机相对而言更加便宜、轻便、配置更加方便,也无需过多调整用户的日常使用习惯。
三、空间音频的四类应用案例
1)游戏类
FPS 游戏:通过使玩家依赖对声音线索来源的正确判断,空间音频可以提高玩家在 FPS 游戏中的环境意识。熟练的玩家在游戏过程中仅凭轻微的声响或技能音效,就能精确定位危险所在,和队友连麦时,可以通过求助语音准确辨别队友位置展开救援。
当队友通过具备空间音频的游戏语音与你实时沟通作战情况时,你能感觉到他就站在你的右边向你发出进攻指令,仿佛真的在线下一起参加真人 CS。
但是不仅限于FPS游戏,作为增强沉浸式体验的关键因素之一,空间音频可以为绝大部分游戏在一定程度上提升游戏体验。
例如,通过空间音频,让手机游戏等小屏幕游戏营造出大游戏的体验感;以空间音频为中心的游戏可以帮助视觉受损的人享受游戏;恐怖游戏可以利用黑暗和缺少能见度,使玩家依赖声音的空间线索,从而创造更有沉浸感的体验。
此外,传统的声音为二维平面,这与 VR 提供的视野是脱节的。头戴设备(例如Oculus Rift)与空间音频相结合,可以让玩家通过头部转动来确定声音的来源方向,从而进一步提升 VR 体验。
2)音乐类
虚拟演唱会/音乐会是当下新兴的一种线上演唱会形式。相比语音聊天室、在线会议,虚拟演唱会是否成功的关键在于演唱者的歌声与听众听到的歌声是否好听。对于现实中的音乐会,会场墙壁往往需要专门设计,以便追求最佳的混响效果,这也是线上的音乐直播节目缺乏体验感的主要原因。
空间音频则从本质上改变了歌声传递到听众耳朵中的听觉体验,并弥补了虚拟演唱会一直缺失的“现场氛围感”,未来观众在虚拟演唱会的沉浸感与听觉体验有望不输线下演唱会。
演唱者可通过动作捕捉技术化身虚拟的形象投影到虚拟舞台中,观众也会化身虚拟人坐在舞台下观看演唱者表演、在虚拟舞台下喝彩,他能“声临其境”的听到来自各个角落的声音,从舞台的左右两侧到中央的歌唱者再到周围观众的各个位置,犹如置身在真实的演唱会环境中,对于演唱者而言同样如此。
3)企业服务类
语音会议室/聊天:空间音频会把空间信息带入音频中,空间音频一定程度上让我们更容易知道多人在场的音频通话场景中,是谁在说话,因此辨别说话人就不再消耗精力,提升效率的同时,也减少了沟通的疲劳感,并大幅提升参与度。当你感受到来自周围的笑声时,感觉就像在参加一场真实的线下聚会,对于听众与发言者来说都不会感到平淡,使用户更加沉浸在聊天的环境中。
虚拟展厅:数字展会和商业展厅也是可能的方向,真实的VR体验,除了触感、视觉等感官体验,空间音频更是必不可少的。VR 与空间音频结合,公司员工可以与客户像面对面一样介绍展位、沟通交流,使得沟通更加真诚,信息传递更有效率,客户的转化率自然同步提升。
4)无障碍类
空间音频还可以用于无障碍服务,由于空间音频的方向性,听声辩位变得可行,只要稍加训练,视障人士就可以以此作为他们方向感的主要线索。通过与GPS导航、摄像头三维重建、物体识别等技术结合,就可以给视障人士提供导航服务,为他们的日常生活提供了较大的便利。
四、元象方案:场景建模、音效模拟与分离
1)场景建模,搭建元宇宙基础设施
元宇宙的世界,应该运行在端上还是云上?微软和meta选择了不同的路线。meta投入了很大的力度来研发元宇宙的入口设备:头显硬件;微软则把精力集中在了云基础设施的构建上,以便快速兼容各式各样的手机、平板、可穿戴设备。
两种方案各有优劣,硬件设备的前期投入较大,用户接受起来也需要一定的时间,但是一旦抢占了入口,后期的利润将不可估量;云端方案对于终端设备的需求不高,可以更快地抢占市场先机,但是云端渲染的视频流传输带宽和延迟目前仍然是主要瓶颈。
虽然人们期待带宽和延迟问题可以通过5G技术妥善解决,但当下 5G 已经在部分国家推广了两三年,主要城区的网速却还是普遍停留在 4G 水平。此外全球还有三四成人口没有稳定的网络连接。
元象的目标是打造下一代的3D内容生产与消费一站式平台,从设计之初就要考虑到不同平台的兼容性问题,以便在互联网基础设施的不同阶段、用户设备的不同性能下实现平滑切换。
我们正在研发空间音频引擎模块,通过模拟空气衰减、方向性、环境音、房间混响等因素,期望让用户可以自行配置属于自己的空间音频房间,感受沉浸的“声音的元宇宙”。
用户只需佩戴耳机,就能通过或手动或自动的模式变换小人在虚拟房间里的不同位置,由此模拟音箱在听者前后左右不同方位发出的音效,为音乐的听感增添了方向、层次与空间感。
场景建模示意图
2)音效模拟,带来焕然一新的听歌体验
我们与QQ音乐合作的VR专辑中,也希望将空间音频应用在音乐专辑房里,打造出声音环绕的临场效果,期望实现通过一副耳机,就能在房间中听见模拟音箱带来的立体环绕歌声。
当用户接近或远离模拟音箱后,就能听见明显的音量变化;当用户左右旋转视角时,就能明显感觉到从不同角度听模拟音箱的声音变化;当用户打开、关闭某一个或多个音箱时,能明显感觉到对应方位音源的出现和消失。
房间的大小是有限的,但我们可以用环境音来拓展更广阔的空间。走近窗边,尽管窗外阳光刺眼,看不清窗外景色,但可以听见远处传来的海浪声,空中有海鸥飞过,仿佛置身海景豪宅。
音乐专辑房中空间音频效果展示
(观看时请佩戴耳机)
3)音源分离,打造身临其境的虚拟乐队
如果想要自己办一场线上演唱会,对于用户而言,从零开始打造一整套乐队音乐的难度相对较大,但是可以通过巧妙地布置乐器的位置、设定混响效果,营造出与众不同的效果。
钢琴
贝斯
鼓
人声
不同乐器在图谱上呈现不同特点
然而,现成的音乐大多是预先混音好的,很少有独立的音轨。这个时候,利用音源分离,根据提琴、钢琴、鼓、贝斯等各种各样的乐器在频谱上呈现出的、具有辨识度的特征差异,我们可以将音乐中的各个乐器和人声声部单独提取成为独立音轨。用户可以通过移动乐器的位置,以及自己身处乐队中的位置,获得独特的3D虚拟乐队现场演奏体验。
音源分离搭建虚拟乐队
(观看时请佩戴耳机)
4)虚拟人语音房,更富表现力地传递信息
在虚拟语音房中,空间音频使区分发言者更加容易,而元象在做的3D语音房则更进一步,可以让用户操控角色在场景中随意走动。
想象一下,你的同伴的声音可能出现在你耳机中的任意方位,甚至可以围着你转圈吵闹,展现出兴奋的情绪,你也可以靠近你的好友,然后降低音量,诉说属于你们的悄悄话,场景也就不再成为声音的限制。
未来,我们还会对空间中的所有墙面、家具、人物等静态和动态的物体做高精度的声音吸收、反射、衍射建模和实时演算,结合个性化HRTF技术,为用户带来更极致的沉浸式听觉体验。