杜比全景声音乐混音做完了,然后呢?
白菜君按
杜比全景声音乐从混音完成到平台交付直至最终的终端回放,和传统的立体声相比要复杂一些,里面涉及到数据压缩、传输编码以及等一系列问题。这些看似属于『传输』领域的事情其实与混音制作有着很强的相关性。了解这些技术知识,可以帮助您掌控自己的杜比全景声混音在终端设备的呈现效果。
本文译自Avid 官网的一篇博文,原文标题为:Dolby Atmos Music - After the Mix。点击文末『阅读原文』,即可阅读原文。
本文同时也发表在『杜比全景声音乐知识库』,扫描如下二维码,即可前往阅读、收藏。
现在,您已经完成了杜比全景声音乐的混音,通过杜比全景声渲染器录制生成了母版,或者在Pro Tools中 Bounce出了ADM文件,然后通过 AvidPlay 交付。但接下来会发生什么呢?您的作品是如何到达消费者的呢?传输方式是如何影响您的混音在用户端听到的效果?搞清楚这些问题的答案将有助于你在混音过程中做出明智的决定。这就是本文的目的。
Delivery 交付
收听杜比全景声混音作品可以使用两种方式:扬声器(无论是独立扬声器系统还是Sounbar),或使用耳机。了解它们的工作原理将帮助我们了解编码过程之间的差异,进而帮助我们进行杜比全景声音乐混音、
扬声器可以离散地再现声音,因此不需要为了获得沉浸式体验去做一些仿真(emulate)处理。然而,耳机的传输则是完全不同的情况。为了将沉浸式混音传送至耳机上,需要将其渲染为双耳模(Binaural)模式。
针对这两种播放格式,目前有两种编码格式,分别是:EC-3用于扬声器传输,AC-4 IMS用于耳机传输。然而,事情并没有那么简单,接下来我们会有介绍。我们的目的是希望能够检查我们的混音,以尽可能接近消费者的方式听到它。
在进一步讨论之前,最好先理解为什么我们需要压缩数据
为何要减少数据大小?
减少交付给消费者的数据大小是很重要的。原始数据流文件过于庞大。如果我们用杜比全景声混一首4分半钟的歌曲,根据使用的对象(Object)数量的多少,母版文件大小将在1.8到2.5 GB之间,。传输这样的比全景声数据流需要多少带宽?使用一个简单的等式[48000*24*128/(1024*1024)],可以得出码率是140.625Mbps。这样的带宽对于音频流媒体来说就太大了,所以需要减少需要传输的数据量。实现这一点需要两个步骤:Clustering聚类和 Encoding编码。
Clustering 聚类
减少数据流的第一步是Clustering 聚类。在编码过程中使用聚类处理减少对象和床占用的数据量。您可以通过在杜比全景声渲染器中启用Spatial Coding Emulation (空间编码仿真)对混音中的聚类处理进行监控。
聚类Clustering的原理是将占据相似空间位置的物体智能地分组,称为Spatial Object Groups空间对象组。Spatial Object Groups 空间对象组是原始音频对象的组合,因为典型的消费类杜比全景声扬声器的设置比电影院少得多,因此降低空间分辨率而不会影响混音的整体质量是可行的。
聚类Clustering 是基于一个可以追溯到20世纪70年代有趣的概念,称为K-Center问题。假设一家连锁超市想在一个州开几家店。整个州有15个城市,但他们有只建五家商店的预算,城市的位置如下图所示。
因此面临的挑战就是找到合适的位置,使相邻城市到商店的距离是可控的,但也考虑到每个城市的关键因素:人口,州首府等等。可以通过绘图的方式,使每个城市到最近的商店位置的距离最近。下面是商店位置的示例:
如果我们按照上图选择城市来建立商店,可以看到从一个城市到离他它最近的商店的通路基本上是相等的。在本例中,商店的数量(5)就是K值,这种方法称为Hochbaum Schmoys K- center Problem ,是一种近似算法。z当涉及到减少交付的物品数量时,也可以采用类似的方法。当空间编码仿真( Spatial Coding Emulation)启用时,可以在杜比全景声渲染器的首选项中设置可被监听的元素(elements)数量:12、14和16、下图可以帮助我们进一步理解这一点。
左边的图像用蓝色表示Object ,用红色圆圈表示床的位置。图中共有10个Object、9个Bed通道和一个LFE通道。如果我们假设Cluster(集群)数为12,可以看到它们是如何聚集在一起的。一些Object被分组,另有一些Object在Cluster之间共享。因此,我们可以将轨道数量从20个减少到12个。(技术上讲,LFE通道没有位置集群(positional cluster)因此可用的Cluster(集群)的数量是LFE+11)。
在使用这种技术时,把位置相似的声源编组是有意义的,因为作为听者,您可能无法单独感知它们。位于中心的点(K-Center)是由响度和一些其他因素加权的。附近的Object会聚集到响度最大的地方,因为它们会吸引听众的大部分注意力,从而将响度较低的声掩蔽。因为附近的声源的电平较低,所以它们在感知上是透明的。
由聚类算法(clustering algorithm)生成的代表性位置每秒更新30至50次,从而与原始源/对象集实现最佳匹配。我们可以把它想象成是对x个扬声器( Cluster 集群)的渲染,但是这些扬声器的位置一直在变化。选择是由空间误差度量(spatial error metric - 你在多大程度上保留了原始声源的位置)驱动的,但算法也将尝试最小化由这些Cluster集群不断移动所造成的干扰。当然,选择尽可能多的Cluster(集群)将获得最好的结果,但这反过来又会增加数据量 - 因此在最终传输时需要数据压缩。
在启用Spatial encoding emulation (空间编码仿真)的情况下监视您的混音非常重要。它将让您了解对象大小、位置、元素数量等将如何影响编码后的混音。举个例子,如果你增加一个对象的Size值大小,使它超过20,那么同一个Object 可能会出现在多个Cluster(集群)中,或者可能存在去相关的artefacts ,这会对你的混音造成伤害。还必须确保在所有混音元素出现之前不启用仿真,因为聚类处理是基于对象、内容、位置、响度等。在没有所有混音元素的情况下启用该选项将不会给出混音的真实画面。最后,重要的是要记住,这个空间编码仿真仅用于监视—集群不会导出到您的ADM或Dolby Atmos母版文件。
Encoding 编码
Encoding指的是我们对聚类处理Clustered 之后的信号进行编码以减少文件大小。以下将会介绍到编码格式,让大家理解为什么了解它对我们工程师来说很重要。我们将重点关注两个最常用的编解码器:AC-4和EC-3。
AC-4 IMS – 用于耳机的交付编码格式
AC-4是一种音频编解码格式,可以用于对传统的基于通道的内容、基于通道沉浸式的内容(Channel Based Immersive, CBI)、基于对象的沉浸式内容(Object Based Immersive, OBI)以及个性化(Personalization.)的音频。它支持将基于对象的内容作为离散对象或空间对象组(Spatial Object Groups ,如上所述)。AC-4使用一种称为高级联合对象编码(Advanced Joint Object Coding,A-JOC)的方法来处理对象,混音先下混到7.1版本,对象细节则作为元数据添加。然后在回放阶段对其进行解码。
AC-4是一种可以将Dolby Atmos音乐通过流媒体平台传输到Android设备编解码格式,AC-4还可以携带我们在杜比全景声音乐混音时创建的双耳元数据(Binaural Metadata)。这意味着当您的混音通过耳机播放时,在混音过程中设置的双耳属性将被听者听到
EC-3 (or Enhanced AC-3) – 用于扬声器的交付编码格式
EC-3是一种可以通过OTT和苹果设备传输音频的编码格式。与AC-4不同的是,它使用了一种名为DD+JOC的方法,又称Dolby Digital Plus, Joint Object Coding。
Dolby Digital Plus, Joint Object Coding是一种将对象元数据嵌入downmix的方法,然后可以使用该downmix在接收端重建对象。
JOC Encoding Process
苹果和亚马逊在其设备上使用了EC-3编解码器。在Apple TV 4K上,音频通过支持atmos的音箱或AV接收器通过HDMI传输。虽然EC-3是一种专为扬声器传输而设计的格式,但唯一的例外是当它用于苹果iPhone上的耳机传输时。iPhone使用自定义空间化方法为耳机提供双耳渲染。
在为Apple Music做杜比全景声混音的时候,这一点非常重要。因为他们使用自定义的空间化方法,苹果设备不使用Dolby Atmos母版ADM文件中所使用的双耳设置。取而代之的是,它创建了一个双耳版本的混音,首先把杜比全景声文件下混成一个5.1.4版本,然后虚拟化该5.1.4下混版本,生成一个Binural 的版本。由于目前没有公开的信息描述苹果设备如何创建这个双耳杜比大全景声版本,你需要遵循以下步骤,才能听到你的混音在iPhone 上听到的效果:
从杜比渲染器导出MP4:在杜比全景声比渲染器上记录母版文件后,进入File > Export Audio > MP4 ,选择 Musi设置,然后点击OK导出
将这个MP4文件转移到你的苹果设备并保存到文件应用程序中
从File(文)件应用程序中播放设备的MP4,并使用AirPod Pro或AirPod Max耳机进行监控 - 确保你禁用了头部跟踪
相关阅读:
如果使用AirPod Pro/Max以外的任何耳机,你只能听到mp4的立体声低混音,而不是双耳式的。
小结
我希望您理解,您的混音作品交付给消费者之后会发生什么,对您的混音工作是有帮助的。您需要知道的重要事情是:
双耳混音(binaural mix)中的Near, Mid 和 Far(近、中、远)参数仅由AC-4编解码器使用。
EC-3是一种基于扬声器的格式,在播放过程中不会使用双耳(binaural)参数。
Android设备大多使用AC-4编码格式。Apple 设备使用EC-3编码格式
应该避免将Atmos对象的大小(Size)值增加到20以上,因为这可能会导致空间编码(spatial coding)处理的问题
只有在混音最终阶段,才打开Spatial Coding Emulation (空间编码仿真)。
希望这些信息可以帮到您,知道你的最终结果将如何被听到,会有助于你的混音工作。
关注白菜君,不定期科普吐槽八卦解密
2B还是不2B,这或许是个问题
但是
“干,还是不干,从来都不是问题”