查看原文
其他

如果没有它,VR注定是场“闹剧”

2016-09-26 每日读报

36氪




行业缺少优质标的,关键性技术节点远未突破,VR如同一个牙牙学语的婴儿,尚在襁褓之中,远未成熟。这里的“关键性技术节点”其中之一,就是空间音频技术。在今天,人们更愿意叫它3D音频。


编者按:人们说:VR的寒冬来了。最近看到一句非常好的描述:“一度承载着创业者和投资人太多期待与热情的VR行业,经历了如过山车般的一年。”

核心技术瓶颈突破之前,VR还将在泡沫收缩过后进行理智思考。

而3D音频,作为VR产业的关键性技术节点,值得在今天被关注。

你将看到如下内容:

  • 为什么说VR回春关键在于3D音频技术?

  • 3D环绕立体声技术发展这么多年了,为什么最近才火?

  • 深蓝DeeperBlue为你盘点了7家做3D音频的公司,到底哪家靠谱?


在百度上搜索“VR寒冬”,有1,660,000个结果。

《资本变脸:6个月,VR从狂欢到惨淡》(极客公园,2016年09月07日),《吸引了无数资本和创业者的VR行业,似乎已进入寒冬》(中国企业家,2016年08月26日),《VR创业公司的寒冬来了?听听资本大咖怎么说!》(网易新闻,2016年05月27日),《小心被套!VR将迎来寒冬》(搜狐新闻,2016年05月11日)……


人们犹记得2015年下半年到2016年年初的VR热:从创业者到投资人,大家都对VR有着无限的热情与希望。而从计算机背景出生转行做VR的人真不在少数:他们正是看准了这块“热土”,从大公司走出,一头钻进VR行业。


行业缺少优质标的,关键性技术节点远未突破,VR如同一个牙牙学语的婴儿,尚在襁褓之中,远未成熟。与其说VR凛冬已到,不如说之前的泡沫正在合理地被挤破。


这里的“关键性技术节点”其中之一,就是空间音频技术。在今天,人们更愿意叫它3D音频。

苹果音乐和VR工作室Vrse联手为U2乐队制作了一段VR音乐视频《Song for Someone》。图为MV片段中U2在空无一人的多伦多体育场的演唱。

正如著名VR制作公司Jaunt的音频首席工程师亚当·桑默(Adam Somers)说的:“(在VR这件事上面),听觉占了五成,视觉占剩下五成。”


听觉决定了人类对空间的定位、对物体距离的感知等等。视觉给出一个线索,听觉则去证实这个线索是否真实存在。如果少了视觉的沉浸感,那么一切画面的真实性就荡然无存。不解决听觉问题,虚拟现实就不能成为虚拟现实。可以这么说,3D音频决定了我们念叨着的VR时代是否真正到来。

首先科普一下3D音频

什么是3D音频?简单来说,3D音频是对声音最逼真的模拟技术,能让听众完全还原到与现场相似的声场。类似的叫法还有全景声方案、Immersive Audio(沉浸式音频)。你能完全听到逼真到“现实”的声音,而不是“现实主义”的。


目前世界范围内最成熟的空间音频制作公司之一,VisiSonics的创始人之一拉玛尼·杜瑞斯沃米(Ramani Duraiswami)有一句话:“当你听到的声音是极度真实的时候,耳机就消失了。”


人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。从空间任意一点传到人耳(鼓膜前)的信号都可以用一个滤波系统来描述,音源+滤波器(传递函数)得到的就是声音到达两耳鼓膜前的信号。

HRTF图示。人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。


我们不必关心声音是如何传递到双耳的,而只需要知道:音源与到达我们双耳之前的信号是有差别的;并且我们的左耳和右耳听到的声音是不一样的。这可能是源于我们的进化,视觉没有办法在黑夜中定位,而耳朵可以通过左右耳的声音不同,进行定位与防御。


这个滤波器(传递函数)叫HRTF(head-related transfer function)。如果我们有空间所有方位到双耳的滤波器组,就能得到一个滤波矩阵,从而还原来自整个空间方位的声音信号。


HRTF是极具个人性的。每个人成长中都会形成一套自己对听力的感知。并且,我们每个人的头部大小不一样、耳间距不一样,耳朵的轮廓、里面的旋涡状也不一样。加上,我们在成长当中养成了自己独特的听力习惯。可以这么说,每个人听到的同样物体发出的声音,其实都有细微差别。


如何还原人耳真实听到的声音?科学家对此的探索不是今天的新事。在将近一个世纪之前,1933年,AT&T贝尔实验室就把这项技术带到了芝加哥世博会上。这家公司的人声研究部做了一个机械化的仿真人头——他们把这个假人取名叫“Oscar”。Oscar的耳朵里装上了两个麦克风,坐在展示房间中,录取周围的声音。Oscar听到什么,他就能录到什么。


AT&T贝尔实验室提供的解决方案叫做双耳录音技术(Binaural Audio)。


双耳录音技术模拟人类真正的头部的形状、左右耳的耳间距,可以收录到近乎于真正的人类听到的声音。这是一种有效的“笨方法”,物理层面上即还原了HRTF。沿着这条路径,德国麦克风公司纽曼(Neumann)在1973年到1992年间,连续在双耳录音技术上做出了各种突破——更好的收音设备、把麦克风放置于仿真假人耳内鼓膜上等等。

1933年,AT&T实验室的双耳录音技术仿真人,Oscar


双耳录音技术在这个世纪中一直处于缓慢的速度发展,原因在于,没有强大的产业需求。一直等到这一波VR热潮的来临,它才重上舞台。由于Oculus Rift,索尼Morpheus以及三星Gear带来的VR普及,3D音频技术迎来了它的“文艺复兴”——于是它又被称作了VR音频。

3D音频技术到底难在哪儿?

VR需要有3D音频才能产生更真实的沉浸感。Jaunt的音频首席工程师Adam Somers在接受THE VERGE采访时这样描述:“在沉浸感这件事上面,听觉占了五成,视觉占剩下五成。”


Jaunt是美国著名的VR制作公司,去年得到上海华人文化产业基金(CMC)与迪斯尼的6500万美金投资。


然而,双耳录音技术本身不能支持收听的时候转动头部。玩家在玩VR游戏的时候,如果有声音从后面传来,人的本能反应是转头向后看。这时候如果声音继续在你的前方,那么会大大降低沉浸感。


另一种还原真实声场的技术也不能支持收听的时候转动头部,叫环绕立体声(surround audio)。环绕立体声用多个物理扬声器来打造一个360度的声场,来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是DTS和杜比(Dolby)。


比如一家环绕立体声影院,它会在观众的周围放置很多音箱/扬声器。如果画面左边出现了爆炸,那么左边的音箱会发出声响,而不是右边。由于播放器的位置固定,听众只有在固定的点,才能听到模拟得最真实的声场。

真正的沉浸体验,来自于高中低音频在空间内全方位的还原,即以人头为中心收录一个球形内所有角度的声音,并进行还原。


如何解决这个问题?计算成为了重中之重。

在双耳录音技术取到的声音之后,还原HRTF,然后进行计算,把各个方向的HRTF还原,才能合成一套随着转头、位置移动声场自然发生变化的空间音频。

在这三个环节中——收音、录音;计算、渲染(processing, rendering);回放——技术壁垒最强的地方在于计算环节。

核心算法是考验各家空间音频公司的能力指标。Two Big Ears的公司广告语说明了一切:"We do mathematics so you can focus on being awesome."(我们做数学,你来好好做酷的事情。)这家位于爱尔兰的公司目前在空间音频技术上处于领先地位。

有些团队则为了减轻计算量,用了一些比较笨的办法。比如3dio,他们创造出收音设备,可以尽可能地在同一时间录到各个方向的HRTF。

3dio公司生产的四对仿真人耳的收音设备

The Verge在短片Hear New York in 3D Audio中展示他们所用的收音设备——仿真人耳,这个收音设备能够模拟声音在耳朵这种独特物理结构下的的传输过程,进而重现纽约街头的实景声音。


通常,三个指标可以用来判断一家公司3D音频核心算法技术水平:


  • Localization:指的是声音的定位。环绕立体声对于声音的平面360度有较好的模拟效果,而对于上下360度则难以模拟。VR音频的难点也在于做出上下360度的声音模拟。能做到上下逼真的则技术更为先进。


  • Propagation:声音在封闭空间中,不是只传输一次,而是有无数次的反射(bounce back),我们可以用回音来理解。Propagation用来描述是否能让用户感觉到自己的确在一个真实的空间中,这种真实感越强越好。


  • Occlusion:声音在传输过程中,如果中间有一个障碍物,这个障碍物会对声音的传播产生影响。如果一个VR音频技术可以对障碍物对于声音的影响模拟得很好,则是一个做得好的VR音频。


除去以上三点,目前空间音频最前沿的解决方案是Ambisonic技术。于是,能不能做Ambisonic也是判断一家公司技术高低的指标。


Ambisonic同样是一种声场模拟手段,但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球,那么空间中各处传来的声波会对这只气球表面产生作用力。


Ambisonic利用这个简单道理,在空间中摆放一堆扬声器,来模拟对应现实情况下各处声波对这只气球的作用力,然后计算,还原HRTF。


通过Ambisonic得到的音频数据,是最全面的数据,它可以降解到任何其他音频格式。打个比方,Ambisonic如果是图像中的jpg,则杜比7.0、杜比5.1等等音频格式相当于像素。


如何评价3D音频技术的行业现状?


3D音频技术势必会改变所有的应用场景。整个空间音频产业有两个机会:


第一个机会是做音频引擎(audio engine),其核心在于HRTF函数、Propagation等技术,即如何在游戏里尽可能逼真地还原出立体声来。目前简单的做法是,在VR游戏中放置不同的虚拟音箱,并配合Oculus Audio SDK(实现了HRTF以及其他效果,包括reflection等),就可以实现空间音频。


而不简单的做法有很多,需要团队具有强大的计算能力,成立于2013年爱丁堡的Two Big Ears是其中翘楚。他们所做的plug-in可能是目前行业中技术最好的plug-in之一。


第二个机会是实现3D音频在现实生活中的运用,即怎么配合全景视频录制带多个角度的VR音频。这样用户观看全景视频的时候如果转头,声音会进行动态调整。就应用场景来说,对于虚拟演唱会,3D音频技术尤其重要。


从目前整个全球市场来考量,3D音频由于其自身技术难度,还没有出现提供完美解决方案的公司与团队,大牌音频公司DTS所做的技术已经比较接近,但最终版本仍没有公之于众,并且面临着价格极高的可能性。


以下这张图列举了世界范围内,最被关注的七家3D音频技术团队:

VisiSonics:


VisiSonic起步最早,团队来自美国马里兰大学的实验室,2015年10月与Oculus 达成合作。Oculus购买了他们的技术,叫做RealSpace 3D,用于Oculus Audio SDK。他们设计出了一个3D音频视频同步录制的设备,由一个柱型加顶部球型装置组成,球型装置上有64个麦克风。硬件层面上,技术拔尖并保持世界领先地位。


Two Big Ears:


位于苏格兰爱丁堡的团队,最近刚刚被Facebook收购。他们的核心技术是做3D音频引擎,名字叫做3Dception。就plug-in层面上来讲,这支团队是目前世界范围内技术最好的团队。在被Facebook收购前,据传HTC Vive音频的计算渲染用的就是这支团队。


3dio sound:


这家公司是目前市面上可见的空间音频收音录制领域最好的公司。他们出品了有八个耳朵的收音装置。


Thrive Audio:


这家公司与Tilt Brush一同被Google收购,属于Google VR战略布局的一部分。团队来自爱尔兰的都柏林圣三一学院。他们声称已经申请了两个专利。


Mint Muse:


一支之前在美国圣地亚哥、最近刚刚搬迁到上海的团队。主创团队来自高通。他们主攻渲染质量、算法优化、时延等领域,设计制作空间音频后期制作、coding以及软件插件工具,目前不涉及硬件生产。这支团队面向的解决人群是录音师,他们正在开发一款专业VR全景声调音软件,让调音师可以在编辑全景声过程中实时监听成品效果,简化整个工作流。


Waves:


这是一家位于以色列的空间音频技术公司,之前做专业studio的工具,比如插件与音效,是很多著名studio的合作伙伴,如Abbey Road。


Impulsonic:


一支孵化于美国北卡罗来纳大学计算机系的团队。主要针对VR游戏与应用的3D音频开发,产品叫Phonon。成立于2012年。创始人阿尼什·钱达克(Anish Chandak)博士说创立之初他的想法就非常简单:“帮助游戏设计师与开发者更容易做出高质量的空间音频。”大部分收入来自于Phonon的license收入。他们去年接受美国国家科学基金的投资,研究同时应用于一些政府项目。


大部分做VR游戏的工作室还没有开始大规模使用3D音频技术——原因主要是“穷”。既然“寒冬”来了,那么也就更穷了。事实上,这些没有好内容的游戏工作室还用着环绕立体声技术;只有少数极客风格的工作室开始应用一些空间音频技术。3D音频技术仍旧是一件挺前沿的事儿。


然而,3D音频对于整个VR产业来讲,是基础的技术性板块。


拥有核心技术,才可能在应用层面上等待下一个突破点。做无人机的大疆(DJI)就是一个例子,早在无人机变成商业模式之前,大疆的主创团队已经在飞行控制这一个技术点上做了长时间的研究与努力。


如果VR终有一天值得每一个用户去花时间使用,那么它势必在技术方方面面上已经成熟到可以“沉浸式体验”的时候。


等待回春,先从3D音频开始。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存