我们要听到个声音有多难？ ——听觉场景分析

查看原文

其他

我们要听到个声音有多难？ ——听觉场景分析

Original: 谷里脑人言 2019-07-04

点击上方蓝字关注哦

撰文：谷里

编辑：夏獭

大爷三连：“马冬什么？什么冬梅啊？马什么梅啊？”

图片来源：夏洛特烦恼

在每天的聊天交谈中，我们都听着别人说这各种各样有意义的话语；在听歌曲时，我们听到了歌手的歌声，同时也不会落下背景不同的乐器伴奏；走到街道上，路上一片嘈杂，你左边的马路上是汽车行驶的声音，右边是商店叫卖的声音，后面不远处的小广场，大妈们的广场舞音乐也都被你一一感知到。这些每天都在经历的对于我们来说似乎是太简单，太平常不过的事情了，但正是我们能够将不同的声音区别分开来知觉的能力，才让我们能够顺利地听见我们关注的声音，使得我们的听觉功能有了意义。

在我们自然而然做到这样一件事情时，其实完成了一件伟大的，想想就极为复杂的工作。

我们每个人都只有一对耳朵，而声音全都从空气传入双侧的耳朵，振动鼓膜，带动听小骨，继续进行听觉信息的传导。大家需要意识到的是，因为我们只有一对耳朵，而这些信息又是同时传过来的。所以，声音传入耳朵的过程中，所有来自四面八方，各种各样的信息，全都汇聚成为了一条信息进入了耳朵。但是我们感知到的可不是单一的一条信息，我们感知到了四面八方，各种各样的物体的声音信息。也就是说，我们的听觉系统又将混合在一起的不同的声音又分离开来了。从一条复杂的信息分离出各个成分的信息，这一个一个同时感知到的成分被称之为“stream”。比如我们在听交响乐中，我们明确地听到了右前侧的小提琴，左前侧的大提琴，更侧边的贝斯，后面的管乐器，以及最后方的鼓声这些不同的streams。不管是不同的乐器的音色，还是方位都辨别的十分清楚，而不是各种乐器声音乱作一团的声音。

图片来源：网络

而这个将不同的声音成分分离的过程在学术上就叫做听觉场景分析了。

我们的听觉系统是如何将不同的声音分离开来的呢？现在主要有两种观点，第一种被称为“群体分离假说”（population separation hypothesis），与人的主动注意关系不大；第二种则根据时间一致性（temporal coherence）的原则进行分离的，并且人的注意也参与其中。

“群体分离假说”是Fishman等人基于他们的电生理实验结果所提出的，如下图，如果两个不同频率的纯音交替呈现时，在初级听皮层的一个神经元群体中的大部分始终是由其中之一（不管是哪个）所激活的话，感知到的是单一的stream，也就是说，我们同时只能听到其中一个纯音；如果一个纯音引起一个神经元群体的反应，而另一个纯音引起了另一个不同的神经元群体反应（或是重叠区域很小），这样，同时有两个群体开始反应，我们感知到的就是两条streams，即，同时听到了这两个不同频率的纯音。

另外，补充一个小知识点，我们的初级听觉皮层有一个很有趣的性质，它的不同部分是会对不同的频率进行反应，所以，很容易理解，如果两个纯音的频率差距越大，越可能同时感知到2条streams，反之亦然。

笔者手绘，凑和着看吧

第二种观点认为，我们的听觉系统是根据时间一致性的原则将不同的特征捆绑起来形成一个stream的，作者建立了我们的听觉系统形成不同streams的假设模型。如下图，来自声源1和声源2的声音传入耳朵，我们得到了两个声音各自的不同声音特征的混合。首先，我们对其进行了特征分析（feature-analysis），分别从音色（timbre），音高（pitch）及其位置（location）通道得到了其各自的信息。然后进行一致性分析（coherence-analysis），我们得到了不同特征在不同时间上的变化，因为来自同一来源的声音的不同特征的变化在时间上最为相关，所以听觉系统通过对时间一致性的分析，将在时间上一致性最高的特征结合在一起形成一个stream。

另外，我们主动的选择性注意会选择哪些是我们感兴趣的，想听的声音，并且会强化我们它，成为了突出声（foreground），而剩下的则成为背景声音（background），强化的途径包括在强化一致性分析和特征分析阶段对于感兴趣的声音的处理，从而让我们更好地听到我们感兴趣的那个声音。

图片来源： Figure 2 of Shamma et al. (2011)

通过比较两种观点，虽然前者成功解释了我们对于纯音的感知，但显然，后者能够解释清楚更多的东西，并且也关注到了我们的选择性注意这一因素的不可或缺的作用。但后者终究是一个理论模型，相对于前者直接的生理实验结果的支持，还缺乏足够的证据。两者的观点其实并没有特别大的相悖之处，无论是前者的生理实验结果，还是后者的完整的模型，对于我们听觉功能的最终理解，都会起到重要的启示作用。

最后，大爷在日常的噪音环境下要听到你的话可不是一件容易的事情，并且老年人随着年龄的增大，外周听力以及认知能力的衰退，言语感知能力也随之开始下降，所以，“大爷三连”可能是他真的没听清呢（笑）。

图片来源：夏洛特烦恼

参考文献：

1. Schnupp, J., Nelken, I., & King, A.(2011). Auditory neuroscience: Making sense of sound. MIT press.

2. Fishman, Y. I., Reser, D. H., Arezzo, J.C., & Steinschneider, M. (2001). Neural correlates of auditory stream segregation in primary auditory cortex of the awake monkey. Hearing research, 151(1), 167-187.

3. Shamma, S. A., Elhilali, M., &Micheyl, C. (2011). Temporal coherence and attention in auditory scene analysis. Trends in neurosciences, 34(3), 114-123.

往期推荐

欢迎大家关注

脑人言其他平台

友情赞助

赞赏专用通道

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍