人类在听觉中能够实时感知“组块”的边界吗？

Original leaf 语言学心得 2024-02-19

Chunking up speech in real time:

linguistic predictors and cognitive constraints

Svetlana Vetchinnikova1；Alena Konina2；Nitin Williams2；Nina Mikušová2,3；Anna Mauranen2

1.Helsinki Collegium for Advanced Studies, University of Helsinki, Helsinki, Finland2.Department of Languages, University of Helsinki, Helsinki, Finland3.Department of Neuroscience and Biomedical Engineering, Aalto University, Espoo, Finland

文章来源：Vetchinnikova, S., Konina, A., Williams, N., Mikušová, N., & Mauranen, A. (2023). Chunking up speech in real time: Linguistic predictors and cognitive constraints. Language and Cognition, 15(3), 453-479. doi:10.1017/langcog.2023.8

摘要：There have been some suggestions in linguistics and cognitive science that humans process continuous speech by routinely chunking it up into smaller units. The nature of the process is open to debate, which is complicated by the apparent existence of two entirely different chunking processes, both of which seem to be warranted by the limitations of working memory. To overcome them, humans seem to both combine items into larger units for future retrieval (usage-based chunking), and partition incoming streams into temporal groups (perceptual chunking). To determine linguistic properties and cognitive constraints of perceptual chunking, most previous research has employed short-constructed stimuli modeled on written language. In contrast, we presented linguistically naïve listeners with excerpts of natural speech from corpora and collected their intuitive perceptions of chunk boundaries. We then used mixed-effects logistic regression models to find out to what extent pauses, prosody, syntax, chunk duration, and surprisal predict chunk boundary perception. The results showed that all cues were important, suggesting cue degeneracy, but with substantial variation across listeners and speech excerpts. Chunk duration had a strong effect, supporting the cognitive constraint hypothesis. The direction of the surprisal effect supported the distinction between perceptual and usage-based chunking.

关键词：chunking; speech perception; neural oscillations; prosody; syntax; surprisal; individual variation; cue degeneracy; syntagmatic redundancy; linguistic robustness

引言

“组块”（chunking）一词的历史很长，最早出现在Miller(1956)的著名论文《神奇的数字7，加减2》中。它与将序列信息重新编码为有意义的块以克服短期记忆的限制密切相关。众所周知的一个例子是一个名叫SF的人能够通过将79个数字的序列重新编码成时间和日期来记住它们(Ericsson et al.,1980)。这一原则似乎特别适用于语言，因为从本质上来说，语言包含了从音位到语篇不同层次的大量块(Christiansen & Chater, 2016; Ellis, 2017; Goldberg, 2003)。因此，语言学家普遍认为，我们通过将话语分割成某种多词单位来处理它，这些单位从特定的词汇组合到更抽象的结构不等。然而，多词单位是我们从以前的语言经验中学到的语块，就像SF使用的时间和日期一样。经常被忽视的是，在记忆电话号码时，即使没有进一步将数字重新编码为时间或类似的形式，将数字分组为3个或4个字符串也有帮助(Hitch et al., 1996; Ryan, 1969;Wickelgren, 1964)。因此，似乎有两个不同的组块过程在同一时间进行：一方面，我们提取可供我们使用的块的库存（usage-based chunking，基于用法的组块），另一方面，我们将输入流分割成时间组（perceptual chunking，感知组块）。基于用法的块是意义和记忆的单位(Ellis, 2017)，感知块是实时处理的单位(Sinclair&Mauranen,2006)。

继Terrace(2001)之后，Gilbert等人(2015)也对输入组块和输出组块进行了类似的区分，前者由短期记忆容量决定，后者涉及存储在长期记忆中的学习单元。他们指出，来自其他领域的大量证据表明，人类和动物在由末尾的延长为标记的时间组中产生和感知连续序列。然而，与数字序列和无意义音节相比，语言的结构是由于认知、语言和社会约束而进化出来的。作为一种认知机制，感知组块肯定也留下了痕迹：很可能存在标记感知组块边界的语言属性。它们是什么呢?

前人研究表明，感知组块可能是由声学韵律线索、句法结构或反映2-3秒记忆约束和/或delta-band振荡频率的最佳组块持续时间驱动的。为了确定感知组块的语言特性和认知约束，先前的大多数研究都采用了以书面语言为模型的短结构刺激。相比之下，我们向没有语言学基础的听众展示了来自语料库的自然语音片段，并收集了他们对组块边界的直觉感知。然后，我们使用混合效应逻辑回归模型来确定停顿、韵律、句法、组块持续时间和惊异度在多大程度上预测组块边界的感知。具体而言，我们的研究问题是：（1）哪些语言属性对组块边界的感知有影响，以及它们的影响在多大程度上因听众和不同的语音样本而不同？（2）组块持续时间在多大程度上限制了组块？（3）是否有证据支持基于用法的组块和感知组块之间的分离？

与组块相关的语言特性

2.1 语法

哪个层次的句法组成结构与感知组块相关？大多数语法采用子句/句子作为分析的最大单位。子句（clause）被认为是“语法的核心单位”(Carter & McCarthy, 2006, p. 486)，并被假定为信息的载体，“信息的量子”(Halliday & Matthiessen, 2004, p. 58)。除了生成语法，所有主要的英语参考语法(Biber et al., 1999; Carter & McCarthy, 2006; Huddleston & Pullum, 2002; Quirk et al., 1985)和有影响力的功能语(Dik,1997; Halliday & Matthiessen, 2004)同样使用了子句的概念。然而，这一概念是从对书面语言的分析中继承下来的，因为直到最近，语法学家才获得大量真实的口语数据。现在人们普遍认为，与写作相比，话语不是由句子组成的(Biber et al., 1999; Carter & McCarthy, 1995; Leech, 2000)。Biber等人(1999)采用的是一个完全基于语料库的参考语法，其中包括对英语口语的描述，他们指出，与写作相比，语法结构在口语中似乎不那么重要(cf. Halliday, 2009; Leech, 2000)。他们认为，虽然可以像（1）中那样，从嵌入和配位的角度分析口语，但这似乎没有必要。因为同样可以用划分为类似子句的线性序列来分析，由（2）中的垂直线表示：这是一种他们称之为附加策略（add-on）的机制。（1）[The trouble is [[if you’re the only one in the house] he follows you] [and you’re looking for him] [so you can’t find him.]]]（2）The trouble is | if you’re the only one in the house | he follows you | and you’re looking for him | so you can’t find him. adapted from Biber et al. (1999, p. 1068)尽管如此，Biber等人(1999,pp. 1069-1070)采用了一个更大的分析单元，他们称之为C-unit，定义为最大的句法独立单元。C-unit可以是子句性的，也可以是非子句性的。子句单位包括主句(MC)和嵌入其中的所有从属子句。换句话说，（1）和（2）中的整个话语是一个C-unit。非子句单位是不能被视为任何子句单位一部分的片段：根据他们的分析，这些占会话数据中C-unit的38.6%。在我们的句法标注中，我们从一个假设开始，即我们不知道听者使用哪些句法信息来对自然语音进行分组，并试图捕获尽可能多的关于句法结构的信息。我们借鉴了Biber等人的分析，但没有放弃嵌入（embedding）。
2.2 韵律许多人强调韵律单位和句法单位的界限往往是一致的。然而，这种对应性的性质和程度仍然是一个问题(Cole, 2015; Frazier et al., 2004; Wagner & Watson, 2010; Watson & Gibson, 2004)。在文献中，人们普遍认为韵律边界对包括句法在内的多种因素都很敏感。对韵律-句法关系的研究已经从主要基于理论的结构建模转向更加关注实证，并越来越关注语言系统、加工因素和语境的复杂互联性。总而言之，韵律是灵活而复杂的，句法也是如此，受加工的影响并嵌入上下文，显然，在自发的话语中处理它们既是可取的也是可能的。
2.3 惊异度众所周知，理解者对输入中的统计规律很敏感，并利用它们来辨别结构。传统上，统计学习研究关注的是输入的序列元素之间的过渡概率，在重复单位内，这种概率较高，而在重复单位之间，这种概率较低，导致与单位边界相关的过渡概率下降。前向和后向过渡概率是可能的替代方案：前者更符合语言理解作为预测过程的观点，后者更适用于the dog这样的情况，the比dog更有可能出现在dog之前，而不是dog跟在the之后，因为the后面可以跟任何名词。自然语言理解的研究通常采用惊异度（surprisal）作为语言预测的度量，它计算一个单词在给定其上下文（如前一个单词）的可预测性(Levy,2008;Shainetal., 2020)。为了说明，sort几乎总是跟在of后面，所以听者会期望of，而且它的惊异度会很低。可预测的词处理速度更快(Smith & Levy, 2013)， N400振幅更小(Frank et al., 2015)。在这项研究中，我们假设感知块是习得的多词单位，那么在边界之前的词应该更可预测，而在边界之后的词应该更不可预测。为了检验统计信息对块边界感知的影响，我们将采用双词惊异度（bigram surprisal），即边界之前的词（closing surprisal）和之后的词（opening surprisal）。

方法

所有材料、数据和代码都可以在https://osf.io/7bta5/上公开获取。

3.1 参与者

我们招募了51名志愿者，他们来自除语言学之外赫尔辛基大学的其他学科。他们都是流利的非英语母语者，母语背景各异，年龄在20-39岁之间（36名女性，44名右撇子），没有人报告有阅读障碍。所有志愿者在实验前都提交了知情同意书，并获得了一张电影票。由于一名参与者在主要实验任务期间明显不活跃（总共只标记了12个边界），其数据被丢弃。

3.2 材料

实验的主要目的之一是研究真实话语中的组块。出于这个原因，刺激材料是从大学环境中记录的自然、母语和非母语英语口语的三个语料库中提取的：密歇根学术口语语料库(MICASE)、学术通用英语语料库(ELFA)和维也纳-牛津国际英语语料(VOICE)。语料库中的典型话语事件包括讲座、研讨会、会议汇报和讨论。使用自动和手动方法，我们确定了97个10到45秒长的摘录(M=55 words, SD=14, min=29, max=100, and total=5237 words)，这些摘录在没有更广泛上下文的情况下是流畅和可理解的。我们避免了难以理解或未完成的词、笑声、长停顿、重叠语音、说话人的改变、频繁犹豫或重复，并控制了专门和低频词汇：其中一些标准是我们在Anurova et al.(2022)中报告的平行脑成像实验规定的。由于原始摘录的音频质量参差不齐，我们招募了一位说话者，让他尽可能模仿原始音频片段的韵律模式朗读摘录。录音是在赫尔辛基大学语音学实验室的一个隔音工作室里录制的。

3.3 过程

在实验中，每个参与者都收到了一个平板电脑和耳机，并被要求按照屏幕上的说明进行操作。工作流程包括一份同意书、一份背景问卷、组块任务本身、作为快速语言能力测试的诱导模仿任务(Culbertson et al., 2020)和一份反馈表。没有收集个人信息。组块任务是通过ChunkitApp进行的(Vetchinnikova et al., 2017, 2022; cf. Cole et al., 2017; https://www. chunkitapp.online/)。参与者听音频片段，同时在屏幕上显示的文本中标记块边界。不解释块的概念，鼓励参与者凭直觉进行标记。文本中的所有词都用一个波浪号（~）隔开，人们可以点击它来插入或移除一个边界（见图1）。每个音频片段只播放一次。每个音频片段之后都有一个自我评价（75%）或一个真假理解问题（25%），以保持参与者对任务的注意力并考察理解。整个实验过程长达2小时，其中包括喝咖啡的休息时间。参与者可以在任何时候额外休息。

3.4 预测变量

为了方便起见，在接下来的内容中，我们将使用术语word来表示转录文本中由空格分隔的任何字母串，因为每个空格都可以在实验中被标记为块边界。换句话说，每个词后面都可能有一个块边界。

3.4.1 句法边界强度

为了使句法标注最大限度地提供信息，我们对组成结构进行了传统的分层分析，并专注于将子句识别为最有可能的语法模拟块。我们将子句定义为围绕动词短语构成的成分，包括有限子句和非有限子句。从属子句被允许嵌入到MCs中。所有子句都被识别和标记（见例3）。不属于子句组成结构的材料被标注为非子句。NCM的例子包括犹豫(er, erm, uh)，重复，重述，语用标记(all in all, of course, basically, sort of)和未嵌入的从属子句。相比之下，像I mean，I thought，as we all know的单位被分析为子句，尽管从语用上讲，它们很可能起着话语标记的作用。

示例3显示了摘录的标注。子句用方括号标记，NCM用圆括号标记。由于分析是分层的，并且允许多次嵌入，因此多个子句开始或结束的边界用多个方括号标记，如第3行所示，其中非有限不定式子句（NF-to）嵌入到MC中，以及第6行，其中NF-to嵌入到本身嵌入到MC中的关系子句（DC-R）中。

按照这个标注，句法边界强度可以通过几种不同的方式进行操作：(a)作为一个有四个水平（非子句/非子句、子句/非子句、非子句/子句、子句/子句）的分类变量，(b)作为一个基于子句边界数量（方括号），有7个类别（0-6）的分类/连续变量，(c)作为一个基于加权子句边界数量（区分开括号和闭括号）的分类/连续变量，有10个类别（0-5.5，不存在恰好有4个或5个子句边界）。最后一个操作假设在块边界感知中，子句的结束比子句的开始更重要，并为每个左括号分配0.5，为每个右括号分配1。因此，例如在示例3中第3行末尾的子句边界被赋值为2.5，因为有两个右括号和一个左括号。为了检验这些假设并选择信息量最大的操作，我们使用卡方检验比较了三种操作及其与边界标记的关系。表1给出了卡方检验的结果。结果表明三种操作都有效，且第三种操作返回了最大效应。本文选择子句边界的加权数作为句法边界强度的最大信息化操作。

3.4.2 韵律边界强度

本文使用Wavelet Prosody Toolkit (Suni, 2017;Sunietal.,2017)估计韵律边界的强度，这一计算机程序以无监督的方式进行语音信号的预测韵律边界强度计算和突出度估计。该程序将语音信号与文本进行对齐，提取基频、能量和单词持续时间（不包括停顿和呼吸）这些韵律信号，并将它们结合起来。然后应用continuous wavelet transform(CWT)将复合信号分解成大致对应韵律层次的单位：音节、词和短语。该方法假设突出的词和韵律边界都来自相同的信号源。因此，由不同尺度的信号形成的波峰表示突出，而波谷表示边界。在不同尺度上按层次组织的峰连接成一条表示突出强度的最大振幅线，而槽连接成一条表示边界强度的最小振幅线。该程序为每个词生成连续的突出值和边界强度。在我们的数据中，韵律边界强度在0到2.436之间变化。该方法在波士顿广播新闻语料库上进行了评估(Ostendorf et al., 2005)，突出检测的准确率为84.6%，边界检测的准确率为85.7%，优于其他无监督方法(Suni et al., 2017)。因此，该方法非常接近人类对语音韵律的处理，但它是无监督的，纯粹基于信号，避免了与人工标注相关的问题，如主观性、可变性和其他语言线索的可能影响。

3.4.3 停顿时间

使用WebMAUS(Schiel, 1999)自动完成转录文本与其音频文件的文字和语音对齐，然后经过人工校对(Boersma & Weenink,2022)。停顿时间是指任何给定词的结尾和下一个词的开始之间的一段时间。

3.4.4 组块持续时间

基于工作记忆容量的局限性和/或神经振荡的周期性的时间约束假设预测，块应该是有限的，并且在持续时间上相当有规律。换句话说，持续时间的增加应该与更高的块边界感知可能性相关。计算组块持续时间从识别块开始。在Vetchinnikova等人(2022)中，我们提出可以通过众包块边界感知数据来识别块，并找到那些在块边界上的评价间一致性具有统计显著性的地方。为了测试评分者之间的一致性是否具有统计上的显著性，我们使用了置换检验（permutation tests）。边界频率低于偶然预期（≤0）的边界被认为是统计显著的非边界，边界频率高于偶然预期（≥10）的边界为统计显著的边界。因此，在这个数据集中，块被定义为边界之间的单词字符串，标记为10或更多的听众。得到的块在持续时间上被证明是相当有规律的(M = 2.55 s, SD = 1.2 s)，这已经部分地回答了研究问题。然而，平均持续时间并没有显示持续时间对块边界感知影响的个体差异程度，因为它是基于聚合边界标记的，也没有考虑到不同提取之间可能存在的可变性。因此，使用已识别的块边界，我们计算了每个词的块持续时间，以便将其包含在预测个体层面边界标记的模型中。对于任何给定的词，块持续时间是从一个块的开始到下一个词的开始计算的。例如，在we have a high prey population中（表2），prey这个词的持续时间是1.04秒，这是从we这个词的开始到population这个词的开始计算的。时间在and开始时重置，这是由于统计上显著数量的听众(32,p < 0.05)在population之后标记了一个边界。由于在识别块开始时使用了听者对块边界的一致性，因此对于块持续时间的操作可能在一定程度上与一致性（agreement）相混淆。我们将在4.2节中讨论这种可能性。

3.4.5 惊异度

为了估计每个词的惊异度，我们编制了一个单独的学术演讲参考语料库，因为所有现有的一般参考语料库要么过于偏向书面语（COCA or BNC），要么从一系列与我们无法比拟的语域和语言品种中取样（如BNC2014的口语部分）。我们专门建立的参考语料库包含了选择实验刺激的三个语料库：MICASE，ELFA和VOICE。为了增加规模，我们还增加了英国学术口语语料库（BASE），该语料库被设计为MICASE的可比语料库，以及被认为足够接近学术讲座的TED演讲字幕语料库(Reimers & Gurevych, 2020;Tiedemann, 2012)。总语料库有1250万字，包含670个文本文件（表3）。对于每个bigram AB，B的惊异度被计算为-log2（B的条件概率）。我们考察了词的惊异度对块边界紧随其后(closing surprisal,AB~) 或先于它(opening surprisal, A~B)的概率的影响。

3.5 统计分析

所有分析均在R 4.2.2中进行。

我们的预测变量是停顿时间、韵律或韵律边界强度、语法或句法边界强度（使用加权的子句边界数量）、块持续时间、结束惊异度和开始惊异度。除了结束惊异度和开始惊异度之外的所有变量都是正偏分布，有大量的零值（图2）。这并不奇怪，因为我们可以预测每5-10个词只有一个块边界，并且假设预测变量以类似的方式分布是合理的。因变量是二元的：每个参与者可以标记一个边界（1），也可以不标记（0）。数据点是非独立的，需要包含在不同听众和摘录下的随机截距和斜率。

我们预测变量之间具有共线性：强块边界可能发生在子句的末尾，并被标记为既有韵律又有较长的停顿。图2中的散点图矩阵显示，停顿、韵律和句法确实是正相关的。停顿和韵律的关系最强(r = 0.77)。句法和韵律之间的关系不太明显(r = 0.51)，这为那些质疑句法和韵律是完全一致的语言学理论提供了支持。组块持续时间与预测块边界感知的三个语言变量都适度相关(r = 0.3-0.4)。

结束惊异度和开始惊异度与任何变量都不相关，但彼此之间存在小的负相关(r = -0.3)。散点图显示，大部分点都落在左下象限，右上象限几乎是空的，这表明尽管在平均值以下的词通常会相互跟随，但在平均值以上的单词几乎从不这样做。在低惊异度的词后面跟着高惊异度的词（右下象限）的情况下，可能是虚词和实词的组合（表4，示例7-12）。惊异度高的词后面跟着惊异度低的词（左上象限）的情况，包括实词与虚词的组合和多词单位的组合，其中第一个词是一个罕见的词，而后面的词是基于第一个词预测的（表4，示例1-6）。

由于自变量之间的共线性，我们孤立地考察了每个预测变量对块边界感知的影响，以查看每个预测变量单独可以解释多少方差。为此，我们使用了lme4 1.1-29(Bates et al., 2015)来拟合一系列混合逻辑回归模型，每个模型都根据以下规则估计边界标记的概率：

对所有变量进行了z分数转换。为了便于解释，效应图使用变量的原始尺度，因为零在所有变量中都是一个有意义的值（如没有暂停或没有子句边界），而由于分布偏斜，平均值信息较少。结果表是使用sjPlot (Lüdecke, 2022)生成的，该包返回基于Nakagawa等人(2017)的边际和条件R-squared统计数据。为了检验每个变量影响的显著性，我们进行了似然比检验，将每个模型与具有相同结构和控制参数的零模型进行比较，但删除了感兴趣的预测因子。为了检验不同线索在听者和不同语音样本之间的影响变化程度，我们绘制了随机斜率并检查了它们的分布。我们还研究了斜率/斜率相关矩阵，以了解不同的听众是否会偏好不同的线索。显然，不同的语音样本也可能呈现不同的线索。由于分析显示有五名异常听众似乎对任何线索都没有反应（见图3和图4），因此他们的随机斜率估计不包括在斜率/斜率相关矩阵中，以避免它们对相关系数产生不成比例的巨大影响。这一决定将在第5节中进一步讨论。在单预测模型分析的基础上，我们还进行了4.2节所述的探索性分析。

结果

4.1 单一预测模型

所有的单预测模型都显示出预测变量的显著影响（表5）。正如预期的那样，停顿、韵律和句法都有积极的影响，这表明更长的停顿和更强的韵律和句法边界更有可能被视为块边界。组块持续时间也有积极的影响，这支持了听者更有可能在组块变长时标记边界的假设。结束和开始惊异度的影响非常小，但有趣的是，影响的方向与统计学习的预测相反：块边界与更高的结束惊异度和更低的开始惊异度相关。换句话说，边界之前的词可预测性较差，而边界之后的词可预测性更强，这与感知块由多词单位习得的假设相矛盾。

此外，随机效应对所有变量都很重要，因为R2 边际在所有情况下都小于R2条件，它同时考虑了固定效应和随机效应。这四个主要预测因子都可以单独解释50-60%的方差。韵律边界强度似乎是最强的预测因子，占总方差的最大比例(60.9%)，其次是停顿时间(57.6%)。句法边界强度和块持续时间各占50%左右。然而，这些值可能会被夸大，因为在单独的模型中，每个预测因子都可以吸收所有的可变性，特别是当它们是相关的。

表5还显示了听众和摘录之间影响的平均方差。图3和图4绘制了每个变量对感知块边界的预测概率的影响，其中包含每个听众和每个摘录的随机斜率和截距。图5显示了随机斜率分布，图6显示了斜率/斜率相关矩阵。

如图3和图4所示，每种效应的大小在不同的摘录和不同的听者之间都有明显的差异，这表明听者可能在不同程度上依赖不同的线索，而线索预测块边界的可靠性可能因摘录而异。此外，听众样本显然包括一些异常值，他们似乎对任何线索的反应程度与其他人不同，因为他们的斜率要平坦得多，甚至是负的：这些人在四个主要预测变量中是相同的。很难找出这种差异表现的原因，因为这些听众对理解问题的回答足够好，并且在熟练程度测试中得分也不是最低的。然而，他们标记了最多的其他人没有标记的边界（一次性边界）。在图4中，块持续时间的影响非常突出，因为它在不同的摘录中比在不同的听众中具有更大的可变性。虽然听者一直受到块持续时间的影响，但摘录的影响程度不同，这可能反映了不同程度的节奏性：如果块的持续时间相似，应该很容易根据时间来预测块的边界。关于结束和开始惊异度，图4显示了它们的效果有多小，特别是与其他预测因子相比。

图5的小提琴图进一步突出了摘录中块持续时间影响的可变性。他们还表明，结束和开始惊异度的效果是唯一在不同的摘录中有方向变化的，但在听众之间却没有：虽然听者对惊异度的解释是一致的，但在不同的语音材料中，惊异度本身与块边界的关系是不一致的。

图6中的散点图显示，在四个主要预测因子中，只有韵律和停顿的听者效应之间存在很强的相关性(r = 0.75)，这表明依赖韵律的人也倾向于依赖停顿。同时，句法和韵律以及句法和停顿的影响之间的相关性从小到中等(r = 0.24-0.38)，这表明一些听者可能对他们追踪的线索有自己的个人偏好。在不同语音材料下，停顿、韵律和句法之间的相关性也大大小于变量本身之间的相关性（图2），这表明即使线索趋于收敛，听众也可能在不同的语音材料中跟踪特定的线索。

由于结束和开始惊异度的影响很小（图4），因此它们与图6中所示的其他变量的关系在统计上大多不显著。然而，也有一些令人费解的听者效应相关，例如开始惊异度的效果与块持续时间之间存在很强的负相关(r = -0.71)。我们推断可能存在一个混淆因素：例如，可能存在一些具有低惊异度的特定词，听者将其与新块的开始联系在一起，例如连词and，but和so。我们在4.2节中描述的探索性分析中检验了这一假设。

4.2 探索性分析

我们测试了块边界和低开始惊异度之间的一些关联是否可以用连词and，but和so来解释。我们创建了一个具有两个水平的新变量conjunction：yes（开头词是连词）和no（开头词不是连词），并运行了与4.1节中相同类型的混合效应单预测模型。该模型能够解释24%的方差（表6）。此外，当我们向该模型添加开始惊异度时，它不再是一个重要的预测因子，这表明它的大部分效应可以通过与块开头相关的连词的低惊异度来解释。

在3.4.4中，我们讨论了对块持续时间的操作可能与评分者之间的一致性相混淆。为了检验这种可能性，我们计算了每个摘录的Fleiss’kappa，并将其值与摘录的随机效应斜率相关联。图7显示，韵律的效应与评分者间一致性的关系最强(r=0.76)，这与其作为最强预测因子的作用是一致的。换句话说，听众在分块过程中越依赖韵律，他们对块边界所在的位置就越认同。块持续时间的影响与评分者之间的一致性率的相关性仅为中等(r=0.4)，这表明对变量的操作捕获了额外的信息。总体而言，单预测模型返回的随机效应斜率与评级间一致性率之间的收敛性是显著的。

讨论

在这项研究中，我们研究了五个变量：停顿时间、韵律边界强度、句法边界强度、组块持续时间和词的惊异度对没有语言学基础的听众感知语块边界所产生的影响。分别基于每个变量的混合效应逻辑回归模型表明，所有变量在预测感知的块边界方面都具有统计学意义。这一发现支持语言的非模块化方法(Bornkessel-Schlesewskyet al., 2016; Goldberg, 2003; MacWhinney, 2012)，并认为人类理解以一种集成的方式在不同的语言组织层次上使用各种线索。

存在多个执行相同功能但结构不同的线索表明了退化（degeneracy），这是典型的生物系统具有的特点(Edelman & Gally, 2001)。一般来说，退化提供了对变异和扰动的鲁棒性：例如，不同的大脑区域可以相互补偿，使认知功能对局灶性脑损伤（focal brain damage）具有弹性(Noppeney et al., 2004)。同样，不同时间分布的声学线索的多样性使得语音对噪声具有鲁棒性：例如，浊音和清音停顿之间的对比可以通过语音开始时间、下一个词的音高、辅音闭合的持续时间和响度来体现(for a review, see Winter, 2014)。线索退化也有助于语言的可进化性(Winter, 2014)和可学习性(Tal & Arnon, 2022)。停顿、韵律、句法和词汇特征都可以用来表示块边界，尽管它们在结构上不同，同时执行其他功能，这一发现增加了越来越多关于自然语言中线索的功能退化和句法冗余方面的文献(Leufkens, 2020; Monaghan, 2017; Pijpops & Zehentner, 2022)。

我们还发现听者和语音材料的影响程度存在实质性差异，这表明听者在依赖不同线索的程度上有所不同，而语音材料在不同线索是块边界的可靠预测因素的程度上也有所不同。例如，并非所有的停顿都是可靠的预测因素。例如，说话者可能会由于词汇搜索而在语块中间停顿。类似地，语音材料可能包含太长而不能作为块的子句。此外，听者和语音材料之间只有中等程度的斜率/斜率相关性，这表明听者可能对他们跟踪的线索有自己的个人偏好，而不是统一地跟踪所有线索，并且语音材料也可能具有最适合作为块边界预测变量的特定线索。例如，一些听众可能更喜欢跟踪韵律，而另一些人更喜欢跟踪句法，同样，一些语音材料可能更容易基于韵律进行分块，而另一些则基于句法。从说话者的角度来看，可以通过使用韵律来弥补蹩脚语法，并且可以通过用更长的停顿标记块边界来获得额外的清晰度，如在与孩子交谈时。

听者和说话者在不同预测因素的重要性及其影响程度上的差异是线索退化的另一个表现。事实上，块边界线索不仅是退化的，而且在句法上也是冗余的，这一点可以通过停顿时间、韵律和句法边界强度之间的高度相关来证明：因此，听者可以依赖这些线索中的任何一个，并且仍然收敛于相同的块边界。早些时候，在韵律感知中发现了听者对线索的选择和程度的个体差异(Baumann & Winter, 2018; Roy et al., 2017)。

如3.5所述，五名似乎没有像其他人一样追踪任何线索的听众被从斜率/斜率相关分析中删除。因此，存在不同效应之间具有强相关性的听众。然而，需要进一步的研究来揭示这种分块行为的原因。

组块持续时间的巨大影响支持了感知分块受时间约束影响的假设。平均而言，一个组块的持续时间为2.55 秒，标准差是1.2秒。这个平均值落在2-3秒内，这是delta振荡的带宽，也是基于时间的工作记忆约束下语言信息整合的最佳时间窗(Henke & Meyer, 2021; Roll et al., 2012; Schremm et al., 2015)。因此，无论潜在机制是工作记忆容量还是delta振荡，时间约束都有助于设置处理的时间窗口，并有助于预测块边界，这似乎是合理的。

本研究中对块持续时间的操作引起了人们的担忧，因为它可能与块边界的一致性相混淆。不同语音材料下块持续时间对块边界感知的影响与Fleiss’kappa值(r=0.4)的相关性表明，这些变量是充分分离的。评分者之间的一致性率与韵律对块边界感知的影响之间的强相关性表明，韵律作为可靠预测因素的语音材料更“可分块”。

惊异度的结果支持了感知分块和基于用法的分块之间的区别。如果感知块是由多词单位习得的，那么在边界之前的词应该不那么令人惊讶，因为它们属于正在进行的单位，而在边界之后的词应该更令人惊讶，因为它们开始了一个新的单位。然而模型显示了相反的结果：块边界与较高的结束惊异度和较低的开始惊异度相关。然而，这两个效应非常小，而且不同语音材料下呈现的方向也不同。因此，统计信息和感知块边界之间的关系需要进一步研究。例如，感知块的功能之一可能是将注意力引导到具有高信息价值的单位上。在这项研究中，我们使用了bigram surprisal作为一种简单的测量方法，在未来的建模中应该包括更复杂的测量，例如基于更大上下文的测量（如5-g surprisal）。

结论

在实时切分语音时，听者使用了所有被调查的线索。他们在追踪不同线索的程度上有所不同，也可能优先考虑特定线索。反过来，语音材料可能在不同线索对语块边界的可靠预测程度上有所不同，也可能有最有效的特定线索。语言线索的退化和句法冗余似乎促进了处理中的可变性。因此，如果在语音感知实验中通过人为构建语言刺激来孤立地研究不同的线索可能会破坏结果的生态有效性。
此外，我们的发现还为时间约束在感知组块中的重要性提供了支持，以及提供了感知组块和基于用法的组块之间分离的证据。综上所述，这些结果表明，将语音感知分块为时间组是一个独特的过程，可以为语言学理论提供信息。这一过程似乎在很大程度上是由认知约束决定的，可能是delta波段的神经振荡。语言结构可能以某种方式进化以满足这些约束。

作者简介

Svetlana Vetchinnikova

Svetlana Vetchinnikova是赫尔辛基大学语言学研究员，她的研究领域包括短语学、第二语言的使用、英语作为通用语研究、语块和语音处理等方面。她的研究涉及多种语言，包括俄语、芬兰语、英语和瑞典语等。她在这些领域的研究成果在国际上得到广泛认可，发表了多篇高水平的学术论文，并担任Journal of Pragmatics、Research methods in applied linguistics等多个国际学术期刊的审稿人。

本文来源：Language and Cognition

点击文末“阅读原文”可跳转下载

课程推荐

高引论文｜国内外“语码转换”研究TOP1-100

2023-11-26

好文荐读｜胡琬莹、赵杨：词汇层面语码转换代价的语言内部来源

2023-11-26

学术会议｜全国多模态与功能语言学学术研讨会

2023-11-25

今日一词｜话语叠连 Multiple Sayings

2023-11-25

稿约｜《当代中国话语研究》征稿启事

2023-11-25

前沿专著｜胡霜霜《非母语单词韵律线索的加工：一项跨语言研究》

2023-11-24

学术会议｜第七届中国心理语言学国际研讨会

2023-11-23

好文荐读｜王璐、刘元满：汉语音位负担与二语者言语可懂度研究

2023-11-23

好书推荐｜Craig A.Mertler《行动研究方法：全程指导》（留言赠书）

2023-11-22

重磅｜中国博士后科学基金第74批面上资助名单（语言学）

2023-11-19

欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”

请添加“心得君”入群请务必备注“学校/单位+专业/研究方向“

今日小编：leaf

审核：心得小蔓

转载&合作请联系

"心得君"

微信：xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个

人类在听觉中能够实时感知“组块”的边界吗？

Original leaf 语言学心得

语言学心得

向上滑动看下一个

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

人类在听觉中能够实时感知“组块”的边界吗？

人类在听觉中能够实时感知“组块”的边界吗？

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

生成图片，分享到微信朋友圈

人类在听觉中能够实时感知“组块”的边界吗？

人类在听觉中能够实时感知“组块”的边界吗？

您可能也对以下帖子感兴趣