周鹏：儿童语言习得机制跨学科研究：进展、问题和前景

原创周鹏语言战略研究 2022-04-13

收录于话题 #语言交叉学科 11个

2021年第1期

专题研究

语言交叉学科

#作者简介

周鹏

清华大学长聘副教授，主要研究方向为儿童语言习得、发展性语言障碍、自闭症儿童语言和认知能力的发展等。

儿童语言习得机制跨学科研究：进展、问题和前景

周　鹏

（清华大学　外文系　北京　100084）

一、引　言

语言是由人类神经生物属性决定的一套认知计算系统，它使我们可以理解和产出无限的具有内在结构的语言单元（Berwick & Chomsky 2011，2016；Chomsky 2017；Friederici et al. 2017）。这套认知计算系统在婴儿出生后飞速发展，5岁左右的幼儿已经接近成人水平（Crain et al. 2017；Yang et al. 2017）。语言的发展和其他生物系统的发展一样受内在机制和外在环境的制约。过去50年，语言习得研究者对决定儿童语言发展的内在机制和外在因素进行了广泛而深入的研究，取得了一定的成果，但语言习得的内在机制究竟是什么，外在环境因素究竟如何起作用，对这两个问题的研究还存在较大的争议和分歧。我们首先通过比较儿童语言习得领域的两大主流理论——语言习得先天论和语言习得经验论——来讨论该领域的主要研究问题和争论焦点；然后阐释从跨学科视角对主要问题进行的探索，并对今后儿童语言习得研究的跨学科方向和路径进行展望（实现语言学、认知科学、发展心理学、神经科学和人工智能研究真正的交叉与融合）。

语言习得先天论以普遍语法框架下的语言习得理论为代表，在Chomsky（1965）提出的生成语言学理论的基础上发展而来，强调语言的特殊性与儿童语言习得的内在性和先天性。语言习得先天论认为儿童习得母语的过程中存在一个“柏拉图问题”，即儿童早期获得的语言知识与来自外界环境的语言输入之间存在着极大的不一致和不对称，他们获得的语言知识远超外界语言输入所能提供的信息。为了解决这一问题，语言习得先天论提出婴儿出生时就已经具备了一定的语言知识，这些内在的、抽象的语言知识构成了语言习得的初始状态，是儿童语言发展的基础（Chomsky 1975，1980；Crain 1991；Crain & Lillo-Martin 1999；Crain & Nakayama 1987；Hyams 1986，1992；Wexler 1998）。随着生成语言学理论的发展，关于内在语言机制究竟以何种状态存在的探讨也在发生变化，但最核心的观点始终是婴儿一出生就具备先天的初始语言结构，该初始结构指导他们的语言习得。

语言习得经验论以基于语言使用框架的语言习得理论为代表，强调语言和语言习得的社会性和后天性，提出语言能力是社会认知能力的一部分，儿童在语言交际和使用语言的过程中习得语言。语言习得经验论否认先天语言知识的存在，提出儿童获得语言需要依赖社会认知能力的发展，通过观察某个结构在语境中的使用，慢慢掌握该结构的功能和用法（Bybee 2001；Lieven & Tomasello 2008；Pullum & Scholz 2002；Saxton 2010；Tomasello 2006）。该理论认为语法知识就像一个库存，里面存储了所有通过语言输入所习得的不同的语法结构。每一个语法结构都有一个特定的功能，儿童通过语境中的互动掌握该结构和与其匹配的功能（Ambridge & Lieven 2011；Goldberg 2003，2006）。语言习得经验论的一个基本观点是：某个句法结构在语言输入中的频率越高，就越容易被儿童抽象化，也就会越早地被习得（Ambridge & Lieven 2011；Lieven & Tomasello 2008；Tomasello 2000，2003，2006）。

如果仔细分析以上两大主流理论，就可以发现争论的焦点主要集中在3个方面。

（1）先天与后天的争论，或者说先天与后天的关系问题，即婴儿出生时就具备先天的语言结构来指导其后天的学习，还是所有的语言知识都是通过后天的学习获得的。

（2）语言的内在表征究竟是什么？如果存在先天的语言结构，那先天结构的表征方式是什么？

（3）语言能力与非语言的认知能力之间存在何种关系？

过去50年，儿童语言习得研究者从跨学科的视角对这3方面的问题做了广泛而深入的研究，但还远没有定论。下面简要回顾过去50年儿童语言习得研究者对上述问题的跨学科探索。

二、语言学理论与认知科学研究方法的结合

首先是语言学理论与认知科学研究方法的结合。从语言学视角对语言能力进行理论建构，尤其是生成语言学借助数学和形式化的手段对语言能力进行描写和假设，这使得语言学作为一门可检测的科学成为可能。把语言学理论作为对人类语言能力的一种假设，从而可以用科学实证的方法对其进行检验，这是语言学发展历程上的重要一步。洪堡特（Wilhelm von Humboldt）1836年就提出人类语言是“对有限规则的无限使用”，这是人类语言最本质的特征。以乔姆斯基为代表的生成语言学理论的最大贡献之一是采用数学等手段把洪堡特的上述论断加以形式化，提出了一套用有限句法规则生成无限句子的关于人类语言能力的科学假设，被称为普遍语法理论。生成语言学理论为人类语言的内在表征提供了一种假设，也为儿童语言习得的初始结构提供了一种假设。以递归性这一语言属性为例，生成语言学提出人类语言具有自我生成的能力，小的结构可以合并到大的结构里，从而产生无限的新的结构。在生成语言学框架下，通过合并实现的递归操作被认为是人类语言的本质属性（Berwick & Chomsky 2016；Hauser et al. 2002；Yang et al. 2017），也是狭义的语言机制的唯一组成部分，它从根本上区分了人类语言和动物有限的交际系统（Hauser et al. 2002）。根据该理论，递归性应该是作为先天的语言结构的一部分存在于大脑中。但是，语言能力本质上是一种认知能力，纯粹借助逻辑和形式化手段建构出来的假设能在多大程度上被认为是描述和解释这种认知能力的一种科学理论？随着认知科学和脑科学的发展，研究者普遍认为对语言能力的理论建构必须要结合心理学和生物学视角。

20世纪50年代以来，研究者采用认知科学的研究方法，从儿童“可学性”的视角检验生成语言学理论对语言能力本质属性的假设是否准确。儿童语言习得的研究方法随着认知科学手段的不断改进和更新也在不断完善，并逐渐走向系统化和标准化。儿童语言习得主要通过儿童的语言行为研究其语言能力。语言能力是人类内在语言知识的总和，包含语音、词汇、句法、语义、语用等各个方面的知识；语言行为则是语言在使用中的行为，是语言能力具体的、外在的反映。由于语言能力是抽象、内在的，研究者无法直接对其进行测量，只能通过对语言行为的考察，间接检测语言能力。而语言行为往往会受到工作记忆、注意力、疲劳、压力等非语言因素的影响，因此要通过语言行为有效检测语言能力，必须找到合适的研究方法控制这些非语言因素的干扰。语言能力又可以从产出和理解两方面考察，分别为产出性语言和理解性语言。产出性语言是指语言产出的能力，其语言行为主要考察指标是儿童能否产出合乎语法的语言结构；理解性语言是指语言理解的能力，其语言行为主要考察指标是儿童能否正确理解语言结构。对产出性语言和理解性语言的考察往往采用不同的实证研究方法。

儿童语言习得的研究方法一般分为两类：自然语料法和实验方法。自然语料法指的是研究者通过观察和采集自然情境下儿童自发性产出的语料来研究儿童获得的语言知识的方法。一般自然语料法多用在考察儿童的产出性语言（如李宇明2019）。实验方法指的是研究者通过控制实验任务中不同的实验条件来考察儿童的语言行为，从而推断其获得的语言知识的方法。实验方法又可分为行为实验和神经影像实验方法。研究儿童语言获得的行为实验方法主要包括：图片辨识任务、动作演示任务、真值判断任务、诱发性产出任务、跨通道注视偏好范式以及眼动追踪的视觉-情境范式等。研究儿童语言获得的神经影像学方法主要包括：脑电图（EEG）、脑磁图（MEG）、功能性磁共振成像（fMRI）以及功能性近红外光学成像（fNIRS）等。

研究儿童语言的一条重要原则是，无论采用何种实验方法，都要把握儿童友好化的任务设计要求。其中两个具有代表性的行为实验方法是真值判断任务和诱发性产出任务（Crain & Thornton 1998）。真值判断任务考察儿童的理解性语言。该实验任务需要两位实验者，一位用玩具表演故事，另一位扮演小木偶和儿童一起观看表演。表演结束时，“小木偶”要告诉儿童故事讲了什么，儿童的任务是评判“小木偶”说得对不对。“小木偶”对故事的描述往往就是实验者希望考察的语言知识，而儿童对“小木偶”描述的判断可以准确反映他是否掌握了该语言知识。诱发性产出任务考察儿童的产出性语言。该实验任务同样需要两位实验者，一位用玩具表演故事，另一位扮演小木偶和儿童一起观看表演。实验中的“小木偶”往往被设置成注意力不集中，也非常健忘的角色，所以他经常会忘记故事里面发生了什么。表演结束时，“小木偶”会问孩子一个问题，儿童的任务是回答这个问题，从而帮“小木偶”更好地理解故事。“小木偶”的问题一般是诱发儿童产出目标语言结构的关键，而儿童对问题的回答可以准确反映出他是否能够产出目标结构。这两个实验任务的共同点在于实验者通过故事创造了考察目标语言结构的合理语境，减轻了儿童受到的认知加工等非语言因素的干扰；同时通过“小木偶”与儿童的互动创造了儿童友好的环境，让儿童能够在轻松的环境中更真实地展现出其语言能力。

我们以“递归”为例，展示如何使用实验方法来考察语言学的理论假设，尤其是对于先天语言结构的假设。上文已讨论，生成语言学理论提出通过合并实现的递归操作是人类语言的本质属性，它从根本上区分了人类语言和动物的有限交际系统。根据该理论，“递归”应该是作为先天语言结构的一部分存在于大脑中。而作为先天结构，它应该呈现以下3个特征（Crain 1991；Crain et al. 2017）：

（1）儿童在语言发展早期就应该能够理解递归结构，使用递归操作；

（2）儿童对语言递归性的掌握应具有普遍性，不受某种特定语言的制约，换言之，英语母语、汉语母语以及其他母语背景的儿童都应具备递归操作的能力；

（3）对语言递归性的掌握不依赖于外界的语言刺激，在语言刺激贫乏的条件下，儿童也应该具备递归操作的能力（Chomsky 1959，1980）。

研究者采用上文介绍的真值判断任务和诱发性产出任务对该理论假设进行了检验，结果发现英语和汉语母语儿童利用少量的语言输入便可以理解和产出无限的句子，且通常情况下他们都是利用小的句法单元（如词和短语）组合成大的句法单元（如句子）（详见施嘉伟，等 2019；Giblin et al. 2019）。这些研究结果从儿童语言习得的角度支持了“递归”是人类语言能力的本质属性之一。儿童在先天结构的指导下利用少量语言输入便可以迅速有效地习得相关语言知识。

通过上文的阐释，我们也想强调语言学理论与认知科学研究方法相融合的儿童语言习得研究的重要性。语言学理论为理解儿童的语言行为和语言发展提供了一个视角和框架，帮助我们更清晰地解释和预测相关现象。没有一个语言现象是孤立存在的。要更好地理解这些现象及其彼此间的关联，就必须要有理论体系的指导。语言学理论可以让我们在描述儿童语言行为的同时解释其语言行为背后的机制。通过语言学理论所提供的概念和技术手段，我们可以更清楚合理地解释儿童如何习得语言，为什么语言习得会呈现特定的轨迹和发展特征，以及不同的语言成分在习得过程中如何互动。语言学理论是儿童语言习得研究的基础和出发点。研究者从理论出发，形成自己的研究假设，并用儿童语言实验检验研究假设。同时，实验所获得的儿童语言数据又可以回馈理论，检验现有的语言学理论是否正确反映儿童语言的内在表征和初始结构。

三、儿童语言习得与神经科学的结合

对语言本质问题的探究离不开神经科学，要探讨语言结构的初始状态就必须研究语言发展的神经生物基础。但人类大脑极其复杂，可能是人类所认知的宇宙中最复杂的系统。人类大脑约有860亿个神经元，每个神经元又有上千个突触和其他神经元相连接，构成非常复杂的连接网络，而每一个突触又都是一个复杂的个体，内含数千种不同的信号传输蛋白。同时，人的大脑又是高度结构化的，不同的脑区有不同的功能。大脑活动在代谢上是有代价的，是消耗大脑资源的。我们做任何活动，使用的都只是大脑整合的部分资源，在这个过程中，有一些脑区是活跃的，另一些是不活跃的。如枕叶皮层一般在实施视觉功能时是活跃的，小脑一般在实施动知觉协调功能时是活跃的。我们所有的认知活动都是通过特定脑区的神经活动产生和实现的。由于大脑的高度复杂化，对大脑语言机制的研究还远远没有定论，对处理语言的大脑结构的认知还远远不足，对儿童语言发展的大脑机制的探讨则更为有限。

自Lenneberg（1967）探讨语言的生物机制，提出语言习得的关键期假说以来，研究者开始探索儿童如何能在如此短的时间内获得如此多的语言知识，其背后的神经生物基础是什么。但至今相关研究仍然较少，尤其是针对0～3岁这个语言发展关键阶段的内在生物机制的探讨。此外，基于目前研究得出的结论仍有待实证研究的进一步检验。有研究提出，大脑发育过程中灰质减少和白质增加可能与语言习得的敏感度及语言习得的关键期存在紧密关联（Skeide et al. 2014；Skeide et al. 2016）。其中比较有影响的一个猜想是由德国神经科学和分子生物学家Nave提出的，他认为白质纤维束的髓鞘化（新生儿神经系统发育必不可少的过程，神经节细胞制造出绝缘的脂质鞘包裹在某些神经元的轴突外，起到绝缘作用，可以提高神经冲动的传导速度和保护轴突）和语言学习的敏感度直接关联；髓鞘化的过程强化了已经建立的神经网络连接，并抑制了目标区域新的神经元的生长。运用到语言习得上，白质髓鞘化尚未完成时，白质纤维束是灵活、具有可塑性的，因此大脑学习语言的能力就比较强；而随着髓鞘的增加及髓鞘化的完成，白质纤维束就固定了，因此大脑的可塑性就降低了，语言学习的能力也就变弱了。Berwick & Chomsky（2016）也提出核心句法能力的发展或许与连接大脑语言区域的弓状束的发育存在关联（另见Perani et al. 2011；Friederici et al. 2017）。图1是成人和新生儿大脑弓状束的对比（灰影部分）：和成人相比，新生儿负责句法层级结构加工等核心操作的弓状束部分尚未髓鞘化，该大脑结构特征可能和语言习得的关键期和敏感度直接相关。显然，探讨白质纤维束的发育和语言学习敏感度之间的关联是今后研究语言习得的神经生物基础的一个重要方向和突破口。我们需要探讨：是髓鞘的增加导致了句法核心操作的产生，还是因为复杂句法的产生导致了髓鞘的增加？

图1　（引自Perani et al. 2011）

四、儿童语言习得与人工智能的结合

儿童语言习得的一个重要研究目的是探索人类语言能力的本质，而人工智能的重要研究领域之一是对人类语言智能的模拟。两者都是从学习的角度探索如何获得语言这一人类最高智能。但是目前的人工智能研究对语言智能的模拟显然存在明显的短板。我们首先简要概述人工智能在自然语言处理方面的困境和不足，然后对比儿童语言习得的特征，探讨儿童认知启发下的语言智能研究以及儿童语言习得与人工智能相融合的路径。

诺贝尔经济学奖获得者、心理学家Kahneman在他的畅销书《思考，快与慢》（Thinking, Fast and Slow，2011）中把人的认知过程分成两个范畴：系统一和系统二。当前人工智能发展主要依赖于深度学习网络架构，其优势在于能够准确识别视觉、听觉等客观世界的实体，基本实现了人脑的感知功能，该部分通常被称为系统一。人脑跟今天的人工智能相比，还存在记忆、语言和符号推理这样的内生体系，可以脱离物理世界的实体，独立演化并支撑人脑的高级认知功能，从而让人类智能呈现更强的泛化能力、可解释性以及创造力，这部分通常被称为系统二。而当前的人工智能对系统二的模拟存在着较大的困境，尤其是对语言的理解与认知。

深度学习是机器学习的一种方法。机器学习是让机器通过数据进行学习，它是人工智能的一个子领域，其背后的主要推动力是大数据。Rosenblatt早在20世纪50年代就建立了一个神经网络，它是最早的机器学习系统之一，建立的目的是希望机器纯粹依靠数据就能够进行物体识别。但是显然那个时候的神经网络系统能力不足，主要是硬件能力不足和数据量不足。2012年左右，大数据革命的到来改变了这种困境。这种改变的发生其实不是因为神经网络的数学算法有了重大突破，大多数的算法在20世纪80年代就已经存在了。重大突破主要源自硬件上的突破，深度学习的代表人物Hinton、Bengio和LeCun找到了利用图形处理器（graphics processing unit，GPU）极大提高神经网络性能的方法。图形处理器使训练更深度的神经网络（即包含更多层级的类似神经元的网络节点组合）成为了可能，因而极大提高了训练的速度和效果。

尽管深度学习网络在视觉等感知领域取得了重大的突破，但是在更高阶的抽象思维、语言和符号推理等方面还存在较大的困境。对系统二的突破以及系统一与系统二的融合必然将占据第三代人工智能发展的关键位置。机器学习要实现抽象思维能力，就必须解决如何模拟表达复杂思维的语言系统的问题。深度学习网络非常擅长学习关联，如图像/声音和对应标签之间的关联，但在句子理解上却存在很大的困难。这主要有两个原因。

第一，缺乏对句子结构化的内在表征，缺乏对抽象语义的准确表征。我们首先来看一看深度学习网络是如何模拟语言的。该领域的开创者和领军人Hinton提出了一个“思维向量（thought vectors）”的概念（Hinton et al. 1999）。简单来说，一个向量就是一个数字串，如［39.9042°N，116.4074°E］表示的是北京这座城市的经纬度。在深度学习网络中，每一个输入和输出都是用向量来表示的，网络中的每一个神经元节点都给相关的向量贡献一个数字。思维最基本的单元如果是词的话，那么在深度学习网络中就需要用向量来给词编码。用向量来给词语编码也是目前深度学习领域正在尝试和探索的，其中一个重要编码方式是“任何两个意义相近的词都用相似的向量来表示”。例如，如果“猫”这个词用数字串［0，1，-0.3，0.3］来编码，那么“狗”这个词可能就用另一个相近的数字串［0，1，
-0.25，0.35］来编码。Mikolov等人发明的词向量模型（Word2Vec）就是运用这个理念来给词语编码的。这个词向量模型里的每一个词向量都由200～300个数字组成，这些数字是基于大量文本中大概率出现在它附近的词所得出的。以“钢琴”这个词为例，通过大量的文本分析，可以发现它经常出现在“弹”和“音乐”这样的词，以及人名“莫扎特”“贝多芬”“肖邦”和“舒伯特”的附近。同样，它出现在“小提琴”和“大提琴”附近的概率要显著高于“金融”和“基金”这样的词。搜索引擎就是利用词向量这样的技术来确定近义词的，亚马逊的产品搜索引擎也是采用了相同的技术。

词向量模型也可以在一定程度上进行语言类推。例如，当给出英语句子“Man is to woman as king is to __”，并要求在横线处填补合适的词语时，通过词向量模型，把表征词语“king”和“woman”的数字相加，然后减去表征“man”的数字，这样得到的最近向量表征就是正确答案“queen”。看起来词向量模型似乎不需要借助词语的内在概念表征（如“king”的概念、“woman”的概念等）就可以准确进行语言类推。基于对相关语言现象的研究成果，Hinton提出可以把词向量扩展到句子向量，从而最终实现思维向量这个理念。他提出，既然用向量的方法可以表示词汇，那么也可以用向量的形式表示句子。用向量来表示句子，就可以完全摆脱用语言学概念（如层级树形图的方式）来表征句子，因为层级树形结构和深度神经网络在技术层面能够实现的互动非常不理想。

但是，我们需要指出的是，句子和词是非常不同的。词向量模型在某些条件下可以不借助词的内在概念表征，而直接通过考察该词在不同语境下的使用情况，用向量去推测该词的意义。通过模拟在不同语境中的使用，基本可以准确表达一个词的意义，比如“猫”这个词的意义基本可以近似为大数据语境中所有对“猫”的使用情况的一个平均值，深度学习网络中通常用向量空间中的点云来表示。但词义是相对稳定的，而句子则不同，我们每天都产出和理解非常多的新句子，并且每个句子都不一样。以汉语中“不”“怕”和“辣”为例，可以组合成5个合语法的句子结构：“辣不怕”“不怕辣”“怕不辣”“辣怕不”和“怕辣不”（不可以说“不辣怕”）。该例子说明，简单变换一下词序，句子的意义就会不同。用向量方式把看起来相似的句子简单组合起来，是很难表征复杂的句子结构关系的。事实上，句子的结构关系可以更复杂，上述5个句子结构又可以各自自我生成，从而产生无限的新句子，而每个新句都具有不一样的意义。以“不怕辣”为例，可以扩展为“恬恬不怕辣”“康康说过恬恬不怕辣”“美美记得康康说过恬恬不怕辣”，以至无穷。这种通过递归操作实现的人类语言和思维的组合性是实现句子理解的关键，句子的语义不是简单统计意义上各个组成部分的语义的平均。

上文说过，生成语言学家用层级树形图来表征句子的内部结构。通过高度结构化的内在表征，句子中的每一个成分都有自己特定的位置，每个成分之间都有特定的关系。因此，尽管有些句子由相同成分组成，但是由于其成分之间句法结构关系的不同，最终的句法结构也就不一样，这就决定了它们有不同的语义解读。缺乏这样高度结构化的句子内在表征方式，深度学习网络在表征人类复杂语言结构时就会出现困境，也就谈不上表征复杂思维了。深度学习网络要在该问题上有所突破，就必须解决一个核心问题：如何从句子成分的意义得出句子的整体意义？目前用向量来表征的方式显然不能解决该核心问题。此外，语言理解中至关重要的一环是对抽象语义的表征，而深度学习似乎是故意模糊这种对抽象语义的准确表征。用向量来模糊表示相关语义特征，缺乏准确性，因此很难做到可靠，鲁棒性（robustness）也就会大打折扣。这也就不难理解深度学习网络为什么很难进行抽象的推论，缺乏对知识进行准确内在表征的学习模型是很难对知识进行可靠的抽象类推的。正如机器学习领域知名学者Geman所指出的：深度学习网络的最大挑战不是学习本身，而是如何建立准确的知识表征（Geman et al. 1992）。要突破语言理解（尤其是句子理解）的困境，最重要的方向之一就是建立准确的句子表征方式。

儿童语言习得的特征可以很好地启发人工智能对语言理解的探索。上文已经讨论，先天的语言结构在儿童语言习得中的重要作用，尤其是儿童先天具备的通过递归操作实现的人类语言和思维的组合性更是抽象思维发展的关键。儿童在先天结构的指导下，通过后天与语言环境的互动，迅速习得抽象句法和语义概念。我们已经讨论过儿童对递归的习得，下面来看儿童对抽象语义推理的习得。这是发生在一对父母及其5岁儿子Alexander之间的一段简短对话（详见Marcus & Davis 2019）：

Alexander: What’s chest-deep water?

Mama: Chest-deep water is water that comes up to your chest.

Papa: It’s different for each person. Chest-deep for me is higher than it would be for you.

Alexander: Chest-deep for you is head-deep for me.

我们发现，Alexander只需极少的语言输入就可以对语义概念进行灵活的扩展和类推。他掌握了“chest-deep”（齐胸深）后，迅速灵活地类推和扩展到“head-deep”（齐头深）。而这样的推理方式是儿童习得抽象语义的重要手段（另见De Villiers & Roeper 2011）。通过对比机器学习和儿童语言习得，我们发现儿童的习得方式是：先天结构（高度结构化的内在表征） + 小数据，而这样的学习效果要显著优于主要依靠大数据驱动的机器学习的效果。从中我们能够得到一个重要启发：初始结构越丰富，最终的学习效果越佳。但是目前人工智能领域似乎还是被“白板说”思想所支配，认为一切知识都来源于学习，而忽视先天结构的重要作用。

第二，缺乏多样化的语言加工方式。人类理解世界的方式从来都是自上而下和自下而上方式的融合。我们用自己的先验知识指导我们对接收到的新信息的处理，而新信息也会让我们对已有知识结构进行调整。语言理解也是如此。先验知识在理解非字面意思时扮演着至关重要的角色。例如，餐厅的两个服务员在聊天，一个说“刚才那个红帽子要了一块蛋糕”，另一个说“我那桌的青椒肉丝点了一杯橙汁”。听到这两句对话，没有人会理解为“有一顶红色的帽子突然感到饥饿，所以点了一块蛋糕”，或者“桌子上的那盘青椒肉丝突然感到口渴，所以点了一杯橙汁”，所有人都能推论出“红帽子”和“青椒肉丝”在该语境中指的是餐厅中特定的顾客，因为我们的世界知识告诉我们“红帽子”和“青椒肉丝”是没有生命和感知的。

同样，在语言加工过程中，我们可以迅速利用已经获得的语言信息自上而下去预测即将出现的语言信息，从而快速有效地理解相关语言结构。这是人类信息整合加工的一项重要能力。大量研究表明，儿童刚出生时，句法加工装置就具备了利用已有语言信息对未出现的语言信息进行预测的能力。这种能力通常被称为渐进式语言加工。渐进式语言加工作为先天属性，使得儿童可以在听到句子时利用已有信息建立临时句法和语义表征，从而预测即将出现的语言信息，并及时把相关信息整合到已有的表征中，达到迅速有效地理解句子的效果（Andreu et al. 2013；Choi & Trueswell 2010；Fernald et al. 2008；Lew-Williams & Fernald 2007；Nation et al. 2003；Omaki 2010；Sekerina & Trueswell 2012；Trueswell et al. 1999；Van Heugten & Shi 2009；Zhou et al. 2014；Zhou & Ma 2018；Zhou et al. 2019）。例如，Zhou et al.（2019）对3岁汉语普通话儿童进行了利用已有语言信息预测即将出现的语言信息的眼动模式实验：听句（1）和句（2），同时给他们看视觉场景（图2）。

图2 （引自Zhou et al. 2019）

（1）康康要去吃地上的蛋糕。

（2）康康要去找地上的蛋糕。

句（1）中的动词“吃”只能选择视觉场景中的蛋糕作为它的论元，而句（2）中的动词“找”可以选择视觉场景中的任何一个物体作为它的论元。Zhou et al.（2019）发现，3岁儿童听到“吃”时比听到“找”时要更多地看向视觉场景中的蛋糕区域。这个眼动效应出现在他们听到“蛋糕”之前，说明3岁儿童呈现出利用已有语言信息预测即将出现的语言信息的眼动模式。这种眼动模式通常被称为预测性眼动，是证明儿童自上而下加工语言信息的重要行为指标。

从儿童语言加工的视角，我们发现婴儿刚出生时对语言信息的处理就采用自上而下和自下而上相融合的模式，是先天规则结构与后天数据相结合的混合处理系统。英语儿童对动词过去式的习得是混合处理模式的一个经典例子。英语动词过去式的形成有两种方式：一是直接在动词后加上“ed”，被称为规则形式；另一种是不规则形式，如go—went、break—broke。Marcus et al.（1992）考察了英语儿童在习得动词过去式的过程中出现的过度规则化现象，即用规则形式“+ed”来表示不规则动词，如他们经常在对话中使用的“breaked”“goed”，提出了英语儿童动词过去式习得的混合模型：儿童产出规则动词形式是通过运用规则，产出不规则动词形式是通过关联网络。这个混合系统中两条通路共存并互相补充；儿童对规则动词过去式的习得只需要使用规则类推，很少消耗记忆资源；而对不规则动词过去式的习得则需要消耗记忆资源，需要记忆资源建立动词原形和过去式形态之间的关联。

但目前机器学习的主流趋势似乎是和儿童的混合加工方式相反的，它趋向建构端到端模型，模型使用单一的加工方式和简单的同质性机制，缺乏内在的复杂结构。但是忽视认知系统的复杂性，而用一条简单的放之四海而皆准的万能原则（算法）去模拟人类智能，似乎是错误的方向，因为自然界中复杂生物智能的特点，或者说真正具备智能的系统，一般都是极其复杂的，就像人类的大脑一样。任何提出把智能还原成一条简单的万能原则（算法）的理论基本上都是不可能实现的（Marcus & Davis 2019）。现在的机器学习要有所突破，必须解决的一个问题就是如何找到自上而下和自下而上加工的融合方式。

五、跨学科探索的总结与展望

上文介绍了儿童语言习得研究关注的主要问题以及跨学科视角下的尝试和探索，研究的争论焦点是语言习得先天与后天的问题。先天是自然进化的产物，是作为基因遗传的方式而先天存在的知识结构，后天则是需要通过学习获得的知识结构。过去50年的儿童语言习得研究告诉我们，这样的截然两分是有问题的。生物学、脑科学和发展心理学等研究也都有充足的证据，表明对高级智能的发展进行先天与后天的截然两分和对立并不合理，先天和后天在生物个体的发展过程中是密不可分、紧密协作的。Marcus（2004）对两者的关系作了形象的比喻：个体基因是先天和后天合作的一个杠杆。每一个基因就像计算机程序中的“IF-THEN”条件语句，其中“THEN”主句规定了某个组成基因的特定的蛋白质，但这个特定的蛋白质只有在某些特定的化学信号得到满足的条件下才能形成，这就是“IF”从句所规定的条件，每一个基因都有它特定的“IF”条件。这个结果就像一套自适应但又高度压缩的电脑程序（它有特定的公式和算法），个体细胞可以根据它们的环境自主实施这套程序。学习的产生就是基于这样一套系统，先天和后天交互作用的过程就是学习产生的过程。同样，过去50年儿童语言习得的跨学科研究已经表明，语言发展是先天结构与外在语言环境交互作用的结果。

但是很多学者（包括人工智能研究者）似乎都忽略了自然界生物智能的这一特点，忽视或者低估了大脑中的先天结构在智能架构和学习中的重要性，而过分强调学习的重要性。我想很大一个原因是这些研究者存在一个理解上的误区，认为他们研究的主体是学习，先天知识结构在该过程中并没有太大的价值。但是正如我们在上文所讨论的，在自然界生物体的发展过程中，先天的知识结构起着非常重要的作用，先天和后天并不矛盾，而高级智能体（如人类）的学习正是基于这样一种先天和后天互动的架构。

与其关注先天与后天的争论，今后的儿童语言习得研究更应该以一个开放的心态从跨学科的视角去解决：

语言的先天结构有哪些？

这些先天结构的内在表征和神经生物基础是什么？

先天结构和后天语言输入之间如何互动？

语言能力和其他认知能力在儿童语言发展中如何互动？

能否借鉴儿童语言习得的特征，构建一个“人类语言模拟器”，把超大规模预训练语言模型与大脑中的先天语言结构加以融合，走一条先天结构+数据的迭代进化之路，使机器学习可以展现人类水平的“语言理解”？

从这些研究问题出发，走语言学与认知科学、神经科学、人工智能研究的真正融合之路。正如前文所讨论的，儿童语言习得研究的跨学科方向是清晰的，而真正融合的路径要在跨学科的实践中进一步明确。

要做到多学科的交叉和融合，就需要培养真正具有跨学科背景和视野的新一代儿童语言习得研究者。新一代的儿童语言习得研究者既要有良好的语言学理论训练，又要灵活掌握认知科学的实验方法。同时，他们还需要有跨学科的视野，能够和认知科学、发展心理学、神经科学、计算机科学的研究者开展合作，要善于采纳和融合这些相关学科的研究成果。新一代的儿童语言习得研究者或许可以暂时搁置目前理论之间的争议（如语言能力是否独立于其他认知能力，以及大脑是否由不同心智模块组成这样的问题），而把语言发展放到更广阔的框架下，更多地关注人类共有的、在物种进化过程中发挥重要作用的、以基因遗传方式存在的语言能力部分和其他需要后天环境和社会文化阐释的认知能力之间是如何互动的，以真正跨学科的方式来理解更为广阔的语言、心智与大脑的关系。相信随着科学的发展，学科之间新的融合会持续涌现，对已有研究问题的探索也会持续深入，对相关理论问题的认识也会不断更新。新一代的儿童语言习得研究者也要有更强的社会使命感和担当，不仅要重视研究的科学价值，也要注重科研成果的社会价值和影响，把科研成果及时转化为能为社会服务的产品。儿童语言能力的发展对于其后期表达能力、思维能力和学习能力的发展都具有重要意义。因此，从跨学科视角考察儿童语言能力的发展及其病变的异常机制，可以帮助我们更好地推动儿童语言智能的开发以及儿童语言障碍的早期诊断与干预，直接推动健康中国的建设，服务国家战略。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

周鹏：儿童语言习得机制跨学科研究：进展、问题和前景

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

生成图片，分享到微信朋友圈

周鹏：儿童语言习得机制跨学科研究：进展、问题和前景

您可能也对以下帖子感兴趣