伦敦大学教授李嵬:人口语言学的理论与方法
The following article is from 语言战略研究 Author 李嵬
欢迎关注我们,一站式分享海量语言学术资源
转载编辑:研习君
敬请星标应用语言学研习,喜欢请点赞,真爱请分享⭐
李 嵬
伦敦大学教授
主要研究方向为
应用语言学
浙江财经大学副教授
主要研究方向为
社会语言学、对外汉语教学
南京晓庄学院副教授
主要研究方向为
语言规划学与术语学
李 嵬1,
孙德平2(译),方小兵3(校)
1. 伦敦大学 英国 伦敦 SW7 2AZ;
2. 浙江财经大学 人文与传播学院 浙江 杭州 310018;
3. 南京晓庄学院 外国语学院 江苏 南京 211171
提 要 人口模式和变化与语言发展、语言变化、语言维护、语言替换和语言规划之间的复杂关系催生了一个跨学科领域——人口语言学。本文评述这一学科领域的主要理论与方法,主要目的是在正在发生重大人口变化的中国推动这一新的应用语言学研究。
关键词 人口学;语言;理论;方法;中国
人口语言学
人口结构模式和人口结构变化,语言发展、语言变化、语言维护、语言替换和语言规划,这两方面之间存在着复杂的关系,并催生了一个跨学科领域——人口语言学(demographic linguistics)。它与“语言人口学”(linguistic demography)不同,后者主要是统计语言分布情况。在过去的20年中,人口语言学已经在国际上成为人口学和语言学交叉领域。本文借用雅各布·西格尔(Jacob Siegel)所著《民族语言学的人口和社会经济基础》[1]一书第一章的部分内容(3~35页),经修改补充来介绍人口语言学的主要理论概念和研究方法,其主要目的是在正在发生重大人口结构变化的中国推广这一新的应用语言学研究。
语言学中有一个比喻,即语言是一种生命体,它可以出生、成长和死亡。但我们不能忘记,是语言的使用者赋予了语言以生命;语言之所以成长,是因为更多的人使用它们;而语言死亡则是因为没有人再使用它们了。因此,语言的成长和地理分布通常是根据语言在不同时期的使用人数及其分布方式来衡量的。有关各种群体过去的人口增长及其分布的数据可以使我们了解特定语言的当前水平、成长和分布,而对人口增长及其分布的预测可以使我们了解各种语言未来可能的成长及其分布。人口的规模和增长率不仅影响语言的扩张和收缩,还影响其句法(语法)、语汇(词汇),甚至物理表达(例如声音和肢体动作)。顺便说一句,我使用“语言使用者”(language user),而不是“说话者”(speaker),因为不是所有的语言都是说的。世界上还存在着手语,还有一些会读会写但不会说的语言使用者。
人口因素和人口事件,例如生育率、死亡率、移民、年龄-性别构成、种族(ethnicity)和人种(race)、社会经济地位和健康特征,都可能会对语言产生重大影响。语言社团的迁移会影响其成员所使用语言的地理分布和空间分布。人口的年龄-性别结构和社会-阶层结构是影响语言活力和语言特征的主要因素。语言通常是定义种族的主要因素。人口的社会经济阶层结构会影响方言的形成和语言的变化。健康方面的限制可能对人们的语言使用方式产生深刻的影响,尤其是在他们的晚年生活中。长期以来,人口学家和政治家对语言使用问题一直非常关注,许多国家已将其纳入人口普查和抽样调查中。在过去的一个多世纪中,美国每十年一次的人口普查均包括对语言使用或英语知识和英语水平问题的调查,例如读写能力(literacy),以及最近增加的受教育程度等项目,收集关于被调查者读写能力的信息。从普查或调查中获得的有关语言使用或语言水平的统计数据,可以协助某些法律、社会、经济或司法等方面的工作。
在人口学(demography)里,人口(population)是指特定时间在一个确定地理区域内的居民总数。有时,它仅指特定地区的一部分居民(如儿童人口、老年人口)。在人口普查或调查中实施人口定义涉及以下问题:所涵盖的人口类型(普通居民与实际人口或现有人口)、非法居民的身份、在该国的外国居民、没有常住地的人、海外居民以及拥有双重住所的居民。种群之间划定界限通常出于历史和政治原因。同样,语言边界的划定也多出于历史和政治原因。一种语言可以与其亲属语言区分开,例如法语和西班牙语,或者法属克里奥尔语和巴黎法语。一种“语言”与另一种“语言”的差异大到什么程度才可以算作彼此独立的语言?为什么古英语和现代英语被视为相同的语言,而法语却被视为与西班牙语或拉丁语不同的语言?21世纪的英语使用者无法理解古英语,法语的使用者也无法理解拉丁语。瑞典语和挪威语是可以互懂的,却被认为是彼此独立的语言。普通话和广东话不能互懂,却被认为是同一种语言——汉语。这些做法使我们认识到历史事件、政治影响和随意性在划分语言和统计语言数量方面的影响。由于瑞典语和挪威语在两个独立的国家使用,所以它们被认为是独立的语言;同样,由于普通话和广东话在同一国家使用,所以它们被认为是同一种语言。乌克兰语一度被视为俄语的方言,而且它曾经是俄罗斯帝国的标准语言,但是由于它现在已是一个独立国家的国语,因此被视为一种独立的语言。除了互懂度之外,还有很多方法可以衡量语言之间的差异,但是它们不能解决诸如上述语言划分的不规则情况。
人口学是研究人口的数量、分布、年龄-性别结构及构成(即人种和种族、出生地和出生国、婚姻和家庭状况)以及这些要素变化(主要是出生、死亡和移民)。更宽泛的定义包括语言使用、健康特征和社会经济因素(例如读写能力、教育程度、职业、收入和财富)等其他要素。
人口学家在数据分析中除了采用常用的人口估算方法,包括出生率、死亡率、移入率和移出率等,还使用群组分析法(cohort analysis)对人口的发展变化进行深入的研究。要了解群组分析,我们需要将“时段”(period)数据与“群组”(cohort)数据区分开。比如考察2020年北京市每个10岁年龄段(5岁及5岁以上)在家里使用非北京话的人口百分比的数据。我们现在考虑在10岁年龄段的家庭中说非北京话者的百分比数组,其中每个连续10岁年龄段的百分比与相隔10年的连续日期有关。该数组代表了群组数据,并随着个人实际变老而变化。第一个数组描述时段数据,第二个数组描述群组数据。
上文所述仅涉及一种类型的群组,也是最常见的类型,称为出生群组(birth cohort)。出生群组由同一年出生的人组成,直到有人死亡才开始失去成员,而同时通过净移入获得成员。群组分析也叫纵向分析,指在群组的整个生命周期或其中某个阶段人口、社会经济、健康和语言现象发生变化时对其进行分析和估算的一系列方法。人口学家面临的一项共同任务是如何解释同一年度不同年龄段之间社会经济特征的变异。年龄本身并不一定是导致年龄组之间差异的主要原因。因此需要使用群组分析,出生群组之间的变化可能才是其主因。例如,为什么在许多国家的普查中65~69岁年龄段的文盲率比15~19岁年龄段的要高很多?其解释主要依靠群组分析,即每一个晚出生的群组都会比早出生的群组接受更多更好的教育。在所考察的年份中,最老的年龄段反映了几十年前的教育水平,而最年轻的群组反映了近年来较好的教育。
对同一调查年的两个年龄组的语言行为进行简单比较,不能解释不同群体在不同年龄段语言行为的实际差别。当从一个年龄转到另一个年龄时,出生群组具有了其独特的经历。人口学家根据年龄、群组和时段影响或效应三方的贡献,对同一天或两天之间社会经济变量的年龄变化进行分析。与社会经济现象一样,相同类型的分析范式也适用于分析语言现象。
这种分析被称为年龄-时段-群组(age-period-cohort,APC)分析,可以应用到一系列年龄组的语言比率或频率的分析之中,以便确定所谓的年龄效应、时段效应和群组效应各自对语言比例或频率的差异和变化产生的影响。例如,想要分析美国2010年50~54岁和80~84岁两个年龄段之间英语说得很好的拉美裔人口比例下降的原因,或者1980~2010年之间50~54岁的英语说得很好的拉美裔人口比例上升的原因,年龄效应、时段效应和群组效应都会有贡献,但它们之间的关系会有所不同。
时段效应是指在特定年中所发生的事件(例如,战争、流行病、重大政治事件)对所研究语言现象的影响。年龄效应是指不同年龄对所关注的语言变量的影响。群组效应是指不同出生群组的特征和经验,尤其是早期生活经历,对所研究语言现象的影响。如果不考虑这3个因素,对特定年龄的变化或差异的解释就可能会出错。重要的分析点是,年龄在某一特定年份或时段包含着许多不同的出生群组,这些群组在其早年和晚年具有不同的经历,从而影响他们晚年时对时段和年龄影响的反应。同样,不同时期的相同年龄代表不同的群组和不同的时段。这说明,仅关注某一年份语言特征中的年龄差异可能会导致对年龄差异的误解。
语言和人口研究者对许多不同的问题都很关注。在将人口学理论和方法应用于语言分析时,我们可以比较使用各种语言的人数、其地理分布及其人口和社会经济特征。我们可能会研究语言使用的年龄-性别变异,包括区分年龄(即不同年龄)、时段(即不同年份)和群组(即不同出生年份)对语言使用的影响带来的差异和变化。在语言使用上,性别、人种、家庭和社会阶层等方面的差异也引起了很多人的兴趣。人口学家像社会语言学家一样,一方面对人口和社会经济变量之间的关联感兴趣,如人种-种族群体、家庭地位和社会经济地位,另一方面也对语言使用和语言变化感兴趣。
应用标准的人口学范式,我们可以探讨各种语言的使用者的出生、死亡和迁移(即移民)。由于迁移在语言传播和语言变化中起着重要作用,因此值得特别关注。在对一种语言的使用者数量进行估算和预测的基础上,如果我们可以为该语言使用者的不同年龄组确定目前的死亡率,那么我们就可以为他们建立一个生命表。生命表是一个具有函数的统计表,该函数显示了每个年龄的出生群组成员的生存概率、每个年龄的生存者数量、该群组成员的预期寿命和其他相关函数。将语言视为人口研究的单位,我们可以计算其增长率、死亡率和出生率,并解释其含义。有关人口统计来源和方法的详细介绍,请参见西格尔(Siegel 2018)、西格尔和斯旺森(Siegel & Swanson 2004)。
人口学家和其他社会科学家一直关注的一个问题是遗传和环境在第一语言习得和第二语言习得中的相对作用。遗传和环境在多大程度上有助于母语或本族语的习得?这些因素也关系到新语言诞生和消亡的过程。
人口学家和应用语言学家共同感兴趣的其他主题包括语言社区的共存和冲突、国家语言水平等级以及家庭和邻里在语言水平和语言使用的变化中的作用等。官方语言水平是影响人口普查和调查中所收集的人口统计数据质量的因素,非官方语言的水平也是一个影响用“外语”编写的调查问卷所收集数据质量的因素。
人口学家像文化人类学家和社会语言学家一样,对具有独特语言特征的种群感兴趣,例如土著种群,由于文化、地理位置或人口稀少而被孤立或边缘化的种群,生活在某个社会历史时代之前的特定群体。
人口学家长期以来一直对这种独特种群的人口特征和社会经济特征感兴趣,将其作为一种重建人口历史的方法,以及提高对当代人口变化的理解的方法。语言人口学还涉及感觉障碍者、其他类型的言语障碍者、在受限的社会环境中使用特殊语言(例如宗教服务中的神圣语言)的人。
语言人口学也与其他几个领域有着密切的联系和利益交叠。这些领域包括社会语言学、语言社会学和语言人类学,很难在这些子学科之间做出明确的区分。在实践中,这些子学科的区分主要反映了分析者的学术背景和兴趣。
社会语言学可以被定义为对语言使用与社会结构之间关系或语言行为的社会组织的研究。它涉及社会秩序如何促进其成员使用的语言成形。社会语言学处理以下问题:语言变异与变化,语言接触,双语现象和多语现象,语言在社会凝聚、社会分离和社会冲突中的作用,当地和地区级的语言规划(Coulmas 1997)。变异与变化是语言的自然特征。变异包括地区变异、社会阶层的变异和历史变化。社会语言学要研究的基本问题是:语言为何会发生变化,语言变化涉及哪些机制,哪些因素会抑制语言的变化,哪些社会变量会诱发和支持语言变异?
当社区成员使用两种或两种以上的语言,这种现象被称为双语或多语现象。社会语言学家研究了多语现象的动力,包括优势语言的影响力,使用减退所涉及的语言状况,以及采用语码转换(即在同一对话中将两种语言结合在一起)导致的语言现象等。他们关注语言接触的结果和双语言语社区的互动。他们鉴别涉及多种语言的不同言语模式,并对存在着共存或竞争语言的个人和群体的言语行为作出解释。有些学者研究语言是如何塑造人们对操相同语言或其他语言的群体的看法的。
语言社会学研究语言如何影响社会秩序。对社会语言学家来说,其研究的对象是语言;而对社会学家来说,其研究的对象则是社会。社会语言学是语言学的一个分支,语言社会学是社会学的一个分支,这两个领域重叠很多,很难区分。在实际研究中,这两个领域的专家会处理许多相同的问题。语言社会学家认为语言是在传达说话者对他与会话对象之间关系的感受和态度。他们感兴趣的是:个人使用语言的方式是如何影响社会关系的;在不同条件下,个人挑选使用的语言是如何影响他们与其他人的关系的;语言的选择是如何建构个人和群体身份的?
在处理与语言社会组织有关的一系列问题时,社会学家研究的是语言使用在社会冲突和社会合作中的作用,考虑的是那些不操优势语言的人在地理和语言层面的多语融合问题。他们试图了解语言行为针对不同的社会群体是如何发生变化的,以及这些变化是如何影响群体成员之间以及不同群体之间的关系的。
语言人类学起源于田野人类学家记录濒危语言的工作,并且在过去的100年间已经发展到几乎涵盖语言使用的所有方面。现在,人类学的这一分支广泛涉及比较研究,研究语言作为人类文化要素是如何影响社会生活的,特别是在那种小而孤立的前现代社会中。语言人类学探索的是:语言使用如何影响社团的交际模式,语言使用如何与文化信仰、社会认同和群体成员资格相关联,以及语言使用如何与其他符号学的(即象征的)实践一道,向人们呈现其所在的自然世界和社会世界。
人口学和社会语言学相似,不太倾向于遵循抽象理论模式收集分析资料,而是更多地依靠田野研究、参与观察、行政记录(如生死记录)和定量方法等。但这并不是说人口学和社会语言学是完全非理论的,而是说这些学科有自己的研究传统和方法,关注的数据材料有自己的特征。人口学家所依赖的关于语言群和语言变异的具体数据来源包括人口普查、人口登记、一般性的全国抽样调查、关于语言或族群(ethnicity group)的特殊的国家调查、行政记录以及私人资料,例如教会和教区的记录。通过将这些来源的资料进行组合并使用各种估算技术,人口学家可以对各种人口和社会经济现象进行估算和预测。语言现象也包括在其中。
很多群体没有系统的语言数据。为了分析某一群体的语言和人口问题,有时需要用临时代理(proxy)。比如在比较分析中可以使用两种代理群体。首先,如果某一地区大部分人都使用同一语言,那个地理区域即可用来代理该区域人口的语言。例如,法国代表法国说法语的人,德国代表德国说德语的人,埃及代表埃及讲阿拉伯语的人。一个国家内的区域数据也可以代理该地区的语言群体,例如,用加拿大魁北克省代表加拿大说法语的人口,用马拉维(非洲东南部国家)的3个地区代表汤姆卡语(Tombuka)、奇瓦语(Chewa)和尼昂加语(Nyanja)使用者。其次,出生国数据或种族数据可以用来代理一些说某种语言的群体,例如,20世纪初在美国居住而出生于俄罗斯的人可以代表美国说意第绪语(Yiddish,犹太人使用的国际语)的犹太人口,或者尼日利亚的伊博族和约鲁巴族人可以代表尼日利亚说伊博语(Ibo)和约鲁巴语(Yoruba)的群体。
到目前为止,人口普查是关于特定语言人群的规模、增长和特征的最普遍、最常规的数据来源。关于特定语言群体的数据可从人口普查中有关语言使用的问题里获取。人口普查中包含语言使用的问题始于19世纪末的欧洲和美国。联合国最新的建议是,在人口普查时采用与欧洲人口普查基本相同的有关语言使用的问题。许多欧洲国家在自20世纪90年代起的人口普查中开始系统收集语言使用数据(Courbage 1998)。
在美国,人口学家长期以来一直使用田野调查和定量方法收集有关语言行为数据,美国每10年一次的人口普查和最近的“美国社区调查”(ACS)中都有有关语言使用的数据。这些调查以10年或更短的时间为间隔收集有关家庭语言使用和英语水平的数据。通常美国语言学家忽略这类信息,而将其留给人口学家去收集和分析,但后者也很少利用它。为了让这类数据受到更广泛的利用,许多国家开始开发国家之间的普查微观数据样本(即具有个人数据的样本),并进行了一致性协调或调整。这些样本被指定为综合公共用途的微数据样本(IPUMS)。IPUMS 文件除其他主题外,还包含有关个人读写能力的数据,这为世界各国有关读写能力的官方信息奠定了基础。
在过去的几十年中,社会研究和语言研究严重依赖于抽样调查。被抽中的被调查者会被问到一系列问题,这些问题要么由访谈者亲自询问,要么通过“自我操作调查问卷”(SAQ)进行,要么通过“计算机辅助采访”(CAI)完成,抽样调查的方式正在改变和丰富。目前常用的调查方式包括“计算机辅助个人访谈”(CAPI)、“计算机辅助电话访问”(CATI),或者“计算机辅助自填问卷”(CASAQ)。
调查可以设计为横断面调查或纵向调查。在横断面(日历年)调查中,数据被汇总并用来分析特定年份。可能需要获取数年的横断面数据,以分析其时间趋势或它们对历史变化的影响。在纵向调查中,能够随着时间的推移和被调查者年龄的增长跟踪相同的群组(出生年份组)。在一种被称为定组调查(panel survey)的特殊类型的纵向调查中,随着时间的推移会对相同的个体进行跟踪调查。由于纵向(定组)调查成本高昂且操作复杂,因此这方面的调查并不经常进行,取而代之的是横断面调查。然而,横断面研究很容易造成误解,以为不同年龄段之间的差异是年龄导致的变化。在美国进行的最大的全国抽样调查是“美国社区调查”,它提供了种族数据,包括语言使用的数据。它的实施是为了取代从2010 年开始的10 年一次的人口普查的“长表”。它是滚动抽样,能保证数据不断采集。较小城市的小区域调查数据可以以1 年、3 年和5 年的表格呈现。“当前人口调查”(CPS)和“收入与计划参与调查”(SIPP)都包括有关美国语言使用的信息。美国另外两个全国抽样调查——“国家健康调查”(NHS)和“健康与退休研究”(HRS),以及“美国社区调查”,提供了一些有关感觉和认知障碍人群的数据,这些数据可以帮助我们了解个人有效使用语言的能力。还有部分专门性的全国抽样调查,目的是获取有关移民特征的数据,其中包括有关语言使用和语言水平的数据。
某些语言信息可以从官方文件中获取,例如重要证件、移民文件、当地学校记录和人口登记簿。只有少数几个国家(如爱沙尼亚、拉脱维亚、罗马尼亚、俄罗斯、斯洛伐克和斯洛文尼亚)通过普查、重要统计数据和移民文件提供了全面的民族特征。美国移民统计局不收集有关移民语言习惯的信息。总体而言,普查和全国抽样调查中可获得的语言使用数据量远远超过重要统计数据记录和国际移民文件中的数据。通常出现在这些资源中的数据有时可以从人口登记簿中获得。人口登记簿是地方一级的持续的人口核算系统,包括出生、死亡和移民事件的汇编和合并。芬兰是唯一个拥有一整套人口统计数据(生育率、死亡率和移民)的国家,该套统计数据是基于语言群体收集的(引自Haug et al. 2000 :135)。冰岛的人口登记已被用作选择样本研究该国移民人口的基础(Wojtynska and Harȏardóttir 2012)。还有一些人口数据的来源可以作为在研究移民和其他与民族语言有关的群体时选择样本的基础,包括就业人口列表、汽车驾驶员列表、选举列表、互联网和电话服务的订户列表。
世界上最全面、最权威、最受好评的语言汇编是美国国际语言暑期学院(SIL,现为美国国际语言学校)的《民族语:世界语言》。最新版本是第20版,于2017 年发布。2015 年出版的第18 版列出了7471 种语言,其中7102 种是活语言,369 种已灭绝,并且228个语族中包括50个(不在语族中的)孤立语。自1984 年以来,已为这些语言分配了代码。《民族语:世界语言》已不定期发布了半个多世纪。
《民族语:世界语言》提供了所收录各语言的使用者人数、地理分布、语言种属关系以及对其语言活力的估计等信息。研究人员广泛使用它来分析语言的数量、语言趋势、语言分布和语言特征。他们认为,尽管由于缺乏区分语言和方言的可靠标准而导致区域覆盖范围不足和分类不一致,但在语言的人口特征方面,这本汇编已是提供了足够准确的资料。遗憾的是,书中没有给出信息的来源。
五
调查数据的质量和社会政策及环境
在官方的统计,尤其是人口普查中,政治因素和民族政策等常常对某些数据,特别是关系到少数民族的数据的可获性(availability),产生一定的影响。人口普查的方式和统计期间的政治气氛也可能会影响具体区域、群体和民族数据的完整性和准确性。当调查者在文盲群体或手语使用者中收集数据时,如何才能收集到可靠数据,受访者会不会感到调查者施加压力,宗教群体或特殊语言使用者会不会被忽略、错分等,对调查数据的质量都是挑战。
法国的INSEE不会收集任何有关语言的数据,因为少数民族在法国没有得到官方的认可(Haug etal. 2000);希腊和土耳其也是如此,那里的统计机构没有任何可能统计政府不允许统计的信息(Hauget al. 2000)。鲍德温-爱德华兹(Baldwin-Edwards 2006)指出,在政府纵容下,普查中不问适当的问题,所以即使在20世纪末,希腊的穆斯林人口数仍然不得而知。在佛朗哥统治下,西班牙实行单语制。直到1986 年,人口普查才反映出该国的多语种特征。比利时在定义了语言社区的边界后,于1961/1962年在人口普查中取消了关于语言的问题(Haug et al. 2000)。类似的原因同样可以解释1950年捷克斯洛伐克人口普查中对匈牙利族的轻描淡写,和1975 年保加利亚人口普查中土耳其族的人口稀少。由于政治条件的改变,从一次人口普查到另一次人口普查,很多人甚至可能经历了国家名称的变化。少数民族可能选择不与当局合作并抵制人口普查(例如1991年南斯拉夫人口普查中科索沃和马其顿的阿尔巴尼亚人),或者不回答特定的问题,例如种族、宗教或语言等问题。意识形态倾向还可能影响到一些少数群体普查数据的准确性。笼罩人口的意识形态倾向常常与大族群和小族群之间的关系密切相连。在1920年的美国人口普查中,明显受到刚结束不久的第一次世界大战的影响,宣告自己拥有日耳曼血统的人数量显著下降(Wiley 2010)。还有一些群体,干脆被归入“所有其他群体”,特别是被视为异类的小型游牧群体,如吉普赛人,上文所述的种种情况也发生在他们身上,人口普查经常会漏掉他们(Haug et al. 2000)。
政治影响也可以朝不同方向发展,导致一些少数民族“过度参与”,因为法律在教育、就业和住房等方面以特殊的财政资源、特殊的计划以及额外的服务和设施来给予他们特别照顾。这可能解释了美国印第安人人口不同寻常的增长速度,一种远远超出了能用出生、死亡和移民数据解释的速度。一些少数民族活动家利用法律的反歧视政策向其选民鼓吹参加人口普查的必要性,以确保获得最大计数,而不是最准确计数。
对调查数据进行质量评估,这已经被认为是现代人口普查的规范,但除了美国、加拿大和一些西欧国家,很少有国家进行这种评估。相关人员已经开发出多种方法来评估普查数据和调查数据。人口普查和调查数据可能存在漏计(即人员遗漏)、未报告(即对主问题的回答不完整)以及在报告主问题时存在偏见(即报告一类变量以牺牲另一类变量为代价)。
为了判断普查或调查中的净漏计数,通常使用3 种方法,即人口统计分析、双系统分析和样本重新计数。第一种方法,即人口统计分析,涉及多种技术,包括将普查总数与普查值或调查值的独立估算值进行比较,与连续人口普查的一致性进行比较。其中,普查值或调查值的独立估算值可以通过生死统计数据、移民数据、医疗保险数据和其他行政记录数据估算。第二种方法,即双系统分析,涉及将人口普查中的个人样本或住户样本与独立调查中的样本或行政记录集中的样本进行逐个匹配。在第一种方法中,分析人员使用汇总数据;在第二种方法中,分析人员使用个人数据,即所谓的微数据。
在最近的几次人口普查中,美国人口普查局采用了上面列举的方法来评估普查数据和调查数据。对于2000 年人口普查和2010年人口普查,通过人口统计分析和双系统分析获得的估算值与美国全国人口普查总数非常接近,这表明净漏计数接近于零。因此,早期人口普查曾经引起激烈辩论的净漏计普查结果调整的问题,可以简单地通过宣布全国人口普查总数得到解决。但这个结论没有解决更加困难和重要的州和城市人口普查准确性问题。
当个人未报告主问题或“内容”项(如“在家说的语言”)时,未报告该项者的人数百分比或无回应率可以计算出来。例如,2010年,在“美国社区调查”中,5岁及以上的人口中,有3.4%的人没有报告家庭使用的语言,或者回答于理不通,导致只能推测其所使用的语言。
为了评估人口普查数据或调查数据中有关主问题项目报告的质量,即为了判断报告的变异性和报告偏差(即报告了变量的错误类别),假设在调查中类似的问题被问,就可以在人口普查或调查与另一个调查或行政记录系统之间进行匹配研究。例如,美国社区调查的数据可以与美国人口调查局进行的另一项全国有代表性的抽样调查——“当前人口调查”的数据相匹配,这两项调查都询问了非英语家庭在家使用的语言和这些家庭成员的英语水平。接着,可以计算出各种度量以反映错报主问题项目的不同方面,包括用于报告变异性的总误差度量和用于报告偏差的净误差度量(参见Siegel & Swanson2004)。
对于收集好的人口和语言使用数据,可以使用多种方法来分析结果。
社会网络分析。社会网络分析是一种分析个人之间关系的方法,更具体地说,是一种分析社会行为者群体关系数据的方法。它处理网络成员的数量、结构属性和位置属性,例如他们的声望、他们的社会联系和群体协会,因为它们彼此相互影响。网络的属性会影响其在语言变化的传播中的影响力,甚至影响其在竞争的语言和方言之间采用特定语言或方言时的影响力。社会语言学中的经典社会网络分析之作是米尔罗伊(Milroy 1980);把社会网络分析运用到英国华人移民社区的语言选择和语言转换的则是李嵬(Li Wei 1994)。
生态分析。社会学家、人口统计学家和流行病学家长期以来在人口、社会经济、健康和住房变量的变异研究中应用了一种称为生态相关的回归分析方法。在生态分析中,观察单位是地理单位(例如城市、县或州),而不是个人。在研究一个变量与其他变量的变异时,地理单位可能没有特殊的地理意义。其目的是在非地理问题上得出有关个人的推论。在从区域到个人的这种推理性飞跃中,存在很大的风险,即得出的推理是谬误的,因此必须谨慎地在有限的条件下应用生态相关性。Haug & Wanner(2000)给出了一个生态分析应用的例子,该分析利用语言群体的空间集中度来估算瑞士各语言群体之间生育率和死亡率的差异。
对人口问题感兴趣的语言学家倾向于使用以下方法。
比较语言学分析和历史语言学分析。比较语言学分析包括测量语言之间的相似和差异,以确定其家族关系的程度和它们可能来自共同祖语的血统。语言之间的相似和差异是根据其语言特征来衡量的,即根据词汇、句法/ 语法和物理表达(语音、手势、重音、语调等)。在历史语言学分析中,要利用历史(包括史前的和考古学的)数据努力从一组相关语言中重建原始母语。为此,可以分析语言的基本单位,包括声音(音位)和意义(语素),以及整个单词和句法结构。
比较语言学分析可以以多种方式得到应用。可能会要求一组被调查者用当地方言写下某种标准语的许多对应句子或短语;或者,受过训练的田野研究者可以从个人观察中记录一系列物品的口语形式。现在,电子设备是记录被调查者的首选方法。考古研究。考古学家发掘出的过去社会的文物可能包含各种有用的铭文和字形(符号标记),可用于重建语言的历史或某个特定语言的历史。他们可能会对研究迁徙的方式和与其他社区的关系,尤其是对研究社会文化提供线索。分析骨骼残留物和骨头碎片则可以确定死者的年龄和死因。
进化分析。进化研究涉及调查工艺制品、文化习俗和生物的生理结构等从最早的形态到现在的形式之变化和发展。这种类型的调查显示了树形图分析的价值,该分析已被用于研究各种语言之间的历史关系,并为各种民族语言群体的历史关系提供了线索。可以在地理上追踪一些族群的语言,以确定它们是否拥有关于某个文化习俗或器物的专门词语,而这些族群居住地周边的其他族群的语言中却没有这些专门词语。如果有这样的词语证据,这就表明一个族群从其原始居住地迁移到了另一族群的居住地。
DNA分析。由于祖先的迁移和交配,生物的基因组或基因结构从一个民族语言族群转移到另一民族语言族群。DNA 分析已被应用到各种语言的现代说话者身上,希望找到有关语言彼此之间关系的证据,以及有关产生这些语言的原始语的证据。相信通过使用基因标记,可以追溯语言的史前发展,包括其使用者的早期迁移模式和语言变化。最近的许多研究试图应用基因分析来确定史前时期的语言变化。这些研究涉及语言分类、语言的地理分布、语言的迁移以及语言变化等问题。有关此类研究的讨论,请参见Forster & Renfrew(2011),该研究试图将某个地区的Y 同源染色体频率(男性优势)与该可能性相关联,即男人语言(如与大量说不同语言的女人结婚的男人的语言)将是该地区的共同语言。
DNA研究主要在撒哈拉以南的非洲进行,在那里,在许多民族国家中,有许多小的民族语言族群,它们被“锁定”在有限的地理区域中长达数百年,甚至数千年。它们具有共同的生物继承物、语言和文化,这与世界上其他大部分地区的情况不同,在世界其他地方,语言与文化的广泛借用和种族之间的通婚已经发生。因此,通过对撒哈拉以南非洲地区的民族语言族群进行DNA 分析来追踪基因变化是可能的。分子人类学家S. Tishkoff和她的合作者团队分析了100多个非洲人中的1000 多个DNA 标记的变异模式(Cole 2011)。从语言区别开始,该项目有几个目标——绘制基因特征图、重建历史人口变化,并确定疾病的基因易感性。
个人名字分析。姓和名的分析旨在识别民族语言群体,确定其地理分布,跟踪其迁移,以及用于其他用途。它用于补充其他测量民族语言群体的方法,这些方法被认为是不准确的,并且在相当有规律的时间间隔内不可使用。为了进行姓氏分析,研究者制定并匹配了两个独立的名单。第一个名单旨在代表特定民族语言族群的成员中已被验证了的姓名列表,第二个名单是即将被确定的民族语言族群的成员的姓名列表。第一个名单通常由博学的专家或用计算机方法根据电话簿、选举清单、家谱表和不同国家的类似来源编纂而成。除了匹配错误之外,该方法还存在遗漏和收录错误,这些错误产生的原因是婚姻导致的姓氏变更、姓氏属于一个以上种族、拼写错误和为了掩盖原始的种族划分而改名。因此,该方法充其量只是一种侧面佐证的方法。
语言分析的其他方法包括口语中跨文化互动分析、叙述和生活史研究、内容分析(CA)、批评性话语分析(CDA)、读写能力研究和语料库语言学。例如,叙事和生活史研究可以提供有关语言变异和语言接触的大量信息,社会语言学家可以通过深入的叙述和生活史研究来分析移民过程。在语料收集方面,人口语言学家经常使用民族志学的田野方法。人类学家倾向于将民族志学的田野方法视为其职业必不可少的技能和工具。民族志学的方法包括参与观察、田野访谈、文档收集与分析。这些方法包括一系列技术,具体包括在现场笔记中记录观察和访谈、对实地经历进行录像。此外,在现场笔记中,人类学家可以将土著语(native language)录音,特别是在土著语濒于灭绝的情况下;最近,人类学家使用音频和视频设备来记录土著语。田野访谈可能会很密集,以便获得足够的数据进行分析;或者,它们可能是焦点群体的作品。并非总是可以保留现场笔记本来记录现场采访,但是在可能的情况下尽可能这样做,并且以后会转写现场笔记。收集的文件可能包括日记和生活史,也可能包括各种类型的官方文件。这项工作提出了地点选择、与被试关系中的道德规范、口译者的使用和方法的组织工作等问题。可以对各种类型的人进行此类访谈,包括土著人、认知障碍者和普通受访者。还有其他一些方法。
焦点小组。焦点小组是这样一小组人,他们被召集在一起以表达对某一主题的看法,对这个主题,他们要么有经验,要么有观点。这一方法被用于测试大型调查中所问问题的可行性,并获得有关某些政治主题、消费产品或政策问题等的粗略定性信息。它们是从不说优势语的人那里获取有关个人态度和经验信息的特别合适的方法。在这种情况下,焦点小组的会议进程由双语工作者以特定的社区语言进行,而口译员可以将会议进程的观感传达给主要研究人员。至少两个双语工作人员的存在,增加了对回答进行真实解释的可能性。
语言地图。在地图上表示出语言的分布、语言的方言变异或语言结构的“组成部分”的变异(例如语音、词汇和语法),这是另一种有价值的分析工具。专题图通常用于显示语言现象。这些图可以被设计为点密度图、地区分布图、比例符号图和等高线图。在地区分布图中,地理亚单位通过颜色、阴影或交叉线图案进行区分,以显示目标变量中区域间的变异程度。等高线图是显示同言线的图。同言线是边界线,界定了所说的特定语言的区域,或者界定了说话者使用同一语言的变式形式的区域。
地理信息系统。地理信息系统(GIS)是一种计算机自动化的系统,它可以为由地理坐标标识的指定地理区域对由地理坐标标识的数据进行编辑和制图。地理坐标信息和人口数据(或其他“内容”的数据)的链接是地理信息系统的基础。全球制图国际公司(GMI)已用地理信息系统的格式汇编了SIL《民族语:世界语言》中列出的语言。GMI 与美国国际语言学校合作开发了一个世界7100 种活语言的点和面(多边形)位置的数据集。接着,GMI 为第17 版《民族语:世界语言》中描述的语言制作了地图,从而产生了世界语言地图系统(WLMS)(SIL International 2014)。这些数据对于了解世界语言的位置和分布,研究人类文化多样性与生物多样性之间的关系、武装冲突与语言边界之间的关系,以及涉及语言的数量、所处位置和语言分布等其他情况具有宝贵的价值。
计算机建模和模拟。模型是人口现象、社会现象、经济现象或语言现象之间统计关系的概括表示。在人口统计学中,它可能是用于估计或预测人口的公式,或者是多个种族群体的特定年龄死亡率的通用模式。这个模型要么可以基于集合数据来表达,可称为宏观模拟建模;要么可以用单个数据表达,可称为微观模拟建模。模拟包括使用假定的数据评估某些模型的定量含义,以便了解模型中一个或多个变量对变量之间关系的影响。例如,模型可以表达下半个世纪美国各种假定的净移入移民水平与人口增长之间的关系。然后使用计算机评估模型的各种移民水平。
变异的测量。分析人员通常使用标度来指示某些特征的变异性或经历某种事件的强度。因变量可以是连续的定量变量(如年龄)、非连续的定量变量(如完成学业的年份)或非定量的分层(序数)变量。“美国社区调查”为获得被调查者英语水平的信息,对在家中不说英语的被调查者采用了一个序数非量化变量的四度量表——根本不说、说得不好、说得好、说得很好。基于一个或多个语法或语音规则,从较低级的方言到标准语言的转换可以在线性刻度上标示,例如从零到五。
新媒体和“大数据”。随着计算机的广泛使用和对社交媒体平台(包括博客、在线社区和社交网站)的访问,一种新型的社会研究成为可能,该社会研究集中在报道自然对话中人们谈论的对他们关系重大的问题。此类数据不会在不久的将来取代现有的各种调查,但确实提供了补足现有调查的机会,因为它有助于调查者对抽样调查所获得的资料进行深入了解,有助于把调查覆盖到传统方法难以覆盖的人群。
过去几十年中开发出来的一些新的通信设备,已经彻底改变了新信息的传播方式。这些技术发展让世界上相当大一部分人口可以通过互联网、社交媒体(如脸书、推特、领英等)、手机和卫星通信进行连接。在一些最新设备问世之前,调查者一直在通过计算机辅助的个人访谈来补充面对面访谈和邮寄问卷。现在的数字数据已合并了传统的采集方法来创建通信的新方式。
通信的数字形式允许在数以百万计的人之间实时联网。这可以实现将信息材料从地球一端的参与者瞬时转移到地球另一端的参与者。与成熟的民族志采访和其他的面对面个人采访相比,新媒体获取信息的方式大不相同,但是由于各种原因,许多人无法触及这些新媒体设备,因此新媒体不会取代传统研究方式。
当前的计算能力和存储容量使分析生成的海量数据(通常称为大数据)成为可能。这些大数据是由政府、企业、互联网服务供应商以及其他机构和公司收集和存储的商业数据和行政数据。使用这些数据集,可以降低调查成本,减轻受访者负担,改善和扩大我们的社会经济指标,使之更加及时地获得效应,并研究许多新问题。
但错误解释和滥用数据的风险也很大。许多收集到的管理数据都是专有的,并且不代表任何特定人群。也没有什么安全措施可以确保数据是准确报告的。
目前正在开发分析这些庞大数据的方法,但是使用它们来获取有关人口行为和人口流动的详细信息的可能性是显而易见的。企业已经使用大数据来分析消费者的行为,政府已经使用大数据来检查和保护公众并跟踪其运行,教育机构已经使用大数据来进行学术研究。
我在本文开头提到,人口和语言研究中,语言使用者(language user)这一概念比说话者(speaker)更合适。这不仅是因为要考虑到使用盲文和手语者的情况,也是为了让研究者更多重视读写能力(literacy)在人们语言生活中的地位。人口调查里语言的听说读写应当分别提问。如果人们可以阅读或书写,则可以认为他们具备读写能力,不是文盲。文盲数据往往在人口调查中有所表现。在缺乏文盲数据的情况下,可以用教育水平数据来估测文盲数据。有一种特殊类型的读写能力被称为功能性文盲(functional illiteracy)。功能性文盲被定义为在社会中执行某些基本功能的必要的读写能力。实际上,由于每个国家对完成学业的要求不同,对履行基本职能的社会要求不同,各国对功能性文盲的定义也有所不同。在美国,有时候是以在学校接受教育的年数为标准定义读写能力的,完成4年学校教育到中学毕业之间的状况为具备读写能力,中学毕业为具备功能性读写能力(functional literacy)。因此美国在人口普查或调查中不经常收集人们读写能力方面的数据。欠发达国家经常调查此类数据,不过,更多的数据来源于有关教育发展以外的其他问题的抽样调查中。“人口与健康调查”(DHS)通常要求被调查者从以下3种教育水平中作出选择:未上过学,上过小学,上过中学及以上。假定没有上过学的人和一部分上过小学的人不具备读写能力,这些数据可以用来估算文盲的比例。
在1997年之前,美国“人口与健康调查”通过询问妇女是否能够阅读和理解信件或报纸来测量她们的读写能力。如果妇女回答“不难”或“困难”,则被认为具备读写能力。1997年之后,“人口与健康调查”通过要求女性阅读简单的句子来测量她们的读写能力,如果被调查人可以阅读部分句子或全部句子,则被认为不是文盲。具有中等或更高学历的妇女被推测具备读写能力,那么语句阅读的测试仅针对那些受教育程度较低的妇女。
除了各国政府提供的有关读写能力的数据外,联合国教科文组织还根据从各个国家收到的数据汇编读写能力的估计值,并以印刷形式和互联网形式发布其汇编。通过欠发达地区的自我报告而获得的有关读写能力数据的质量可能因地而异,这主要是因为不同地区读写能力所要求的读写水平的标准不同。可以采用书面或口头测试来实现更大程度的可比性,但是这种收集程序更加复杂,既昂贵又耗时。总而言之,目前还没有关于欠发达国家人口读写能力的准确数据。
由于各种语言的使用者数量与人口数量相对应,人口的计算或估计,尤其是有关人口地理分布的数据,对于理解各种语言的使用者数量及其地理分布非常重要。而人口预测可以提供未来几年人口可能的增长数量和分布情况,对于判断各种语言使用者的未来可能数量及其分布也同样重要。简而言之,关于人口变化的信息对于研究语言的增长和衰退至关重要。
根据美国人口普查局的估计,2015年世界上有73亿人,其中44亿人居住在亚洲,这中间14亿居住在中国,13亿居住在印度。非洲的总人口(12亿)少于中国或印度,而欧洲人口只有7亿,拉丁美洲/加勒比地区只有6亿,北美只有4亿。因此,世界上大多数人生活在亚洲,超过了整个西半球、非洲和欧洲的人口总和。近几十年来出现了大量国际移民,特别是从欠发达地区移向较发达地区。尽管较发达地区接收了这么多移民,而且这些地区的人口死亡率在持续降低,但世界上大多数人口增长仍然出现在欠发达地区,而不是较发达地区。这是因为欠发达地区的人口生育率比较发达地区高得多,这不仅抵消了欠发达地区由于国际移民造成的人口流失,而且也抵消了较发达地区因人口增寿而获得的增加值。然而,由于许多欠发达国家的生育率下降,世界人口增长正在放缓。
世界上较发达国家长期以来一直处于低生育率和低死亡率的轨道上。结果,他们正经历着迅速的老龄化,最佳工作年龄段的人口比例较低,而老年人的比例较高(65岁及以上的人口比例为17%)。在欠发达国家中也出现了类似的趋势,但是这种变化发生的时间滞后了几十年(65岁及以上的人口比例为6%)。它们现在也正在经历老龄化,尽管比较发达地区的速度慢。更准确地说,世界各国人口的老龄化是以下三者共同作用的结果:生育率下降,老年人死亡率比年轻人死亡率下降更大,从中年活到老年的成功率越来越高。
虽然较发达地区的大多数人口居住在城市地区(77%),并且其人口在继续“城市化”,但欠发达地区的人口城市化进程要快得多。2015年,欠发达地区约48%的人口生活在城市地区,而在2000年,这一比例只是38%。而在较发达地区,2000年这一比例是75%,仅仅略低于2015年。
中国正在经历重大的社会人口变化,有许多问题需要系统地研究。在海外,大多数人关心的都是中国独生子女政策的影响,将独生子女政策作为人口规划的一项关键政策。该政策究竟如何影响独生子女家庭的语言发展,需要仔细研究。但是最近中国有关二孩政策的变化导致了新一代孩子的出生,很多二胎孩子与哥哥或姐姐的年龄差超出了正常的范围,有的甚至超过了10岁。一些年长的哥哥或姐姐承担了照顾儿童的角色。这一定会对家庭语言政策以及家庭中年龄较大和较小儿童的语言发展产生影响。
在人口老龄化方面,中国也正面临着严峻的挑战。语言发展、老年人疾病、与老年人的交流和老年人的护理都是社会政策的重要问题。与此相关的常见现象是祖父母对小孩的养育(与父母对孩子的养育形成对照)。如果家庭中孩子的主要照顾者是年老的祖父母,那么他们的语言示范对幼童的语言发展有什么影响?
当然,在中国,语言和人口统计方面最大的问题是大规模移民。移民是中国工业化和城市化的一部分。不同方言背景的人群进入城市中心,与其他语言和方言的使用者接触。学者们对大城市的移民和人们的语言态度进行了研究。但是,更需要学者认真研究语言结构以及它们如何受到移民和语言接触的影响。父母移民到城市甚至海外的“留守”儿童的语言和读写能力的发展与教育是需要引起更多重视的重要政策问题。
技术的进步正在改变人们彼此交流和使用语言的方式。随着越来越多的人城市化并使用新的媒体技术进行交流,他们的语言实践也将随之发生变化。这也是未来研究的重要主题。
总之,人口与语言之间的关系也成为新的跨学科的研究领域。中国作为世界人口大国,人口结构继续不断地发生着巨变,这些变化对语言的影响,语言在人口结构中的作用,都成为继续全面系统研究的课题,其结果对各种社会政策及服务都具有重要意义。
综合编辑:应用语言学研习
微信公众平台审核:梁国杰
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接
欢迎感兴趣的朋友按需选购
友情推荐
点击左下方阅读原文,发现更多语言学好书!
出版社官方直销,扫码查看详情
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.63 万语言文学、区域国别与
跨文化传播学研习者关注本公号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!