查看原文
其他

陈强 刘春雨 郝煜|中国姓氏人口的历史计量分析:典型特征、决定因素与作用机制

陈强 刘春雨等 社会科学文摘
2024-09-04


摘要

哪些因素驱动了中国姓氏人口的巨大差异?为何中国姓氏人口的同姓率远高于欧美国家?对于这些问题的解答可增进对于中国姓氏文化乃至中国文化与历史的理解。本文使用历史计量方法,首次深入地定量分析中国姓氏人口的典型特征、决定因素与作用机制。

作者:陈强,山东大学经济学院教授;刘春雨,单位系招商信诺人寿保险有限公司;郝煜(通讯作者),北京大学经济学院副教授

摘自:《中国经济史研究》2022年第6期

本文载《社会科学文摘》

2023年第2期


中华姓氏文化源远流长,影响深远。随着几千年的人口增长,中国的姓氏数量与姓氏人口也不断增加,仅徐铁生编著的《中华姓氏源流大辞典》所收汉姓即高达10 523个。但中国不同姓氏的人口分布十分不均匀,大量人口集中于少数的大姓,从而“同姓率”远高于欧美国家。就汉族人口而言,2012年前100名的姓氏人口占汉族总人口的87.0%。而法国前100名常见姓氏仅占总人口的8.1%,美国前100名常见姓氏仅占总人口的16%。

究竟哪些因素驱动了中国姓氏人口的巨大差异?为何中国姓氏人口的同姓率远高于欧美国家?对于这些问题的解答无疑可增进对于中国姓氏文化乃至中国文化与历史的理解,并揭示东西方差异的来源。本文使用历史计量方法,首次深入地定量分析中国姓氏人口的典型特征、决定因素与作用机制。

在理论上,影响姓氏人口的因素可分为两大类,即生育率与采用率。生育率指某姓氏人口本身的增长率,采用率指原来无姓的人采用某姓或改姓。2012年中国最大的几个姓氏依次为王、李、张、刘、陈等。观察这几个姓氏何以成为超级大姓,不难发现以下几个特点:首先,它们的起源时间都很早,其中张姓与刘姓起源于三皇五帝时期,王姓与陈姓起源于商朝,而李姓则起源于周朝。姓氏起源越早,则累积生育率越高,人口数量也会越多。其次,它们中有些建立过中国历史上的统一政权(刘汉、李唐),有些则建立过分裂(非统一)政权(王、张、陈)。一个自然的假设是,作为国姓的姓氏,占有更多的经济和政治资源,其生育率高于人口平均水平。最后,起源较早的姓氏和作为国姓的姓氏,更有可能被其他姓氏或无姓氏的民众所采用。总之,姓氏起源较早和曾作为国姓都可能对该姓氏的人口有显著的正向影响。当然,姓氏人口可能也受姓氏本身的固有特征所影响,例如,姓氏的复杂程度(是否复姓、笔画)与声音特性(声调)。

本文使用2012年中国汉族人口排名前500位的姓氏数据(占汉族总人口约99.8%),在大量描述性分析的基础上,通过深入的回归分析揭示了中国姓氏人口的典型特征。首先,中国姓氏人口的分布大致服从齐普夫定律,但也有明显偏差,人口集中于大姓,且集中度高于该定律的预测。其次,姓氏诞生朝代越久远,姓氏作为国姓时间越长,则平均而言姓氏人口越多。这些实证结果通过了一系列稳健性检验,包括控制姓氏的笔画、声调、是否复姓,使用子样本,区分统一与分裂政权的国姓,以及针对国姓组与非国姓组进行倾向得分匹配。最后,我们发现姓氏采用率(以姓氏起源数目与少数民族姓氏人口为代理变量)与人口迁移率(以姓氏人口的地理集中度为代理变量)是驱动以上结果的两大作用机制。作为对比,欧洲的大部分姓氏历史只能追溯到中世纪,“国姓”也没有被大量人口采用,所以姓氏人口的集中度远远低于中国。

 

数据说明与典型特征


(一)姓氏人口

我们从全国公民身份证号码查询服务中心(NCIIC)获得了2012年汉族人口排名前500位的姓氏人口数量,记为变量pop;并记相应的姓氏人口排名为变量rank。

(二)姓氏历史久远度

一般地,姓氏诞生的朝代越久远,经过更多年的繁衍生息,且有更多机会被无姓民众或他姓民众改姓时所采用,故姓氏人口通常更多。本文根据徐铁生编著的《中华姓氏源流大辞典》将姓氏起源时间划分为五个时期,分别为夏朝之前(即三皇五帝时期)、夏朝、商朝、周朝、周朝之后,并设置相应的虚拟变量prexia、xia、shang、zhou、postzhou,取值均为0或1。

(三)姓氏是否曾为国姓及年限

在中国历史的长河中,有些姓氏建立过政权,在其统治期间则为“国姓”。国姓的生育率一般更高,而且可能更多人愿意采用国姓。为此,定义虚拟变量royal_dummy。如果该姓曾建立过政权,取值为1;反之,则取值为0。在前500个姓氏中,只有33个姓氏曾作为国姓,占6.6%。

进一步,可将中国的历史政权分为统一政权与分裂(非统一)政权。我们将九个朝代视为统一政权,即秦、汉、晋、隋、唐(含武周)、宋、元、明、清。由于统一政权的国姓之影响力可能大于分裂政权的国姓,故定义虚拟变量royal_u_dummy。如果该姓曾建立过统一政权,取值为1;反之,则取值为0。类似地,定义虚拟变量royal_d_dummy。如果该姓曾建立过分裂(非统一)政权,取值为1;反之,则取值为0。

国姓的影响力也可能与其作为国姓的年限有关,故定义变量royal表示该姓氏所建立政权的存在时间,而定义变量royal_u与royal_d为该姓氏所建立统一政权与分裂政权的存在时间。

(四)姓氏是否为复姓

一个姓氏的复杂程度也可能影响民众对该姓氏的采用率。为此,定义虚拟变量compound。如果该姓为复姓,取值为1;反之,则取值为0。

(五)姓氏的笔画数

作为对姓氏复杂程度的另一度量,我们将姓氏繁体字写法的笔画数,记为变量stroke。在计算时,先找出姓氏繁体字的写法,然后确认其笔画数。

(六)姓氏的音调

姓氏的声音特性也可能影响姓氏人口。我们设置姓氏声调的相应虚拟变量tone1(是否为第一声)、tone2(是否为第二声)、tone3(是否为第三声),以及tone4(是否为第四声)。

 

中国姓氏人口的齐普夫定律


1932年,哈佛大学语言学家齐普夫在研究英文单词出现频率时,发现如果把单词出现频率按由大到小的顺序排列,则每个单词出现的频率与其频率排名存在反比关系,称为“齐普夫定律”。它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少使用。此定律后来在很多领域得到验证。为验证中国姓氏人口是否符合齐普夫定律,我们把lnpop对lnrank进行线性回归,结果发现lnrank的系数估计值为-1.73,且在1%水平上显著,此回归的拟合优度达到91.8%。

中国姓氏人口大致服从齐普夫定律,但对于线性拟合线也有明显偏离。特别地,排名前三的姓氏人口数量过于接近,其中2012年汉族王姓人口为9 290.23万(占总人口7.59%),李姓人口为8 997.9万(占总人口7.35%),而张姓人口为8 762.07万(占总人口7.16%)。在通常满足齐普夫定律的数据中,第1名的数量比第2名大很多(甚至多达2倍),而第1名的数量也比第3名大很多(甚至多达3倍)。由此可见,中国姓氏人口的集中度,高于齐普夫定律的一般预测,导致同姓率较高。

一方面,中国姓氏人口大致服从齐普夫定律,这意味着中国人在选择姓氏时,也更倾向于首选大姓。在常人印象中,祖传的姓氏似乎一成不变,很难更改。事实上,在中国历史上,改姓经常发生,而改姓原因则包括避祸、避仇、避讳、避嫌、帝王赐姓、少数民族改为汉姓,以及入赘、过继、收养、随母亲姓等。个体在改姓时,则面临姓氏选择问题,此时“吸引力偏好”即可能起作用。例如,帝王赐姓,几乎都赐予大姓。

另一方面,中国姓氏人口显然还受到其他特殊因素的影响,比如王朝的国姓。以姓氏人口排名第二的李姓为例,其姓氏诞生于周朝,相对而言并不古老。在所有诞生于周朝的姓氏中,李姓之所以能异军突起,成为离群的极端值,显然与近三百年李唐王朝的强盛有关。类似地,刘姓成为中国的大姓之一,主要应归功于历史上长达四百年的刘姓汉朝统治。一个合理的猜想是,由于国姓等特殊因素的影响,使得中国姓氏人口虽大致服从齐普夫定律,但也产生了明显的偏离。

 

姓氏历史久远度对姓氏人口的影响


由于姓氏历史久远度可视为外生变量,故我们首先集中考察姓氏诞生朝代对于姓氏人口的影响。被解释变量为“姓氏人口对数”,核心解释变量为“姓氏诞生朝代”,而控制变量包括“是否复姓”“姓氏笔画”,以及“声调变量”。考虑到国姓变量可能的内生性,故本节暂时未包括国姓变量。

回归结果发现,姓氏诞生朝代的虚拟变量均在1%水平上显著为正,而回归系数则呈现递减的趋势。在控制变量中,虚拟变量“是否复姓”在1%水平上显著为负,复姓的人口劣势很明显。其他控制变量则均不显著。在稳健性检验中,依次去掉不显著变量,使用排名前250个姓氏的子样本,所得回归结果均类似。

 

国姓对姓氏人口的影响


首先考察“国姓年限”对于姓氏人口的作用,在回归方程增加关键变量“姓氏作为国姓的年限”。若将中国历史政权区分为统一政权与分裂政权,则可进一步将“国姓年限”细分为“统一国姓年限”与“分裂国姓年限”。

由于人口众多的大姓在概率意义上也更有机会成为国姓,故可能存在从姓氏人口到国姓的逆向因果关系,从而导致国姓年限变量为内生变量。但究竟哪个姓氏成为一个朝代的国姓,毕竟具有很强的随机性。另一方面,由国姓所带来的姓氏人口增长则更为具体而直接,包括皇族的繁衍、帝王赐予功臣国姓、少数民族改国姓(后融入汉族)等。

回归结果发现,“国姓年限”变量仅在10%水平上显著为正。但去掉“姬姓”的离群观测值后,“国姓年限”变量变得在1%水平上显著为正。“姓氏诞生朝代”变量均在1%水平上显著为正,且相应系数估计值依次递减。“复姓”变量在1%水平上显著为负,其余控制变量则不显著。其次,将“国姓年限”细分为“统一国姓年限”与“分裂国姓年限”,所得结果类似。将国姓设为虚拟变量,所得结果仍类似。

作为稳健性检验,也为了部分缓解国姓变量可能的内生性,将曾是国姓的样本作为处理组,而将不是国姓的样本作为控制组,进行倾向得分匹配。

结果发现,无论使用1对1乃至1对5的倾向得分匹配,参与者平均处理效应均在1%水平上显著为正,且通过了重叠检验与平衡性检验。

 

作用机制探讨


本节探讨国姓以及姓氏诞生朝代对于姓氏人口的作用机制,着重于姓氏采用率与人口迁移率两个方面。

(一)姓氏起源数目

徐铁生编著的《中华姓氏源流大辞典》记载了每个姓氏的不同来源。计算每个姓氏有记载的起源数目,即可得到变量“姓氏起源数目”。对于一个姓氏而言,除了最早的姓氏起源为原创,其他姓氏起源一般可视为“姓氏采用”。因此,姓氏起源数目可作为姓氏采用率的一个代理变量。

(二)少数民族姓氏人口

在中国历史上,少数民族经常采用汉姓。有些少数民族逐渐融入汉族,但也有些少数民族依然保持了其独特的民族身份。因此,可以使用少数民族的姓氏人口作为姓氏采用率的另一代理变量。

(三)姓氏人口的地理集中度

如果一个姓氏的人口主要居住在某个局部区域(地理集中度较高),则该姓氏人口的增长可能受到该区域资源的限制,且在战乱时面临更高的风险。反之,如果一个姓氏更积极地参与跨区域的人口移民(地理集中度较低),则该姓氏人口更可能开枝散叶,且不易受战乱冲击。我们从2005年全国1%人口抽样调查数据获得地级市层面的汉族姓氏人口,并通过赫芬达尔指数,计算每个姓氏的地理集中度变量。

将以上三个机制变量加入回归分析,结果发现国姓变量与姓氏诞生年代变量要么失去统计显著性,要么经济显著性大幅下降。这说明在相当程度上,国姓变量与姓氏诞生年代变量通过这些机制变量而起作用。

 

结论


基于本文的研究,对于中国人口集中于少数大姓而同姓率远高于欧美国家的原因,可作一些对比和分析。

首先,由于中国姓氏起源非常早,加上历史上的王朝更替并没有造成语言文字甚至文化的断裂,这使得更古老的姓氏有更多机会被民众采用,从而成为大姓。中国历史上的少数民族,不管是作为征服者还是被征服者,大都放弃了原有的语言文字和姓氏,而采用了汉族的语言文字和姓氏。相比而言,欧洲历史上的“蛮族入侵”带来了语言文字甚至文化的断裂。“蛮族”带来了新的语言文字和姓氏,而没有采用原住民的语言文字和姓氏,所以大部分姓氏的历史只能追溯到中世纪,大姓没有足够的时间去积累人口上的优势。

其次,在中国历史上,作为国姓的姓氏,在绵延数百年的朝代中得以发扬光大(譬如刘汉、李唐),使得姓氏人口更为集中。相比而言,“国姓效应”在欧洲几乎不存在。在贵族分封制度下,社会等级森严,姓氏作为社会地位和身份的标识,其所有权和使用权具有排他性。因此,像都铎(Tudor)、兰开斯特(Lancaster)、哈布斯堡(Habsburg)这样的王族姓氏不可能被平民大量采用,而成为大姓的姓氏。而中国的社会流动机制和西方不同,很多国姓家族本身来自平民(比如刘邦、朱元璋),所谓“王侯将相宁有种乎”,也没有任何制度障碍阻止平民采用国姓。

总之,中国更高的姓氏集中度,可能是历史上政治稳定性高、文化延续性强、社会流动的制度性障碍少的结果。



相关推荐


《社会科学文摘》往期目录


冯天瑜丨中国史学的制度文化考释传统


程平山丨“共和行政”历史再解读


行龙丨中国近代社会史“三大体系”建设刍议


张俊峰丨中国水利社会史研究的空间、类型与趋势


谢贵安|清至民国“南明”史概念发生与传播探论


更多推荐

继续滑动看下一个
社会科学文摘
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存